优发国际官网qy88

13996527831
SEO博客详细

杭州SEO谋士团:如何进行用户需求的挖掘?

发表日期:2016-06-08 11:45:07   作者来源:米卓网络   浏览:    

  如何做需求满足要解决的核心问题:

杭州seo:如何进行用户需求的挖掘?

  一、需求的识别

  1、需求的类型

  识别query有哪些需求,以及需求的强弱,是最基础的工作。首先要有需求的体系,能完备的描述各种需求,其次是如何识别这些需求,把每个query的需求对应到这个体系中去。需求类别,需求强度点击《杭州SEO揭秘:百度搜索结果排序(一)》。

  通过query分类识别需求:

  现在线上query分类体系,是按照话题属性为依据来建立的。包括风景类,地名类,人物类,汽车类等等,对于每个类别,在一些维度上的需求是不一样的,比如风景类需要尺寸比较大,比较清晰,不包含人的图片,而聊天类则需要尺寸较小,最好是动态的gif图。这个策略下的项目有:size调权,格式调权,人脸需求,人与非人等。

  基于统计的需求识别

  通过对大量的数据统计分析,可以识别出query有哪些方面的共性。可供分析的数据很多,比如用户行为数据,点击反馈,检索结果等。比如:对query的检索结果,按照某一feature进行聚类,如果某个类别所包含的图片数很多,超过设定阈值时,则认为这个类别内的图片,在这个feature上,代表了这个query的需求。线上人脸需求识别就是这样来做的。统计用户反馈来获取需求是最能反映用户需求的方式,用户的反馈包括用户点击,query变换等,在这方面我们做的工作不多,经验也不多,是我们后续工作的重点。

  专名&需求词

  判断query中包含专名或者需求词等关键词,是最直接的方式。比如“红色宝马”,显示的表达了颜色方面的需求。

  时效性需求

  时效性需求包括三部分,突发时效性、周期时效性和泛时效性需求,目前线上做的是突发时效性需求。需求的识别,主要是通过检索量的突发,资源数突发和实效性事件来判断的。检索量的突发,是指累积每个小时的用户检索频率,用连续15天的用户检索频率,计算突发的斜率,根据斜率的大小,来判断时效性需求的强弱。上述方法只适合热门query,对于长尾query,检索频率很低,无法通过这种方式识别出来,一般这种query是多term的query,可以通过是否命中关键词来判断:通过事件判断:这种方式,主要是想看关键term命中时效性事件的比例。当然这些事件是通过主动挖掘的时效性query,通过聚类后,对每个类别训练出来的关键词。

  2、需求的强弱

  要做好需求满足,不仅要识别query有哪一类型的需求,而且要识别该类型需求的强弱,他直接指导了后续需求调权的力度。每个维度的需求,必须要有需求的强度,在各维度调权合并时,需求的强度决定了该维度的权值。(关于权值,另一篇《计算机的数学与特征权重处理》有说明)。比如时效性需求,需求的强度很高,要求满足时效性的资源,一定要排在前面。又比如清晰度饱和度调权,对大部分query而言,需求不是很强烈,调权时的力度就不能太大。需求强弱的计算,和后面rank model的要求相关,理想的状态是每个query,可以动态的计算在每个维度上的需求强弱,我们在这方面经验不多,如果暂时不能做到准确的计算的话,暂时可以考虑人工指定的方式,比如针对不同的query分类,人工设定需求维度的强度。目前可以想到的一些方式:

  显式的需求为强需求

  用户通过在query中包含需求词的方式,表达自己的需求,这样的为强需求。比如,最新刘德华图片,红色宝马基于统计的方式挖掘需求时,判定值超出阈值的比例大小,决定需求的强弱

  在用统计挖掘用户需求的方法时,一般会选取某个维度的属性,量化后计算它的统计特性,可以根据统计后该数值的分布情况,判断需求的强弱。比如,时效性需求,某段时间内,该query检索量突发特别大,是昨天检索量的100倍,如果我们设定的阈值是2倍的话,那么这个query就可认为时效性需求特别强。又比如通过用户点击数据挖掘size需求,对于头像类的query,大部分用户点击的是100*100的方图,但是所占总点击中的比例不是很高,比如只到60%,那么对这个query而言,size需求是一般强度的需求。

  二、需求的满足

  识别出query有哪些需求,下一步的工作就是提供相应的资源。

  1、资源的挖掘

  如何获得满足需求的资源,是需求满足的另一个核心问题。在资源上,通过某一个或者几个特征组合,能够把满足要求的资源和不满足要求的资源区分开,找到用户需求需要的资源,去掉不满足要求的资源,是主要的工作。

  内容属性特征

  对内容属性维度来说,可以分为底层的物理特征,中层的物体识别和高层的语义特征;对于底层的物理特征,相对比较简单,我们现在可以利用的,包括尺寸,颜色,格式,清晰度饱和度等,中层特征,我们目前用到的不多,有人与非人的,色情图片的,整车的识别,手机图片的识别等;对于高层的语义特征,包括场景的识别,图片风格的识别,是我们未来发展的方向。

  话题属性维度

  类似的query分类的体系,也可以对资源进行相似的话题属性分类,我们目前只做了站点级别的分类,效果不是很理想,主要原因一是站点粒度太粗了,二是站点分类的召回存在很大的问题。我们希望能做到obj级别粒度的分类,至少是页面级别的分类。如果有了话题属性的分类,和query需求的分类相配合,可以达到事半功倍的效果。时效性资源的收录

  我们目前时效性资源主要是挖掘的ps的时效性库,和news的资源,和非时效性资源的区分是比较容易的。

  2、 需求调权

  明确了query的需求,挖掘了满足需求的资源,那么如何把满足需求的资源rank到前端呢?对于各种不同的需求维度,都有自己的调权的策略。比如格式调权,假设query有gif图需求,对于gif的动态图,权值乘了1.2,对于静态图要降权,权值乘了0.1。又比如时效性需求,直接在前三页插入的时效性库的结果,这是因为时效性需求是一个强需求维度,简单的加权,不能保证结果调整到前三页。从这些例子中可以看出,目前需求调权的策略就是2种类型:在总权值上调权,在最后排序结果上调序。目前这种策略直接叠加的调权方式,优点是简单,直接,缺点也比较多,最大的是不可控,一个维度上的调权,会对最后结果造成多大的影响,在多个调权维度上,他说的话,分量有多大,不知道。未来的需求调权,首先应该把资源满足需求的情况,做出细化的分档,做到有直观的物理含义,其次,根据该维度需求的强弱,把这个维度的打分反映到最终结果中去,究竟是跨档调权还是档内微调,比如:强需求:符合要求的结果直接调到最高档,比如时效性需求一般需求:符合要求的结果,可以根据一定规则,提高自身档位弱需求:不能提升档位,在同一档内,做权值调整

  3、需求满足的效果

  前面已经完成了query需求识别,资源识别已经需求调权的工作,那么用户是否满足了呢?搜索引擎最终是给用户服务的,用户觉得爽,才是最重要的目标。那么如何知道用户是否满意呢?用户接收到搜索引擎的提供的信息后,会对这些信息做出反馈。这些反馈包括了用户对搜索结果的点击、对query的主动变换,以及这些行为之后的相关行为。通过对这些数据的分析,可以知道用户的满意度。比如对需求识别的修正,通过用户点击反馈,可以知道query需求识别的是否正确,该需求是否该退场。比如时效性需求,被误判的query或者应该退场的query,都可以通过用户的反馈,来判定是否应该退场。当然,这种方式是否合理还有待调研,毕竟用户不点击一张图的原因有很多可能,有可能是需求识别的问题,有可能是该维度强弱识别的问题,也有可能是rank的问题。目前用户反馈应用只有点击调权,是否用户的反馈可以在单独的维度上有效,还需要详细的调研分析。另外,随着时间的推移,query的需求是在不断变化的,通过用户的反馈,可以做出及时的调整。

  作者:杭州SEO谋士团,版权归原作者所有,转载请注明。