创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > 干货 > 电商运营之站内搜索全面指南(五)
分享到

电商运营之站内搜索全面指南(五)

时间:08-05 11:59 转载来源:人人都是产品经理

为了便于大家理解,这里还是用一张通俗易懂的流程图给大家瞧瞧,有个大概的脉络,我也会依照此脉络给大家介绍。话不多说,上图!(为了显得不那么有产品味道,通俗易懂,我将其简化了很多)

一般而言,干劈流程是没啥味道的,所以我们就带着例子进去走一遍,差不多就了解了,先声明一下,我说的不一定对,切勿盲从。

我们先从汉语开始,关键词为“男士的印花T恤”

首先会进入预处理环节,此环节会将该关键词的无用部分进行去除,比如停用词。其中“的”就是我们要砍掉的部分,其实在预处理阶段还会有剔除一些左右两边无用的空格等,那么如何确定停用词呢,在汉语里面任何词可能都有用,但是在特定的语言环境下,许多的词组就成为了停用词,比如淫秽词,极限敏感词(参考广告法)等。

经过预处理环节之后,进入智能纠错或者人工改写环节,需要判断这个关键词是否有错别字(算法/人工词库),是否命中人工改写的词库(暴君功能)。

经过这一环节处理后,进入到语种识别环节,国内电商也是支持英语环境的,此时会对该关键词进行语种识别,确认该词应该在哪种语言环境里搜索,有的电商是没有这个环节的,因为确实没有必要。对于出口型跨境电商而言就显得很有必要,像速卖通,虾皮,亚马逊等。

此时进入词性还原阶段,词性还原顾名思义,针对英语就是单复数还原,时态还原,词干提取等,对于汉语而言则是识别其中关键词主干,男士印花T恤(预处理已经把“的”给去掉了),整个词都是主干。

随后进入分词阶段,此时分词系统会对“男士印花T恤”进行分词,一般而言汉语会进行n-gram多粒度分词。分词结果如下:男/士/印/花/t/恤/男士/印花/T恤/男士印花/印花T恤/男士T恤/。

对于上面的ngram不了解的也没关系,后续专门的算法章节会讲到。对于一些音型文字比如英语,法语,印尼语等使用的空格分词法,就是按照关键词之间的空格比如 “women dress”分词结果则直接从空格处进行切词。

为啥和汉语不同呢,其实英语也有多粒度切词,和汉语的切词方式都是基于词典里的词组合理性进行的,但是汉语与音型语言有着些许区别。

因此得出个假设结论

  • 音型文字:音型文字单词含义容量范围较低,精度值高;
  • 汉语:象形结构形文字,单词含义容量范围高,精度值低。

汉语搜索采用多粒度词组切词的分词方式很大程度上是基于汉语搜索的单词含义容量较大造成精度不准,所以需要用多个单字组成词来确认搜索词的具体含义。

我们来体验一下:

  • query(汉语):男士印花T恤。切词:男/士/印/花/t/恤/男士/印花/T恤/男士印花/印花T恤/男士T恤/;
  • query(英语):Men Print T-Shirt  切词: men/print/t-shirt/men t-shirt/print t-shirt/。

两者的原理都大致相同,额外的说这些,只是想让大家明白不同语言之间分词是有些许差异的,并不能“一招鲜吃遍天”。

接下来经过分词之后,系统进入到同义词扩展环节,词典以及人工维护的同义词词库用来扩展分词之后的关键词,具体例子,印花与印染为同义词,男士与男生和男人是同义词,那么这些同义词将一道加入该分词进入匹配召回环节。

进入匹配召回阶段,那么先看下这张图,同样我偷懒也用我前同事的ppt截图作为展示,他这万年不变的例子截图我都看腻了,你们将就下看吧   相信你们一看就能明白,使用的是全词匹配召回。

什么意思?

男士印花T恤的分词结果,同一粒度下需要全部与商品名称或者属性描述匹配才能将该商品召回,少一个匹配补上也不行。

而且多词粒度的权重>单词粒度的权重,也就是说词组匹配要优先于单词匹配。

当词组没有匹配时,再去匹配单词,当然汉语匹配单词是没有什么意义的,一般汉语基本上匹配词组。(我汉语分词的例子有些不是很恰当)

匹配召回结束后进入到“点人头”环节,也叫确认商品是否是“无结果”还是“少结果”无结果就是这个关键词搜不到商品,少结果表示这个关键词搜到小于等于8个产品,有的电商将少结果定为4个 或者12个以内,反正大家知道这个意思就行。

在点完人头之后,进入到大范围的排序阶段,类目排序。

我们将这一环节叫类目预测,将与该关键词最相关的类目放在最前面(需要知道的是,这些类目的商品集合也是要与关键词全词匹配的。不是指所有类目的商品都会被放在前面)。

类目预测一般通过算法进行,人工干预进行补足。此时也确认了筛选项参数的显示范围(即该类目下的参数),顶部分类也会在此时确认是否激发展示。

类目预测结束后,开始进行商品排序,预测的类目与非预测的类目分开排序。排序的算法多种多样,基于用户行为数据,商品综合得分算法进行排序。进而经过网观渲染之后,就是我们看到的搜索结果页啦,

你瞧,简单吧,今天就先到这。

预告下一章内容:站内搜索类目预测的全面解析

#专栏作家#

作者:王欢,微信:wanghuan314400,运营小灰一枚。

本文由 @王欢 原创发布于人人都是产品经理,未经许可,不得转载。

题图来自Unsplash,基于CC0协议

声明:本文由人人都是产品经理企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。

评论

未登录的游客
游客

人人都是产品经理
人人都是产品经理
关注企业号
10
分享次数
4

人人都是产品经理致力为产品新人、产品经理等产品爱好者打造一个良好的学习交流平台。深度剖析国内外互联网业内动态,分享产品设计、交互设计、视觉设计、用户体验设计、产品运营、产品市场和项目管理等专业产品知识

TA发起的活动

发起的活动

TA的其他文章

24小时热文

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

“Battle Pass”,打造新一轮增长的引擎

“Battle Pass”,打造新一轮增长的引擎

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号 京公网安备 11010802029378号   RSS