为电商而生的知识图谱,如何感应用户需求?
作者:CQITer小编 时间:2018-09-10 16:29

1、背景
电商认知图谱从17年6月启动以来,通过不断从实践到体系化的摸索,逐渐形成了一套较为完善的电商数据认知体系。
在当前集团不断拓展业务边界的背景下,数据互联的需求越来越强烈,因为这是跨领域的搜索发现、导购和交互的基础,也是真正能让用户“逛起来”要具备的基础条件。但在此之前,我们需要对当前的问题做一个分析。
1.1问题
更复杂的数据应用场景不仅是传统的电商,现在我们面临的是新零售、多语言、线上线下结合的复杂购物场景,所用到的数据也往往超出了以往的文本范围,这些数据往往都具有一些特点:
非结构化互联网的大量数据都是分散在各个来源而且基本是非结构化文本方式来表示,目前的类目体系从商品管理角度出发,做了长期而大量的工作,仍然只是覆盖了大量数据的冰山一角,这对于认知真正的用户需求当然是远远不够的。
充满噪声:不同于传统的文本分析,目前集团内的数据大部分是query、title、评论、攻略等,这些数据由于用户习惯和商家诉求,会存在非常不同于普通文本的语法结构,也会由于利益原因存在大量噪声和脏数据,这也为真正发现用户需求并结构化带来了极大的困难。
多模态、多源:随着集团的业务扩展,目前的搜索推荐不仅容纳了商品中的文本信息、大量视频、图片也作为内容被使用、如何融合各个来源的数据、如何在关联多模态数据也是数据建设的一个难点。
数据分散,无法互联:从目前的商品体系建设来说,各个部门由于业务快速发展,往往需要维护自己的一套cpv体系,这也是后期做商品管理和搜索的非常关键的一环,但是由于应用场景的行业属性不一样,比如闲鱼的"包配饰"由于业务场景高频会是一个需要再细分的类目,但在淘系由于交易搜索低频,"鞋包配饰"仅仅是二手闲置下的一个小类目,这造成各个部门需要费力地维护在自己的cpv体系上的查询和搜索,每次都要重建自己的类目体系,重新支持存储查询,重新关联商品,重新做类目预测等。如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。
缺少数据的深度认知:数据的深度认知不是认知商品,而是认知用户需求之间的关联,如何能在用户搜索"叶酸”的时候认知到她有备孕需求,如何能在用户大量点击烧烤调料和工具的时候认知到他需要进行野外烧烤,是目前全集团都缺少的。
1.2需求分析
通过如下的背景介绍,我们可以明确到,为了构建一个全局统一的知识表示和查询框架,我们需要如下的关键工作。

复杂场景的数据结构化:在复杂的场景下,我们首先要做的是数据清洗,通过频次过滤、规则和统计分析把脏数据去掉,然后通过短语挖掘,信息抽取等方法把高可用的数据抓取出来,进行数据的结构化和层次划分。
分散数据的统一表示框架:对于管理分散数据,我们首先是需要定义一个全局的schema表示和存储方法,然后基于schema进行概念数据的融合,属性的挖掘和发现,在数据关联上有可能要通过各种表示学习的方法来完成。
数据深度认知:深度认知包含两个方面,一个是数据本身的认知,一个是数据关联的认知,通过行为和商品本身的信息我们可以认知到用户购买商品的意图,通过外部数据的输入和摘要我们会得到常识类和商品体系之外的用户需求的关联。
为了解决上面的问题,我们提出了电商认知图谱(E-commerceConceptNet),目标是建立电商领域的知识体系,通过深度认知用户需求,实现电商场景下关联人-货-场的联动,赋能业务方和行业。
1.3.1模块划分
从整体划分上来说,认知图谱分为四块比较重要的工作,通过将不同类型的concept(user,scene,virtualcategory和item)构建为一个异构图,来实现用户-场景-商品的关联:

用户图谱构建用户图谱除了通用的用户画像信息(年龄、性别、购买力),也会有“老人”,“小孩”等人群数据,和用户的品类属性偏好数据。
1.3.2场景图谱构建




