你所不知道的千人千面,人群推荐算法深度解读,正确认识人群!

作者:媒体转发 时间:2019-02-21 09:03

字号
大家好,新年快乐!又有很长时间没有更贴了,大家都想我了吧,哈哈,由于平时太忙,所以很久才有时间写点东西,但是我会保证每篇帖子都是好文。去年很荣幸被评为了派代10大优秀作者,这与各位粉丝对我的认可是分不开的,所以开年第一篇,准备给大家奉献一篇高质量的文章,来回馈大家。

关于千人千面的文章,去年夏天就承诺大家要写,一直拖到现在才动笔,很多人都在催,先给大家道个歉,因为我一直想盘算着基于算法层面来讲解,想把千人千面的工作原理讲透彻一些,但是又怕学术性太强,绝大多数读者读不懂,所以整理了很久,决定用学术性内容+通俗易懂的场景讲解方式让大家理解。

在日常与粉丝的交流中,我发现很多人对千人千面的理解都是错误的,这里举几个典型的错误理论供大家参考:

1.刷单是可以控制精准人群的,也就是所谓的精刷。

2.刷单的时候,通过提前收藏,加购,第二天或更长时间再成交,会让链接人群更精准。

3.只要我用女性账号来刷单,就是女性标签,用宝妈账号来刷,就是宝妈标签。

4.通过直通车人群溢价来刷单就会避免人群不精准问题。

5.人群精准会让链接的权重更高。

6.在不登录账号的情况下,我的搜索结果是没有千人千面的。

以上的论点,在很多人心中都根深蒂固了,大多数人对人群标签的理解就止步于这里了,因为一些机构,民间的传播,所以造成类似这样的说法大行其道(大家会发现上面的举例大多跟刷单有关,其实这也是想告诉大家刷单是不可能保证人群的精准性的),但是,这些说法确实都是错的。可能大家觉得不可思议,那这些论点究竟是怎么错的呢,我们从推荐算法原理本身来给大家讲解,让大家认识什么是真正的千人千面,相信大家可以自行找到答案(如果看完文章还不能理解,可以再问我)。

说到千人千面,人群标签这些名词,不得不说到推荐算法,这个数学与信息技术完美结合的伟大发明,它是基于用户行为的大量样本统计和协同过滤,对用户需求进行预测的技术。从买家角度而言,这种技术会让用户实现所想即所得,从卖家角度而言,可以扩展竞争维度,减少单一维度的竞争压力,让产品多样化,百花齐放。------------好,这只是个千人千面的概念,可能不太好理解,下面我们从场景中理解一下千人千面的存在。

相信大家都有这样的体验,比如你坐月子的老婆给你打电话说家里的尿不湿不够用了,打开淘宝,首页就出现了尿不湿的推荐;比如你和朋友在微信聊汽车,微信朋友圈就开始推汽车广告。这些现象让我们感觉像个人信息泄露一样。其实像淘宝,微信这些工具,是不会窃取你的个人隐私的,是你的行为数据让平台知道你的需求。我们以淘宝的千人千面举例,在买家用户注册账号的时候,需要填写个人的性别,身份证号等信息,很多人认为这就是千人千面的依托数据,但这些数据并不可靠,且数据过于基础。淘宝会采集你更多的行为数据,比如你使用过的手机,上过的app,看过的新闻,打车的频率,发红包的金额次数,欠银行的贷款等等,这些都会构成你个人数以万计的事实标签。标签的采集是很容易的,难在模型的建立,如何通过标签模型来准确的预测用户的需求。我们拿淘宝首页内容板块为例,常规的行为推荐算法是类似这样的公式:内容访问权重=行为权重*时间权重*衰减因子,行为权重:我们点击一篇内容,回复,点赞等行为,都会计入行为权重,根据平台积累的大数据,计算出了不同类目不同产品下的各种操作行为权重分数,在用户进行回复,点赞,收藏等行为时进行权重加分;时间权重:停留时间越长,时间权重也会越高;衰减因子:用户的单次行为不能作为用户喜好的直接评定,随着时间的推移权重也会慢慢衰减。由这样三个权重维度的综合计算得到了我们的内容访问权重,在我们多次访问同类型内容时,每次都会获得对应的内容访问权重,平台对这些权重进行累加,然后利用神经网络的阈值函数(Sigmoid函数

你所不知道的千人千面,人群推荐算法深度解读,正确认识人群!

)进行标准化

你所不知道的千人千面,人群推荐算法深度解读,正确认识人群!

,得到一个阈值为(0,1)的结果,通常推荐算法标准化过程是对Sigmoid函数的变形公式,得出一个阈值位0-10的结果,也就是我们所说的质量分(直通车的质量分也是以这样的方法计算来的哦),权重(或说质量分)越高,内容板块推荐类似内容的比例和频率就会越高,这就是行为推荐算法(你的行为影响了你),值得一提的是,世界上所有推荐算法的处理过程都是类似如此的,没有太大差异。这个过程,也就是大家常说的打标签(比如我们搜索看过一个产品后,猜你喜欢就会推荐类似的产品,并且看过多种产品,猜你喜欢推荐的频次是不一样的)。
责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接