如何让机器理解汉字一笔一画的奥秘？

作者：媒体转发时间：2018-05-01 01:27

字号

有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研

如何让机器理解汉字一笔一画的奥秘？

背景介绍

从智能客服到机器翻译，从文本摘要生成到用户评论分析，从文本安全风控到商品描述建模，无不用到自然语言技术，作为人工智能领域的一个重要分支，如何让机器更懂得人类的语言，尤其是汉字这种强表意文字，是一个具有极大挑战的事情。

词向量，是一种利用无监督学习方式（不需要人工数据标注），将词语映射到语义向量空间的技术。举个例子：在过去，计算机使用下标表示词语，比如“猫： 2123”，“狗： 142”，由于下标不一样，机器就只会认为是不同的词语，却不能像人一样感知词语间的语义关系。而词向量技术恰好弥补了这一点，使机器可以理解潜在的语义信息。实际上，现在很多自然语言处理的算法都是将其作为输入，进而建立端到端的算法模型。因此，设计出高质量的词向量生成算法是一个值得探讨的问题。

中文经过几千年的发展和演变，是一种强表意文字，对于我们而言，即使某个字不认识，都或许可以猜到其含义，机器却很难理解这些。比如，“蘒”这个字我们很可能不认识，但里面有“艹”字头，和“禾”木旁，那它也许就是长得像该字右下角部分的某种植物吧。通过词向量的方式，我们希望让机器能够理解汉字一笔一画之间的奥秘。然而，传统的算法并不能很好的利用中文语言学上的特性，这篇文章里，我们将提出一种利用笔画信息来提高中文词向量的方法。

词向量算法是自然语言处理领域的基础算法，在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec，在接下来的几年里，经历不断的改进，但大多是只适用于拉丁字符构成的单词（比如英文），结合中文语言特性的词向量研究相对较少。

相关工作：

早在1954年，语言学家Harris提出“Distributional Hypothesis [1]（分布式假设）”：语义相似的单词往往会出现在相似的上下文中。这一假设奠定了后续各种词向量的语言学基础，即用数学模型去刻画单词和其上下文的语义相似度。Bengio et al., 2003 [2] 提出了NNLM（基于神经网络的语言模型），由于每次softmax的计算量很大（分母项的计算时间复杂度O(|V|)，V是全词表），相继出现了很多快速近似计算策略。

为了解决上述问题，谷歌提出了word2vec [3,4] 算法，其中包含了两种策略，一种叫做Negative Sampling（负采样），另一种是hierarchical softmax（层次softmax）。Negative Sampling的核心思想：每次softmax计算所有单词太慢，那就随机的选几个算一算好了，当然，训练语料中出现次数越多的单词，也就越容易被选中；而Hierarchical Softmax，简单来说，就是建一棵树状的结构，每次自上而下的从根计算到叶子节点，那么就只有对数时间复杂度了！如何构建这棵树可以使得让树的高度尽量小呢？哈夫曼树。

词向量模型的核心是构造单词与其上下文的相似度函数，word2vec工具包里面有两种实现方式，分别是skipgram和cbow。

如何让机器理解汉字一笔一画的奥秘？