达观数据：一文详解深度学习、机器学习与NLP的前世今生

作者：网友投稿时间：2018-08-09 16:32

字号

技术沙龙 | 8月25日与多位资深技术大咖探讨小程序电商实战

随着深度学习的发展，自然语言处理领域的难题也得到了不断突破，AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)”。目前深度学习在自然语言处理上主要有哪些应用？在工程实践中是否会有哪些瓶颈？以下内容是根据达观数据联合创始人高翔在《深度学习与文本智能处理》直播的总结。

一、为什么做文本挖掘

什么是NLP？简单来说：NLP的目的是让机器能够理解人类的语言，是人和机器进行交流的技术。它应用在我们生活中，像：智能问答、机器翻译、文本分类、文本摘要，这项技术在慢慢影响我们的生活。

NLP的发展历史非常之久，计算机发明之后，就有以机器翻译为开端做早期的NLP尝试，但早期做得不是很成功。直到上个世纪八十年代，大部分自然语言处理系统还是基于人工规则的方式，使用规则引擎或者规则系统来做问答、翻译等功能。

第一次突破是上个世纪九十年代，有了统计机器学习的技术，并且建设了很多优质的语料库之后，统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术。从2006年深度学习开始，包括现在图像上取得非常成功的进步之后，已经对NLP领域影响非常大。

达观数据：一文详解深度学习、机器学习与NLP的前世今生

达观划分的NLP技术层次

当年上小学时有一本书叫《字词句篇与达标训练》，里面讲了字、词、句、篇，我们开始学写字，中文的一个字比英文的一个字母的语义要丰富的多，但表义能力仍然较差。词是最基础的一级，所以中文一般的处理情况都是按照词级别，词级别的分析就有了中文分词、有了命名实体识别这样的层次来做底层处理。

在这个底层处理之上是段落级别，是一句话、一段话、短的文本，对这个级别文本做法又对应了相关的技术，包括：依存文法分析、词位置分析、语义归一化、文本纠错等等功能。但是这个功能也是为它更上级的服务去服务的，达观称之为“篇章”级的应用。

大部分同学平时做比赛、做项目关注的点最多是在“篇章”级的应用，底下这些中文分词等都已经有很好的工具了，不用再从头到尾去开发，只要关心上层的应用，把底下的工具用好，让它产生需要的Feature，来做分类、主题模型、文章建模，这种比较高层次的应用。

所以，要做好NLP，包括我们公司在内，这三个级别的技术都是自己掌握的。但是如果个人学习使用是有权衡的。某个同学的某一个技术特别好也是OK的，因为现在开源工具，甚至商用工具有很好的效果。如果不要求精度特别高或者有特殊的要求，用这些工具一般是可以达到你的要求。

每个层次的技术都是完全不同的，而且层次间的技术是有联系，一般的联系是底层是为上层服务。

达观数据就是应用这些技术为企业提供文档智能审阅、个性化推荐、垂直搜索等文本挖掘服务。

二、为什么要用深度学习？

深度学习的发展与应用要有一定的基础，上个世纪末互联网时代到来已经有大量的数据电子化，我们有海量的文章真是太多了，有这样的数据之后就要去算它，需要算法进步，以前这个数据量规模没法算，或者数据量太大算起来太慢。就算有更好的算法还是算得很慢时，就需要芯片的技术，尤其我们现在用并行计算GPU，这个加速对各种各样的算法尤其深度学习的算法影响速度非常大。

所以一定要有这三个基础——数据、算法、芯片，在这三个核心基础上面做更高级的应用，涉及人的感官——听觉、视觉、语言这三个感官，语音的识别、计算机的视觉、自然语言的处理。

深度学习与机器学习

很多同学会把深度学习和机器学习划等号。实际上它们不是等号。AI的概念非常大，比如我们用的Knowledge Base知识数据库也是一种AI，它可能没有那么智能。机器学习是AI其中的一小块，而深度学习又是机器学习中的一小块，我们常见的CNN、RNN都属于深度学习的范畴。同时，达观也做Logistics Regression知识图谱，因为知识图谱是NLP中一个很重要的应用，无论是生成知识图谱，还是用它做像问答等其他应用都是会用到的。

我们为什么要用深度学习？可以比较一下经典机器学习和深度学习间的差异。

达观数据：一文详解深度学习、机器学习与NLP的前世今生

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>深度学习机器学习 NLP

继续阅读

初创公司数据科学项目全流程指南，一位资深数据科学家的经验谈

程序员市场需求调查：React.js获前五！

Hadoop分布式文件系统--HDFS的诞生

热新闻

7天 30天 1年