注意,有场景的公司正在拿起AI武器
作者:媒体转发 时间:2019-04-15 09:11
潮水转关,并非毫无征兆。
不知道AI落地趋势变化是否已让你感知?2018年下半年开始,技术先发正在被产品、场景为王替代。
之前,打造通用AI技术公司风头无两。如今,垂直化场景公司拿起AI武器,数据和场景加速转换为势能。
今天要讲的是一桩在线教育领域的AI变革。
一起作业 → 一起教育科技
一起教育科技,之前更为大众知的是一起作业,一家主打K12进校的教育公司,提供的是互联网在线作业和练习系统。
从2018年起,升级更名,以一起教育科技行世。

名头更大,意味着想得更大、做得更多,更多科技赋能产业。
而这个科技,最核心的就是AI,唯有AI,才能实现他们智能化教育的目标。
实际上,在E轮2.5亿美元融资之前,他们就已于2017年年末组建了AI团队,并从微信团队挖来负责人。
即便“一起”搞AI算不上早,但也并非没有优势。
历经7年创业,用户规模7900万,K12领域的数据资源更是壁垒深厚。
这不,牛刀初试便锋芒外露。
去年下半年,他们对外推出一款AI口语评测引擎,用于K12领域口语测评打分。
之前,行业内有技术领域出发的先发产品,涵盖讯飞、思必驰、云知声和腾讯等玩家。
但一起这个引擎,一出手便展现场景公司威力——在横向对比中,击败所有同类项。
How?
亮结果
一起教育科技展示了由业内教育专家组织的评测结果。
评测涉及两个方面,分别是句子层面和单词层面,核心指标是分数分布和分差分布。
分数分布指的是口语评测引擎为样本打分的情况。分差分布代表的是引擎打分与人类专家打分的差。
在分数分布上,一起教育科技的引擎在单词和句子上的打分,与其他各家更趋近人类专家的水平。

分差分布上,一起教育科技自研的引擎表现也很亮眼。
在单词层面,分差在0~1之间的概率近70%。句子层面上,分差在0~1之间的概率达到80%,比排在其后的竞品高出10个百分点。

一起教育科技透露,整个评测过程实际也是“人机大战”:
首先是从数据库中随即抽取1000个语音样本,有词,有短语,也有句子。
其次邀请两位人类专家双盲交叉评分(8分制),并力争一致性在90%以上。
同时进行的还有各家AI对该评测数据的打分。
最后比较AI给分和人类专家给分的分差——分差越小,AI引擎越好。
于是有了这份结果。
为什么要这样测?
一起教育科技方面解释,一方面是基于K12教学大纲进行考察,要涵盖音素准确率、内容完整度、流利度、重音、 韵律(语调,停顿)等。

另一方面符合国人学英语的习惯,如果AI引擎直接按照标准国际口语打造,最后就会与人类专家打分出入很大——国情和语言环境所限,AI评测首要问题是“听懂”,才能精确打分。
这实际上并非轻而易举。
达成如此结果,背后不仅有一支类似教AlphaGo下棋的围棋国手们,也有一支50多人规模的AI作战团,且整个打造过程历时2年之久。
为什么这么久?
模型打造挑战
口语测评与语音识别等一般的机器学习问题不同,是一个主观性的问题,需要考虑到评分的标准,以及评分的一致性。
这对于模型的稳定性提出了更高的要求。尤其是在作业和考试场景,对打分的准确率要求更高。
种种因素决定,自研口语测评引擎,并不能简单地将通用声学模型搬来套用,而是要针对具体场景构建模型。
相对于其他各家来说,一起教育科技的口语测评引擎,不论是在模型上、标准上,还是在训练数据上,都更加专注于K12教育场景。
口语测评的任务中,语音对应的文字,引擎是事先知道的,其关键任务就是给用户的语音做一个精确的评价。
通常情况,语音识别的声学模型,都是基于音素(phoneme)来构建的。
但进行口语测评,对用户的发音要求比较高,如果单独看某些音素(清辅音),并不能准确给出评估。




