谷歌“猜画小歌”代表的AI识物技术,最大商业化场景可能是旅游和教育
作者:网友投稿 时间:2018-08-04 09:28
AI能说和听,这事儿大伙都知道。比如足够普及的智能音箱和手机里的语音助手、语音输入法。
而在感知智能这个大方向里,AI当然不只能说,同时还能看——比如说在张学友演唱会上抓个逃犯啥的。但AI的“看”不仅是识别人脸,同时也可以认识和判断物体。比如谷歌的猜画小程序就是依靠AI识物来实现的。
但这个领域,似乎还没有找到太多商业化的办法。人脸识别可以进行大规模安防应用,但AI识物在今天的更多应用展示,还是停留在游戏与炫技的层面。
有没有办法让AI识物的能力从“闹着玩”,变成“能赚钱”?
国内外各种AI势力正在努力破解这个问题。理想总归是美好的,而现实是缓慢掺杂着残酷。
AI之眼,似乎还没有带给商业世界足够的魅惑。
Google lens:下一个时代还是又一块鸡肋?普通人能够应用的AI识物能力,最主要还是集成在手机摄像头当中。当用户把摄像头对准想要识别的各种东西,AI系统就会通过图像识别以及OCR技术,给出相应的结果。
听起来还是蛮带感的。
而这个领域目前探索幅度最大的,还是AI巨头谷歌。在2017年I/O大会上,谷歌发布了集成在Google Photos里的Google lens功能。通过这个功能,手机用户可以将摄像头对准各种各样的东西,然后让AI开口说话,告诉你ta看见了什么。
确切来说,lens的很多功能还是相当具有实用性的。比如当旅行者面对一个不知名的文物古迹,可以用Google lens 来获知相关的历史以及文化知识;对准一瓶葡萄酒,AI可以告诉你这瓶酒的各种信息,比如年份、品饮方式、价格等等;在异国他乡拍摄交通指示牌,AI会借助谷歌翻译的力量把这些信息翻译出来。
谷歌没有公布lens到底能识别多少东西,但就目前情况来看,其可识别种类已经相当多。在今年的I/O大会上,该功能还被进一步升级,可以用来拍照识别文字信息、推荐穿搭风格,甚至还能识别海报给出艺人资料与作品。
从一年的发展来看,谷歌对于lens的期待很大,不仅升级了它的产品地位,还不断激发新功能,并建立与谷歌其他AI应用的联系。
但看似无所不能,什么都能识别的lens也有软肋:lens的真实工作流程,是将识别物体与数据库进行匹配。换言之数据库的大小直接影响着lens的使用体验。而其技术本身的创造力则乏善可陈。比如吴恩达去年就无情嘲笑过,lens的识花功能其实早就是百度玩剩下的。
目前来看,lens在真实生活中还是“偶尔惊艳,日常痴呆”。当然对于中国消费者的不便就更多了,比如lens目前并不支持中文。
但是AI识物这条路却是兵家必争之地,微软就不断宣称bing搜索中的拍照搜索一点也不必lens差。
可无论是谷歌还是微软,都无法解决AI识图搜索的根本问题:用户打开率低,商业化程度较差。
垂直行不行?国内的玩AI识物的几个场景相比于谷歌非常强势地推出了“用我可以识别一切”的AI识物功能。国内AI企业,无论是BAT还是创业公司,似乎都还处在这一技术应用初级开垦阶段,同时也更聚焦于快速商业化的可能。集中表现就是,国内AI识物的应用大多集中在几个场景中:
1、识图购物。这个功能已经屡见不鲜,无论是淘宝天猫还是京东,都已经投放了识图购物的功能。让用户可以通过拍照进行商品匹配,较高效率获知现实中商品在自家平台上的价格。就技术解决方案来说,由于拍摄商品往往是特征较明显、信息比较明确的AI识别品类,比如衣服、箱包等等,所以这类识图技术难度不高,加上完整的商品数据库,并不需要很强的技术探索能力。但缺点也很明显,那就是用户打开的针对性太强,
2、识花。各种各样的识花软件和产品功能,早已经洗礼了中国用户的AI常识。目前花卉植物的AI识别能力已经被做得相当精准。问题可能集中在大部分这类应用还是需要调用云端数据库进行匹配,识别速率并不高。而跟识图购物同样的问题,在于应用场景太狭窄。毕竟大家都没空天天春游……
3、识字。相比于识别花卉,文字识别其实对于OCR纠错、模糊识别等领域的技术挑战更大。尤其是识别手写体以及古文字。而国内很多AI创业公司已经开始聚焦于拍照识别文字的细分应用领域。比如我们已经能看到AI识别和录入名片、用AI拍照并实现外文翻译;以及旅行中用AI来识别碑刻、匾额、金石文字等等,为旅游增添乐趣。
4、批作业。从文字识别引申出国内另一个AI识物的主要流派,是用AI来识题和批改作业。这一领域要求足够的数据支撑和手写体识别能力,目前只能说还处在早期应用阶段。但对于数学等科目来说,AI批改作业和判试卷已经基本能够实现。而且批作业的AI还引申出另一个应用——用AI来答题的考试作弊神器。



