当国际贸易撞上AI,会产生怎样的化学反应?
作者:网友投稿 时间:2018-10-18 21:06

单证是国际贸易中非常重要的一环,由于单证数量多、格式复杂、大量以图像形式存在等问题,给工作效率和风险控制带来极大的影响。在这种情况下,如何利用技术提高处理效能、防控风险就显得迫在眉睫。接下来,我们一起看看阿里工程师是如何解决这一问题。
业务背景
国际贸易的流程非常复杂,特别是B类贸易。为了防控各种风险,每个环节都有很多单证的交叉验证,以及基于单证构建的风控策略。比如:企业信息、银行卡等的交叉验证;信用证、提单、保单、箱单、发票、报关单等的风险审核。这些单证多而复杂,比如信用证业务,需要审核各种条款,并且做到单证一致、单单一致,往往需要非常专业的领域人员负责。整个审核周期耗时长,而且存在各种操作风险。因此,智能单证应运而生,通过使用机器学习和人工智能等技术,提高处理效率,降低成本和风险,开辟国际贸易的新模式。智能单证的价值在于:
提供订单决策报告,条款、信用和贸易风险报告,制单审单解决方案,服务更多国际贸易的中小企业。
利用人工智能技术,降低成本和风险,提高效率,提升客户体验,助力电商相关核心业务的优化升级。

技术方案
直接面临的是三个问题:
处理对象:大量格式复杂的单证,其中五成以上是扫描或者拍照的图片,质量层次不齐。
知识沉淀:各种术语、规则、名单、策略都是线下或者人工经验,没有沉淀,不成体系。
借力创新:项目时间紧,业务线多,需要平衡时间和扩展性,通过借力和创新落地产品。
因此,整体技术方案主要抽象成四大部分:图像处理服务、自然语言处理、领域知识图谱、统一技术架构。

图像处理服务
图像质量比较好时,集团内已有的图像、人脸等识别技术可以达到高的Accuracy。但是,实际业务中的图像往往要复杂很多,直接调用已有的技术,整体Recall差不多只有五成不到。而且,通常的识别技术没有理解能力,比如:对于形变的图像,即使OCR识别出了字符,也无法正确恢复语义;图像的哪部分是实际需要的,也无法分析和判断。因此,图像处理服务,除了借力集团内的识别技术,更大的挑战是结合实际业务,落地好预处理(模糊检测、形变复原等)以及后处理(版面分析等)工作。
自然语言处理
由于单证的类型很多,并且五成以上都是图像,集团内外最好的OCR产品,都存在至少一成的词识别错误,因此,需要抗噪能力强的文本分类模型,先将单证进行自动分拣归类。另外,即使字符的识别错误较少,由于没有针对领域进行优化和分词,无法直接阅读和无人化使用。因此,将识别结果进行领域相关的纠错分词,也是势在必行。然后,通过解析引擎进行内容解析和Key-Value关系重建,结合基于文本构建的领域知识图谱和风控策略,完成语义理解和智能审核。
领域知识图谱
本文构建的知识图谱主要沉淀三部分内容:领域知识,包括国际贸易中的术语、缩写、港口信息等;专家策略,包括条款策略、冲突策略、融资策略、审核意见等;风险地图,包括风险国家、银行、地区、企业等。领域知识图谱是智能单证的根基所在,所有的前序处理都是为了与其结合,真正落地实现智能审核和风险防控。
统一技术架构
技术架构上肯定不能重复造轮子,而且必须考虑项目时间,以及业务和技术的可扩展性。因此,根据团队已有的沉淀,抽象出统一的技术架构。首先,所有的服务接口收拢到统一的任务引擎。然后,充分借力集团已有的成熟技术和平台,比如:雷音(OCR技术),阿里云(证件、人脸识别技术),MTEE(实时决策引擎),PAI(模型训练、部署平台)等等。最后,针对实际业务中面临的问题,在算法和模型上深耕并且落地创新。

算法创新
本节阐述落地和创新的一些算法及模型,主要集中在图像处理和自然语言处理方面,包括模糊检测、形变复原以及纠错分词。

模糊检测



