AI设计师“鹿班”核心技术公开:如何1秒设计8000张海报?
作者:媒体转发 时间:2018-05-12 01:36

AI 改变了围棋,现在也在改变海报设计。阿里有一位名为 "鹿班" 的 AI 设计师,平均 1 秒钟就能完成 8000 张海报设计,一天可以制作 4000 万张,单单去年双 11 就设计了高达 4 亿张 banner 海报。究竟其背后的技术原理是什么?今天让我们一起来细细探究。
本文介绍了视觉生成的现状,智能设计的框架和流程、应用案例及未来前景。通过本文的学习,可以对鹿班这个产品,以及视觉生成相关技术有基础性的认识、了解行业的现状以及未来的发展趋势。
演讲嘉宾简介:星瞳,阿里巴巴机器智能技术实验室资深算法专家,专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地;阿里巴巴智能设计(鹿班)的创始成员和算法技术负责人,医疗影像智能诊断方向负责人,图像搜索拍立淘的早期创始成员。
本次分享主要分为以下几个部分:
定义、目标和愿景
设计行业现状
使用场景
技术框架和生产流程
关键算法
业务进展
案例展示
鹿班(新零售UED、淘宝技术部等共创的典型案例)
前景展望
一、定义、目标和愿景
视觉生成的定义:可控视觉内容设计和生成,聚焦满足用户、场景需求的数字视觉内容制造,包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。
目标:可控视觉内容设计和生成,让AI做设计,使数字内容制造变得高质、高效、普惠、低成本;
愿景:所想,即所见。

视觉生成主要分成三个方向。第一,针对非结构化的图像。第二,针对结构化的图形。第三,针对序列化的视频。

二、设计行业现状
视觉生成较年轻,起初,基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求,大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大,市场与广告、商家关系紧密,市场容量非常大。
从技术上说,近几年,大家常提到供给侧改革,以前的供给侧基本都是通过人或工具来形成图像、视频等,但这样有很大的局限性,包括:
效率低成本高
数据利用率低,比如去年双十一和今年双十一由于主题不同,需要全盘重做。
无法在线化,从提出需求到得到结果无法做到实时。
难以上下文相关,设计师不会结合用户的个性化需求,形成与上下文相关的结果。
而在消费端,对个性化、精准度、实时性有很高的需求。因此,在供给和需求之间还存在差距。在AI行业中,IN的多:识别、理解、搜索。OUT的少:生成、融合还限于学术圈,系统性落地工程、可商用的产品没有。
因此,“The best way to predict is to create”。

三、使用场景
视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化,使得生成过程可控,输出质量可控。

对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理,语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。

四、技术框架和生产流程
其技术框架如下图左侧。首先对视觉内容进行结构化理解,如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据,最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时,引入效用循环,利用使用后的反馈来不断迭代和改进系统。




