百度文心一格总架构师肖欣延：历程坎坷但未来已至，大模型赋能智能内容生成|每日动态

36氪 2023-05-26 19:48:43

5 月 23 日，36 氪举办「颠覆 · AIGC」产业发展峰会。本次峰会汇聚产业力量，共同探讨企业、行业在面临变革时的应对策略，分享思考，探索和发现产业中最具潜力的企业与最具价值的技术，在激荡的环境中探寻前行的方向。

大会上，百度文心一格总架构师肖欣延发表了题为《跨模态大模型赋能智能内容生成》的主题演讲。在肖欣延看来，生成式人工智能时代已经到来，内容生成将成为新一代生产方式，带来行业发展的新机遇。肖欣延分别从图片生成与视频生成两个角度介绍了百度在大模型领域的成果：百度 AI 作画系统文心一格与基于文心大模型的视频创作系统，展示了 AIGC 强大的内容生成能力与发展潜能。

(资料图片)

在智能内容生成领域，AIGC 的价值不言而喻。肖欣延指出：在未来，算法、算力、数据的发展将对 AIGC 的内容生成能力产生质的提升。首先，AIGC 和语言模型的深度结合，会增强用户语言交互体验；其次，AIGC 在更高维度的内容生产能力如 3D 生成、长视频生成等，将得到大幅改善；最后，随着 AIGC 效果和易用性的提升，内容生成流程将极度简化、便捷。在演讲的最后，肖欣延也表示，AI 目前面临的事实一致性、不可控等问题，将来整个技术范式需要加上知识维度，通过精准事实知识、多形态知识知识推理等确保 Al 走向可信可控，为用户提供更好服务。

百度文心一格总架构师肖欣延

以下为肖欣延演讲实录（经 36 氪整理编辑）：

肖欣延：大家好，非常荣幸参加 AIGC 产业发展峰会。我今天报告的题目是《跨模态大模型赋能智能内容生成》，重点会从跨模态角度介绍百度在智能内容生成上的工作。

最近人工智能非常火，但人工智能不仅仅是这几年的历史，我们回顾整个发展历程人工智能其实已经走过 70 多年。最早 1950 年图灵测试提出来，在此后 40 年里面整个研究更多关注在逻辑推理和专家系统上面，在这个过程走的非常曲折，起起落落经历两个冬天。到了九十年代，整个机器学习、神经网络还有深度学习逐步兴起，再到近年来我们耳熟能详的 AlphaGo、Transformer、GPT 等等这些技术出现以后，人工智能的实用效果不断提升。到了 2022 年，人工智能不仅能做分类判别，也能够做创作生成，生成式人工智能时代正式到来。

这也就引出了 AIGC。AIGC 有很多不同定义，在我们来看，从内容生产角度，它是人工智能带来的新一代生产方式，是新的生产力，能够大幅度提升内容生产的效率。这张图大概展示了内容生产的几个阶段变化，包括早期 PGC 专业化的内容生产，到近几年的 UGC 用户内容生产，以及从去年开始的 AIGC 元年，通过 AI 辅助生产内容或者自动生产内容。回顾历史会发现，每次内容生产方式的变革都会带来非常大的内容生产力的释放，给消费者提供全新的消费模式的体验，所以我们非常相信 AIGC 会带来很多新机遇。

AIGC 之所以能走到今天，大模型技术的发展是重要的推动力，从最早 AI2 ELMo、BERT 开始，到百度的文心 ERNIE，以及 GPT，大模型在过去五六年时间里，基本上每年都有大量新的模型推出来。

百度在大模型方面做得非常早，并且持续深入的在开展，早在 2019 年开始就进行预训练模型的研发工作，陆续发布 ERNIE 1.0、ERNIE 2.0、PLATO 和 ERNIE 3.0，有了这样的技术积累，所以今年 3 月份百度在全球大厂中第一个发布了大语言模型——文心一言。除了语言模型之外，还有一个方向大家经常提到——跨模态模型，比如 OpenAI 推出的 Dall-E，百度发布的 ERNIE-ViLG 等。

今天的报告从更具体内容介绍基于语言的跨模态内容生成，只要用人类擅长的语言就可以用机器帮我们生产图片和视频等内容。

首先介绍一下百度 AI 作画系统产品——文心一格。

文生图近年来进展非常惊人，最早在 2018 年时候基于 GAN 的图像生成方法只能生产模糊简单的图片，到 2021 年基于序列生成 Transformer 的框架，能比较好理解语言，根据语言生成意境还不错的图片。2022 年扩散模型出来之后，能做像素级建模，既可以生成非常宏大的图片，也可以生成细节非常精美的图片。

也是在这个阶段百度推出 " 文心一格 "，从技术角度来讲不是只有大模型，而是基于知识和大模型的文生图系统，综合利用知识图谱、跨模态生成和编辑模型，实现高效易用的创作。从理解用户需求，原创生成图片，到用户对图片进行编辑二次生成，对每一块我们都有相应技术满足。

首先是 prompt 学习。怎么输入一个比较好的文本描述，让模型生成好的图片，这一步对不少用户来说使用门槛比较高。为此，我们通过基于知识图谱的 AI 模型，理解用户的输入，然后对用户输入的 prompt 自动进行多种维度上的智能扩充，当然这两步我们也会端到端生成模式实现。右边展示的例子中，用户输入简单的描述，模型自动从视觉、质感、风格、构图等角度智能补充，从而生成更加精美图片。

接下来的扩散图像生成就是跨模态大模型发挥的地方。我们主要通过自研文生图大模型 ERNIE-VILG 实现。通过语言、视觉、跨模态进行知识增强，利用混合专家模型自动选择最优生成网络，在结合超过百亿的参数规模，就实现非常领先的效果。ERNIE-ViLG 在 MS-COCO 的公开评估上以及人工评估中，取得了领先于 DALL-E、stable Diffusion 等竞品的效果。

基于上面技术，文心一格能够生成风格多样，更懂中文的图片。不管是关于茶道、京剧，还是中式建筑，文心一格的生成效果都非常好。除了比较真实图片的生成，在创意图片的生成上，比如这里的有一只慵懒的猫在粉色的家里面，一个狐狸骑摩托车，未来的绿色空中花园等，文心一格也可以实现对创意图片的畅想。我们已经上线了文心一格的小程序，大家可以现场体验一下。

如果生成一张图片之后不那么满意，文心一格有更多功能可以帮助用户进行二次编辑。首先，涂抹功能，用户可以涂抹不满意的部分，让模型重新调整生成。另外也有一个很有意思的图片叠加功能，用户给两张图片，模型会自动生成一张很有意思的创意图，比如给到水晶样式的花和小怪兽，我们就可以自动生成一张叠加后的创意图。我们还支持用户输入图片的可控生成，我们根据图片的动作或者线稿等生成新图片，让图片生成的结果更可控。

如果前面步骤没有办法满足用户的需求，文心一格还可以做小样本学习，快速获得一个优质的个人定制模型。只要提供几张相同概念图片到系统，经过几分钟微调就可以获得定制模型，能够保证想要的风格、主体都是一致。

第二部分介绍下文章转视频技术，也就是视频创作系统。

文章转视频是输入图文信息，输出视频内容。输入文本可以是网页文章、百科页面、ppt 文档，甚至是搜索 query，都可以自动生成视频。这个功能看起来非常的简单，但是简单背后是需要大量技术来实现的。

视频是当下信息最丰富的载体，它涉及到文本、字幕、脚本，还涉及到视频素材，以及如何编排这些素材，是一个很复杂的流程。参照人们的视频创作流程，我们将视频创作系统设计成三大块，文案理解与生成、素材分析与处理、素材扩充与编排，这每一步做的任务都很多，这背后是基于文心大模型统一建模的跨模态大模型来实现。

这个大模型就是百度发布的 ERNIE-UNIMO，我们希望模型利用文本、图像、图文对数据做统一的预训练，通过这样的训练，模型能够实现通用的语言与视觉的理解与生成。从实际效果来看，不管在公开数据集还是评测榜单上，UNIMO 模型比很多具体领域和模态的预训练模型，在每个领域都做得更好。这样的技术我们也用在刚才说的 TTV 生产当中，统一去执行各种各样的任务。

最后，探讨下 AIGC 的价值，展望下未来技术的发展。

首先 AIGC 正在大幅提升内容创作的质量和效率。我相信应该很多人现在做内容创作时候，首先想的都是先去用这些 AIGC 的工具，不再自己从头开始一点点做，这种 AI 辅助的方式使得整个生产效率得到大幅度提升。比如以海报制作来说，以前做海报成本比较高，通过 AIGC 的方式成本能降低 50%-80%，制作时间从周级别到天级别。如果放到视频生成角度，成本制作节约的幅度更大。

除了提升效率，AIGC 还能助力想象力涌现，创造出独特的 AI 作品。比如最左边画是一个猫穿唐装在有柳树的湖边，还可以用 AI 创作戒指、蛋糕这样的创意商品，创作力超乎我们的想象。

展望未来，大模型将进一步使得 AIGC 效果有质的提升。其实得益于算法、算力和数据的进展，现在 AIGC 效果已经有不错的进展了。将来，通过更强、更统一的算法，更高性能的算力和更高质量的大规模数据，整个 AIGC 的内容生成还将有质的提升。一方面，和语言模型有更加深度结合，提供更强的语言交互，用户可以通过语言更好更便捷的进行创作。第二，在更高维度的时空生成上，不管在时间上还是空间上，比如 3D 生成、长视频生成等等，都将取得突破。最后，AIGC 将从辅助向自动发展，随着 AIGC 效果和易用性的提升，过去需要诸多步骤才能生成的图片，到时候 AI 一步就可以实现。

同时，现在 AI 也经常面临事实一致性、不可控等问题，将来整个技术范式还需要加上知识维度，在算法、算力和数据的基础上，通过精准事实知识、多形态知识、知识推理等确保 AI 走向可信可控，为用户提供更好服务。

相信 AIGC 在未来将创作出更多的价值。谢谢。

X 关闭