当前头条：被ChatGPT带飞的AIGC，能为垂直产业做些什么？

2023-02-25 08:42:12 来源：机器之心Pro 编辑：bj001

机器之心发布

(相关资料图)

机器之心编辑部

本文从 AIGC 技术 ->产品 ->业务应用和价值实现环节探讨其发展路径，并以产业实例探讨 AIGC 如何才能在产业领域实现闭环和价值落地。

去年以来出现了 AIGC 热潮，引发了 AIGC 及其应用话题的爆发性增长，不少人感慨强人工智能的时代已经离我们不那么遥远了。但是在热潮的另一面，我们看到真正能落地的场景依然是凤毛麟角，目前比较成功的应用主要集中在个人消费领域，而 AIGC 在产业中的应用大多仍然处于探索阶段。

红杉资本在 22 年 9 月就对 AIGC 做出了以下预判：文字类 AI 生成将在 2023 年进入黄金时期，图片类 AI 生成黄金时期将在 2025 年左右抵达，3D 和视频类 AI 生成在 2023 年可能正处于草稿阶段，进入黄金时期或许在 2030 年。不可否认，文字与图片的 AI 生成确实走在了前面，而 3D 模型、视频和游戏生成仍在研发阶段。

红杉资本针对 AIGC 相关产品成熟预测

若考虑到 AIGC 产业应用，如在制造业、建筑业等巨型垂直实体领域中，AIGC 的 C/Content 内容将不能仅停留在图片和文字的领域，而是需要进入信息更为丰富的三维领域。接下来，我们将从 AIGC 技术 ->产品 ->业务应用和价值实现环节探讨其发展路径，并以产业实例探讨 AIGC 如何才能在产业领域实现闭环和价值落地。

1.AIGC 技术：从文字到图片

从大家对 ChatGPT 越来越多的测试中可以看到，ChatGPT 不仅能对语义进行解析和结构化，还能在此基础上用 NLP 自然语言处理做数据分析。

ChatGPT 对内容进行结构化处理和数据分析 - 佳格数据提供

事实上，以 Stable Diffusion 为首的一众 AI 画图框架或者平台，在去年更早的时候已经引起了轰动。虽然图片相对文字来说看上去信息含量要更为复杂，但是其技术成熟却要比以 GPT 为首的文字生成来的更早一些，我们有必要从主流的开源框架 Stable Diffusion 为例，回顾一下这些图片 AIGC 框架是如何工作的。

Stable Diffusion 生成的图片，已经有了比拟人类画家的能力

Stable Diffusion 主要有三个组成部分，每一个部分都有自己的神经网络。

1、CLIP 用于文字编码器：以文字作为输出的语义信息组成一个 77*768 的矩阵，CLIP 训练 AI 同时进行自然语言理解和计算机视觉分析。CLIP 可以决定图像和文字提示的对应程度，比如逐步把建筑的图像和 “建筑” 这个词完全匹配起来，而其能力训练是通过全球 40 多亿张带文字描述的图片实现的。

CLIP 的训练集

2、UNET 及调度程序：这就是大名鼎鼎的扩散模型主程序（来自 CompVis 和 Runway 团队于 2021 年 12 月提出的 “潜在扩散模型”（LDM / Latent Diffusion Model）），用于对噪声进行预测实现反向去噪的过程，进而实现图片在信息空间中的生成。如图片所示，染料扩散的过程就像从图片逐渐变成噪点的过程，而当研究人员对图片增加随机噪点让 AI 反向学习整体过程，而后就拥有了一套从信息空间噪点图反向生成图片的模型。

Diffusion 模型反向去噪过程

用通俗的例子解释，如果在清水里随机滴入一些染料，随着时间推移会得到如下图一样绚丽的形状。那么有没有一种方法，能够根据某一个特定时间特定的状态，反向推出初始的染料用量、顺序、滴入水缸的初始状态等信息呢？显然，如果不借用 AI 的方式几乎无法实现。

不同的染料滴入水中扩散出不同的形状

3、信息空间到真实图片空间的解码器：即把信息空间中的矩阵信息转换为肉眼可见的 RGB 图片。想象一下我们与人交流的过程，听到的声音信号转换为大脑能理解的文字信号存储在脑中，这个过程称之为编码。如果尝试把文字信号通过某种语言表达出来，这个过程可以称为解码 —— 这里的表达方式可以是任意的语言，每种语言对应不同的解码器，解码只是一种表达方式，本质还是基于人类脑海中对于某件事情的描述与理解。

StableDiffusion 从输入到输出全流程解读

正是有了这几个关键技术步骤的串联，Stable Diffusion 成功创建了一个无所不能的 AI 作图机器人，不仅能理解语义，将其转化为信息空间的信息流，还能够在信息空间中通过模拟降噪创作，通过解码器还原成肉眼可见的图片，这一充满科幻色彩的过程放在 AI 不存在的世界来看，堪称神迹。

2.AIGC 技术：从图片到 3D 模型

图片生成已经取得了突破性的效果，但如果这些成果能够进一步优化应用到更多领域，将有可能实现更大价值。我们也看到一些细分领域中的探索成果，比如经由对场景的理解，通过不同的数据集加入和调参，可以实现对图片生成更好的控制，而不仅是通过文字的不断试错来获得更优结果。

2.1 设计意向图生成

2019 年初，用 GANs 生成的「这个 XX 不存在」系列在海外获得大量关注，在国内我们也看到企业推出了在细分领域的成果。而该团队也于 22 年 8 月实验性的在手机端推出了「AI 创意库」，只需要输入一句话，对话机器人就能在一分钟内快速理解语义，生成多张效果细腻贴近建筑概念方案的意向图。在此之上，更是可以通过输入一张已有的图片，修改部分描述的关键字，「AI 创意库」即可生成一系列的衍生图片，辅助设计师在日常创作中寻找灵感。

小库科技「这个建筑不存在」，GANs 模型生成建筑意象图及迭代过程

左图：小库「AI 创意库」生成，触发语句 Louis Kahn 风格，依山傍水的小型博物馆；右图：小库「AI 创意库」生成，基于左图 Louis Kahn 风格图片，完成风格切换至 Le Corbusier

为了使得「AI 创意库」的效果更优，团队做了一些新的探索：由于已有的算法和模型更多聚集在通用互联网素材上，建筑相关的图片、形容及风格的数据储备在专业程度显然是不够的。这里采取了一种针对建筑相关词汇的特殊标识，组成一个微调的先验数据集并将该数据集融合训练，实现模型增强。通过建筑专业领域增强的新模型，形成了面向建筑行业专属的 AI 创意库，针对建筑类描述短句，测试集优品率相比原有模型提升了 13.6% 之多。

Google Dreambooth Fine-Tuning 算法示意

举个例子，当输入一张博物馆图片及一个词汇 "Zaha Hadid（过世的全球著名女建筑师）" 的时候，模型能够理解需要将博物馆的建筑风格或特征往 Zaha Hadid 的作品靠拢，而不是在博物馆中增加一个 Zaha Hadid 的人物或画像，抑或是在 AI 世界里创作一个 Zaha Hadid 的卡通画像 —— 这往往是通用模型会返回的结果之一。

经过微调后的建筑模型，小库「AI 创意库」能充分理解 “Zaha Hadid” 这个特殊词汇隐含意思

2.2 3D 模型生成

二维的图片虽然精彩，但在产业应用中暂时还只是停留在 “意向图库” 的作用，未来如果要成为可以精准表达设计的成果，需要向 3D 和更高信息维度去迈进。

在 2020 年 AIGC 没有现在这么成熟的时候，上述团队就在探索如何用 AI 生成 3D 模型，并在同济大学 DigitalFUTURES 工作坊教学中，公开了其在研发的中从图形生成图像进一步生成模型的算法，能看到当时的模型效果并不太理想，有价值的是实现了图形 - 图像 - 模型的联动。

2020 同济大学 DigitalFUTURES 工作坊小库教学团队成果，手绘图形生成图像进而生成模型

第二年在同济大学 DigitalFUTURES 工作坊教学中，该团队发布了一种通过 GANs 学习卫星图与真实三维模型之间关系，将卫星图生成为真实三维模型的算法。该算法通过对卫星图上不同的图层元素进行特征学习，能大致复原出卫星图所对应的主要物体三维拉伸形体，预测不同物体投影所对应的原物体高度。当然，这种方法还存在一定的缺陷，只能在卫星图场景中使用，难以积累其他场景中同类图片与三维形体之间的关系；其次是还原的三维形体只能粗略预测高度，其他细节需要通过算法重新生成，与真实的三维模型存在较大误差，只能用于项目早期研判使用，应用场景有限。

城市三维模型分层特征提取训练示意图

2021 同济大学 DigitalFUTURES 工作坊小库教学团队成果，基于 GANS 的卫星图重建三维模型

得益于 AIGC 算法的爆发、3D 生成算法的日益成熟，我们也看到垂直类 AI 企业开始吸收更多先进的技术与思路改善其模型，并在 3D-AIGC 的路线上有了一些新的尝试方向。例如 OPENAI 推出了 Point-E 框架，该框架可以将任意二维图片通过算法预测为点云，进而通过点云去预测三维物件。

PointE 框架全过程示意图

但是模型生成的质量依然有一定的局限，而模型的不可用主要体现在以下三个方面：

1. 三维形体还原难：首先二维图像数据比三维模型数据出现早，同时可获取的二维图像数据目前也比后者多，因此前者可作为训练素材的量级更多，较少的三维模型训练素材的泛化能力有限，难以还原最初的三维形体；

2. 材质整体缺失：对于三维模型来说最重要的一环是材质的填充与选择，然而对于AI生成来说，从图片直接推敲其材质的方法尚未成熟，同样材质在不同的形状、环境、光源下的表现都有所不同，而当这些变量都集中在一张图片中时，材质重建几乎不可能实现；

3. 生成的模型精度不达标：通过点云推敲的模型，通常是依赖于点云的密度重建物体表面 Mesh，如果点云过少物体会严重失真，甚至无法重建模型。

小库团队测试 Point- E 模型，左边建筑图片生成点云进而模拟出右边三维模型，遗憾得到的只是一堆无意义的点云模型，Point-E 暂时还无法理解一个建筑物的图片

当然我们能理解当前的技术瓶颈，如果把目标定的稍微低一点，选择从三维建模软件中生成的简单形体、做二维的截图在 point-e 模型中重建，会意外地发现其效果比以上测试更佳，但也仍局限在 “初步草稿” 的范畴。这与训练集有很大的关联性，通过三维建模软件生成各个视角的二维视图是该模型最易获取训练数据的方法之一。

小库团队测试 Point-E 模型，针对建模软件中选取一个简单三维模型做任意角度截图，重建三维模型，往往有还不错的效果

综上来看，从文字 ->图片 ->点云 ->三维物体的技术路线固然令人惊叹，但如果要应用在产业领域，还有很多工作需要 AI 科学家们去做。

然而，是否只有这一条技术路线去实现三维模型的生成？

3 垂直领域 AIGC 应用新思路

在泛领域的大模型研发上以 OpenAI 为首的厂商，包括 Nvidia 和 Google 等巨头也在纷纷推出属于自己自己的通用型 3D-AIGC 框架，遗憾的是目前还处在一个早期阶段。对于垂直实体产业来说，落地应用显然还有很长的路要走。

从全球范围来看，在 3D 模型的生成领域除了泛领域大模型外，部分垂直产业也在探索 AIGC 如何应用落地。比如西门子在引擎的设计和制造中针对生成的模型进行方针模拟和进一步优化，最终通过3D打印实体，实现了3D模型生成现成果交付和业务闭环。

西门子通过生成式算法实现引擎的设计和模拟

这样的成果的实现，有赖于在产业逻辑下的底层业务内容及其数据标准的不断迭代。

按照 ISO/ IEC 给出对内容的数字标准定义 SMART（Standards Machine Applicable, Readable and Transferable 机器可开、可读和可交互标准）：L1 级为纸质文本，没有机器交互可能；L2 级为开放数字格式，机器交互性很低；L3 级为机器可读文档，但机器无法理解检索的结果与内容；L4 级为机器可读内容，可做语义交互但机器无法理解上下文的逻辑关系；L5 级，机器可交互内容，可实现自动识别、自动生成等智能属性。

关键词：做些什么