今日视点：单卡【kǎ】 30 秒跑出【chū】虚【xū】拟 3D 老婆【pó】！Text to 3D 生成看清毛孔细节的【de】高精度数字人，无缝衔接 Maya、Unity 等【děng】制作工具

2024-9-21 15:19:07来源：量子位

ChatGPT 给 AI 行业【yè】注入一剂鸡血【xuè】，一【yī】切曾经【jīng】的不敢想，都成【chéng】为如今的基操。

正持续进击的Text-to-3D，就被视为【wéi】继 Diffusion（图像）和【hé】 GPT（文字）后，AIGC 领域的【de】下一个前【qián】沿热点，得到【dào】了前所【suǒ】未有的关注度。

这不，一款【kuǎn】名【míng】为【wéi】 ChatAvatar 的产【chǎn】品低调公测，火速收揽超 70 万浏览【lǎn】与关【guān】注，并登上抱抱脸周热门【mén】（Spaces of the week）。

(资料图片仅供参考)

△ChatAvatar 也将支持从 AI 生成的单【dān】视【shì】角 / 多视角原【yuán】画生成 3D 风格化角色的 Image to 3D 技【jì】术，受到【dào】了广泛关注

有够酷的，感觉能很便捷地生成自己的数字孪生了。

由此吸引不【bú】少【shǎo】网友纷纷试用并贡献脑【nǎo】洞。有人拿这款产品和【hé】 ControlNet 结【jié】合，发【fā】现效果细腻写实到有些出乎意料。这【zhè】款使用【yòng】起来几乎【hū】零门槛的 Text-to-3D 工具名【míng】叫【jiào】ChatAvatar，由国内 AI 初创公司影眸科技团队打造。

据了解，这是全【quán】球【qiú】首款 Production-Ready 的 Text to 3D 产品，通过【guò】简单【dān】的文本，例如一个明星的名字【zì】、或是某个想要的人物长相，就【jiù】能生成影视级的 3D 超写【xiě】实【shí】数字【zì】人资产。

效【xiào】率也非常高，平均仅【jǐn】需 30 秒【miǎo】，就能做出【chū】一张以假乱真的脸——甚至是【shì】你自【zì】己的。

未来，生成领域还将拓展到其他三维资产。

并且该模【mó】型带有【yǒu】规整的拓扑、带有 4k 分【fèn】辨【biàn】率的【de】 PBR 材质，同【tóng】时【shí】带有绑定，可以直接【jiē】接入【rù】 Unity、Unreal Engine 和 Maya 等制作引擎的生产管线中。

所以，ChatAvatar 到底是【shì】怎【zěn】样一个 3D 生成工【gōng】具？背后究竟用到了【le】什么【me】技术？

30 秒完成一次 " 画皮 "

亲身体验 ChatAvatar 的玩法【fǎ】发现，可以说是【shì】真【zhēn】 · 零门槛。

具体而言，只需以对话的形式，在官网上用大白话向 ChatBot 描述自己的需求，就能【néng】按需生成 3D 人脸，并覆【fù】盖一张贴合模【mó】型的真实 " 人【rén】皮【pí】 "。

对话全流程里，根据用户需求，ChatBot 会进行引导，尽可能细节地了解用户对所需模型的想法。

体【tǐ】验过程中，我们向【xiàng】 ChatBot 描述了这样一个想要【yào】生【shēng】成的 3D 形象【xiàng】：点击左【zuǒ】侧的 Generate 按【àn】钮，平均 10s 不到，屏幕上就出现根据【jù】描述【shù】生成的 9 种不同 3D 人脸的【de】初始【shǐ】雏形。

随意选择其中一种后，会【huì】基【jī】于【yú】选择【zé】继续优化【huà】模型和材质，最后出现覆盖皮【pí】肤后的【de】模型渲结果，并展现不同光影下的【de】渲染【rǎn】效果——这【zhè】些渲染在浏览【lǎn】器内【nèi】实时完成：

用鼠标拖动，还【hái】能旋【xuán】转头部【bù】，并放大【dà】看更细节的【de】局部效果，毛孔和痘【dòu】痘【dòu】都清晰可见：值得一提的【de】是，如【rú】果用户是个提示工程【chéng】高手，直接在左侧【cè】框中【zhōng】输入 prompt，同样可以完成生成【chéng】。

虽【suī】然 beta 版本还没上线发型【xíng】功【gōng】能，但整体【tǐ】而言，最后【hòu】生成的【de】 3D 数字人【rén】资产与描【miáo】述内容已经有高匹配度。

官网【wǎng】上还【hái】陈列了【le】许多 ChatAvatar 用【yòng】户的生成资产，不同人种、不同肤色、不同年龄，喜【xǐ】怒哀乐，美丑胖瘦【shòu】，各式相貌【mào】应有尽有。

总结一下 ChatAvatar 这【zhè】款产品生成 3D 数字【zì】人资产的【de】效果亮【liàng】点：

首先是使用简便；其次是生成跨度大，且五官可改，还能生成与面部贴合的面具、纹身等，譬如这样：

根据官方宣传片介绍【shào】，ChatAvatar 甚至【zhì】可以进【jìn】一步生成【chéng】超出人类范畴的角色，如阿【ā】凡【fán】达【dá】等影【yǐng】视【shì】作品中的角色：最重要的是，ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题。

这意【yì】味【wèi】着，ChatAvatar 生成的 3D 资产可以直接接【jiē】入游戏和影视生产流【liú】程。

当然，在正式接入工业流程【chéng】之前，首【shǒu】轮公测，ChatAvatar 已经【jīng】吸引了数千名【míng】艺术家和专业美术人【rén】员参【cān】与，推特相关话题受到近【jìn】百【bǎi】万的【de】浏览与【yǔ】关注【zhù】。

随随便便一条推文，浏览量都能破 50k。

积攒了大批【pī】 " 自来水 " 不是没有原因，看看 3D 的爱【ài】因斯坦【tǎn】之【zhī】脸，试问谁不说一【yī】句真的很像【xiàng】？要【yào】是【shì】和 ControlNet 结【jié】合，生【shēng】成【chéng】效果不亚于单反【fǎn】相片直出：已经有不少用户体验后【hòu】，开始畅想【xiǎng】将这个 Text-to-3D 工具大规模应【yīng】用在游戏、影视等工业应用上了。

据了解，用户反馈会成为【wéi】 ChatAvatar 团队快速迭【dié】代和更【gèng】新的重【chóng】要依据，形成数【shù】据飞轮，以便及时提供更加完【wán】整【zhěng】和【hé】贴近【jìn】需求的功能。

事【shì】实上，对于【yú】此前的 3D 行业设【shè】计师或公司来说，大部分 AI 文字转 3D 应【yīng】用并【bìng】非效果不好，但实际落地到工业【yè】设计【jì】流程【chéng】上【shàng】，还是【shì】有不少难【nán】度。

这次 ChatAvatar 能如此出圈，背后究【jiū】竟有什么技术【shù】上的原【yuán】因？

符合产业要求的 3D 资产生成，究竟难在哪？

都说 AI 要【yào】替代人类，事实上仅【jǐn】仅就【jiù】 Text-to-3D 领域，就【jiù】并非那么容易【yì】替【tì】代。

最大的难点，在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么【me】理【lǐ】解？从专业 3D 美工【gōng】设计的视角来【lái】说，至少有三个方面【miàn】——

质量、可控性和生成速度。

首先是【shì】质量。尤其是对于强调视【shì】觉效果的影视、游【yóu】戏行【háng】业来说，要想生成符合管线要【yào】求的 3D 资产【chǎn】，拓扑规整度、纹【wén】理贴图【tú】的精度等 " 行业潜规则【zé】 "，都是 AI 产品第一道必须【xū】迈过去【qù】的坎。

以拓扑【pū】结构的规整度【dù】为【wéi】例，这里本质上指的是【shì】 3D 资产布线的合理【lǐ】度【dù】。

对于 3D 资产来说，拓扑的规整度，往往【wǎng】直【zhí】接影【yǐng】响物体的动画效果【guǒ】、修【xiū】改处理效率和贴图绘制速度：

据行内 3D 美工设计介绍，手工重拓扑的时【shí】间成【chéng】本【běn】往往比制作【zuò】 3D 模型本身更高，甚【shèn】至按倍数以计。这意【yì】味着即使 AI 模型生成的 3D 资产再【zài】炫酷，如果生成的拓扑规整度达不【bú】到要求，成本就【jiù】无法从根【gēn】本上得到降低【dī】。更【gèng】别提纹【wén】理精度【dù】。

△影眸科技的 ChatAvatar 项【xiàng】目在生成【chéng】质量、速【sù】度以【yǐ】及标准【zhǔn】兼容上相比先前的工【gōng】作都有明【míng】显的提升

以目前游【yóu】戏、影视行业【yè】普遍要求【qiú】的 PBR 贴图为例，包含【hán】的反【fǎn】射率【lǜ】贴图、法线贴图等一【yī】系【xì】列贴图，相当于 2D 图【tú】像 PSD 文【wén】件的 " 图层 "，是 3D 资【zī】产流水线生产必不可少的条件之一。

然而，目【mù】前 AI 生成的 3D 资产往往是一个【gè】 " 整体 "，少【shǎo】有【yǒu】能【néng】按要求单【dān】独生成符合【hé】产业环境的 PBR 贴【tiē】图的效果。

其次是可【kě】控性【xìng】，对【duì】于生成式 AI 而言，如何让生成的内容更加 " 可控 "，是【shì】 CG 产【chǎn】业【yè】对于这【zhè】项技术提出的又一大要求。

以大众所熟知的 2D 产【chǎn】业【yè】为例【lì】，在 ControlNet 出现之【zhī】前，2D AIGC 行业【yè】一直处在一种 " 半【bàn】摸【mō】黑前进 " 的状态。

也就【jiù】是说，AI 能生【shēng】成指定类【lèi】别的物体画面，却无法【fǎ】生成指定姿态的物体，生成【chéng】效【xiào】果全靠提示工程和【hé】 " 玄学 "。

而【ér】在 ControlNet 出【chū】现后，2D AI 图像生成的可控【kòng】性获【huò】得了突飞【fēi】猛进的提升，然【rán】而对于 3D AI 而言，要想生成【chéng】对应效果的资产，很大程度上依旧得依【yī】靠专业【yè】的提示工程【chéng】。

最后是【shì】生成速度。相比【bǐ】 3D 美工设计而言，AI 生成的优【yōu】势在于【yú】速度，然而【ér】如果 AI 渲【xuàn】染的速度【dù】和【hé】效果无法与人工匹敌的话，那么这项技【jì】术依旧无法给产业【yè】带来收益。

以当前在 AI 技术上颇【pō】受欢迎的【de】 NeRF 为【wéi】例，其产业化落地【dì】就【jiù】面临速度和质量的兼容性难题【tí】。

在生【shēng】成质量【liàng】较【jiào】高【gāo】的情况下，基于 NeRF 的【de】 3D 生成往往需要【yào】相当漫【màn】长的【de】时【shí】间；然而如果追求速度，即使【shǐ】是 NeRF 生成的 3D 资产便完全【quán】无法投入产【chǎn】业使用。

但即使解【jiě】决了【le】这个问题，如何在不损失精度【dù】的前提下让 NeRF 与传统 CG 行业的主【zhǔ】流【liú】引【yǐn】擎兼容仍然是一个【gè】巨大的问题【tí】。

从【cóng】上面的产业【yè】标准化【huà】流程不难发现，大部【bù】分 AI 文本转【zhuǎn】 3D 应用落地存在【zài】两大瓶颈：

一个是需要【yào】手动完成【chéng】提示工程【chéng】，对于非【fēi】 AI 专【zhuān】业人士【shì】、或不了解 AI 的设计师来【lái】说不够友好；另一【yī】个是生成的 3D 资产【chǎn】往往不符合产业标准，即使再好看也无法【fǎ】投【tóu】入使用。

针对这【zhè】两点，ChatAvatar 给出【chū】了两点具体有效【xiào】的解【jiě】决方案。

一方面，ChatAvatar 实现了除手动输入提【tí】示【shì】工程外的【de】第二【èr】条道路，也【yě】是【shì】更适合普通人的【de】一条捷径：通过 " 甲方模式 " 直【zhí】接对话描【miáo】述需求。

团队官方推【tuī】特介绍称【chēng】，为了实现这一特性，ChatAvatar 基于 GPT 的能【néng】力，开【kāi】发了一种对话【huà】描述转【zhuǎn】人像特征【zhēng】的方【fāng】法。

设计【jì】师【shī】只需要不断【duàn】和【hé】 GPT 聊天，描述自己想要的 " 感觉 "：

GPT 就能自动帮忙完成提示工程，将结果输送【sòng】给 AI：换而言之，如果说 ControlNet 是 2D 行业的 "Game Changer"，那么【me】对于 3D 产业来说，能实【shí】现文本转【zhuǎn】 3D 的 ChatAvatar，无【wú】异【yì】于【yú】行业的游戏规则改变【biàn】者【zhě】。

另一方【fāng】面更为重【chóng】要，那就【jiù】是 ChatAvatar 能完【wán】美兼容 CG 管线，即生【shēng】成【chéng】的资产在【zài】拓扑结【jié】构、可控性和速度上都符合产业要求。

同【tóng】时，生成的模型和高精【jīng】度材【cái】质贴【tiē】图，还能在后期【qī】的【de】渲【xuàn】染中达到极为逼真的渲染效果。

为【wéi】了实现这样的效果，团队【duì】为 ChatAvatar 自研了一个渐进式 3D 生【shēng】成框【kuàng】架【jià】 DreamFace。

其中【zhōng】的关键，在【zài】于训练【liàn】该模型用【yòng】的底层【céng】数据，即影眸科【kē】技基于 " 穹顶光场 " 采集到的世界首个大体量、高精度、多表情的人脸高精度数据集。

基于这个数据集，DreamFace 可以高效地完成产品级三维资产的生成，即生成的资产带有规整的拓扑、材质，带有绑定。

通过引【yǐn】入外部【bù】 3D 数【shù】据库，DreamFace 能够直【zhí】接输出符【fú】合 CG 流程的资产。

△生成的资产驱动渲染的效果

上【shàng】述两大技术瓶【píng】颈的解决，本质【zhì】上进一步加【jiā】速了 AIGC 洪流下，" 生【shēng】成 " 将取代【dài】 " 搜索【suǒ】 " 的时【shí】代趋势——

影眸团队认为，" 生成 " 将成为新一代数字资产的获取方式。

此前，我们需要找到一张符【fú】合需求【qiú】的图片【piàn】或者资产时，通常会【huì】使【shǐ】用搜【sōu】索引擎【qíng】进行查询。

ChatAvatar 项【xiàng】目主页上【shàng】展示的巨大的 " 搜索框【kuàng】 " 和整齐的资产卡片【piàn】，看似搜索引擎，但实【shí】际上是一种与搜【sōu】索截然不同【tóng】的资产查【chá】找方式。

△ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍：

以前，如果我们【men】需要一张插【chā】图，可能要在多个图【tú】库中反复【fù】搜索，或【huò】是通【tōng】过【guò】 Photoshop 合成、手绘等较复杂的方【fāng】式才能得到【dào】结果。但在 Stable Diffusion 等技术出现后，你只【zhī】需要通过文字【zì】描【miáo】述想要【yào】的图【tú】像，就【jiù】能直【zhí】接生【shēng】成符合需求的结果。

这对于传统的资产库来说是一【yī】个巨大【dà】的冲击【jī】。而 ChatAvatar 的【de】目标【biāo】，正是用 3D 生成替代【dài】传统的搜索【suǒ】式【shì】 3D 资产库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激【jī】起千层浪，进入 AI 2.0 时代之后，人【rén】们【men】的目光也【yě】投【tóu】向包含图像、视【shì】频、3D 等【děng】信息的多模态 AI。

仅就 3D 生成领域而言，无论是影视还是【shì】游戏行【háng】业，3D 内容生产和消【xiāo】费市场已经拥有【yǒu】足【zú】够大【dà】的【de】规模，但在【zài】制作层【céng】面【miàn】却因技术难度遭【zāo】遇掣肘。

譬如【rú】，文本领域大行其道的 Transformer，在 3D 生成【chéng】领域的使用还【hái】相对有限。

去年夏天，当文生图领域因 Diffusion Model 取得成绩后【hòu】，人们【men】开始期【qī】待文字生成 3D有同样惊艳的表现【xiàn】。一旦生成式 AI 的 3D 创作【zuò】技术成熟，VR、视频等【děng】的内容【róng】创【chuàng】作都【dōu】将起飞【fēi】。

△扩【kuò】散【sàn】模型 Midjourney5.1 生成【chéng】的 " 梵高风摄影 "

事【shì】实上【shàng】，无【wú】论是科【kē】技【jì】巨头还是初创公司，的确都在朝 Text-to-3D 这个方向暗暗发力【lì】。

去【qù】年 9 月，谷歌发布了基于【yú】文本【běn】提示生成 3D 模型【xíng】的 FreamFusion，声称不需要 3D 训【xùn】练数据，也不需要修改图像扩散【sàn】模【mó】型【xíng】。紧随其后，Meta 也推出【chū】可以【yǐ】从文本【běn】一键生成视【shì】频的【de】 Make-A-Video 模型。

后来的 Text-to-3D 的 AI 模型队伍中，还先后【hòu】出现了【le】英伟【wěi】达【dá】 Magic3D、OpenAI 最新开源项【xiàng】目【mù】 Shap-E 等，今年 8 月将【jiāng】举办的计算机图形顶会 SIGGRAPH 2023 所【suǒ】展【zhǎn】示的论文，也有多篇与【yǔ】 Text-to-3D 有关。

影眸【móu】科技有【yǒu】关文本指导的渐进式 3D 生【shēng】成框架 DreamFace 的论【lùn】文，就是【shì】其中之一【yī】。

而【ér】 ChatAvatar，也是目前【qián】为止最集中【zhōng】在 3D 数字人资【zī】产方向【xiàng】的生成式模型产品。

其背后的 AI 初创公司影眸科技，2020 年【nián】孵化自上海科技大学 MARS 实【shí】验室【shì】，成立后【hòu】获得奇绩创坛与红杉种子的两轮投【tóu】资【zī】。

公【gōng】司专注于专注于计【jì】算机【jī】图形学、生成式 AI 的研【yán】究与产品化。2021 年，AIGC 还【hái】未【wèi】掀起【qǐ】巨浪【làng】之时，公司就【jiù】已经推出国内首个 AIGC ToC 绘画应用 Wand，产品一度登【dēng】顶 AppStore 分区榜首。

而这个颇具前瞻性，且已在业内小有名气的团队，平均年龄只有 25 岁。

将首个商【shāng】业化场景具体【tǐ】锚定在数字【zì】人后，ChatAvatar 是他们【men】乘【chéng】 AIGC 东风在该【gāi】方【fāng】向的最新进展。

作为一个【gè】新推出的产品，ChatAvatar 在兼【jiān】容性、完成【chéng】度和精度等产【chǎn】品效果层面【miàn】，都超【chāo】出了影【yǐng】眸团队预【yù】期。然而在吴迪口中，行至此处【chù】的过程【chéng】 " 很狼狈 "。

主要原【yuán】因不【bú】外乎 " 缺【quē】人 " 一事。目前，影眸已经【jīng】在多类别 3D 生成技术上【shàng】取得了进展，下一【yī】步【bù】还计划推出 "3D 生【shēng】成大模型 "。

△影眸科技将【jiāng】于 5 月【yuè】上【shàng】线首个多模态跨平【píng】台【tái】 3D 搜索引擎 Rodin，打通 Sketchfab 等多个 3D 资产平台，支持以文搜 3D、以【yǐ】图搜 3D 甚【shèn】至以【yǐ】 3D 搜 3D。搜索引擎【qíng】只是 Rodin 的初级形态，影眸将把【bǎ】 Rodin 打造为 3D 生成【chéng】大模型【xíng】。

需要【yào】持【chí】续向【xiàng】前推进，就【jiù】需要更多的工程【chéng】化团队、技术美【měi】术和拥抱【bào】生成式 AI 的产品人才加入团队。作为一【yī】个以研发为背景主【zhǔ】基调的【de】团【tuán】队，这样的人才仍然紧【jǐn】缺。

" 人是万物【wù】的尺度，" 吴迪表示道，" 我们需要更【gèng】多志【zhì】同【tóng】道合的人加入，共【gòng】同【tóng】推动 3D 领域【yù】的创新发展【zhǎn】。"

可以看【kàn】到，ChatAvatar 背后技【jì】术从无到有的搭【dā】建，揭示【shì】了一家【jiā】 AI 初创公司的不断创新【xīn】；而从这家公司对人【rén】才的渴望以小见【jiàn】大，更揭【jiē】示着 AIGC 浪【làng】潮【cháo】下，每一个【gè】细分领域想要从水下浮出水【shuǐ】面的【de】心。

你【nǐ】愿意拥抱生成式【shì】 AI，成【chéng】为 Text-to-3D 领域的 Game Changer 吗？

— 联系作者—

— 完—

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

关键词：

今日视点：单卡【kǎ】 30 秒跑出【chū】虚【xū】拟 3D 老婆【pó】！Text to 3D 生成看清毛孔细节的【de】高精度数字人，无缝衔接 Maya、Unity 等【děng】制作工具

相关阅读

为你推荐

最新资讯

股票软件