今日视点:单卡【kǎ】 30 秒跑出【chū】虚【xū】拟 3D 老婆【pó】!Text to 3D 生成看清毛孔细节的【de】高精度数字人,无缝衔接 Maya、Unity 等【děng】制作工具

2024-9-21 15:19:07来源:量子位

ChatGPT 给 AI 行业【yè】注入一剂鸡血【xuè】,一【yī】切曾经【jīng】的不敢想,都成【chéng】为如今的基操。

正持续进击的Text-to-3D,就被视为【wéi】继 Diffusion(图像)和【hé】 GPT(文字)后,AIGC 领域的【de】下一个前【qián】沿热点,得到【dào】了前所【suǒ】未有的关注度。

这不,一款【kuǎn】名【míng】为【wéi】 ChatAvatar 的产【chǎn】品低调公测,火速收揽超 70 万浏览【lǎn】与关【guān】注,并登上抱抱脸周热门【mén】(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持从 AI 生成的单【dān】视【shì】角 / 多视角原【yuán】画生成 3D 风格化角色的 Image to 3D 技【jì】术,受到【dào】了广泛关注

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由此吸引不【bú】少【shǎo】网友纷纷试用并贡献脑【nǎo】洞。有人拿这款产品和【hé】 ControlNet 结【jié】合,发【fā】现效果细腻写实到有些出乎意料。这【zhè】款使用【yòng】起来几乎【hū】零门槛的 Text-to-3D 工具名【míng】叫【jiào】ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据了解,这是全【quán】球【qiú】首款 Production-Ready 的 Text to 3D 产品,通过【guò】简单【dān】的文本,例如一个明星的名字【zì】、或是某个想要的人物长相,就【jiù】能生成影视级的 3D 超写【xiě】实【shí】数字【zì】人资产。

效【xiào】率也非常高,平均仅【jǐn】需 30 秒【miǎo】,就能做出【chū】一张以假乱真的脸——甚至是【shì】你自【zì】己的。

未来,生成领域还将拓展到其他三维资产。

并且该模【mó】型带有【yǒu】规整的拓扑、带有 4k 分【fèn】辨【biàn】率的【de】 PBR 材质,同【tóng】时【shí】带有绑定,可以直接【jiē】接入【rù】 Unity、Unreal Engine 和 Maya 等制作引擎的生产管线中。

所以,ChatAvatar 到底是【shì】怎【zěn】样一个 3D 生成工【gōng】具?背后究竟用到了【le】什么【me】技术?

30 秒完成一次 " 画皮 "

亲身体验 ChatAvatar 的玩法【fǎ】发现,可以说是【shì】真【zhēn】 · 零门槛。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能【néng】按需生成 3D 人脸,并覆【fù】盖一张贴合模【mó】型的真实 " 人【rén】皮【pí】 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体【tǐ】验过程中,我们向【xiàng】 ChatBot 描述了这样一个想要【yào】生【shēng】成的 3D 形象【xiàng】:点击左【zuǒ】侧的 Generate 按【àn】钮,平均 10s 不到,屏幕上就出现根据【jù】描述【shù】生成的 9 种不同 3D 人脸的【de】初始【shǐ】雏形。

随意选择其中一种后,会【huì】基【jī】于【yú】选择【zé】继续优化【huà】模型和材质,最后出现覆盖皮【pí】肤后的【de】模型渲结果,并展现不同光影下的【de】渲染【rǎn】效果——这【zhè】些渲染在浏览【lǎn】器内【nèi】实时完成:

用鼠标拖动,还【hái】能旋【xuán】转头部【bù】,并放大【dà】看更细节的【de】局部效果,毛孔和痘【dòu】痘【dòu】都清晰可见:值得一提的【de】是,如【rú】果用户是个提示工程【chéng】高手,直接在左侧【cè】框中【zhōng】输入 prompt,同样可以完成生成【chéng】。

虽【suī】然 beta 版本还没上线发型【xíng】功【gōng】能,但整体【tǐ】而言,最后【hòu】生成的【de】 3D 数字人【rén】资产与描【miáo】述内容已经有高匹配度。

官网【wǎng】上还【hái】陈列了【le】许多 ChatAvatar 用【yòng】户的生成资产,不同人种、不同肤色、不同年龄,喜【xǐ】怒哀乐,美丑胖瘦【shòu】,各式相貌【mào】应有尽有。

总结一下 ChatAvatar 这【zhè】款产品生成 3D 数字【zì】人资产的【de】效果亮【liàng】点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根据官方宣传片介绍【shào】,ChatAvatar 甚至【zhì】可以进【jìn】一步生成【chéng】超出人类范畴的角色,如阿【ā】凡【fán】达【dá】等影【yǐng】视【shì】作品中的角色:最重要的是,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这意【yì】味【wèi】着,ChatAvatar 生成的 3D 资产可以直接接【jiē】入游戏和影视生产流【liú】程。

当然,在正式接入工业流程【chéng】之前,首【shǒu】轮公测,ChatAvatar 已经【jīng】吸引了数千名【míng】艺术家和专业美术人【rén】员参【cān】与,推特相关话题受到近【jìn】百【bǎi】万的【de】浏览与【yǔ】关注【zhù】。

随随便便一条推文,浏览量都能破 50k。

积攒了大批【pī】 " 自来水 " 不是没有原因,看看 3D 的爱【ài】因斯坦【tǎn】之【zhī】脸,试问谁不说一【yī】句真的很像【xiàng】?要【yào】是【shì】和 ControlNet 结【jié】合,生【shēng】成【chéng】效果不亚于单反【fǎn】相片直出:已经有不少用户体验后【hòu】,开始畅想【xiǎng】将这个 Text-to-3D 工具大规模应【yīng】用在游戏、影视等工业应用上了。

据了解,用户反馈会成为【wéi】 ChatAvatar 团队快速迭【dié】代和更【gèng】新的重【chóng】要依据,形成数【shù】据飞轮,以便及时提供更加完【wán】整【zhěng】和【hé】贴近【jìn】需求的功能。

事【shì】实上,对于【yú】此前的 3D 行业设【shè】计师或公司来说,大部分 AI 文字转 3D 应【yīng】用并【bìng】非效果不好,但实际落地到工业【yè】设计【jì】流程【chéng】上【shàng】,还是【shì】有不少难【nán】度。

这次 ChatAvatar 能如此出圈,背后究【jiū】竟有什么技术【shù】上的原【yuán】因?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要【yào】替代人类,事实上仅【jǐn】仅就【jiù】 Text-to-3D 领域,就【jiù】并非那么容易【yì】替【tì】代。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么【me】理【lǐ】解?从专业 3D 美工【gōng】设计的视角来【lái】说,至少有三个方面【miàn】——

质量、可控性和生成速度。

首先是【shì】质量。尤其是对于强调视【shì】觉效果的影视、游【yóu】戏行【háng】业来说,要想生成符合管线要【yào】求的 3D 资产【chǎn】,拓扑规整度、纹【wén】理贴图【tú】的精度等 " 行业潜规则【zé】 ",都是 AI 产品第一道必须【xū】迈过去【qù】的坎。

以拓扑【pū】结构的规整度【dù】为【wéi】例,这里本质上指的是【shì】 3D 资产布线的合理【lǐ】度【dù】。

对于 3D 资产来说,拓扑的规整度,往往【wǎng】直【zhí】接影【yǐng】响物体的动画效果【guǒ】、修【xiū】改处理效率和贴图绘制速度:

据行内 3D 美工设计介绍,手工重拓扑的时【shí】间成【chéng】本【běn】往往比制作【zuò】 3D 模型本身更高,甚【shèn】至按倍数以计。这意【yì】味着即使 AI 模型生成的 3D 资产再【zài】炫酷,如果生成的拓扑规整度达不【bú】到要求,成本就【jiù】无法从根【gēn】本上得到降低【dī】。更【gèng】别提纹【wén】理精度【dù】。

影眸科技的 ChatAvatar 项【xiàng】目在生成【chéng】质量、速【sù】度以【yǐ】及标准【zhǔn】兼容上相比先前的工【gōng】作都有明【míng】显的提升

以目前游【yóu】戏、影视行业【yè】普遍要求【qiú】的 PBR 贴图为例,包含【hán】的反【fǎn】射率【lǜ】贴图、法线贴图等一【yī】系【xì】列贴图,相当于 2D 图【tú】像 PSD 文【wén】件的 " 图层 ",是 3D 资【zī】产流水线生产必不可少的条件之一。

然而,目【mù】前 AI 生成的 3D 资产往往是一个【gè】 " 整体 ",少【shǎo】有【yǒu】能【néng】按要求单【dān】独生成符合【hé】产业环境的 PBR 贴【tiē】图的效果。

其次是可【kě】控性【xìng】,对【duì】于生成式 AI 而言,如何让生成的内容更加 " 可控 ",是【shì】 CG 产【chǎn】业【yè】对于这【zhè】项技术提出的又一大要求。

以大众所熟知的 2D 产【chǎn】业【yè】为例【lì】,在 ControlNet 出现之【zhī】前,2D AIGC 行业【yè】一直处在一种 " 半【bàn】摸【mō】黑前进 " 的状态。

也就【jiù】是说,AI 能生【shēng】成指定类【lèi】别的物体画面,却无法【fǎ】生成指定姿态的物体,生成【chéng】效【xiào】果全靠提示工程和【hé】 " 玄学 "。

而【ér】在 ControlNet 出【chū】现后,2D AI 图像生成的可控【kòng】性获【huò】得了突飞【fēi】猛进的提升,然【rán】而对于 3D AI 而言,要想生成【chéng】对应效果的资产,很大程度上依旧得依【yī】靠专业【yè】的提示工程【chéng】。

最后是【shì】生成速度。相比【bǐ】 3D 美工设计而言,AI 生成的优【yōu】势在于【yú】速度,然而【ér】如果 AI 渲【xuàn】染的速度【dù】和【hé】效果无法与人工匹敌的话,那么这项技【jì】术依旧无法给产业【yè】带来收益。

以当前在 AI 技术上颇【pō】受欢迎的【de】 NeRF 为【wéi】例,其产业化落地【dì】就【jiù】面临速度和质量的兼容性难题【tí】。

在生【shēng】成质量【liàng】较【jiào】高【gāo】的情况下,基于 NeRF 的【de】 3D 生成往往需要【yào】相当漫【màn】长的【de】时【shí】间;然而如果追求速度,即使【shǐ】是 NeRF 生成的 3D 资产便完全【quán】无法投入产【chǎn】业使用。

但即使解【jiě】决了【le】这个问题,如何在不损失精度【dù】的前提下让 NeRF 与传统 CG 行业的主【zhǔ】流【liú】引【yǐn】擎兼容仍然是一个【gè】巨大的问题【tí】。

从【cóng】上面的产业【yè】标准化【huà】流程不难发现,大部【bù】分 AI 文本转【zhuǎn】 3D 应用落地存在【zài】两大瓶颈

一个是需要【yào】手动完成【chéng】提示工程【chéng】,对于非【fēi】 AI 专【zhuān】业人士【shì】、或不了解 AI 的设计师来【lái】说不够友好;另一【yī】个是生成的 3D 资产【chǎn】往往不符合产业标准,即使再好看也无法【fǎ】投【tóu】入使用。

针对这【zhè】两点,ChatAvatar 给出【chū】了两点具体有效【xiào】的解【jiě】决方案。

一方面,ChatAvatar 实现了除手动输入提【tí】示【shì】工程外的【de】第二【èr】条道路,也【yě】是【shì】更适合普通人的【de】一条捷径:通过 " 甲方模式 " 直【zhí】接对话描【miáo】述需求。

团队官方推【tuī】特介绍称【chēng】,为了实现这一特性,ChatAvatar 基于 GPT 的能【néng】力,开【kāi】发了一种对话【huà】描述转【zhuǎn】人像特征【zhēng】的方【fāng】法。

设计【jì】师【shī】只需要不断【duàn】和【hé】 GPT 聊天,描述自己想要的 " 感觉 ":

GPT 就能自动帮忙完成提示工程,将结果输送【sòng】给 AI:换而言之,如果说 ControlNet 是 2D 行业的 "Game Changer",那么【me】对于 3D 产业来说,能实【shí】现文本转【zhuǎn】 3D 的 ChatAvatar,无【wú】异【yì】于【yú】行业的游戏规则改变【biàn】者【zhě】。

另一方【fāng】面更为重【chóng】要,那就【jiù】是 ChatAvatar 能完【wán】美兼容 CG 管线,即生【shēng】成【chéng】的资产在【zài】拓扑结【jié】构、可控性和速度上都符合产业要求。

同【tóng】时,生成的模型和高精【jīng】度材【cái】质贴【tiē】图,还能在后期【qī】的【de】渲【xuàn】染中达到极为逼真的渲染效果。

为【wéi】了实现这样的效果,团队【duì】为 ChatAvatar 自研了一个渐进式 3D 生【shēng】成框【kuàng】架【jià】 DreamFace。

其中【zhōng】的关键,在【zài】于训练【liàn】该模型用【yòng】的底层【céng】数据,即影眸科【kē】技基于 " 穹顶光场 " 采集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过引【yǐn】入外部【bù】 3D 数【shù】据库,DreamFace 能够直【zhí】接输出符【fú】合 CG 流程的资产。

生成的资产驱动渲染的效果

上【shàng】述两大技术瓶【píng】颈的解决,本质【zhì】上进一步加【jiā】速了 AIGC 洪流下," 生【shēng】成 " 将取代【dài】 " 搜索【suǒ】 " 的时【shí】代趋势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此前,我们需要找到一张符【fú】合需求【qiú】的图片【piàn】或者资产时,通常会【huì】使【shǐ】用搜【sōu】索引擎【qíng】进行查询。

ChatAvatar 项【xiàng】目主页上【shàng】展示的巨大的 " 搜索框【kuàng】 " 和整齐的资产卡片【piàn】,看似搜索引擎,但实【shí】际上是一种与搜【sōu】索截然不同【tóng】的资产查【chá】找方式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以前,如果我们【men】需要一张插【chā】图,可能要在多个图【tú】库中反复【fù】搜索,或【huò】是通【tōng】过【guò】 Photoshop 合成、手绘等较复杂的方【fāng】式才能得到【dào】结果。但在 Stable Diffusion 等技术出现后,你只【zhī】需要通过文字【zì】描【miáo】述想要【yào】的图【tú】像,就【jiù】能直【zhí】接生【shēng】成符合需求的结果。

这对于传统的资产库来说是一【yī】个巨大【dà】的冲击【jī】。而 ChatAvatar 的【de】目标【biāo】,正是用 3D 生成替代【dài】传统的搜索【suǒ】式【shì】 3D 资产库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激【jī】起千层浪,进入 AI 2.0 时代之后,人【rén】们【men】的目光也【yě】投【tóu】向包含图像、视【shì】频、3D 等【děng】信息的多模态 AI。

仅就 3D 生成领域而言,无论是影视还是【shì】游戏行【háng】业,3D 内容生产和消【xiāo】费市场已经拥有【yǒu】足【zú】够大【dà】的【de】规模,但在【zài】制作层【céng】面【miàn】却因技术难度遭【zāo】遇掣肘。

譬如【rú】,文本领域大行其道的 Transformer,在 3D 生成【chéng】领域的使用还【hái】相对有限。

去年夏天,当文生图领域因 Diffusion Model 取得成绩后【hòu】,人们【men】开始期【qī】待文字生成 3D有同样惊艳的表现【xiàn】。一旦生成式 AI 的 3D 创作【zuò】技术成熟,VR、视频等【děng】的内容【róng】创【chuàng】作都【dōu】将起飞【fēi】。

扩【kuò】散【sàn】模型 Midjourney5.1 生成【chéng】的 " 梵高风摄影 "

事【shì】实上【shàng】,无【wú】论是科【kē】技【jì】巨头还是初创公司,的确都在朝 Text-to-3D 这个方向暗暗发力【lì】。

去【qù】年 9 月,谷歌发布了基于【yú】文本【běn】提示生成 3D 模型【xíng】的 FreamFusion,声称不需要 3D 训【xùn】练数据,也不需要修改图像扩散【sàn】模【mó】型【xíng】。紧随其后,Meta 也推出【chū】可以【yǐ】从文本【běn】一键生成视【shì】频的【de】 Make-A-Video 模型。

后来的 Text-to-3D 的 AI 模型队伍中,还先后【hòu】出现了【le】英伟【wěi】达【dá】 Magic3D、OpenAI 最新开源项【xiàng】目【mù】 Shap-E 等,今年 8 月将【jiāng】举办的计算机图形顶会 SIGGRAPH 2023 所【suǒ】展【zhǎn】示的论文,也有多篇与【yǔ】 Text-to-3D 有关。

影眸【móu】科技有【yǒu】关文本指导的渐进式 3D 生【shēng】成框架 DreamFace 的论【lùn】文,就是【shì】其中之一【yī】。

而【ér】 ChatAvatar,也是目前【qián】为止最集中【zhōng】在 3D 数字人资【zī】产方向【xiàng】的生成式模型产品。

其背后的 AI 初创公司影眸科技,2020 年【nián】孵化自上海科技大学 MARS 实【shí】验室【shì】,成立后【hòu】获得奇绩创坛与红杉种子的两轮投【tóu】资【zī】。

公【gōng】司专注于专注于计【jì】算机【jī】图形学、生成式 AI 的研【yán】究与产品化。2021 年,AIGC 还【hái】未【wèi】掀起【qǐ】巨浪【làng】之时,公司就【jiù】已经推出国内首个 AIGC ToC 绘画应用 Wand,产品一度登【dēng】顶 AppStore 分区榜首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将首个商【shāng】业化场景具体【tǐ】锚定在数字【zì】人后,ChatAvatar 是他们【men】乘【chéng】 AIGC 东风在该【gāi】方【fāng】向的最新进展。

作为一个【gè】新推出的产品,ChatAvatar 在兼【jiān】容性、完成【chéng】度和精度等产【chǎn】品效果层面【miàn】,都超【chāo】出了影【yǐng】眸团队预【yù】期。然而在吴迪口中,行至此处【chù】的过程【chéng】 " 很狼狈 "。

主要原【yuán】因不【bú】外乎 " 缺【quē】人 " 一事。目前,影眸已经【jīng】在多类别 3D 生成技术上【shàng】取得了进展,下一【yī】步【bù】还计划推出 "3D 生【shēng】成大模型 "。

影眸科技将【jiāng】于 5 月【yuè】上【shàng】线首个多模态跨平【píng】台【tái】 3D 搜索引擎 Rodin,打通 Sketchfab 等多个 3D 资产平台,支持以文搜 3D、以【yǐ】图搜 3D 甚【shèn】至以【yǐ】 3D 搜 3D。搜索引擎【qíng】只是 Rodin 的初级形态,影眸将把【bǎ】 Rodin 打造为 3D 生成【chéng】大模型【xíng】。

需要【yào】持【chí】续向【xiàng】前推进,就【jiù】需要更多的工程【chéng】化团队、技术美【měi】术和拥抱【bào】生成式 AI 的产品人才加入团队。作为一【yī】个以研发为背景主【zhǔ】基调的【de】团【tuán】队,这样的人才仍然紧【jǐn】缺。

" 人是万物【wù】的尺度," 吴迪表示道," 我们需要更【gèng】多志【zhì】同【tóng】道合的人加入,共【gòng】同【tóng】推动 3D 领域【yù】的创新发展【zhǎn】。"

可以看【kàn】到,ChatAvatar 背后技【jì】术从无到有的搭【dā】建,揭示【shì】了一家【jiā】 AI 初创公司的不断创新【xīn】;而从这家公司对人【rén】才的渴望以小见【jiàn】大,更揭【jiē】示着 AIGC 浪【làng】潮【cháo】下,每一个【gè】细分领域想要从水下浮出水【shuǐ】面的【de】心。

你【nǐ】愿意拥抱生成式【shì】 AI,成【chéng】为 Text-to-3D 领域的 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件