推出类sora架构3D生成大模型 DreamTech连续完成两轮数千万元融资

邓咏仪 ☉ 文来源：36氪
2024-06-25 @ 哈希力量文库

文库划重点：相较于2D图像及视频，3D内容生成这一细分领域所处的发展阶段更早，技术路线在之前一直处于探索期。如果想利用AI生成一个3D的立体模型，主要有2D升维和原生3D两种技术路线。

DiT在3D生成领域也有很广阔的应用前景。

AI创业公司「DreamTech」连续完成数千万元天使轮及天使+轮融资，天使轮为元禾原点领投，启迪之星创投、云天使基金跟投，天使+轮为初心资本独家投资。

就像语言大模型技术的进步直接推动了ChatGPT等文本生成AI的浪潮一样，在图像、视频、三维领域，大模型技术也推动了包括2D、3D等生成式AI的进步。

「DreamTech」就是一家专注于原生3D生成的AI创业公司，公司于2023年12月开始正式运营。CEO张飞虎博士毕业于牛津大学，团队的创始成员包括了英国两院院士，国家级青年人才，腾讯会议创始成员等，曾在苹果、腾讯、百度等行业领先企业任职。创始团队成员曾成功创立多家成为3D领域标杆的公司，这些公司分别被苹果、谷歌、博世等业界巨头收购。

除了文本内容之外，生成式AI首先作用于2D图像的生成，从2022年开始，包括Midjourney、Stability AI等专注AI生成图片方向的公司迅速崛起，带动了文生图领域的迅速繁荣，而OpenAI SORA，Luma Dream Machine，快手可灵等AI生成视频方向的应用也成为当前热点，如今，文生图、文生视频领域已经有不少基座模型，技术路线也趋于收敛。而相较于2D图像及视频，3D内容生成这一细分领域所处的发展阶段更早，技术路线在之前一直处于探索期。

如果想利用AI生成一个3D的立体模型，主要有2D升维和原生3D两种技术路线。此前，绝大多数公司采用2D升维路线——具体来说，2D升维需要先经历从文字或单张2D图像到多视角图像，再进行重建得到3D模型，其优势是可在现有图像生成模型（例如Stable Diffusion）基础上进行微调，更容易完成训练。缺点是过程复杂，中间的误差累计导致生成的3D模型出现畸形、多头等质量问题。

另外，由于2D图像本质上缺少3D信息，而2D升维的模型架构设计上主要针对2D数据处理进行优化，无法继续像大语言模型一样scale up，生成质量已经达到瓶颈，即使增加模型参数和训练数据，3D生成质量也很难继续提高。

相较之下，原生3D采用纯3D数据进行训练，优点是由于训练的数据和优化的目标都是原始的3D模型，生成的3D模型质量和效果会更好，更接近原始3D模型的质量，也更能处理应对复杂场景。

“但最大的难点在于，全世界的3D数据稀缺且昂贵，据估计，全世界的高质量3D数据仅有400-500万左右，而且建模依赖于人工，制作成本高且花费时间长，通常一个高质量的3D模型在建模环节就需要花费专业三维设计师约2周时间。并且，相比较于图像、视频这类2D/2.5D规则数据易于latent表征，3D Diffusion的训练中的数据维度更高过程需要耗费巨量的算力。”张飞虎对36氪表示。

DreamTech团队之所以选择原生3D路线，首先是其在高效的3D模型表征上找到了新的方法，通过Decoder网络实现了对原始3D数据近乎无损的恢复。

其次，团队基于Diffusion Transformer架构，在3D领域做了大量优化，在，在扩大训练数据规模以及增加参数量后，大模型的生成质量会得到巨大提升。

一个典型例子是，OpenAI在2024年发布的SORA，就是基于Diffusion Transformer架构进行训练，展示了震惊世界的生成效果，无论是视频分辨率、视频时长还是视频生成质量都得到了极大提升。

再者，为了解决3D数据困境，DreamTech团队自研了一套3D数据合成引擎，建立了数据清洗、标注等全自动数据处理流程，其产出的3D数据在千万量级，均为高质量数据，能够用于进一步的模型训练。

在今年5月，DreamTech发布了采用3D Diffusion Transformer（3D-DiT）架构的Direct3D-1B模型（10亿参数）。张飞虎表示，这是全球首个公开发布的原生三维生成路线的3D大模型。随着训练数据量的增加，模型的生成质量明显提升，接下来，团队还会进一步扩大模型参数和训练规模。

并且，尽管用的是原生3D路线，训练成本反倒减少了。基于原生3D数据模型表征及3D-DiT训练上的突破，DreamTech把训练和推理的算力成本压缩为了原先的十分之一，将原本需要千卡以上的训练任务压缩到了百卡规模。

张飞虎表示，预计今年年底，在产品工程层面，团队还会进一步优化，将图像或文字生成3D内容的模型推理时间压缩至30秒以内。

当前，DreamTech在模型层面已经完成初步开发，接下来将逐步迭代，产品层面也在同步准备，下半年将启动产品落地。团队计划先从游戏、二次元人群的C端产品入手，推出符合二次元用户娱乐社交需求的相关产品。在B端用户上，也会针对游戏、动画创作者推出基于原生3D大模型生成能力的三维创作平台。

关于长远目标，DreamTech团队成员认为，从语言、图片到视频以及接下来的真实世界模拟器，多模态路线演进过程中必然绕不开三维空间。“真实的世界是四维世界，是有空间、时间维度的。”张飞虎表示，“我们的目标是做有时空交互的真实世界的模拟器，从3D路线出发，对应了三维空间，之后加入实时交互与物理引擎，就能模拟还原真实世界。而真实世界模拟器是训练通用人工智能的必要工具，通过大量模拟不同参数下的真实世界，通用人工智能才能更快实现。”

据悉，DreamTech新一轮融资即将启动，一苇资本担任独家财务顾问。

元禾原点合伙人乐金鑫表示：“3D内容是数字世界不可或缺的生产要素，生成式3D是AI作为新质生产力的典型应用，将大幅降低行业成本，提高优质内容的生产效率，进而推动AIGC新的范式在3D打印、AR/VR、游戏、影视、机器人领域和计算机辅助设计等应用场景的快速落地。DreamTech团队多年深耕AI 3D生成领域，凭借全球领先的技术方案解决了高质量3D内容生成的难题。元禾原点坚定看好3D生成领域的巨大投资价值，也将长期陪跑像DreamTech这样的优秀的创业团队。”

云天使基金创始合伙人秦捷表示：“数字世界的3D化是一个大的趋势，高质量3D内容（模型）的制作和生产将成为3D数字资产市场和3D规模化应用的关键。AI生成技术可以大幅降低3D模型制作成本，提高3D模型制作质量和效率，具有很好的产品化潜力和市场价值。DreamTech核心团队有优秀的技术背景，在3D生成领域有深厚的学术积累，相信团队在张飞虎博士的带领下会成为全球AI生成领域的一股新的力量。”

启迪之星创投总经理、管理合伙人刘博表示：“我们非常看重DreamTech通过端到端的原生3D生成技术，成功解决了Janus多头问题。生成的高质量3D模型能够无缝集成到Unity、Blender和3DS Max等主流软件中，显著提升了3D建模的效率和精度。核心团队成员来自牛津大学、南京大学、港中文等顶级学府，具备丰富的技术和市场经验，并曾参与多个被收购的3D项目，积累了深厚的行业知识和独到的见解。我们相信，DreamTech不仅符合我们对早期创新企业的投资理念，还将在推动3D建模技术进步和拓展游戏开发、3D打印等领域的市场应用中开创广阔的前景。”

初心资本合伙人许旸洋表示：“我们坚信技术创新是3D生成技术迅猛发展浪潮中构建核心竞争力的基石。正如Midjourney凭借其自主研发的模型赢得市场认可，Runway作为Stable Diffusion的共同创造者获得业界赞誉，初心看好在3D生成领域深耕细作，具备技术壁垒与优秀迭代能力的团队。DreamTech的原生三维生成技术突破了传统3D生成的限制，其生成速度和质量均达到了商业化要求，解决了长期困扰行业的高质量三维内容生成难题。DreamTech作为稀缺的具有深厚学术积累和明确应用场景的3D生成平台及应用开发商，初心看好其团队持续打造质量过硬、市场信任的模型及产品的能力，并致力于与团队并肩前行，从3D原生出发，迎接4D时空体验的到来。”

原文标题：《推出类sora架构3D生成大模型，「DreamTech」连续完成两轮数千万元融资》

原文编辑｜苏建勋

收录于哈希力量，手机站省略本文固定网址

.长文建议换电脑刷.

【投融资简报库】

Capsule获1200万美元融资

深圳劢微机器人获得亿元B2轮

OpenAI收购Context.ai团队