哎呀酋长2024年11月13日发布:太好了是开源 3D 模型，我们有救了！

⭐发布日期：2024年11月13日 | 来源:哎呀酋长

⭐作者：杰里·莱西责任编辑:Admin

⭐阅读量:508 评论：4人转发：2次

【二四六香港资料期期准一】

【2024澳门天天开好彩大全凤凰天机】

【新奥免费精准资料大全】

【新澳精准资料免费提供最新版】

【2024年新奥正版资料免费大全】

【澳门天天彩资料免费大全新版】

【新奥最新版精准特】

【2O24澳门天天开好彩】

【澳门天天彩全年正版资料】

【新奥彩资料免费提供】

内容编辑丨特工女巫

排版审核丨特工少女

还记得在 23 年，女巫有一个遗憾。当时参与一个 AI 项目，想用 GenAI 能力让用户个性化地创作 IP 形象的玩偶、模型，或者包装盒的立体效果图。

但与团队讨论，结论是，由于市面上还没有很好的开源的 3D 模型可以用，其他技术方案开发成本又比较高，生成 3D 内容的想法于是作罢。

转眼一年不到，惊喜地发现混元上了个 3D 模型，可以轻松实现当年的预期效果了。

光说不做假把式，腾讯混元 3D 生成大模型已经与腾讯内部业务场景结合落地了，如 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等。

此前，腾讯地图就利用混元 3D 大模型，上线了「自定义 3D 导航车标」功能。用户可以创作个性化的 3D 导航车标。

腾讯混元 3D 大模型，相比传统方案，使 3D 车标生成速度提升了 91.1%，生成成功率从 50% 提升至 97.4%，从个性化新意和效率上都提升了用户体验。

此外，元宝里的「3D 角色梦工厂」功能，也正是基于混元 3D 团队的技术。

用户只需上传一张五官清晰的正面头像，选择不同角色模版，就能迅速生成个性化的 3D 人物形象。3D 形象生成完成后，用户可以对形象从 360 度随意查看，也可以选择把形象分享公开，将 UGC 曝光到平台。

此前吴恩达在一次线上采访交谈中（吴恩达，对 Agentic Workflow 持续兴奋），也表示了他对于 AI 业内开源闭源争议的看法。

吴恩达认为更多的开源会让世界变得更好，让很多人过得更好；闭源实际上是非常危险的，这不利于创新，不利于融入世界 LLM 的供应链中；开源带来的好处远大于闭源造成的伤害。

业内已经看到的如国内的通义、国外的 Llama 系列模型热衷开源步调，腾讯混元大模型也正在加速开源节奏。

自从上次 5 月 14 日混元将其文生图大模型对外开源，成为业内首个中文原生的 DiT 架构文生图开源模型。

就在今天 11 月 5 日，特工们注意到，混元宣布了最新的 3D 生成模型「Tencent-Hunyuan3D-1.0」正式开源，包括模型权重、推理代码、模型算法的全面开源；开发者可在 Huggingface、GitHub 等技术社区直接下载。

据悉， Tencent-Hunyuan3D-1.0 又是业界首个同时支持文生 3D、图生 3D 的开源模型?

论文地址：https://3d.hunyuan.tencent.com/hunyuan3d.pdf

3D 模型是 GenAI 多模态内容生成的关键，使模型生成能力更加接近现实世界真实立体事物的生产。

对于一个 3D 模型，可以从生成内容的质量、速度、泛化性角度考察。

1. 质量方面，经过多个维度测评，在两个公开的 3D 数据集 GSO 与 OmniObject3D 上， Tencent-Hunyuan3D-1.0 效果优于主流开源模型，并且生成质量上全面超过了 SOTA 开源模型，整体能力属于国际领先水平。

2. 速度方面，据官方公开披露，Tencent-Hunyuan3D-1.0 最快仅需 10s 即可生成一个 3D 作品，缩短的时长对用户来说是友好且效率的。

3. 泛化性方面，混元 3D 生成大模型可构建各类尺度、形态、场景的物体，大型如建筑楼宇，细微如花草动物。

为了提升上述提及的过往 3D 生成模型在生成速度和泛化能力上的不足，混元团队采用了两阶段生成方法，既保证基础的生成的质量和可控，又能加快生成速度。

第一阶段，腾讯混元采用的是一种轻量级的多视角扩散模型，它可以在约 6 秒内高效生成多视角图像。这一步的作用在于，将一个整体的复杂 3D 生成任务，通过不同视角捕捉的 3D 资产的纹理和几何特征，从单视角重建转化为难度更低的多视角重建任务。就好像一个美术生，对一个复杂立方体，先分别观察其各个面的细节。

第二阶段，腾讯混元引入了一种快速的重建大模型，利用上一阶段生成的多视角图像，这个模型能够在大约 3 秒内快速而准确地重建 3D 资产。重建模型的强大之处在于，它可以学习处理多视角扩散引入的噪声和不一致性，并利用条件图像中的可用信息高效恢复 3D 结构。最终，该模型可以实现输入任意单视角生成 3D 资产。就像上述美术生观察完各面后，还会主动学习思考如何更好处理各面的质量，最终制作一个 3D 作品。

总体来说，此次腾讯混元开源的 Tencent-Hunyuan3D-1.0，相较于过往的 3D 模型，在生成速度和泛化能力上有较大提升；不难想象，这样一款更强的 3D 生成大模型，可以帮助设计师、创作者、艺术家等自动化生产 3D 资产；在玩具手办、3D 打印、广告舞美等行业，用于数字或实物商品的制作，激发个性化创意，提高生产效率。

除此之外，在大语言模型方面，特工也关注到腾讯还开源了更强大的 MoE 开源大语言模型——「腾讯混元Large」，它具有以下几点特质。

1. MoE 混合专家结构：每一层都包含多个并行的同构专家，一次 token 的前向计算只会激活部分专家，是一种稀疏的网络结构，因而推理成本远低于同等参数的稠密模型，这使得混元 Large 可以在保证模型推理速度的同时，显著提升模型的参数量进而提升模型性能。 Large 模型还创新了路由策略，提出随机补偿的路由方式，有效提升模型内专家的利用率和稳定性，从而提升模型性能表现。

2. 参数量和上下文长度：模型总参数量 389B，激活参数量 50B，上下文长度达 128k， 是当前业界参数规模最大、效果最好的开源 MoE 模型。（根据公开的测评结果，腾讯混元 Large 在 CMMLU、MMLU、CEval、AGIEval 等多学科综合评测集、中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3、Mixtral 等国外一流的开源大模型）