大模型时代，腾讯翻盘需要混元DiT

Original 苗正数据猿 2024-05-22

大数据产业创新服务媒体

——聚焦数据 · 改变商业

作为首个基于中文的DiT架构，腾讯的混元DiT在发布后，仅仅用了1个礼拜的时间，就在GitHub上拿下了1500个星星。相较于那些远在海外的兄弟姐妹们，混元DiT的优势在于能够捕捉到中文的细微含义，甚至是古代诗词、中式菜肴等文化特定元素，并生成与之高度匹配且质量上乘的图像。

图：混元DiT以“杞人忧天”为提示词生成的图片

混元DiT结合了两个文本编码器，分别是一个双语的CLIP和一个多语言的T5编码器。CLIP是一种具有强大跨模态理解能力的模型，可以将文本和图像嵌入到同一向量空间中进行比较，而T5则是一种多语言文本编码器，具有广泛的语言理解能力。这种双编码器的组合模式，使得模型在处理中文输入时能够更好地理解语义和上下文，从而提高了对中文的处理能力。

市面上主流的文生图大模型，比如OpenAI的Sora，以及Stable Diffusion 3，都没有使用这样的编码器组合。直白一点说，中文，就是混元DiT的主战场。

在混元DiT上，腾讯的开发者构建了一个强大的数据管道来处理数据的整个生命周期，包括数据的添加、过滤、维护、更新和应用。这对于模型的迭代优化非常关键。

为了进一步提高生成图片的质量，混元DiT应用了多模态大语言模型（MLLM）来改进图像描述。同时，混元DiT还支持多轮多模态对话，允许用户通过自然语言交互迭代地细化图像。这对于动态和交互式的图像创作特别有用。

为什么这么多人关注混元DiT

混元DiT在GitHub上的星标达到了1500颗，比同时期爆火到破圈的ManbaOut还高，后者是一篇专门用来反驳Mamba模型的论文。

业内之所以如此关注，最核心的原因在于这是一个开源的DiT模型。这是一种结合了扩散模型（Diffusion Models）与Transformer模型的机器学习模型，通过一系列反转的扩散步骤从随机噪声中逐步生成数据样本。

简单点说，DiT又能像Transformer一样，捕捉长距离关系，进而生成高质量的内容。又能像扩散模型一样，减少了直接在高分辨率像素空间训练的计算负担，还促进了对图像特征的更高效学习和生成过程的控制。

OpenAI在2024年2月15日发布的Sora，使用的正是DiT模型。随后的一段日子里，英文DiT模型确实不少，但是一直没有一款中文DiT模型问世。

华为曾发布过一个DiT模型叫做PiXArt-Alpha，GitHub的星标冲到了2300颗，然而可惜的是，这个模型只能使用英文提示词。

图：PixArt-Alpha下方写着只允许输入英文提示词

行业之所以一直使用基于英文的DiT模型，是因为训练数据是基于英语的。这也就意味着，虽然模型能理解中文，也能输出中文，但是不能用中文“思考”，生成图片的过程必须使用英文。使用中文会极大增加基于英语的DiT模型计算时的复杂程度，其表现结果为生成图片的质量下降。

中文作为一种表意文字，其字符结构、语法特点以及文化背景与拉丁字母语言截然不同，这要求模型不仅要有强大的语言理解能力，还要能够准确把握中文特有的语义和文化内涵。因此，构建一个能够有效理解并生成与中文文本相符图像的模型需要解决一系列技术难题，包括但不限于中文文本的编码、多模态语义对齐以及如何在生成过程中保留中文的文化和语境细节。

另一方面，技术的发展往往与市场需求紧密相关。随着人工智能技术的普及和中文互联网生态的迅速增长，市场对高质量中文内容生成的需求日益凸显。

在混元DiT出现之前，中文生成模型的缺失反映了市场和技术成熟度之间的差距。可能是因为之前中文市场的规模或具体应用场景尚未达到足以驱动大规模研发资源投入的程度，或是中文生成技术的商业价值和应用场景尚不明确。

混元DiT在某种程度上激活了整个中文生成模型的市场，再加上腾讯将其开源，可能一开始腾讯也没有预料到混元DiT会有如此之高的关注度，不过事实就是，腾讯引爆了行业。

混元DiT是腾讯的翻盘救星？

此前，腾讯曾押宝于数字孪生技术（Digital Twin）。这是一种利用数字化模型来模拟、分析和优化实体物体（如产品、系统或过程）的技术。这种技术可以通过在数字环境中创建与实体物体相对应的虚拟模型来实现。

在最初引起广泛关注的阶段，数字孪生技术被认为是一种革命性的概念，可以彻底改变产品设计、制造、运营和维护的方式。比如企业可以通过创建物理资产的数字模型，在虚拟环境中测试和优化各种操作参数和条件，从而找到最佳的操作方式，极大程度降低了企业的研发开支。

虽然也有不少云计算巨头也参与了数字孪生技术的竞争，不过腾讯在游戏、动画方面的建树，使得他们在数字孪生上投入了更多精力。

但是随着Transformer模型的崛起，尤其是像GPT-3、BERT等自然语言处理模型的出现，让科技行业的发展重心，转移到了Transformer模型上，越来越多的计算机人才涌入了Transformer模型的怀抱。与之相对的，数字孪生的热度开始逐渐降低，出现了边缘化的迹象。

2023年3月16日，百度发布了文心大模型。仅过了半个多月，阿里就在同年4月7日发布了通义千问。然而腾讯方面，直至2023年9月7日，才在2023腾讯全球数字生态大会上正式发布了混元大模型。

腾讯坐拥微信和QQ两大聊天通讯软件，本应该在自然语言处理相关领域走得比较靠前，可是在语言大模型领域，腾讯却慢上了半拍。

在咨询公司弗若斯特沙利文的《2024年中国大模型能力评测》中，混元大模型虽然后来居上，打败了一众先腾讯入场的大模型，可是性能上仍然低于文心一言以及通义千问。

图：《2024年中国大模型能力评测》给出的评分表

腾讯需要一个超车的机会，“中文DiT”“开源”等等关键词正是混元大模型加速时需要的燃料。实现了这些其他人没有的标签时，混元DiT则成功帮助腾讯实现翻盘，后入场的腾讯反而变成真正意义上领跑的那个人了。

诚然，腾讯是入场比较晚，不过在腾讯整个技术产品体系中，混元大模型处于核心地位。因为腾讯可以通过大模型这项技术，辐射其他应用产品，从而升级服务和体验。

腾讯混元大模型是由腾讯AI Lab负责研发的。这个部门成立于2016年，主要研究方向包括自然语言处理、计算机视觉、语音识别和机器学习等。手机游戏《王者荣耀》中，那些实力和玩家不相上下的AI，就是腾讯AI Lab开发的。

混元大模型的渊源可以追溯到2017年，当时腾讯AI Lab推出了基于Transformer结构的神经机器翻译系统，这是腾讯在自然语言处理领域的一个重要突破，也是造就混元大模型的初始之地。随后，腾讯AI Lab不断投入研发，逐步完善模型的性能和功能，混元大模型也就此诞生。

混元DiT将要如何发展？

目前在混元DiT的GitHub页面上可以看到，混元DiT还需要处理一些问题。比如生成图片的质量不及Stable Diffusion 3，以及不能并行处理单张图片等等。腾讯的开发者在GitHub上回复到，混元DiT会在近期推出蒸馏和TRT加速版本模型。蒸馏模型指的是模型体积变小，减少计算资源消耗，同时不影响输出结果。TRT加速版本是指模型利用英伟达的TensorRT技术进行加速，让用户在使用英伟达GPU的前提下，可以更轻松地运行混元DiT模型。对于互联网公司来说，流量变现是看家本领。混元DiT为腾讯带来足够的热度，接下来就看腾讯如何接住这泼天的富贵了。如果顺着这样的发展路线进行推理，腾讯极有可能会推出为手机用户准备的移动版混元DiT，以及为电脑客户端用户准备的网页版DiT，甚至是客户端版DiT，毕竟英伟达的Chat with RTX已经实现了全面脱网运行大模型。腾讯对混元大模型的定义一直都是“实用级”大模型，旨在通过混元大模型来解决实际的问题。根据腾讯的说法，目前，混元大模型已在腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯产品和服务中进行测试和应用，提供智能化解决方案。随着混元DiT今后的小型化和应用化，腾讯势必会加速整个混元大模型的商业落地能力。此外，开源模型意味着腾讯“留有后手”。大模型企业往往都藏着一些技术更先进的大模型，是为了在技术路线不暴露的前提下，验证模型的性能。比如实则为ChatGPT-4o的ChatGPT-2。混元DiT开源，意味着在中文生成模型领域，腾讯准备了比混元DiT更先进的技术手段。

文：苗正 / 数据猿
责编：凝视深空 / 数据猿

继续滑动看下一个

数据猿

向上滑动看下一个

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

打虎不停歇！今年已有5名正部级被查

拜登和特朗普首场电视辩论：禁用道具，麦克风受控

大模型时代，腾讯翻盘需要混元DiT

您可能也对以下帖子感兴趣

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

打虎不停歇！今年已有5名正部级被查

拜登和特朗普首场电视辩论：禁用道具，麦克风受控

生成图片，分享到微信朋友圈

大模型时代，腾讯翻盘需要混元DiT

您可能也对以下帖子感兴趣