首页 > 科技圈 > 正文

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

2024-08-24 | 浏览：

IT之家8月24日消息，MetaAI公司最新推出了Transfusion新方法，可以结合语言模型和图像生成模型，将其整合到统一的AI系统中。

IT之家援引团队介绍，Transfusion结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。

Meta解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过Transfusion采用单一、统一的Transformer架构，适用于所有模式，对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数：文本使用下一个标记预测，图像使用扩散。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

为了同时处理文本和图像，图像被转换成图像片段序列。这样，模型就能在一个序列中同时处理文本标记和图像片段，特殊的注意力掩码（attentionmask）还能让模型捕捉图像内部的关系。

有别于Meta现有的Chameleon（将图像转换成离散的标记，然后用处理文本的方式处理）等方法，Transfusion保留了图像的连续表示法，避免了量化造成的信息损失。

实验还表明，与同类方法相比，“融合”的扩展效率更高。在图像生成方面，它取得了与专门模型相似的结果，但计算量却大大减少，令人惊讶的是，整合图像数据还提高了文本处理能力。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

研究人员在2万亿个文本和图像标记上训练了一个70亿参数的模型。该模型在图像生成方面取得了与DALL-E2等成熟系统相似的结果，同时还能处理文本。

IT之家附上参考地址

Meta‘s“Transfusion”blendslanguagemodelsandimagegenerationintooneunifiedmodel

Transfusion：PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModel

TAGS：图像 Meta AI

相关阅读：

德媒：德国军工巨头向乌克兰提供侦察卫星图像
原标题：德媒：德国军工巨头向乌克兰提供侦察卫星图像据德国《世界报》网站11月11日报道，近几个月来，德国莱茵金属公司进军太空领域，现正向乌克兰传输太空侦察图像。 2024-11-15
有“狼”又有“鲸”，珠海航展是如何降维打击的？
评论员曾小强：这两天，一段外宾在珠海航展驻足观看我国直-9F的视频引起了网友热议，很多网友都说，这个画面让自己想到了一位老人，40多年前，我们的刘华清将军当时也是 2024-11-15
美方据报要求台积电对7纳米AI芯片实施出口限制，商务部回应
11月14日，商务部召开例行新闻发布会。有记者提问，据报道，美国商务部已致函台积电，对运往中国的某些用于人工智能加速器和图形处理单元的7纳米或更先进设计的复杂芯片 2024-11-14
智领兴时代中兴通讯2025年度全球合作伙伴大会召开
11月12日，以“智领，兴时代”为主题的中兴通讯2025年度全球合作伙伴大会在深圳召开。本次大会邀请了中兴通讯全球约200家战略合作伙... 2024-11-13
“一人一机”抵珠海，俄传奇飞行员有多传奇？曾遇到危险，飞机空中燃烧14秒
据新华社报道，第十五届中国国际航空航天博览会将于11月12日在广东珠海开幕。参加航展的中外战机以及航展物资正陆续抵达珠海，其中... 2024-11-11
舒达智能床躺鉴会，引领AI智能睡眠新时代
近期，全球睡眠品牌舒达于深圳举办了一场主题为“舒达智能床|智领AI睡眠新时代”的新品躺鉴会。躺鉴会不仅带来了足以变革智能睡眠行... 2024-11-11