IT之家8月24日消息,MetaAI公司最新推出了Transfusion新方法,可以结合语言模型和图像生成模型,将其整合到统一的AI系统中。
IT之家援引团队介绍,Transfusion结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。
Meta解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。
许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。
不过Transfusion采用单一、统一的Transformer架构,适用于所有模式,对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数:文本使用下一个标记预测,图像使用扩散。
为了同时处理文本和图像,图像被转换成图像片段序列。这样,模型就能在一个序列中同时处理文本标记和图像片段,特殊的注意力掩码(attentionmask)还能让模型捕捉图像内部的关系。
有别于Meta现有的Chameleon(将图像转换成离散的标记,然后用处理文本的方式处理)等方法,Transfusion保留了图像的连续表示法,避免了量化造成的信息损失。
实验还表明,与同类方法相比,“融合”的扩展效率更高。在图像生成方面,它取得了与专门模型相似的结果,但计算量却大大减少,令人惊讶的是,整合图像数据还提高了文本处理能力。
研究人员在2万亿个文本和图像标记上训练了一个70亿参数的模型。该模型在图像生成方面取得了与DALL-E2等成熟系统相似的结果,同时还能处理文本。
IT之家附上参考地址
Meta‘s“Transfusion”blendslanguagemodelsandimagegenerationintooneunifiedmodel
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModel