你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x-AIGC专属社区-合毅科技

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA

发布于 2024-6-27 10:05
浏览
0收藏

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

文章链接:https://arxiv.org/pdf/2406.09162

git链接:https://tencentqqgylab.github.io/EMMA


图像生成的最新进展使得从文本条件创建高质量图像成为可能。然而,当面对多模态条件(如文本结合参考外观)时,现有方法难以有效平衡多种条件,通常表现出对某一种模态的偏好。为了解决这一挑战,引入了EMMA,这是一种基于最先进的文本到图像(T2I)扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示。EMMA通过一种创新的多模态特征连接器设计无缝结合文本和其他模态信息,引导图像生成。该设计使用了一种特殊的注意机制,有效整合了文本和补充模态信息。


通过冻结原T2I扩散模型中的所有参数,只调整一些附加层,发现了一个有趣的现象,即预训练的T2I扩散模型实际上可以接受多模态提示。这一有趣的特性便于适应不同的现有框架,使得EMMA成为一个灵活有效的工具,用于生成个性化和情境感知的图像甚至视频。此外,本文引入了一种策略来组合已学习的EMMA模块,以同时生成基于多模态条件的图像,消除了需要对混合多模态提示进行额外训练的需求。大量实验表明,EMMA在保持生成图像的高保真度和细节方面效果显著,展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

主要贡献如下:

  • 多模态提示的创新集成机制:本文引入了EMMA,这是一种开创性的方式,将多模态提示的特征融合到图像生成过程中,同时不影响文本控制。本文的方法显著增强了图像生成的灵活性和适用性,能够实现多种模态之间的协同交互。这一创新允许在多种输入条件下生成高质量的图像。
  • 模块化且高效的模型训练:本文的框架便于根据不同模态进行模型的模块化组装,从而简化了流程,在引入新条件时无需重新训练。这种高效的训练程序节省了资源,加快了模型适应新任务的速度。
  • 通用兼容性和适应性:EMMA作为即插即用模块,可无需微调即适用于各种现有和新兴的模型,包括各种图像和视频生成应用。它与Stable Diffusion框架及其他模型的兼容性增强了其在不同领域的实用性。
  • 稳健的性能和细节保留:通过实验,确认了EMMA模型对各种控制信号的稳健性,确保在生成图像时保留文本和视觉细节。模型的架构设计具有可扩展性和灵活性,能够适应广泛的条件和应用,同时保持高保真度和高质量。

方法

模型架构

EMMA 的整体流程如下图2(a)所示。本文的模型条件包括两个方面。一是文本特征,另一是自定义图像特征,例如视觉剪辑特征或面部embedding。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

在 EMMA 中,通过 ELLA提出的 Perceiver Resampler 块注入文本特征,如上面图 2(b) 所示。图像特征通过新提出的模块 Assemblable Gated Perceiver Resampler 感知,如图 2 (c) 所示。


具体来说,将EMMA分为三个主要组件,并详细描述它们。


文本编码器:配备了T5以理解丰富的文本内容。先前的研究表明,T5 擅长提取文本特征,使其非常适合为下游任务提供文本特征。


图像生成器:在图像生成领域,众多研究人员和从业者根据其具体目标和数据类型微调了各种模型。研究者们致力于使最终网络确保特征的泛化,从而最大限度地利用社区中常见的高质量模型。


多模态特征连接器:网络架构如上图2所示。借鉴 Flamingo和 ELLA 的灵感,连接器由两个交替堆叠的网络模块组成:Perceiver Resampler 和 Assemblable Gated Perceiver Resampler。Perceiver Resampler 主要负责整合文本信息,而 Assemblable Gated Perceiver Resampler 旨在整合其他信息。这些网络模块使用注意力机制将多模态信息同化为可学习的token embedding,然后作为条件提供给 U-net。定义这些模块如下。连接器包含 K 个可学习token,表示为 Latent。时间embeddings、文本特征和附加条件分别表示为 t、T 和 C。


Perceiver Resampler 块可以分为两个部分。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

这里,TimeAwareAttn 和 TimeAwareFFN 是自定义的注意力和前馈神经网络 (FFN) 模块,使用 AdaLN 将时间embedding整合到输入中。ELLA 已经证明了这种方法的优势。Assemblable Gated Perceiver Resampler 的公式类似。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

在这些方程中,AttnGate 和 FFNGate 是两组用于调节特征整合的门控。它们的定义如下。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

这里,λ 是门控比例,一个固定的超参数,A 和 F 是全局门控。Linear(L) 是可分离门控。

多条件图像生成

开发文本生成图像能力。通过 ELLA 的训练范式,开发了一个具备强大文本生成图像能力的模型。如图4 第一行所示,ELLA 可以生成严格遵循指令的图像,这构成了 EMMA 多模态指导的基础。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

选择性模块化特征训练。为了增强训练过程的稳定性和最终性能,在网络架构中集成了几个创新设计元素。例如,Perceiver Resampler 和 Assemblable Gated Perceiver Resampler 之间的交替结构旨在限制网络中间层的特征空间。这可以防止图像信息传递过多的先验知识,可能会削弱文本的控制力并破坏最终的生成结果。Assemblable Gated Perceiver Resampler 包含分离的门控,使得可以将额外的特征整合到几个可训练的embedding中。


多条件图像生成模块的组装。在为每个单独的条件建立强大模型之后,设计了一种创新方法,使模型能够整合现有模块并生成受多个因素约束的图像。如图所示,集成了 Assemblable Gated Perceiver Resampler。无需额外训练,模型可以合成所有输入条件并生成新颖的输出。这表明在不依赖预先存在的训练数据集的情况下进行图像生成的潜力。


这个过程可以用数学表达式表示为:

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

以这种方式,可以在无需进一步训练的情况下,将各种条件应用于图像生成过程。

实验

定量评估

风格条件生成。根据 IP-Adapter的评估设置,评估了所有方法在 COCO 验证集上的 CLIP-T 和 CLIP-I 分数。验证集中有 5000 个提示。按照 IP-Adapter的描述,为每个提示生成四张图像。


肖像生成。研究者们收集了一个肖像数据集,并基于 ActivityNet 验证集构建了 20 个人体动作提示。在此基础上,测试了各种主体驱动的图像生成方法的生成能力,并使用 CLIP-T 分数和 DINO 分数指标评估了结果。结果如下表 2 所示,本文提出的 EMMA 相较于之前的方法获得了最高分数。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

可分离门控机制。如下表 1 所示,比较了在有和没有分离门控的风格条件下训练的 EMMA 模型。带有分离门控的 EMMA 表现更好,这是因为这种设计对不同的token embedding引入了更细粒度的控制。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

如图 5 所示,在特定条件下,不同的tokens 起到不同的作用。没有分离门控的情况下,生成的结果很容易受到不相关token embeddings的影响。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

可视化

不同条件下的肖像创建。展示了各种肖像生成的结果。如前面图4 所示,本文的方法在保持关键图像元素(如衣物)方面表现出色,并且严格遵循文本指令。第一行展示了文本生成图像的输出,描绘了一位女性在不同场景中从事各种活动。中间行展示了多模态图像生成的结果,附加条件如面部或肖像特征生成了符合给定指令的角色图像。最后一行展示了复合条件图像生成,可以生成既遵循指令又保留一张图像中的面部特征和另一张图像中的肖像元素的图像。


门控值可视化。在本文提出的 EMMA 中,门控设计是一个关键模块,允许在模型内自由组合。该设计引入了更多的模型参数,增强了模型的表达能力。此外,研究者们观察到不同模型中显著门控值的tokens 索引分布具有独特的模式。tokens 索引分布的这种独特模式对于本文方法的适应性至关重要,能够实现灵活和不受限制的模型集成。可视化结果如上面图 5 所示。

结论

本文提出了 EMMA,一种多模态图像生成模型,具有革新从多种条件生成图像方式的潜力。通过独特的多模态特征连接器集成文本和附加模态,EMMA 在图像生成的真实度和细节上达到了现有方法无法匹敌的水平。其模块化设计允许轻松适应各种框架。此外,EMMA 可以组合现有模块以同时生成基于多种模态条件的图像,消除了额外训练的需要。EMMA 为个性化图像生成提供了高效且适应性强的解决方案。


总之,EMMA 在图像生成方面的创新方法为平衡多种输入模态设立了新的基准。随着生成模型领域的不断发展,EMMA 有望成为开发更复杂和用户友好技术的基石,推动 AI 驱动内容创作的下一波创新。


限制。当前版本的 EMMA 只能处理英文提示。未来,研究者们将尝试在支持多语言提示的扩散模型中实现相同的算法。

你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA-AI.x社区

本文转自 AI生成未来 ,作者:Yucheng Han等


原文链接:​​https://mp.weixin.qq.com/s/f4-sMrKSctUPc7x84SLtaQ​

收藏
回复
举报
回复
相关推荐

相关内容推荐

博士论文算不算学术四川学术会议2019学术协会工作计划皮肤抓伤的医学术语中考备考经验学术发言稿湿压纸塑学术名称人文社科学术名著推荐学术道德案例分析报告题目国际学术交流课文翻译雅思学术类评分标准中国搞学术的大佬有谁生小孩学术上叫什么名乳腺长江学术带名单浙江农家的学术渊源有哪些搞学术头秃的文案扩大学术发表的渠道产品学术沙龙会议费用护理医学术语简写为文化安全学术会议通知夏少军百度学术为什么要做学术追踪测评自动化专业学术名称与学术相关的公共政策形容科研学术水平什么化教研室学术活动策划学术与专业硕士分数线学科数学属于学术类吗胡希恕学术思想总结第五批学术带头人警察需要做学术工作吗吗基础教育的学术文献西安交大学术会议网大学学术计划是什么月经不规律的医学术语邀约学术交流的话术学士学位和学术学费移动通信相关学术论文题目2021决策学术会议学术活动通知模板范文大全林学会年度学术交流计划学术杂志收稿要求怎么写学术争论缺乏什么能力滴天髓是否是伪学术唳天学术是普刊么上谷歌学术要外网吗种植牙的学术名称叫啥苹果绵蚜学术特征图文学学术会议结束词大学生学术大赛宗旨关于学术不端的回复函嘴上起口疮医学术语乳腺长江学术带名单浙江和学术有关的笔名英文学术考研需要看哪些书具有学术研究价值的农村ttp与ttr医学术语声乐专业学术论文题目学术交流与专业实践报告全球学术快报打印论文要求学术会议线上直播平台瑞士学术跟风景同样优秀孙玉华一百度学术贵州高校学术网络免费吗英语学术论文关于科技发展学术会议典礼欢迎词参加学术会议的通知英语头面部皮肤缺损学术沙龙学术研究 笔记本墨尔本大学有哪些学术专业创新精神学术研究介绍梅雨的气象学术法学学术硕士招生统计学术体会与生活感悟作文严谨的治学渊博的学术知识测量定位的学术名词解释吴贺文学术会议旅游体育局学术助理职责曹晓昱百度学术关于政治的学术问题研究乳房的学术用语叫什么学术英语中的易混淆词高校成立学术委员会三联当代学术丛书如何朱丹溪学术思想简介最大学术期刊有哪些关于学术的励志句子英语学术诚信公益广告语学术研究的视觉材料论文写作学术诚信是什么2022农业学术会议列表会计学的学术问题北宋开封东京遗址学术探究广西师大2018学术会议宁德林寿学术水平咋样胳膊能活动医学术语全国学术英语词语竞赛学术界第十二期欧阳电百度学术英语教师的学术思考是什么新能源汽车的学术报告心理咨询师学术四川测绘学术中华医学院神经肿瘤学术混凝土的学术名称叫什么余宇辉百度学术学术论文图表绘制心得外科论坛学术会议内容诱食剂学术报告欧米伽3的学术名英国高校学术会议英文胡少华百度学术地理学术名词在哪查询日本有哪些学术学会证书学术道德案例分析报告题目药厂产品学术推广员什么学术报告免费听道家出名的学术著作北交所学术研究常见的学术不端行为有学术期刊建设的意义想走学术道路复读可以吗学术写作词汇正式与客观学术报告ppt尾页党校学术活动规范内容学术诚信英语视频教程学术论坛倡议书EAP学术英语管理季佩英西安工程大学学术评估职业教育学术文献综述学术口语汇报英语作文医学术语英文缩写apt广东学术展厅设计哪家好药学专业学术刊物名称转化为学术英语怎么说动画学术趴刘书亮作学术报告的步骤美术类学术刊物有哪些吴立新百度学术海洋平行线学术期刊深厚的学术理论基础手指部位解剖学术语关于英语学术研讨英语翻译付腾鹏学术交流海洋馆学术论文学术思想中有法家吗专业学术槽是什么意思如何查学术论文资料真假学术研究 素养怎么写学术科研或奖励名称可持续的学术沙龙主题学术推广会照片冬天科技学术竞赛内容有哪些波士顿的学术氛围好吗学术英语有配套软件吗吗什么是论文什么是学术文章结构性学术评价体系广西学术联盟考试怎么查分打呼噜的学术名称梁静百度学术兰大王芳教授学术报告学术技术称号级别怎么填许氏骨伤学术思想爱学术app显示系统错误中英学术自由差异英文版文旅融合的学术价值竹荪生物学特性学术追求学术的路上英语大学生学术大赛宗旨2019年核学会学术年会学术活动不停歇的人学术创新人物故事学术2019第七期需要重点关注的学术成果唐建军百度学术各国学术论坛有哪些最难忘的学术活动英文孙庆伟的学术水平学术期刊出现校对世界神学学术会议炉石传说怎么获得学术剽窃海绵城市的学术研究学术论文中摘抄本格式企业创新学术会议视频学术期刊哪儿可以买到啊宁波材料所青年学术之星姚军百度学术成都中医大学学术学位小学的学术课题如何选学术论文批量更改逗号盆腔炎学术思想网上哪里可以学神学术语班级管理的学术价值有哪些知府张朝瑞 学术成就学术 血凝仪清洗液鱼丸大豆分离蛋白分量学术学术翻译写作难吗mdpi学术编辑是干嘛的品牌建设学术研究会学术写作的写作方式是学术支持经理是干嘛的

合作伙伴

合毅科技

www.urkeji.com
www.china185.com
jl.urkeji.com
seo.china185.com
www.8830000.cn
zz.urkeji.com
www.28j.com.cn
www.seo5951.com
www.28j.com.cn
www.xtcwl.com
www.xtcwl.com
www.gzlyapi.com
www.gzlyapi.com
www.china185.com
www.urkeji.com
www.3phw.com
www.kmpower.cn
www.china185.com
seo.urkeji.com
www.desai360.com