当前位置: 网站首页 >AI教程资讯 >正文

Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型

来源:爱论文 时间:2025-03-17 16:47:53

QIHOO-T2X是什么

Qihoo-T2X 是360 AI 研究院和中山大学推出的基于代理标记化扩散 Transformer(PT-DiT)的高效多模态生成模型,Qihoo-T2X引入稀疏代理标记注意力机制,显著降低传统扩散 Transformer 在全局自注意力计算中的冗余性,结合窗口注意力和移位窗口注意力增强细节建模能力。Qihoo-T2X 支持多种任务,包括文本到图像(T2I)、文本到视频(T2V)和文本到多视图(T2MV)生成。

QIHOO-T2X

Qihoo-T2X的主要功能

文本到图像:根据输入的文本描述生成高质量、高分辨率的图像,生成与文本描述高度一致的图像内容,适用于创意设计、艺术生成等领域。文本到视频:根据文本描述生成连贯的视频内容,支持生成动态场景和视频序列,适用于视频创作、动画制作等场景。文本到多视图:根据文本描述生成同一物体或场景的多视角图像,适用于 3D 对象的多视角展示,支持虚拟现实(VR)和增强现实(AR)应用。高效生成:基于优化的代理标记化注意力机制,显著降低计算复杂度,支持高分辨率图像和长视频的高效生成,降低训练和推理成本。

Qihoo-T2X的技术原理

代理标记化注意力:传统的扩散 Transformer 用全局自注意力机制,计算复杂度高且存在冗余。PT-DiT(Qihoo-T2X的核心架构) 基于在每个时空窗口内计算平均标记作为代理标记(proxy tokens),对代理标记进行自注意力计算,大幅减少计算量。代理标记之间的全局语义信息基于交叉注意力(cross-attention)注入到所有潜在标记中,确保全局信息的有效传播。窗口注意力与移位窗口注意力:为增强局部细节建模能力,PT-DiT 引入窗口注意力机制,对局部窗口内的标记进行自注意力计算。移位窗口注意力机制用在避免因窗口划分导致的“网格效应”,进一步提升生成质量。稀疏代理标记的高效计算:基于稀疏代理标记机制,PT-DiT 在处理高分辨率图像和长视频时,显著降低计算复杂度,且保持生成内容的质量。多任务适应性:PT-DiT 的架构设计能无缝适应图像生成、视频生成和多视图生成等多种任务,无需对模型结构进行重大调整。

Qihoo-T2X的项目地址

项目官网:https://360cvgroup.github.io/Qihoo-T2X/GitHub仓库:https://github.com/360CVGroup/Qihoo-T2XarXiv技术论文:https://arxiv.org/pdf/2409.04005

Qihoo-T2X的应用场景

创意设计与艺术创作:基于文本描述快速生成高质量艺术图像,支持多种风格,加速设计流程,为艺术家提供灵感。视频内容生成:生成连贯的动画视频,适用于广告、宣传和动画制作,减少视频创作成本和时间。教育与培训:生成教学用图像和视频,帮助学生理解复杂概念,支持虚拟实验室和动态教学资源。娱乐与游戏开发:生成虚拟场景、角色和动态内容,用在游戏开发、虚拟现实(VR)和增强现实(AR)应用,提升沉浸感。广告与营销:快速生成个性化广告图像和视频,提高营销效果,满足品牌视觉内容需求。
上一篇:MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
相关资讯 更多+
  • Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型
    Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型

    Qihoo-T2X 是360 AI 研究院和中山大学推出的基于代理标记化扩散 Transformer(PT-DiT)的高效多模态生成模型,Qihoo-T2X引入稀疏代理标记注意力机制,显著降低传统扩散 Transformer 在全局自注意力计算中的冗余性,结合窗口注意力和移位窗口注意力增强细节建模能力。

    AI教程资讯 2023-04-14

  • MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
    MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架

    MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架,基于文本描述或图像输入生成高质量的分步教程。MakeAnything 基于非对称低秩适配(LoRA)技术平衡泛化能力和任务特定性能,引入ReCraft模型实现从图像到过程的逆向生成。

    AI教程资讯 2023-04-14

  • AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体
    AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体

    AutoAgents 是基于大型语言模型(LLM)的自动智能体生成框架,能根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。项目通过智能自动化技术,帮助开发者、数据科学家和企业用户更高效地完成复杂任务。

    AI教程资讯 2023-04-14

  • RSIDiff – 基于合成数据提升图像生成质量的递归自训练框架
    RSIDiff – 基于合成数据提升图像生成质量的递归自训练框架

    RSIDiff 是用于提升文本到图像扩散模型性能的递归自训练(RSI)框架。通过迭代优化模型,基于模型自身生成的数据进行训练,解决传统自训练中常见的训练崩溃问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定