当前位置: 网站首页 >AI教程资讯 >正文

Phantom – 字节跳动推出的主体一致视频生成框架

来源:爱论文 时间:2025-03-17 11:30:12

Phantom是什么

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

Phantom

Phantom的主要功能

从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。根据文本提示生成视频:用户基于文本指令控制视频的内容和风格,实现高度定制化的视频生成。多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。身份保留(ID-Preserving):在生成视频时,保留主体的身份特征(如人脸、服装等),特别适用于虚拟试穿、数字人生成等场景。高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现出色,与现有的商业解决方案相当。

Phantom的技术原理

数据结构设计:Phantom构建了文本-图像-视频三元组数据结构,用在训练模型理解不同模态之间的关系。数据分为In-paired(图像与视频主体一致)和Cross-paired(跨视频匹配)两种类型,避免模型简单复制输入图像。模型架构:基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计联合文本-图像注入模型。模型分为输入头(Input Head)和可训练的DiT模块。输入头负责编码视频、文本和参考图像,DiT模块负责跨模态对齐和视频生成。跨模态对齐:参考图像基于特定的视觉编码器(如VAE和CLIP)编码后,与视频特征和文本特征分别拼接,输入到DiT模块的视觉和文本分支。身份保留技术:在处理人脸等身份特征时,基于面部识别模型(如ArcFace)评估生成视频与参考图像的相似度,确保主体身份的一致性。优化与训练:基于大规模的三元组数据训练,学习如何在生成视频时平衡文本和图像的双重提示。模型在预训练阶段继承基础模型的权重,基于跨模态数据进一步微调,实现高质量的视频生成。

Phantom的项目地址

项目官网:https://phantom-video.github.io/Phantom/GitHub仓库:https://github.com/Phantom-video/PhantomarXiv技术论文:https://arxiv.org/pdf/2502.11079

Phantom的应用场景

虚拟试穿:生成服装动态展示视频,帮助用户预览效果。数字人生成:创建具有特定外貌的虚拟角色,用于虚拟主播等场景。广告视频制作:根据图像和文本快速生成产品广告,提升制作效率。影视动画:生成角色动画原型,辅助创意验证,降低制作成本。教育培训:生成科学实验、历史场景等教学视频,增强互动性。
上一篇:Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
相关资讯 更多+
  • Phantom – 字节跳动推出的主体一致视频生成框架
    Phantom – 字节跳动推出的主体一致视频生成框架

    Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。

    AI教程资讯 2023-04-14

  • Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
    Aider – 开源AI编程助手,基于命令行指定自动完成代码修改

    Aider 是开源的AI辅助编程工具,基于终端与大型语言模型(LLM)配合,实现高效代码编辑和开发。Aider支持多种编程语言,如 Python、JavaScript、TypeScript 等,能与 Claude 3 5 Sonnet、DeepSeek R1、OpenAI 的o3-mini、 GPT-4o 等多种 LLM 无缝对接。

    AI教程资讯 2023-04-14

  • TongGeometry – 北京通院联合北大AI研究院推出的几何模型
    TongGeometry – 北京通院联合北大AI研究院推出的几何模型

    TongGeometry 是北京通用AI研究院和北京大学AI研究所联合推出的基于树搜索的几何模型,专门用在提出和解决奥林匹克级别的几何问题。TongGeometry基于高效的搜索算法和大规模并行计算,建立迄今为止最广泛的几何定理库,发现了67亿个需要辅助构造的几何定理,其中41亿个具有几何对称性。

    AI教程资讯 2023-04-14

  • Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
    Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

    Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练,Magma 结合了语言智能、空间智能和时间智能,能完成从 UI 导航到机器人操作的复杂任务。

    AI教程资讯 2023-04-14

最新录入 更多+
确定