当前位置: 网站首页 >AI教程资讯 >正文

Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

来源:爱论文 时间:2025-03-10 13:23:33

Liquid是什么

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。Liquid摒弃传统外部视觉模块,用LLM的语义理解能力进行多模态任务,显著降低训练成本(相比从头训练节省100倍),在视觉生成和理解任务中表现出色,超越部分扩散模型。Liquid揭示了多模态任务的尺度规律,证明随着模型规模增大,视觉与语言任务的冲突逐渐消失,且两者能相互促进。

Liquid

Liquid的主要功能

视觉生成:根据文本描述生成高质量的图像,支持多种分辨率和风格。视觉理解:处理图像相关的任务,如视觉问答(VQA)和图像描述生成。多模态融合:将视觉和语言任务无缝结合,支持同时处理文本生成、图像生成和视觉理解任务。高效扩展:基于现有的大型语言模型(LLM),用少量数据和低成本训练,快速扩展多模态能力。语言能力保留:在增加视觉生成能力的同时,保持强大的语言生成和理解能力,适用于多模态混合任务。

Liquid的技术原理

图像分词器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)将图像编码为离散的视觉token。视觉token与文本token共享同一词汇表空间,让图像和文本用统一的方式处理。统一的特征空间:视觉token和文本token在同一个特征空间中学习,基于“下一token预测”任务进行训练。支持模型在视觉和语言任务之间无缝切换和优化。基于LLM的生成:Liquid扩展现有的大型语言模型(LLM),基于强大的语义理解能力进行视觉生成和理解。在LLM中添加视觉token的嵌入,处理视觉任务,无需额外的视觉模块(如CLIP或扩散模型)。多模态数据训练:用混合数据(文本数据、图文对数据)进行预训练,模型同时学习语言和视觉任务。基于调整数据比例,优化模型在不同任务上的表现。双向促进机制:视觉生成和视觉理解任务共享统一的token空间,优化目标一致,两者能相互促进。增加视觉生成或理解任务的数据,提升模型在另一任务上的表现。

Liquid的项目地址

项目官网:https://foundationvision.github.io/Liquid/GitHub仓库:https://github.com/FoundationVision/LiquidHuggingFace模型库:https://huggingface.co/Junfeng5/LiquidarXiv技术论文:https://arxiv.org/pdf/2412.04332在线体验Demo:https://huggingface.co/spaces/Junfeng5/Liquid_demo

Liquid的应用场景

创意设计:根据文字描述生成高质量图像,辅助艺术创作、广告设计和游戏美术。内容创作:自动生成与文本相关的图片,用于社交媒体、博客和新闻报道。视觉问答:理解图像内容并回答相关问题,用于教育、客服和智能助手。多模态对话:结合图像和文字进行智能交互,提升对话系统的自然性和实用性。VR/AR应用:生成虚拟场景和物体,增强沉浸感和交互体验。
上一篇:X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
相关资讯 更多+
  • Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
    Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

    Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。

    AI教程资讯 2023-04-14

  • X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
    X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

    X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器(Transformer)和扩散模型,用 2D 人体姿态建模,基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。

    AI教程资讯 2023-04-14

  • AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架
    AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

    AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出的,用在自动驾驶事故视频理解的创新框架。基于生成与详细自然语言描述和推理对齐的事故视频,显著提升对复杂事故场景的理解能力。

    AI教程资讯 2023-04-14

  • Kiss3DGen – 基于图像扩散模型的3D资产生成框架
    Kiss3DGen – 基于图像扩散模型的3D资产生成框架

    Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及对应的法线图组合成一种拼贴表示,法线图用于重建3D网格,多视图图像则提供纹理映射。

    AI教程资讯 2023-04-14

最新录入 更多+
确定