X-Fusion是什么
X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。在输入和输出层面,在中间处理层面对齐文本和视觉特征,实现高效的多模态融合。

来源:爱论文 时间:2025-05-14 09:25:08
X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。在输入和输出层面,在中间处理层面对齐文本和视觉特征,实现高效的多模态融合。
X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。
AI教程资讯
2023-04-14
Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链,在推理时有效利用计算资源。
AI教程资讯
2023-04-14
HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为沉浸式的 4D 场景。
AI教程资讯
2023-04-14
NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。
AI教程资讯
2023-04-14