当前位置: 网站首页 >AI教程资讯 >正文

SEED-Story – 腾讯推出的多模态故事生成模型

来源:爱论文 时间:2025-05-05 12:00:26

SEED-Story是什么

SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。SEED-Story还提供了StoryStream,一个大规模高分辨率数据集,用于模型训练和评估。

SEED-Story的主要功能

多模态故事生成:SEED-Story 能根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事。多模态注意力汇聚机制:SEED-Story 提出了一种多模态注意力汇聚机制,以高效自回归的方式生成故事,可以生成长达25序列的故事。大规模数据集 :SEED-Story 发布了一个名为 StoryStream 的大规模、高分辨率数据集,用于训练模型并从不同方面定量评估多模态故事生成任务。故事指令调整:在故事生成的过程中,SEED-Story 通过指令调整过程,对模型进行微调,可以预测故事的下一个图像和下一句文本。可视化和交互:SEED-Story 还提供了可视化比较,展示了生成的图像与其他基线模型相比具有更高的质量和更好的一致性。

SEED-Story的技术原理

多模态大语言模型(MLLM):利用大型语言模型来理解、生成和预测文本和视觉标记。这种模型能够处理和生成文本数据,同时理解和生成视觉内容。文本和视觉标记预测:SEED-Story模型能够预测文本标记(文本中的元素或单词)和视觉标记(图像中的元素)。视觉de-tokenizer:将语言模型生成的文本和视觉标记转换为图像,通过视觉de-tokenizer生成具有一致性和风格的图像。多模态注意力机制:引入多模态注意力机制,使模型在生成故事时能够关注文本和图像之间的相互关系。这种机制允许模型更有效地处理长序列的生成任务。自回归生成:模型采用自回归方式生成故事,即每个新生成的标记依赖于之前生成的所有标记,以保持故事的连贯性。长序列生成能力:通过多模态注意力机制,SEED-Story能够生成比训练序列更长的故事序列。StoryStream数据集:提供一个大规模的高分辨率数据集,用于训练模型并评估多模态故事生成任务。数据集包含视觉上引人入胜的高分辨率图像和详细的叙述文本。训练流程:包括预训练去标记器以重建图像,采样交错图像文本序列进行训练,以及使用MLLM的回归图像特征来调整生成的图像。

SEED-Story的项目地址

GitHub仓库:https://github.com/TencentARC/SEED-Story
上一篇:FlashFace – 阿里联合香港大学推出的高保真AI写真工具
相关资讯 更多+
  • SEED-Story – 腾讯推出的多模态故事生成模型
    SEED-Story – 腾讯推出的多模态故事生成模型

    SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。

    AI教程资讯 2023-04-14

  • FlashFace – 阿里联合香港大学推出的高保真AI写真工具
    FlashFace – 阿里联合香港大学推出的高保真AI写真工具

    FlashFace是阿里联合香港大学推出的高保真AI写真工具。能基于用户提供的面部图像和文本提示,快速生成个性化的高保真人像写真图。FlashFace具备高保真度身份保留、即时个性化、多样化结果生成等特点,支持改变人物年龄和性别,甚至将虚拟角色转化为逼真真人照片。

    AI教程资讯 2023-04-14

  • EasyAnimate – 阿里推出的AI视频生成工具
    EasyAnimate – 阿里推出的AI视频生成工具

    EasyAnimate是阿里推出的AI视频生成工具,支持文生视频和图生视频两种方式,用户可以上传图片作为视频的起始和结束画面,实现更灵活的视频编辑。EasyAnimate最长可生成1分钟的视频,适用于内容创作、教育、营销等多种场景。

    AI教程资讯 2023-04-14

  • EmoTalk3D – 华为、复旦联合推出的3D数字人框架
    EmoTalk3D – 华为、复旦联合推出的3D数字人框架

    EmoTalk3D是华为诺亚方舟实验室、南京大学和复旦大学共同推出的3D数字人框架。技术的核心在于能合成具有丰富情感表达的3D会说话头像。EmoTalk3D能捕捉和再现人类在说话时的唇部动作、面部表情,甚至是更微妙的情感细节,如皱纹和其他面部微动。

    AI教程资讯 2023-04-14

最新录入 更多+
确定