当前位置: 网站首页 >AI教程资讯 >正文

HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

来源:爱论文 时间:2025-05-14 09:21:56

HoloTime是什么

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为沉浸式的 4D 场景。HoloTime 引入 360World 数据集,包含大量固定摄像头拍摄的全景视频,用在训练 Panoramic Animator,生成高质量的全景视频。HoloTime 推出 Panoramic Space-Time Reconstruction 技术,基于时空深度估计将全景视频转换为 4D 点云,优化为一致的 4D 高斯点云表示,实现沉浸式的虚拟现实体验。

HoloTime的主要功能

从单张全景图像生成全景视频:将静态的全景图像转化为具有动态效果的全景视频,视频中包含丰富的运动信息,如物体运动、场景变化等。全景视频到 4D 场景的重建:支持将生成的全景视频转换为 4D 点云,进一步优化为一致的 4D 场景表示,支持虚拟漫游和多视角观察。沉浸式体验支持:生成的 4D 场景能够为 VR(虚拟现实)和 AR(增强现实)应用提供沉浸式的交互体验,用户能在场景中自由移动和探索。

HoloTime的技术原理

Panoramic Animator(全景动画生成器):两阶段生成策略:首先生成低分辨率的粗视频,提供全局运动指导;基于高分辨率的细化模型增强局部细节。混合数据微调(Hybrid Data Fine-tuning, HDF):结合全景视频和类似景观的普通视频数据进行训练,弥补数据分布的差异,提升模型的泛化能力。全景循环技术(Panoramic Circular Techniques, PCT):在视频的左右两端创建重复区域进行混合处理,确保全景视频的水平方向连续性,避免拼接处的视觉断裂。Panoramic Space-Time Reconstruction(全景时空重建):用全景光流估计模型和窄视场深度估计模型,对全景视频的每一帧进行深度估计,确保深度信息在时间和空间上的连续性。将全景视频及其深度图转换为带有时间属性的 4D 点云,作为 4D 场景的初始表示。基于优化 4D 点云的表示,实现空间和时间上一致的 4D 场景重建,支持高效渲染和动态视图合成。360World 数据集:为训练 Panoramic Animator 提供大规模的固定摄像头全景视频数据,数据集包含丰富的场景和动态信息,支持模型学习全景视频的生成规律。

HoloTime的项目地址

项目官网:https://zhouhyocean.github.io/holotime/GitHub仓库:https://github.com/PKU-YuanGroup/HoloTimeHuggingFace模型库:https://huggingface.co/Marblueocean/HoloTimearXiv技术论文:https://arxiv.org/pdf/2504.21650

HoloTime的应用场景

虚拟现实(VR)和增强现实(AR):提供沉浸式的 4D 场景,让用户在虚拟环境中自由漫游,增强体验感。虚拟旅游和在线展览:生成全景 4D 场景,让用户远程游览景点或展览,仿佛身临其境。影视制作:快速生成高质量的全景背景和特效,降低拍摄成本,提升视觉效果。游戏开发:创建动态的游戏场景,增强玩家的沉浸感和视觉体验。建筑设计和城市规划:生成全景 4D 场景,帮助设计师直观展示设计方案,提前评估效果。
上一篇:NoteLLM – 小红书推出的笔记推荐多模态大模型框架
相关资讯 更多+
  • HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架
    HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

    HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为沉浸式的 4D 场景。

    AI教程资讯 2023-04-14

  • NoteLLM – 小红书推出的笔记推荐多模态大模型框架
    NoteLLM – 小红书推出的笔记推荐多模态大模型框架

    NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。

    AI教程资讯 2023-04-14

  • T2I-R1 – 港中文联合上海AI Lab推出文生图模型
    T2I-R1 – 港中文联合上海AI Lab推出文生图模型

    T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低层次像素生成的解耦,显著提升图像生成的质量和鲁棒性。

    AI教程资讯 2023-04-14

  • Cobra – 清华、港中文和腾讯开源的漫画线稿上色框架
    Cobra – 清华、港中文和腾讯开源的漫画线稿上色框架

    Cobra(Efficient Line Art COlorization with BRoAder References)是清华大学、香港中文大学和腾讯ARC实验室推出的漫画线稿上色框架,专为高精度、高效率和灵活的工业应用设计。框架整合超过200张参考图像,用因果稀疏注意力(Causal Sparse Attention)和局部可复用位置编码技术,有效管理长上下文信息,确保颜色一致性和身份保留。

    AI教程资讯 2023-04-14

最新录入 更多+
确定