HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架-爱论文

HoloTime是什么

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架，基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频，进一步重建为沉浸式的 4D 场景。HoloTime 引入 360World 数据集，包含大量固定摄像头拍摄的全景视频，用在训练 Panoramic Animator，生成高质量的全景视频。HoloTime 推出 Panoramic Space-Time Reconstruction 技术，基于时空深度估计将全景视频转换为 4D 点云，优化为一致的 4D 高斯点云表示，实现沉浸式的虚拟现实体验。

HoloTime的主要功能

从单张全景图像生成全景视频：将静态的全景图像转化为具有动态效果的全景视频，视频中包含丰富的运动信息，如物体运动、场景变化等。全景视频到 4D 场景的重建：支持将生成的全景视频转换为 4D 点云，进一步优化为一致的 4D 场景表示，支持虚拟漫游和多视角观察。沉浸式体验支持：生成的 4D 场景能够为 VR（虚拟现实）和 AR（增强现实）应用提供沉浸式的交互体验，用户能在场景中自由移动和探索。

HoloTime的技术原理

Panoramic Animator（全景动画生成器）：两阶段生成策略：首先生成低分辨率的粗视频，提供全局运动指导；基于高分辨率的细化模型增强局部细节。混合数据微调（Hybrid Data Fine-tuning, HDF）：结合全景视频和类似景观的普通视频数据进行训练，弥补数据分布的差异，提升模型的泛化能力。全景循环技术（Panoramic Circular Techniques, PCT）：在视频的左右两端创建重复区域进行混合处理，确保全景视频的水平方向连续性，避免拼接处的视觉断裂。Panoramic Space-Time Reconstruction（全景时空重建）：用全景光流估计模型和窄视场深度估计模型，对全景视频的每一帧进行深度估计，确保深度信息在时间和空间上的连续性。将全景视频及其深度图转换为带有时间属性的 4D 点云，作为 4D 场景的初始表示。基于优化 4D 点云的表示，实现空间和时间上一致的 4D 场景重建，支持高效渲染和动态视图合成。360World 数据集：为训练 Panoramic Animator 提供大规模的固定摄像头全景视频数据，数据集包含丰富的场景和动态信息，支持模型学习全景视频的生成规律。

HoloTime的项目地址

项目官网：https://zhouhyocean.github.io/holotime/GitHub仓库：https://github.com/PKU-YuanGroup/HoloTimeHuggingFace模型库：https://huggingface.co/Marblueocean/HoloTimearXiv技术论文：https://arxiv.org/pdf/2504.21650

HoloTime的应用场景

虚拟现实（VR）和增强现实（AR）：提供沉浸式的 4D 场景，让用户在虚拟环境中自由漫游，增强体验感。虚拟旅游和在线展览：生成全景 4D 场景，让用户远程游览景点或展览，仿佛身临其境。影视制作：快速生成高质量的全景背景和特效，降低拍摄成本，提升视觉效果。游戏开发：创建动态的游戏场景，增强玩家的沉浸感和视觉体验。建筑设计和城市规划：生成全景 4D 场景，帮助设计师直观展示设计方案，提前评估效果。