RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diffusion支持图像重绘功能,用户在保持其他区域不变的情况下修改特定区域,无需额外的内绘模型。
DimensionX是香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的3D和4D场景,基于视频扩散技术实现对空间和时间维度的精确控制。框架基于ST-Director技术解耦空间和时间因素,支持独立或组合控制,生成具有动态变化的复杂场景。