看上去都是从一张图片生成可以交互的三维场景,但有本质区别。从这个描述看,李飞飞的研究项目似乎更接近真正的世界模型一些。最先进的文生图模型)生成的单张图像作为提示。如下两行动图所示,每个视频都从同一帧开···