思路 就像从下载整部电影到直接观看流媒体的转变 ,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。 研究团队表示,这一延迟的根本原因在于: 传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。