视频生成
阿里云万相大模型赋能AIGC大赛,AI视频生成创新融入米兰冬奥历史
阿里云联合国际奥委会及米兰冬奥组委会,发起全球AIGC创意大赛“YOUR EPIC VIBE”,邀请公众使用其万相大模型(Wan2.6)为2026年米兰冬奥会创作视频。优秀作品将被奥林匹克博物馆收藏,标志着AI首次以集体创作形式写入奥运史。文章深入分析了Wan2.6在超真实还原、连贯多镜头叙事和完整逻辑生成方面的技术突破,并阐述了该赛事如何成为“AI for All”理念的实践,通过技术普惠让普通人能以创作者身份深度参与奥运盛事。
张吕敏团队突破AI长视频生成:ControlNet记忆压缩技术解决画面一致性难题
张吕敏团队提出了一项突破性的AI长视频生成技术,通过创新的记忆压缩系统解决了画面一致性与算力成本的矛盾。该技术采用两阶段策略,预训练一个能保留任意时间点高频细节的压缩模型,再将其作为记忆编码器集成到视频生成系统中。实验表明,该方法可将20秒视频压缩至约5k token,用消费级显卡实现长时、连贯、高保真的视频生成,在多项评估指标上表现优异。
CineCtrl:首个统一控制视频运镜与摄影效果的AI模型,打造电影级生成视频
CineCtrl是由华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室联合推出的首个统一控制视频运镜与摄影效果的AI模型。它通过创新的解耦交叉注意力机制,解决了多控制信号耦合的难题,能够对相机运动轨迹和光圈、焦距、曝光、色温等专业摄影参数进行独立、精细的协同控制。该模型结合物理模拟与真实数据构建了大规模训练集,实验证明其在效果控制精度和视频质量上均领先于现有方法,为普通视频赋予电影级美学质感,在影视制作与AR/VR内容生成领域具有广阔应用前景。
迪士尼联手OpenAI:10亿美元投资Sora,200+IP授权开启AI内容新纪元
迪士尼宣布向OpenAI投资10亿美元并达成三年战略合作,授权Sora使用其旗下超过200个经典IP角色用于生成短视频。此举标志着娱乐巨头从对抗AI转向合作共赢,旨在拥抱新一代用户、提升内部生产力并激活UGC生态。然而,合作也引发对品牌形象稀释、内容失控及AI生成内容质量问题的广泛担忧,揭示了AI时代内容产业在创新机遇与风险管控之间的深刻矛盾。
香港大学开源ViMax框架:多智能体协同实现AI全流程自动化视频制作
香港大学黄超教授团队开源的ViMax框架,通过多智能体协同实现了AI全流程自动化视频制作。该框架将影视制作分解为剧本创作、分镜规划、视觉生成、质量把控和统筹协调五个阶段,由专门的AI智能体负责。ViMax创新性地采用三层递归规划体系应对长视频叙事复杂度,并利用图网络和RAG技术解决跨镜头视觉一致性与上下文碎片化难题。这一体系标志着AI视频生成从‘片段生成’到‘系统化创作’的重要转变,为未来自动化创作工具的发展提供了新思路。
Light-X:全球首个镜头与光照双控4D视频生成框架,单目视频秒变电影级大片
Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频,让用户自由规划虚拟摄像机轨迹以生成任意新视角,同时灵活调整场景的光照方向、强度与风格,实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型,攻克了多因素耦合与数据匮乏的难题,并在实验中显著优于现有方法,为影视、VR/AR等内容创作带来了革命性工具。
Sora应用AI生成萌娃与小狗视频火爆,用户留存率低引关注
近期,由Sora等AI模型生成的萌娃与小狗互动视频风靡社交媒体,以其极强的治愈感获得海量传播。这些视频通过精准的提示词生成,效果逼真。然而,数据揭示火爆表象下的隐忧:Sora应用的用户留存率在两个月内暴跌至近乎为零。分析指出,其核心矛盾在于定位模糊——既是强大的创作工具,又试图成为社交平台,但用户仅将其视为内容生产“工厂”,生成的作品被导出至其他社交平台,导致其自身生态缺乏真实社交粘性,难以留住普通用户。
GenMimic革新机器人模仿学习:视频生成驱动人形机器人进化
GenMimic是一项突破性的机器人模仿学习研究,它使人形机器人能够通过观看AI生成的视频(如由Wan2.1或Sora创建),无需额外训练即可在现实世界中零样本复现人类动作。该技术由伯克利、纽约大学等机构联合开发,采用创新的两阶段流程和结合加权跟踪与对称损失的强化学习策略,能有效处理生成视频中的噪声,在仿真和宇树G1实体机器人上均验证了其有效性,为机器人获取多样化技能开辟了新途径。
UniVid开源统一视频模型:高效融合视频理解与生成能力
UniVid是一个革命性的开源统一视频模型,创新性地将视频理解与生成能力融合到单一系统中。通过适配器架构、温控模态对齐和金字塔反射机制三大核心技术,该模型在VBench评测中创下多项纪录,在时序一致性、语义对齐等关键指标上表现卓越。UniVid的开源特性为视频智能技术的发展提供了强大基础,在影视创作、视频分析、机器人智能等领域具有广泛应用前景。