人工智能视频
UniVid开源统一视频模型:高效融合视频理解与生成能力
UniVid是一个革命性的开源统一视频模型,创新性地将视频理解与生成能力融合到单一系统中。通过适配器架构、温控模态对齐和金字塔反射机制三大核心技术,该模型在VBench评测中创下多项纪录,在时序一致性、语义对齐等关键指标上表现卓越。UniVid的开源特性为视频智能技术的发展提供了强大基础,在影视创作、视频分析、机器人智能等领域具有广泛应用前景。
Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出
Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。