多模态AI
昆仑万维开源SkyReels-V3多模态AI视频模型,赋能虚拟网红与电商创作
昆仑万维旗下Skywork AI团队开源了新一代多模态视频生成模型SkyReels-V3,该模型集参考图像转视频、视频智能延长和音频驱动虚拟形象三大核心功能于一体,能够高效生成高质量、高保真的动态视频内容。此次开源旨在降低虚拟IP创建和电商视频制作的门槛,赋能广大创作者。文章详细介绍了模型的功能演示、技术原理,并分析了其开源策略背后AI视频生成领域的竞争格局与昆仑万维的技术积累。
开源音视频模型MOVA发布:打破闭源垄断,实现精准音画同步
上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源端到端音视频生成模型MOVA。该模型能生成长达8秒、720p分辨率的视听片段,在电影级口型同步、物理环境音效仿真方面表现卓越。尤为重要的是,在Sora、Veo等顶尖技术普遍闭源的背景下,MOVA选择全栈开源,提供了模型权重、训练及推理代码。其采用异构双塔架构与创新的跨模态对齐技术,并通过三阶段训练策略确保质量。MOVA的发布不仅打破了闭源垄断,为开发者社区提供了强大的工具,也是产教融合培养顶尖AI人才的一次成功实践。
ACL 2025年度会士名单公布:季姮、张岳等11位学者入选
国际计算语言学学会(ACL)公布了2025年度会士名单,共有11位全球顶尖学者获此殊荣。其中,伊利诺伊大学厄巴纳-香槟分校的季姮教授和西湖大学的张岳教授作为杰出的华人学者入选,彰显了华人在该领域的卓越贡献。其他入选者包括在TextRank算法、开放AI模型、多模态处理、阿拉伯语/日语NLP、计算情感科学及基础理论等方面有开创性工作的国际领军学者。ACL Fellow是学会最高荣誉,旨在表彰对自然语言处理领域做出卓越技术成就或社区贡献的会员。
DeepSeek-OCR视觉压缩技术颠覆文本处理,效率提升十倍引AI界关注
DeepSeek-OCR通过创新的视觉压缩技术实现文本处理效率十倍提升,将1000字文章压缩为100个视觉token并保持97%精度,这一突破可能改变大语言模型的输入范式,引发AI社区对像素输入替代文本输入的深入讨论。
UniVid开源统一视频模型:高效融合视频理解与生成能力
UniVid是一个革命性的开源统一视频模型,创新性地将视频理解与生成能力融合到单一系统中。通过适配器架构、温控模态对齐和金字塔反射机制三大核心技术,该模型在VBench评测中创下多项纪录,在时序一致性、语义对齐等关键指标上表现卓越。UniVid的开源特性为视频智能技术的发展提供了强大基础,在影视创作、视频分析、机器人智能等领域具有广泛应用前景。
UniVid开源项目:统一模型实现视频理解与生成一体化,提升语义一致性与画面连贯性
UniVid开源项目创新性地将视频理解与生成能力融合于单一模型,通过适配器架构、温控模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑,同时开源特性促进了AI研究的民主化进程。
UniVid开源项目:统一模型实现视频理解与生成一体化
UniVid开源项目创新性地将视频理解与生成能力融合于统一模型,通过适配器架构、温度模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现99.88的时序一致性和80.58的语义对齐度。该项目为视频内容创作、智能分析和机器人导航等场景提供强大支持,完全开源的特性助力AI研究社区发展。