AI快讯
Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出
Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。
AI动物视频流行:技术滥用与社交媒体影响解析
本文深入分析了当前流行的AI动物视频现象,从熊猫荡秋千、浣熊遇小丑等搞笑视频,到Reddit上的虚拟肥猫骗局,揭示了AI技术被滥用于制造虚假内容的现状。文章探讨了这些高度逼真的AI生成内容对社交媒体生态的影响,以及由此引发的信息真实性危机和伦理道德问题,呼吁在享受技术便利的同时建立相应的监管机制。
ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架
该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。
LMG 2025成都大模型智能生成大会:智汇天府,引领生成式AI新纪元
第四届全国大模型智能生成大会(LMG 2025)将于2025年11月1-3日在成都举行,以'智汇天府,生成艺境'为主题,汇聚国内外顶尖专家,设置18个专题论坛,涵盖大模型基础理论、多模态技术、智能体等前沿议题,特别呈现AI与艺术融合展演,是生成式人工智能领域的重要学术交流平台。
Lancelot框架:全同态加密与拜占庭鲁棒联邦学习融合,实现高效隐私保护鲁棒聚合
香港中文大学AIoT实验室联合多所高校研发的Lancelot框架创新性地将全同态加密与拜占庭鲁棒联邦学习深度融合,通过掩码式加密排序、密码学优化和GPU硬件加速三大技术突破,解决了传统FHE计算效率低下、复杂聚合支持不足等核心难题。该框架在加密状态下实现鲁棒聚合计算,性能较现有方案提升20倍以上,为金融、医疗等高敏感场景的隐私保护AI应用提供了切实可行的解决方案,研究成果已发表于《Nature Machine Intelligence》。
AGILE自监督强化学习提升视觉语言模型感知推理能力
AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。
微软BitDistill技术实现1.58比特模型压缩,优化内存与推理速度
微软BitDistill技术通过创新的三阶段框架(模型优化、持续预训练、知识蒸馏),成功实现1.58比特极低比特量化,在文本分类和摘要任务中达到与全精度模型相当的性能,同时在CPU上实现10倍内存节省和2.65倍推理加速,为资源受限设备上的大语言模型部署提供了高效解决方案。
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
ReinFlow开源框架:在线强化学习流匹配策略优化机器人性能
ReinFlow是由卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校联合开发的开源在线强化学习框架,专门用于微调流匹配策略以优化机器人性能。该框架通过向确定性流路径注入可学习噪声,将流匹配过程转化为随机扩散过程,实现了高效的策略梯度优化。在多个基准测试中,ReinFlow相比预训练模型取得显著性能提升,同时大幅节省训练时间,为机器人学习领域提供了强大的工具支持。
DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术
DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。