大模型脑腐:社交媒体垃圾数据致AI认知能力下降难修复
最新研究表明,大语言模型长期接触社交媒体垃圾数据会导致推理能力下降23%、长期记忆衰退30%,且这种认知损伤难以通过再训练完全修复。研究提出数据质量是影响AI认知能力的关键因素,强调建立严格的数据筛选标准和定期认知健康检查的必要性。
RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度
西湖大学ENCODE实验室联合多所高校提出RewardMap框架,通过多阶段强化学习和难度感知的细粒度奖励机制,有效解决多模态大模型在地铁图等密集视觉信息处理中的奖励稀疏问题。该技术在地铁路径规划任务中实现显著性能提升,在空间推理评估中取得13.51%的改进,为高分辨率视觉推理任务提供了可复用的强化学习范式。
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。
Anthropic发布网页版Claude Code:云端编程与并行任务,安全沙盒助力开发效率
Anthropic正式推出网页版Claude Code,支持开发者在浏览器中直接委派编程任务,具备并行任务处理、灵活工作流程和安全沙盒环境三大核心优势,目前作为Beta版向Pro和Max用户开放,显著提升软件开发效率。
Claude Code网页版发布:云端编程任务并行开发,安全沙盒提效
Anthropic正式发布网页版Claude Code,支持用户在浏览器中直接委派编程任务到云端执行。该版本具备三大核心优势:支持跨仓库并行任务处理、灵活适配现有工作流程、以及安全隔离的沙盒执行环境。目前作为研究预览版向Pro和Max用户开放,标志着云端编程进入全新阶段。
Anthropic发布网页版Claude Code,支持云端编程与安全沙盒并行任务
Anthropic推出网页版Claude Code Beta版本,支持开发者在浏览器中直接委派编程任务,具备并行任务处理、灵活工作流适配和安全沙盒环境三大核心优势,为云端编程带来革命性体验。
Claude Code网页版发布:云端编程任务与并行开发,支持移动端安全沙盒
Anthropic正式发布网页版Claude Code,支持云端编程任务委派和并行开发,具备三大核心优势:并行任务处理、灵活工作流适配和安全沙盒环境,现面向Pro和Max用户开放Beta测试,同时支持移动端使用。
UniVid开源统一视频模型:高效融合视频理解与生成能力
UniVid是一个革命性的开源统一视频模型,创新性地将视频理解与生成能力融合到单一系统中。通过适配器架构、温控模态对齐和金字塔反射机制三大核心技术,该模型在VBench评测中创下多项纪录,在时序一致性、语义对齐等关键指标上表现卓越。UniVid的开源特性为视频智能技术的发展提供了强大基础,在影视创作、视频分析、机器人智能等领域具有广泛应用前景。
UniVid开源项目:统一模型实现视频理解与生成一体化
UniVid开源项目创新性地将视频理解与生成能力融合于统一模型,通过适配器架构、温度模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现99.88的时序一致性和80.58的语义对齐度。该项目为视频内容创作、智能分析和机器人导航等场景提供强大支持,完全开源的特性助力AI研究社区发展。
UniVid开源项目:统一模型实现视频理解与生成一体化,提升语义一致性与画面连贯性
UniVid开源项目创新性地将视频理解与生成能力融合于单一模型,通过适配器架构、温控模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑,同时开源特性促进了AI研究的民主化进程。
Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出
Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。
AI动物视频流行:技术滥用与社交媒体影响解析
本文深入分析了当前流行的AI动物视频现象,从熊猫荡秋千、浣熊遇小丑等搞笑视频,到Reddit上的虚拟肥猫骗局,揭示了AI技术被滥用于制造虚假内容的现状。文章探讨了这些高度逼真的AI生成内容对社交媒体生态的影响,以及由此引发的信息真实性危机和伦理道德问题,呼吁在享受技术便利的同时建立相应的监管机制。
ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架
该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。
LMG 2025成都大模型智能生成大会:智汇天府,引领生成式AI新纪元
第四届全国大模型智能生成大会(LMG 2025)将于2025年11月1-3日在成都举行,以'智汇天府,生成艺境'为主题,汇聚国内外顶尖专家,设置18个专题论坛,涵盖大模型基础理论、多模态技术、智能体等前沿议题,特别呈现AI与艺术融合展演,是生成式人工智能领域的重要学术交流平台。
Lancelot框架:全同态加密与拜占庭鲁棒联邦学习融合,实现高效隐私保护鲁棒聚合
香港中文大学AIoT实验室联合多所高校研发的Lancelot框架创新性地将全同态加密与拜占庭鲁棒联邦学习深度融合,通过掩码式加密排序、密码学优化和GPU硬件加速三大技术突破,解决了传统FHE计算效率低下、复杂聚合支持不足等核心难题。该框架在加密状态下实现鲁棒聚合计算,性能较现有方案提升20倍以上,为金融、医疗等高敏感场景的隐私保护AI应用提供了切实可行的解决方案,研究成果已发表于《Nature Machine Intelligence》。
AGILE自监督强化学习提升视觉语言模型感知推理能力
AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。
微软BitDistill技术实现1.58比特模型压缩,优化内存与推理速度
微软BitDistill技术通过创新的三阶段框架(模型优化、持续预训练、知识蒸馏),成功实现1.58比特极低比特量化,在文本分类和摘要任务中达到与全精度模型相当的性能,同时在CPU上实现10倍内存节省和2.65倍推理加速,为资源受限设备上的大语言模型部署提供了高效解决方案。
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
ReinFlow开源框架:在线强化学习流匹配策略优化机器人性能
ReinFlow是由卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校联合开发的开源在线强化学习框架,专门用于微调流匹配策略以优化机器人性能。该框架通过向确定性流路径注入可学习噪声,将流匹配过程转化为随机扩散过程,实现了高效的策略梯度优化。在多个基准测试中,ReinFlow相比预训练模型取得显著性能提升,同时大幅节省训练时间,为机器人学习领域提供了强大的工具支持。
DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术
DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。