人工智能

Video-RAG:轻量高效的长视频理解与多模态对齐框架

Video-RAG是由厦门大学、罗切斯特大学和南京大学联合研发的轻量级长视频理解框架,采用多模态辅助文本检索增强生成技术,无需模型微调即可实现高效的视觉-语义对齐。该框架在多个基准测试中超越商业模型,为教育、安防、医疗等领域的视频分析应用提供了低成本、高可扩展的解决方案。

谢赛宁团队利用大语言模型实现AI自动生成编程竞赛题目

谢赛宁团队开发的AutoCode系统利用大语言模型实现编程竞赛题目自动生成,通过验证器-生成器-检查器框架和双重验证协议,在测试用例生成方面达到最先进可靠性,误报率和漏报率较现有技术降低约50%。该系统能生成达到竞赛质量的新问题,超过80%生成问题具有训练价值,揭示了LLM作为知识重组者而非原创思想家的能力特点。

MaskMol:基于自监督学习的分子图像框架破解活性悬崖识别难题

湖南大学团队开发的MaskMol框架通过知识引导的分子图像自监督学习,成功解决了药物发现中的活性悬崖识别难题。该创新方法利用像素掩码策略和Vision Transformer架构,有效克服了传统模型的表征坍塌问题,在活性悬崖估计和化合物效能预测任务中表现卓越,为人工智能在药物研发领域的应用开辟了新途径。

Meta强化学习扩展定律研究:40万GPU小时揭示可预测训练与算力效率

Meta等机构通过40万GPU小时的大规模实验,建立了强化学习扩展定律的科学基础,提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题,使训练效果从随机尝试转变为可预测过程,为大语言模型的强化学习后训练提供了系统化方法论和实用指导。

小红书EGMN模型获RecSys 2025最佳论文提名,视频观看时长预测受国际认可

小红书推荐算法团队在RecSys 2025顶级会议上凭借EGMN(指数-高斯混合网络)模型荣获最佳论文提名,该模型创新性地结合指数分布和高斯混合分布,精准预测视频观看时长,解决了推荐系统领域的核心难题。研究成果在国际学术界和工业界获得高度认可,体现了小红书在推荐算法技术上的领先地位和务实创新的技术文化。

DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术

DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。

AGILE自监督强化学习提升视觉语言模型感知推理能力

AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。

Lancelot框架:全同态加密与拜占庭鲁棒联邦学习融合,实现高效隐私保护鲁棒聚合

香港中文大学AIoT实验室联合多所高校研发的Lancelot框架创新性地将全同态加密与拜占庭鲁棒联邦学习深度融合,通过掩码式加密排序、密码学优化和GPU硬件加速三大技术突破,解决了传统FHE计算效率低下、复杂聚合支持不足等核心难题。该框架在加密状态下实现鲁棒聚合计算,性能较现有方案提升20倍以上,为金融、医疗等高敏感场景的隐私保护AI应用提供了切实可行的解决方案,研究成果已发表于《Nature Machine Intelligence》。

LMG 2025成都大模型智能生成大会:智汇天府,引领生成式AI新纪元

第四届全国大模型智能生成大会(LMG 2025)将于2025年11月1-3日在成都举行,以'智汇天府,生成艺境'为主题,汇聚国内外顶尖专家,设置18个专题论坛,涵盖大模型基础理论、多模态技术、智能体等前沿议题,特别呈现AI与艺术融合展演,是生成式人工智能领域的重要学术交流平台。

AI动物视频流行:技术滥用与社交媒体影响解析

本文深入分析了当前流行的AI动物视频现象,从熊猫荡秋千、浣熊遇小丑等搞笑视频,到Reddit上的虚拟肥猫骗局,揭示了AI技术被滥用于制造虚假内容的现状。文章探讨了这些高度逼真的AI生成内容对社交媒体生态的影响,以及由此引发的信息真实性危机和伦理道德问题,呼吁在享受技术便利的同时建立相应的监管机制。