深度学习

动手学深度学习

结合理论与实践的深度学习教材和课程

MaskMol:基于自监督学习的分子图像框架破解活性悬崖识别难题

湖南大学团队开发的MaskMol框架通过知识引导的分子图像自监督学习,成功解决了药物发现中的活性悬崖识别难题。该创新方法利用像素掩码策略和Vision Transformer架构,有效克服了传统模型的表征坍塌问题,在活性悬崖估计和化合物效能预测任务中表现卓越,为人工智能在药物研发领域的应用开辟了新途径。

DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术

DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。

Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出

Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。

UniVid开源项目:统一模型实现视频理解与生成一体化,提升语义一致性与画面连贯性

UniVid开源项目创新性地将视频理解与生成能力融合于单一模型,通过适配器架构、温控模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑,同时开源特性促进了AI研究的民主化进程。

谷歌嵌套学习新范式突破LLM持续学习瓶颈,解决灾难性遗忘

谷歌推出的嵌套学习范式通过将模型视为多层次优化问题集合,以差异化更新频率解决LLM持续学习中的灾难性遗忘问题。基于该原理设计的Hope架构在语言建模和长上下文任务中表现优异,标志着人工智能向类脑进化迈出重要一步,为构建自我改进AI系统奠定基础。

百度文心5.0 Preview LMArena全球第二,创意写作与复杂理解领先

百度文心5.0 Preview在LMArena全球大模型评测中取得突破性成绩,位列全球第二、国内第一,在创意写作、复杂问题理解和指令遵循等核心能力上表现卓越。这一成就背后是百度『芯片-框架-模型-应用』四层全栈技术布局的有力支撑,标志着中国AI技术正从追赶迈向引领的新阶段。

字节跳动发布Depth Anything 3:简化Transformer实现高效3D视觉建模

字节跳动最新发布的Depth Anything 3(DA3)通过简化Transformer架构实现突破性3D视觉建模,仅使用标准Transformer和单一深度射线表示就在姿态估计和几何估计任务中分别实现44%和25%的性能提升。该技术证明了3D视觉研究可避免过度复杂化设计,具备视频重建、SLAM、3D高斯估计和多摄像头空间感知等多元化应用场景,为自动驾驶、机器人导航等领域提供强大技术支撑。

DeepSeek开源LPLB负载均衡器:线性规划优化MoE模型训练GPU效率

DeepSeek开源LPLB负载均衡器,采用线性规划算法优化MoE模型训练过程中的GPU负载分配。该技术通过动态重排序、副本构建和最优分配求解三个步骤,有效解决混合专家模型中的负载不均衡问题,提升训练效率。虽然项目处于早期研究阶段,但为AI训练优化提供了创新的技术思路。

何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路

本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引,系统梳理了从早期手工特征时代(如Viola-Jones、SIFT、DPM),到深度学习破晓时期(AlexNet、R-CNN),再到以Faster R-CNN为代表的端到端检测范式确立,以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点,更提炼出“用可学习模型替代系统瓶颈”的核心方法论,并以“驶向迷雾”的比喻,展