深度学习
张吕敏团队突破AI长视频生成:ControlNet记忆压缩技术解决画面一致性难题
张吕敏团队提出了一项突破性的AI长视频生成技术,通过创新的记忆压缩系统解决了画面一致性与算力成本的矛盾。该技术采用两阶段策略,预训练一个能保留任意时间点高频细节的压缩模型,再将其作为记忆编码器集成到视频生成系统中。实验表明,该方法可将20秒视频压缩至约5k token,用消费级显卡实现长时、连贯、高保真的视频生成,在多项评估指标上表现优异。
神经网络权重收敛通用子空间:模型架构主导学习结果
约翰斯・霍普金斯大学的最新研究发现,超过1100个在不同数据集、初始化和超参数下训练的神经网络,其最终权重都会收敛到一个共享的低维子空间。这一“通用权重子空间假说”表明,模型架构而非数据,主导了神经网络的学习结果,训练更像是在“发现”一个预先存在的数学结构。该发现解释了过参数化模型泛化、LoRA等技术有效性的原因,并为模型压缩、高效合并及理论理解提供了新视角,同时也引发了关于当前架构是否存在内在天花板的讨论。研究通过分析ResNet、ViT、LLaMA及大量LoRA模型,提供了权重层面通用性的实证证据。
何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路
本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引,系统梳理了从早期手工特征时代(如Viola-Jones、SIFT、DPM),到深度学习破晓时期(AlexNet、R-CNN),再到以Faster R-CNN为代表的端到端检测范式确立,以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点,更提炼出“用可学习模型替代系统瓶颈”的核心方法论,并以“驶向迷雾”的比喻,展
DeepSeek开源LPLB负载均衡器:线性规划优化MoE模型训练GPU效率
DeepSeek开源LPLB负载均衡器,采用线性规划算法优化MoE模型训练过程中的GPU负载分配。该技术通过动态重排序、副本构建和最优分配求解三个步骤,有效解决混合专家模型中的负载不均衡问题,提升训练效率。虽然项目处于早期研究阶段,但为AI训练优化提供了创新的技术思路。
字节跳动发布Depth Anything 3:简化Transformer实现高效3D视觉建模
字节跳动最新发布的Depth Anything 3(DA3)通过简化Transformer架构实现突破性3D视觉建模,仅使用标准Transformer和单一深度射线表示就在姿态估计和几何估计任务中分别实现44%和25%的性能提升。该技术证明了3D视觉研究可避免过度复杂化设计,具备视频重建、SLAM、3D高斯估计和多摄像头空间感知等多元化应用场景,为自动驾驶、机器人导航等领域提供强大技术支撑。
百度文心5.0 Preview LMArena全球第二,创意写作与复杂理解领先
百度文心5.0 Preview在LMArena全球大模型评测中取得突破性成绩,位列全球第二、国内第一,在创意写作、复杂问题理解和指令遵循等核心能力上表现卓越。这一成就背后是百度『芯片-框架-模型-应用』四层全栈技术布局的有力支撑,标志着中国AI技术正从追赶迈向引领的新阶段。
谷歌嵌套学习新范式突破LLM持续学习瓶颈,解决灾难性遗忘
谷歌推出的嵌套学习范式通过将模型视为多层次优化问题集合,以差异化更新频率解决LLM持续学习中的灾难性遗忘问题。基于该原理设计的Hope架构在语言建模和长上下文任务中表现优异,标志着人工智能向类脑进化迈出重要一步,为构建自我改进AI系统奠定基础。
UniVid开源项目:统一模型实现视频理解与生成一体化,提升语义一致性与画面连贯性
UniVid开源项目创新性地将视频理解与生成能力融合于单一模型,通过适配器架构、温控模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑,同时开源特性促进了AI研究的民主化进程。
Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出
Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。
DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术
DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。