深度学习

神经网络权重收敛通用子空间:模型架构主导学习结果

约翰斯・霍普金斯大学的最新研究发现,超过1100个在不同数据集、初始化和超参数下训练的神经网络,其最终权重都会收敛到一个共享的低维子空间。这一“通用权重子空间假说”表明,模型架构而非数据,主导了神经网络的学习结果,训练更像是在“发现”一个预先存在的数学结构。该发现解释了过参数化模型泛化、LoRA等技术有效性的原因,并为模型压缩、高效合并及理论理解提供了新视角,同时也引发了关于当前架构是否存在内在天花板的讨论。研究通过分析ResNet、ViT、LLaMA及大量LoRA模型,提供了权重层面通用性的实证证据。

张吕敏团队突破AI长视频生成:ControlNet记忆压缩技术解决画面一致性难题

张吕敏团队提出了一项突破性的AI长视频生成技术,通过创新的记忆压缩系统解决了画面一致性与算力成本的矛盾。该技术采用两阶段策略,预训练一个能保留任意时间点高频细节的压缩模型,再将其作为记忆编码器集成到视频生成系统中。实验表明,该方法可将20秒视频压缩至约5k token,用消费级显卡实现长时、连贯、高保真的视频生成,在多项评估指标上表现优异。

Transformer架构创新:刘壮团队提出无归一化Derf模型,推动深度学习发展

刘壮研究团队提出了一种名为Derf(Dynamic erf)的新型激活层,成功构建了无需传统层归一化(LayerNorm)的Transformer模型。Derf结构简单,可直接替换归一化层,在ImageNet分类、DiT图像生成、语音识别、DNA序列建模及语言模型等多个任务上,其性能均持平或超越了传统方案,且优势主要源于更好的模型泛化能力。这一突破为开发更高效、性能更强的无归一化深度学习模型提供了关键技术支持。

VibeTensor与英伟达联手:AI编程重塑深度学习系统开发新纪元

英伟达杰出工程师许冰开源了全球首个完全由AI智能体生成的深度学习系统VibeTensor,该项目从代码到论文无一出自人类之手,标志着生成式软件工程时代的到来。VibeTensor具备完整的全栈架构,包括创新的Fabric张量系统和强大的AI内核套件,但也揭示了当前AI编程的‘弗兰肯斯坦效应’——局部正确但全局效率瓶颈。该项目验证了AI构建复杂系统代码的能力,被视为AI编程领域的‘AlphaGo时刻’,预示了未来软件开发范式将从人类编写转向AI自主生成的革命性变革。