深度学习
神经网络权重收敛通用子空间:模型架构主导学习结果
约翰斯・霍普金斯大学的最新研究发现,超过1100个在不同数据集、初始化和超参数下训练的神经网络,其最终权重都会收敛到一个共享的低维子空间。这一“通用权重子空间假说”表明,模型架构而非数据,主导了神经网络的学习结果,训练更像是在“发现”一个预先存在的数学结构。该发现解释了过参数化模型泛化、LoRA等技术有效性的原因,并为模型压缩、高效合并及理论理解提供了新视角,同时也引发了关于当前架构是否存在内在天花板的讨论。研究通过分析ResNet、ViT、LLaMA及大量LoRA模型,提供了权重层面通用性的实证证据。
张吕敏团队突破AI长视频生成:ControlNet记忆压缩技术解决画面一致性难题
张吕敏团队提出了一项突破性的AI长视频生成技术,通过创新的记忆压缩系统解决了画面一致性与算力成本的矛盾。该技术采用两阶段策略,预训练一个能保留任意时间点高频细节的压缩模型,再将其作为记忆编码器集成到视频生成系统中。实验表明,该方法可将20秒视频压缩至约5k token,用消费级显卡实现长时、连贯、高保真的视频生成,在多项评估指标上表现优异。