字节跳动
自变量机器人:自研端到端架构,构建具身智能物理世界基础模型
2026年初,自变量机器人获得字节跳动与红杉资本10亿元融资,引发行业关注。本文深入探讨了该公司对机器人「智能大脑」的前沿思考,指出具身智能的核心在于实现与物理世界的精细交互与自主操作,这需要一种全新的、独立于语言模型和多模态模型的「物理世界基础模型」。自变量认为,构建此类模型需坚持两大原则:统一的端到端架构以实现整体性理解,以及追求模型的通用性以学习物理世界的共性规律。文章详细阐述了其自研的WALL-A模型如何通过「多模态状态预测」等创新方法逼近这一目标,并介绍了其在真实外卖配送场景中的应用。同时,文章
字节跳动杨震原谈技术探索与AI4S奖学金计划,揭秘推荐算法与大模型
字节跳动第五届技术奖学金颁奖典礼在京举行,技术副总裁杨震原分享了公司在推荐系统、AI for Science、XR技术和大模型等领域的创新突破,展现了字节跳动在前沿技术领域的深度布局和对科技人才培养的重视。
字节跳动发布Depth Anything 3:简化Transformer实现高效3D视觉建模
字节跳动最新发布的Depth Anything 3(DA3)通过简化Transformer架构实现突破性3D视觉建模,仅使用标准Transformer和单一深度射线表示就在姿态估计和几何估计任务中分别实现44%和25%的性能提升。该技术证明了3D视觉研究可避免过度复杂化设计,具备视频重建、SLAM、3D高斯估计和多摄像头空间感知等多元化应用场景,为自动驾驶、机器人导航等领域提供强大技术支撑。
ByteRobust发布:高效故障诊断与容错机制提升大规模语言模型训练稳定性与效率
字节跳动发布的ByteRobust系统通过创新的双平面架构设计,实现了大规模语言模型训练的高效故障诊断与容错处理。该系统采用优先快速隔离而非精确定位的策略,结合自动化容错框架和可控恢复机制,在实际部署中达到97%的有效训练时间比率,显著提升训练稳定性和效率,为超大规模AI模型训练提供了可靠的技术解决方案。
Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出
Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。