
相关搜索
在 16B 的 Moonlight 模型上验证了 Keller Jordan 2024 年开源的 Muon 优化器(原初版本是在 1.5B 模型上做验证),后来又在 1T 规模的 K2 上提出 Muon 的一个改进版 MuonClip,后被广泛采用。 Kimi 创始人杨植麟曾在多个公开场合提及这一成果,以此作为技术 “taste” 的例子。刚刚发布的 DeepSeek-V4 也使用了 Muon
 
当前文章:http://mp7vow.ceqishao.cn/ea8s/ulo.htm
发布时间:01:46:28