日前,月之暗面(Moonshot AI)悄然将新一代大模型Kimi K2的代码,上传至开源社区。
关联阅读:万亿参数MoE开源,实测会写代码与Agentic的kimi k2
这个拥有1万亿参数的“大块头”,立刻被全球开发者关注到。
美国AI搜索公司Perplexity CEO阿拉温德(Aravind Srinivas)随即在社交平台上发声称,“K2的表现令人惊喜,我们很可能将基于它进行后训练。”
海外开发者@Paul Couvert的点评更加直白:“K2几乎能媲美Claude 4和GPT-4.1,关键还开源免费。”
Kimi的再次刷屏,简直让人惊喜。
这个国内 AI 行业的“初代明星”,在 2024 年凭借 20 万字长文本处理能力,迅速崛起。
公司创始人杨植麟更被视为“中国版奥特曼”,其技术理想主义者气质与摇滚元素,让月之暗面公司独具魅力。
很快,公司陷入买流量争议,被业界质疑用户增长真实性。
月之暗面团队成员熊狸在 k2 发布后发帖称,对此,到现在都还有很多 diss的声音。
他说, 公司停止投流之后,不少应用商店搜索 kimi ,甚至第一页都看不见。
2025年初,因投资人分歧爆发仲裁纠纷,随后又把这家年轻的公司,拖入巨大的漩涡,至今未有定论。
更大的打击则来自横空出世的DeepSeek。
DeepSeek-R1 的发布,让包括Kimi 在内的“AI 六小龙”,甚至大厂大模型都黯淡无光。
“年初 DeepSeek-R1 暴涨之后,很多人说 Kimi 是不是不行了”。熊狸在最近的帖子里说。
但月之暗面不少同事都认为,DeepSeek-R1 的爆火,是个大好事。
熊狸称,因为它证明了那条我们相信的路不仅能走通,而且是一条康庄大道,“唯一的遗憾就是,这条路不是我们走通的”。
他透露称,为此,杨植麟进行了“比我想的还要激进”的改革,比如,不再更新K1系列模型,集中资源搞基础算法和K2。
这期间,当然也存在不少干扰。
尤其随着 Agent产品的爆火,不少声音说 ,Kimi 不应该卷大模型,应该去做 Agent产品。
熊狸对此的说法,颇具“月之暗面气质”。
他称, 2025年,智能的上限仍然完全由模型决定,“作为一家以 AGI 为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去”。
他还顺便揶揄了下非技术理想主义者的同行。
熊狸透露,2024年6月智源大会上,他听到开复老师脱口而出地说“我作为一个投资人我会关注AI应用的 ROI”,就知道他创立的那家公司活不长了。
目前来看,“AI 六小龙”中,百川智能和零一万物已经转向,前者聚焦医疗垂类应用,后者停止万亿参数级超大模型训练,转向更具性价比的中等规模模型和企业级业务 。
和月之暗面一样,智谱 AI、MiniMax、阶跃星辰,都还在坚持通用大模型。
不同的选择,不同的现状,差不多的压力。
产品端,智谱、阶跃、Minimax 与月之暗面一样,都不断有新品推出,零一万物与百川则相对更加沉寂。
但在 DeepSeek 和阿里、字节、腾讯 双重挤压下,这些创业公司大模型产品的挑战不小。
日前,有月之暗面工程师在知乎发帖称,在启动K2训练之前,他们进行了大量模型结构相关的scaling实验。
结果是,所有当时propose的、与 DeepSeek v3不同的结构,没有一个能真正打败他的,顶多旗鼓相当。
最后,k2 的产品路径也只能是,在给定DeepSeek v3 结构的框架之下,选择合适的参数,使得模型在训练、推理成本与其相当的前提下,获得明显更低的loss。
“六小龙”市场端的分化也比较明显。
最新消息显示,MiniMax 近 3 亿美元的新一轮融资已接近完成,投后估值超过 40 亿美元,与智谱相当。
同时,智谱、MiniMax 都已启动上市进程,看谁能最终冲刺成功。
零一万物和百川都不时传出高管离职、生存堪忧的消息,也没有新的融资进展。
熊狸说,AGI 容不得一起分心和犹豫,坚持追求未必成功,“但犹豫一定会失败”。
现在看来,后半句差不多言中。
那么,坚持Scaling Law、坚持预训练、坚持开源的技术理想主义们,会最终走向成功么
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。