当地时间周二, OpenAI 宣布,推出了两款全新的开源AI推理模型,能力与此前推出的o系列模型相近。
OpenAI 称,这两款模型在多个公开基准测试中表现出了“顶尖水平”。
“回到我们 2015 年创办公司的初衷,OpenAI 的使命始终是确保通用人工智能(AGI)惠及全人类。因此,我们十分期待全球开发者基于美国创造的、基于我们价值观的开源 AI 堆栈构建技术,让所有人免费使用,造福大众。”OpenAI CEO 山姆·奥特曼说。
这两款模型分别为:
- gpt-oss-120b:规模较大,性能更强,甚至能在单张 Nvidia 显卡上运行。
- gpt-oss-20b:较轻量,甚至可在拥有16GB内存的普通笔记本电脑上运行。
这次发布是 OpenAI 自五年前发布GPT-2以来,首次推出新的“开源”大语言模型。
OpenAI 透露,基于这些开源模型,当其无法单独完成复杂任务,比如处理图片,开发者可以将其与 OpenAI 的闭源模型连接,以获取帮助。
虽然 OpenAI 早期曾开源过模型,但近年来逐渐转向闭源策略,通过API向企业和开发者出售访问权,建立了庞大的商业模式。
最新数据显示,ChatGPT周活跃用户达7亿,较去年增长了4倍。
今年 1 月,OpenAI CEO 山姆·奥特曼表示,在开源问题上,OpenAI 可能“站错了历史的一边”。
4 月,奥特曼在 X 平台预告称,“几个月内发布一款带推理能力的开放权重模型”。
7 月 ,他再次发文,将该开源模型无限期推迟。
不到一个月,奥特曼“食言”。
但开源模型市场早已时移世易。
截至7月31日,GitHub Trending 前10的模型中,全部都是中国的开源模型。
其中, Qwen一家独占5席位,开源世界半壁江山。智谱GLM-4.5登顶,Air排名第6;混元3D世界模型作为唯二的多模态,排行第3。
作为对比,几乎所有美国 AI 公司都选择了闭源路线,给大模型“上锁”。
Meta 曾是开源 AI 模型领域的领军企业,但其 Llama 系列模型在过去一年已逐渐落后。
7 月30日,马克·扎克伯格在其公开信中写道,“我们将谨慎选择哪些模型继续开源,哪些则不再公开。”
这家曾经的“开源旗手”正式转向,为闭源留出了后门。
就在公开信发布前一周,据《纽约时报》报道,Meta新成立的超级智能实验室已暂停其最大开源模型“Behemoth”的内部测试,原因是“性能未达预期”。
相关阅读:开源旗手扎克伯格“叛变”,Github 前10都是中国AI模型
7 月 ,特朗普政府呼吁美国 AI 公司,更多地开源技术,推动全球采用符合美国价值观的 AI 技术。
看起来 ,OpenAI 率先响应了该一号召。
通过推出 gpt-oss,OpenAI 希望赢得开发者和特朗普政府的认可,同时应对来自中国 AI的竞争压力。
OpenAI 称,此次推出的开源模型在性能上已成为同类领先者。
在编程竞赛平台 Codeforces(工具辅助)上:gpt-oss-120b 得分 2622 分;gpt-oss-20b 得分 2516 分。
两款模型表现优于 DeepSeek 的 R1 模型,但低于 o3 和 o4-mini。
(OpenAI 开源模型在 Codeforces 上的表现)
在另一项跨学科测试——Humanity’s Last Exam(工具辅助)中: gpt-oss-120b 得分 19%;gpt-oss-20b 得分 17.3%。
成绩同样不及 o3 模型,但超过了 DeepSeek 和通义千问等现有顶尖开源模型。
(OpenAI 开源模型在 Humanity’s Last Exam 测试中的表现)
值得注意的是,这两款开源模型的“幻觉”(生成虚假信息)问题明显高于最新的闭源模型 o3 和 o4-mini。
OpenAI 表示,这与小型模型知识储备不足、容易产生更多幻觉的预期结果一致。
在 OpenAI 内部用于测试人物相关知识准确性的 PersonQA 基准中:gpt-oss-120b 幻觉率高达 49%;gpt-oss-20b 幻觉率为 53%。
相比之下,早期的 o1 模型仅为 16%,最新的小型闭源模型 o4-mini 为 36%。
训练方法上,OpenAI 表示,开源模型的训练方式与闭源模型类似,都采用了专家混合(MoE)机制,使模型运行效率大幅提升。
例如,拥有 1170 亿参数的 gpt-oss-120b,每次推理实际调用的参数只有 51 亿个。
OpenAI 强调,这些开源模型特别适合用于 AI 智能体,可调用网络搜索、Python 代码执行等工具辅助推理。
但目前它们仅支持文本,无法处理图像或音频。
OpenAI 将新模型以 Apache 2.0 开源许可协议发布,这意味着企业可免费使用甚至商业化,无需取得 OpenAI 授权。
这两款模型此前曾因安全考量多次延迟发布。经测试,新模型在生化攻击等方面的潜在风险略有提升,但并未达到“危险”的能力门槛。