當地時間周二, OpenAI 宣布,推出了兩款全新的開源AI推理模型,能力與此前推出的o系列模型相近。
OpenAI 稱,這兩款模型在多個公開基準測試中表現出了“頂尖水平”。
“回到我們 2015 年創辦公司的初衷,OpenAI 的使命始終是確保通用人工智能(AGI)惠及全人類。因此,我們十分期待全球開發者基于美國創造的、基于我們價值觀的開源 AI 堆棧構建技術,讓所有人免費使用,造福大眾?!監penAI CEO 山姆·奧特曼說。
這兩款模型分別為:
- gpt-oss-120b:規模較大,性能更強,甚至能在單張 Nvidia 顯卡上運行。
- gpt-oss-20b:較輕量,甚至可在擁有16GB內存的普通筆記本電腦上運行。
這次發布是 OpenAI 自五年前發布GPT-2以來,首次推出新的“開源”大語言模型。
OpenAI 透露,基于這些開源模型,當其無法單獨完成復雜任務,比如處理圖片,開發者可以將其與 OpenAI 的閉源模型連接,以獲取幫助。
雖然 OpenAI 早期曾開源過模型,但近年來逐漸轉向閉源策略,通過API向企業和開發者出售訪問權,建立了龐大的商業模式。
最新數據顯示,ChatGPT周活躍用戶達7億,較去年增長了4倍。
今年 1 月,OpenAI CEO 山姆·奧特曼表示,在開源問題上,OpenAI 可能“站錯了歷史的一邊”。
4 月,奧特曼在 X 平臺預告稱,“幾個月內發布一款帶推理能力的開放權重模型”。?
7 月 ,他再次發文,將該開源模型無限期推遲。
不到一個月,奧特曼“食言”。
但開源模型市場早已時移世易。
截至7月31日,GitHub Trending 前10的模型中,全部都是中國的開源模型。
其中, Qwen一家獨占5席位,開源世界半壁江山。智譜GLM-4.5登頂,Air排名第6;混元3D世界模型作為唯二的多模態,排行第3。
作為對比,幾乎所有美國 AI ?公司都選擇了閉源路線,給大模型“上鎖”。
?Meta 曾是開源 AI 模型領域的領軍企業,但其 Llama 系列模型在過去一年已逐漸落后。
7 月30日,馬克·扎克伯格在其公開信中寫道,“我們將謹慎選擇哪些模型繼續開源,哪些則不再公開。”?
這家曾經的“開源旗手”正式轉向,為閉源留出了后門。
就在公開信發布前一周,據《紐約時報》報道,Meta新成立的超級智能實驗室已暫停其最大開源模型“Behemoth”的內部測試,原因是“性能未達預期”。
相關閱讀:開源旗手扎克伯格“叛變”,Github 前10都是中國AI模型
7 月 ,特朗普政府呼吁美國 AI 公司,更多地開源技術,推動全球采用符合美國價值觀的 AI 技術。
看起來 ,OpenAI 率先響應了該一號召。
通過推出 gpt-oss,OpenAI 希望贏得開發者和特朗普政府的認可,同時應對來自中國 AI的競爭壓力。
OpenAI 稱,此次推出的開源模型在性能上已成為同類領先者。
在編程競賽平臺 Codeforces(工具輔助)上:gpt-oss-120b 得分 2622 分;gpt-oss-20b 得分 2516 分。
兩款模型表現優于 DeepSeek 的 R1 模型,但低于 o3 和 o4-mini。
(OpenAI 開源模型在 Codeforces 上的表現)
在另一項跨學科測試——Humanity’s Last Exam(工具輔助)中:?gpt-oss-120b 得分 19%;gpt-oss-20b 得分 17.3%。
成績同樣不及 o3 模型,但超過了 DeepSeek 和通義千問等現有頂尖開源模型。
(OpenAI 開源模型在 Humanity’s Last Exam 測試中的表現)
值得注意的是,這兩款開源模型的“幻覺”(生成虛假信息)問題明顯高于最新的閉源模型 o3 和 o4-mini。
OpenAI 表示,這與小型模型知識儲備不足、容易產生更多幻覺的預期結果一致。
在 OpenAI 內部用于測試人物相關知識準確性的 PersonQA 基準中:gpt-oss-120b 幻覺率高達 49%;gpt-oss-20b 幻覺率為 53%。
相比之下,早期的 o1 模型僅為 16%,最新的小型閉源模型 o4-mini 為 36%。
訓練方法上,OpenAI 表示,開源模型的訓練方式與閉源模型類似,都采用了專家混合(MoE)機制,使模型運行效率大幅提升。
例如,擁有 1170 億參數的 gpt-oss-120b,每次推理實際調用的參數只有 51 億個。
OpenAI 強調,這些開源模型特別適合用于 AI 智能體,可調用網絡搜索、Python 代碼執行等工具輔助推理。
但目前它們僅支持文本,無法處理圖像或音頻。
OpenAI 將新模型以 Apache 2.0 開源許可協議發布,這意味著企業可免費使用甚至商業化,無需取得 OpenAI 授權。
這兩款模型此前曾因安全考量多次延遲發布。經測試,新模型在生化攻擊等方面的潛在風險略有提升,但并未達到“危險”的能力門檻。