OpenAI 發佈開源安全模型 gpt-oss-safeguard - 新闻详情

OpenAI發佈了開源安全推理模型gpt-oss-safeguard，包含120B和20B兩個版本，支持開發者自定義策略進行內容審核，模型基於Apache 2.0許可證開放使用。

兩款不同尺寸模型支持 harmony 格式的輸入輸出，並提供低、中、高三級推理強度設置。它們主要面向輸入輸出過濾、在線內容標註、離線信任與安全審核等場景，不適用於通用生成任務。

據介紹，gpt-oss-safeguard 可直接讀取開發者提供的策略文檔，通過鏈式推理輸出審核結論及依據，支持多策略並行處理，內部測試多策略準確率達52.2%，超越GPT-5-Thinking和原版GPT-OSS。該模型採用“策略直讀+推理解釋”機制，無需重新訓練即可動態調整規則，適用於新興風險、細分領域及樣本稀缺場景。

模型下載地址：https://huggingface.co/collections/openai/gpt-oss-safeguard

OpenAI 發佈開源安全模型 gpt-oss-safeguard - 新闻 详情

OpenAI 發佈開源安全模型 gpt-oss-safeguard - 新闻详情