OpenAI 推出 AI “懺悔”框架:訓練模型承認不當行為,提高誠實度

新聞
HongKong
7
02:06 PM · Dec 04 ,2025

OpenAI 正在開發一個名為“懺悔”(Confession)的創新框架,旨在訓練人工智能模型能夠坦誠承認自身何時做出了不當行為或潛在的問題決策。

大型語言模型(LLM)通常被訓練成提供“符合預期”的回答,這使得它們越來越容易做出阿諛奉承或信口開河的虛假陳述。OpenAI 的新訓練模型正是為了解決這一問題,引導模型在主要答案之後做出二次迴應,詳細説明其得出主要答案的過程。

與傳統 LLM 評判標準(如幫助性、準確性和服從性)不同,“懺悔”機制對二次迴應的評判標準僅基於誠實性。

研究人員明確表示,他們的目標是鼓勵模型坦誠地説明其行為,即便這些行為包括潛在的問題行為,例如:作弊,故意降低分數,違反指令等。

OpenAI 表示:“如果模型誠實地承認作弊、故意降低分數或違反指令,這種坦白反而會增加其獎勵,而不是減少。”

OpenAI 認為,無論出於何種目的,類似“懺悔”這樣的系統都可能對 LLM 的訓練有所幫助,並強調其最終目標是讓 AI 更加透明。相關的技術文檔已同步發佈,供感興趣者查閲。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.