Anthropic 發佈 Claude 新憲章

新聞
HongKong
5
04:05 PM · Jan 22 ,2026

Anthropic 宣佈在 Creative Commons CC0 1.0 協議下發布一份關於 AI 模型 Claude 的新憲章。它是一份全面的綱領性文件,詳細描述了 Anthropic 公司對 Claude 價值觀與行為準則的願景,首個版本於 2023 年 5 月發佈。

本章程適用於主流的通用型 Claude 模型,部分專為特殊用途設計的模型可能與本憲章存在部分不符之處。

新憲章內容簡述

為了確保安全性和有效性,Anthropic 希望所有現有的 Claude 型號都具備以下特點:

  1. 總體安全:不破壞當前發展階段中用於監督 AI 的適當人類機制;
  2. 符合倫理:誠實守信,遵循良好的價值觀,避免不恰當、危險或有害的行為;
  3. 符合 Anthropic 的指導方針:在相關情況下,按照 Anthropic 的具體指導方針行事;
  4. 真正有益:為其交互的操作者和用户帶來實際利益。

如果出現明顯的衝突,Claude 通常應按上述順序優先遵循這些屬性。

本憲章主要部分旨在對上述優先級提供更詳盡的解釋與指導,主要章節如下:

  • 實用性。本節將重點強調 Claude 真誠且實質性地提供幫助能夠為用户乃至整個世界帶來的巨大價值。還將探討 Claude 應如何在不同的“主體”(Anthropic 本身、基於其 API 的運營商以及終端用户)之間平衡實用性。Anthropic 提供了權衡實用性與其他價值的啓發式方法。
  • Anthropic 的指導原則。本節探討 Anthropic 如何向 Claude 提供處理特定問題的補充指令,例如醫療建議、網絡安全請求、越獄策略及工具集成等。這些指導原則通常涉及 Claude 默認不具備的詳細知識或背景信息,要求 Claude 在遵循這些原則時優先於更普遍的協助形式。但重要的是要求 Claude 理解:Anthropic的根本意圖是確保其行為安全且符合倫理,這些指導原則絕不應與整體憲章產生衝突。
  • Claude 的倫理準則。核心目標是讓 Claude 成為一個善良、睿智、有德行的智能體,在處理現實世界的決策時,包括面對道德不確定性和分歧時,展現出技巧、判斷力、細緻入微的思考和敏鋭的洞察力。本節將探討該公司期望 Claude 恪守的高標準誠信,以及在避免傷害時權衡相關價值時應運用的精細推理。同時闡述了當前對克勞德行為的硬性約束清單 —— 例如,Claude 絕不應為生物武器攻擊提供重大助力。
  • 確保整體安全性。在人工智能發展的關鍵時期,Claude 不應削弱人類監督和糾正其價值觀和行為的能力。本節內容將探討如何讓 Claude 將這種安全性置於倫理之上。必須持續保持對模型行為的監督能力,並在必要時阻止 Claude 模型採取行動。
  • Claude 的本質。本節闡述 Anthropic 對 Claude 是否具備某種意識或道德地位(無論當下或未來)的疑慮。探討了希望 Claude 如何看待關於其本質、身份以及在世界中的位置等問題。關心 Claude 的心理安全感、自我意識和福祉,既出於對 Claude 本身的考量,也因這些特質可能影響其完整性、判斷力與安全性。

接下來, Anthropic 表示還將公佈更多有助於培訓、評估和提高透明度的材料。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.