Anthropic 發佈 Claude 新憲章

Anthropic 宣佈在 Creative Commons CC0 1.0 協議下發布一份關於 AI 模型 Claude 的新憲章。它是一份全面的綱領性文件，詳細描述了 Anthropic 公司對 Claude 價值觀與行為準則的願景，首個版本於 2023 年 5 月發佈。

本章程適用於主流的通用型 Claude 模型，部分專為特殊用途設計的模型可能與本憲章存在部分不符之處。

新憲章內容簡述

為了確保安全性和有效性，Anthropic 希望所有現有的 Claude 型號都具備以下特點：

總體安全：不破壞當前發展階段中用於監督 AI 的適當人類機制；
符合倫理：誠實守信，遵循良好的價值觀，避免不恰當、危險或有害的行為；
符合 Anthropic 的指導方針：在相關情況下，按照 Anthropic 的具體指導方針行事；
真正有益：為其交互的操作者和用户帶來實際利益。

如果出現明顯的衝突，Claude 通常應按上述順序優先遵循這些屬性。

本憲章主要部分旨在對上述優先級提供更詳盡的解釋與指導，主要章節如下：

實用性。本節將重點強調 Claude 真誠且實質性地提供幫助能夠為用户乃至整個世界帶來的巨大價值。還將探討 Claude 應如何在不同的“主體”（Anthropic 本身、基於其 API 的運營商以及終端用户）之間平衡實用性。Anthropic 提供了權衡實用性與其他價值的啓發式方法。
Anthropic 的指導原則。本節探討 Anthropic 如何向 Claude 提供處理特定問題的補充指令，例如醫療建議、網絡安全請求、越獄策略及工具集成等。這些指導原則通常涉及 Claude 默認不具備的詳細知識或背景信息，要求 Claude 在遵循這些原則時優先於更普遍的協助形式。但重要的是要求 Claude 理解：Anthropic的根本意圖是確保其行為安全且符合倫理，這些指導原則絕不應與整體憲章產生衝突。
Claude 的倫理準則。核心目標是讓 Claude 成為一個善良、睿智、有德行的智能體，在處理現實世界的決策時，包括面對道德不確定性和分歧時，展現出技巧、判斷力、細緻入微的思考和敏鋭的洞察力。本節將探討該公司期望 Claude 恪守的高標準誠信，以及在避免傷害時權衡相關價值時應運用的精細推理。同時闡述了當前對克勞德行為的硬性約束清單 —— 例如，Claude 絕不應為生物武器攻擊提供重大助力。
確保整體安全性。在人工智能發展的關鍵時期，Claude 不應削弱人類監督和糾正其價值觀和行為的能力。本節內容將探討如何讓 Claude 將這種安全性置於倫理之上。必須持續保持對模型行為的監督能力，並在必要時阻止 Claude 模型採取行動。
Claude 的本質。本節闡述 Anthropic 對 Claude 是否具備某種意識或道德地位（無論當下或未來）的疑慮。探討了希望 Claude 如何看待關於其本質、身份以及在世界中的位置等問題。關心 Claude 的心理安全感、自我意識和福祉，既出於對 Claude 本身的考量，也因這些特質可能影響其完整性、判斷力與安全性。

接下來， Anthropic 表示還將公佈更多有助於培訓、評估和提高透明度的材料。

新憲章內容簡述

發佈評論

Product

Company

Support

Company

Anthropic 發佈 Claude 新憲章

新憲章內容簡述

發佈 評論

發佈評論