Anthropic公布Claude新版「憲章」：以可解釋的價值體系強化對齊與透明度

把價值觀寫成「可教的文件」

Anthropic公布Claude新版「憲章」，不再只是一串原則清單，而是用更完整的敘事說明模型應如何理解自身定位、如何在不同價值之間取捨，以及為何要遵守某些高風險行為的硬性限制。這種寫法的用意，是讓模型在訓練與生成時能更好地概括與泛化，而不是在陌生情境中死守規則而產生反效果。

在企業採用大型語言模型時，管理層常問的不是「模型會不會說得更像人」，而是「我們能否解釋它為何這樣做」。公開憲章等於把對齊目標與優先順序明確化，讓外界理解模型被期待的行為範圍，同時也讓使用者在設計提示、工具使用與權限控管時，有更清晰的安全假設。

若把模型視為可執行任務的代理，憲章式文件可被當作治理的基礎層：一方面可用來制定內部使用守則與紅線清單；另一方面可支援稽核與風險評估，例如把「需要人類覆核」的類別與「不得輸出」的類別制度化。當供應商愈來愈重視對齊與透明度，採購與法務也應把這類文件納入評估，與效能指標同等對待。