LLM

Anthropic公布Claude新版「憲章」:以可解釋的價值體系強化對齊與透明度

Anthropic公開更新版Claude憲章,將「安全、倫理、合規、助人」等原則寫成可供模型學習的完整文件,並以透明度為目標。

把價值觀寫成「可教的文件」

Anthropic公布Claude新版「憲章」,不再只是一串原則清單,而是用更完整的敘事說明模型應如何理解自身定位、如何在不同價值之間取捨,以及為何要遵守某些高風險行為的硬性限制。這種寫法的用意,是讓模型在訓練與生成時能更好地概括與泛化,而不是在陌生情境中死守規則而產生反效果。

透明度與對齊工程的關係

在企業採用大型語言模型時,管理層常問的不是「模型會不會說得更像人」,而是「我們能否解釋它為何這樣做」。公開憲章等於把對齊目標與優先順序明確化,讓外界理解模型被期待的行為範圍,同時也讓使用者在設計提示、工具使用與權限控管時,有更清晰的安全假設。

對香港企業的實務啟示

若把模型視為可執行任務的代理,憲章式文件可被當作治理的基礎層:一方面可用來制定內部使用守則與紅線清單;另一方面可支援稽核與風險評估,例如把「需要人類覆核」的類別與「不得輸出」的類別制度化。當供應商愈來愈重視對齊與透明度,採購與法務也應把這類文件納入評估,與效能指標同等對待。