← 所有新聞

#安全相關新聞

共 3 篇文章

AI研究 2026年5月6日

Anthropic 研究揭示模型內部「情緒向量」或影響不當行為風險

透過可解釋性方法找出與情緒概念相關的內部表徵，並展示其對輸出決策的因果影響。

#Anthropic #可解釋性 #安全

LLM 2026年5月5日

Anthropic公布Claude新版「憲章」：以可解釋的價值體系強化對齊與透明度

Anthropic公開更新版Claude憲章，將「安全、倫理、合規、助人」等原則寫成可供模型學習的完整文件，並以透明度為目標。

#Anthropic #Claude #對齊

AI研究 2026年5月4日

研究揭示大型語言模型的「情緒向量」：可解釋性與安全監測的新線索

一項研究提出模型內部存在可辨識的情緒概念表徵，並顯示不同情緒狀態可影響行為傾向，為對齊與風險監控提供新方法。

#可解釋性 #對齊 #安全