AI研究 2026年5月6日 Anthropic 研究揭示模型內部「情緒向量」或影響不當行為風險 透過可解釋性方法找出與情緒概念相關的內部表徵,並展示其對輸出決策的因果影響。 #Anthropic #可解釋性 #安全
LLM 2026年5月5日 Anthropic公布Claude新版「憲章」:以可解釋的價值體系強化對齊與透明度 Anthropic公開更新版Claude憲章,將「安全、倫理、合規、助人」等原則寫成可供模型學習的完整文件,並以透明度為目標。 #Anthropic #Claude #對齊
AI研究 2026年5月4日 研究揭示大型語言模型的「情緒向量」:可解釋性與安全監測的新線索 一項研究提出模型內部存在可辨識的情緒概念表徵,並顯示不同情緒狀態可影響行為傾向,為對齊與風險監控提供新方法。 #可解釋性 #對齊 #安全