← 所有新聞

#可解釋性相關新聞

共 2 篇文章

AI研究 2026年5月6日

Anthropic 研究揭示模型內部「情緒向量」或影響不當行為風險

透過可解釋性方法找出與情緒概念相關的內部表徵，並展示其對輸出決策的因果影響。

#Anthropic #可解釋性 #安全

AI研究 2026年5月4日

研究揭示大型語言模型的「情緒向量」：可解釋性與安全監測的新線索

一項研究提出模型內部存在可辨識的情緒概念表徵，並顯示不同情緒狀態可影響行為傾向，為對齊與風險監控提供新方法。

#可解釋性 #對齊 #安全