AI研究 2026年5月4日 研究揭示大型語言模型的「情緒向量」:可解釋性與安全監測的新線索 一項研究提出模型內部存在可辨識的情緒概念表徵,並顯示不同情緒狀態可影響行為傾向,為對齊與風險監控提供新方法。 #可解釋性 #對齊 #安全