#AI-research 相關新聞

共 11 篇文章

AI研究 2026年3月28日

比利時研究揭示AI招聘工具性別偏見比想像中更深：去除明顯標記後，AI仍用「代理變量」懲罰女性求職者

比利時最新研究發現，AI輔助招聘工具的性別偏見遠比此前認知更加根深蒂固。即使在刪除姓名、性別等明顯性別標記之後，AI模型仍會通過分析特定興趣愛好、語言表達模式和職業空白期等「代理變量」來識別並懲罰女性求職者。研究結果對企業合規評估和AI公平性工程帶來深遠挑戰。

#AI-policy #AI-research #AI-business

LLM 2026年3月28日

Anthropic意外洩露次世代模型「Claude Mythos」：性能遠超Opus 4.6，網絡安全能力引發警報

Anthropic因內容管理系統配置失誤，意外在官網公開了近3,000份未發佈文件，其中包含描述全新模型「Claude Mythos」（代號Capybara）的草稿博文。文件顯示該模型在軟件編碼、學術推理和網絡安全測試上大幅超越現有最強模型Claude Opus 4.6，但同時警告其網絡安全能力「遠超任何現有AI模型」，可能加速網絡攻擊與防禦之間的軍備競賽。

#Anthropic #Claude #LLM

AI工具 2026年3月28日

模型上下文協議MCP突破9,700萬次安裝：從實驗標準到AI代理基礎設施的關鍵里程碑

模型上下文協議（MCP）在2026年3月突破9,700萬次安裝，每一家主要AI提供商現已發布MCP相容工具，標誌著MCP從Anthropic提出的技術提案，正式演進為整個AI代理生態系統的基礎連接標準，其地位類比HTTP之於互聯網。

#MCP #AI工具 #AI-research

LLM 2026年3月27日

DeepSeek V4「失蹤」之謎：多個預測窗口落空，獵鷹Alpha竟是小米模型，中國頂尖AI實驗室為何沉默？

截至2026年3月下旬，DeepSeek V4仍未公開發布，此前流傳的匿名「獵鷹Alpha（Hunter Alpha）」模型被路透社確認實為小米的MiMo-V2-Pro。DeepSeek的沉默打破了中國AI實驗室的高頻發布節奏，業界對其是否面臨算力限制、戰略調整或技術瓶頸眾說紛紜。

#DeepSeek #LLM #AI-research

LLM 2026年3月27日

2026年Q1 AI模型競賽總結：255個新模型、每2-3週一次發布、Gemini 3.1 Pro稱霸16項基準

根據LLM Stats的追蹤數據，2026年第一季度共記錄255個以上的AI模型發布，主要實驗室的更新節奏壓縮至每2至3週一次。Google的Gemini 3.1 Pro以77.1%的ARC-AGI-2得分領跑16項主要基準測試，Anthropic推出Claude Opus 4.6和Sonnet 4.6，OpenAI的GPT-5.2在AIME 2025數學基準上取得滿分，阿里巴巴Qwen3-Max-Thinking躋身前沿行列。

#LLM #AI-research #Google

AI研究 2026年3月26日

大型研究：AI是人類創造力的「放大器」而非取代者，讓人更具創意

斯旺西大學針對逾800名參與者開展的大規模研究發現，與AI協作創作的人類，在創意輸出的新穎性和多樣性上顯著優於單獨創作的對照組，AI在創作過程中扮演的是「創作協作者」角色。這一發現挑戰了「AI會扼殺人類創造力」的主流擔憂，為AI與人類的創意協作提供了實證基礎。

#AI-research

AI研究 2026年3月26日

密西根大學AI系統數秒分析腦部MRI，準確識別神經系統疾病並分診緊急程度

密西根大學研究人員開發出一套AI系統，能在數秒內解讀腦部MRI掃描影像，準確識別廣泛的神經系統疾病，並判斷哪些病例需要緊急處置。這一突破有望大幅縮短目前長達數小時甚至數天的腦部影像診斷等待時間，在急診醫學和偏遠地區醫療資源短缺的場景中具有重大應用潛力。

#AI-research

AI研究 2026年3月25日

NASA利用Anthropic Claude AI完成人類史上首次火星自動駕駛，覆蓋456公尺

NASA火星探測車「毅力號」完成了人類史上首次由人工智能規劃的火星地表行駛任務。Anthropic的Claude視覺語言模型分析軌道影像與地形數據，自主生成安全路徑，兩次行駛共覆蓋456公尺，取代了人類操作員手動執行28年的複雜規劃工作。

#NASA #Anthropic #AI-research

AI研究 2026年3月24日

Allen Institute for AI發布MolmoWeb：開源網頁代理直接挑戰OpenAI、Google

非營利AI研究機構Allen Institute for AI（Ai2）正式發布MolmoWeb，一款基於Molmo 2多模態模型的開源網頁操作代理。與閉源系統不同，開發者可完整審視其工作原理。8B參數版本在網頁導航基準測試中，性能超越部分OpenAI、Google和Anthropic的商業產品。

#AI-tools #open-source #AI-research

AI研究 2026年3月23日

MIT研究突破：新方法使大型語言模型訓練速度翻倍，同時保持準確度

MIT研究人員發現了一種利用計算閒置時間加速推理模型訓練的新方法。核心思路是自動訓練一個小型「代理模型」來預測大型推理LLM的輸出，由大模型驗證，從而大幅減少大模型的計算工作量。測試結果顯示訓練速度翻倍，準確度不受影響，有望顯著降低AI訓練的成本與能耗。

#AI-research #LLM

AI研究 2026年3月21日

研究發現：ChatGPT只引用15%已檢索網頁，SEO進入「AI引用時代」

最新研究揭示，ChatGPT在生成回應時，雖然會從網絡檢索大量相關網頁，但最終僅有約15%的已檢索頁面出現在最終回應的引用中。這意味著傳統SEO的「排名」邏輯正在被顛覆——被AI檢索到並非被引用的保證，網站內容是否符合AI的「引用選擇邏輯」才是新的流量關鍵。

#AI-research #AI-business #Google