#LLM 相關新聞

共 10 篇文章

LLM 2026年3月28日

Anthropic意外洩露次世代模型「Claude Mythos」：性能遠超Opus 4.6，網絡安全能力引發警報

Anthropic因內容管理系統配置失誤，意外在官網公開了近3,000份未發佈文件，其中包含描述全新模型「Claude Mythos」（代號Capybara）的草稿博文。文件顯示該模型在軟件編碼、學術推理和網絡安全測試上大幅超越現有最強模型Claude Opus 4.6，但同時警告其網絡安全能力「遠超任何現有AI模型」，可能加速網絡攻擊與防禦之間的軍備競賽。

#Anthropic #Claude #LLM

LLM 2026年3月28日

GPT-5.4正式推出：電腦使用能力首次超越人類，在OSWorld基準測試中得分75%

OpenAI於3月5日發布GPT-5.4，這是首款在OSWorld電腦操作基準測試中以75%得分超越人類（72.4%）的AI模型，標誌著AI從對話工具向自主數字助理的實質性轉型。新模型整合了原生電腦使用能力、100萬token上下文窗口，並在專業工作（GDPval 83%）和網頁研究（BrowseComp 82.7%）等多項基準上大幅刷新紀錄。

#OpenAI #GPT #LLM

LLM 2026年3月27日

DeepSeek V4「失蹤」之謎：多個預測窗口落空，獵鷹Alpha竟是小米模型，中國頂尖AI實驗室為何沉默？

截至2026年3月下旬，DeepSeek V4仍未公開發布，此前流傳的匿名「獵鷹Alpha（Hunter Alpha）」模型被路透社確認實為小米的MiMo-V2-Pro。DeepSeek的沉默打破了中國AI實驗室的高頻發布節奏，業界對其是否面臨算力限制、戰略調整或技術瓶頸眾說紛紜。

#DeepSeek #LLM #AI-research

LLM 2026年3月27日

2026年Q1 AI模型競賽總結：255個新模型、每2-3週一次發布、Gemini 3.1 Pro稱霸16項基準

根據LLM Stats的追蹤數據，2026年第一季度共記錄255個以上的AI模型發布，主要實驗室的更新節奏壓縮至每2至3週一次。Google的Gemini 3.1 Pro以77.1%的ARC-AGI-2得分領跑16項主要基準測試，Anthropic推出Claude Opus 4.6和Sonnet 4.6，OpenAI的GPT-5.2在AIME 2025數學基準上取得滿分，阿里巴巴Qwen3-Max-Thinking躋身前沿行列。

#LLM #AI-research #Google

AI商業 2026年3月26日

摩根士丹利警告：2026上半年將出現AI重大突破，全球大多數人尚未準備好

摩根士丹利在最新研究報告中警告，由美國頂尖AI實驗室史無前例的算力積累所推動，一場具有轉型意義的AI能力跨越即將在2026年上半年發生。OpenAI最新的GPT-5.4「思考」模型在GDPVal基準測試中得分83%，首次達到或超越人類專家在經濟價值任務上的表現水準。

#AI-business #LLM #OpenAI

LLM 2026年3月25日

Google發布Gemini 3.1 Flash-Lite：速度提升2.5倍，每百萬Token僅0.25美元

Google推出以效率為核心的Gemini 3.1 Flash-Lite，延遲比前代降低60%，輸出速度提升45%，定價僅為每百萬輸入Token 0.25美元。此舉反映業界從追求極致性能轉向讓更多企業負擔得起前沿AI算力的趨勢。

#Google #Gemini #LLM

LLM 2026年3月25日

OpenAI關閉Sora視頻生成應用，同日揭露下一代模型代號「Spud」

OpenAI宣布永久關閉僅上線半年的Sora視頻生成應用，原因是GPU資源消耗過大。同日，執行長Sam Altman透露，下一代核心模型代號「Spud」已完成初步開發，並公布多項重大組織重整措施。

#OpenAI #Sora #LLM

AI研究 2026年3月23日

MIT研究突破：新方法使大型語言模型訓練速度翻倍，同時保持準確度

MIT研究人員發現了一種利用計算閒置時間加速推理模型訓練的新方法。核心思路是自動訓練一個小型「代理模型」來預測大型推理LLM的輸出，由大模型驗證，從而大幅減少大模型的計算工作量。測試結果顯示訓練速度翻倍，準確度不受影響，有望顯著降低AI訓練的成本與能耗。

#AI-research #LLM

LLM 2026年3月23日

OpenAI發布GPT-5.4：1百萬Token上下文，桌面任務自動化達人類水平

OpenAI正式發布GPT-5.4，搭載1百萬Token超長上下文視窗，並整合自主執行多步驟工作流程的能力。在模擬真實桌面生產力任務的OSWorld-V基準測試中，GPT-5.4得分75%，首次超越人類基準線72.4%，標誌著AI從對話工具向自主數位工作者的關鍵躍升。

#OpenAI #LLM #GPT

LLM 2026年3月19日

2026年3月開源AI模型大爆發：Mistral、Kimi、MiniMax密集發布，性能逼近閉源旗艦

2026年3月，開源AI模型迎來密集發布潮：Mistral Small 3.1、Kimi K2.5、MiniMax M2.7、Xiaomi MiMo v2 Pro等多個重量級模型相繼推出，在部分基準測試上逼近甚至超越閉源商業模型。開源模型在算法效率和推論成本上的持續突破，正在快速縮小與專有模型的能力差距。

#LLM #open-source