分析:中國 AI 產業對「算子數量」的執著,或偏離真正的能力競爭
分析指出,中國 AI 業界盛行以「算子數量」或「Token 生成速度」作為衡量 AI 能力的核心指標,但這一導向可能掩蓋模型實際推理質量的不足,並令企業在錯誤的方向上過度投入資源。
Anthropic 發布 Claude Opus 4.7:視覺解析度大幅提升,高風險網安請求自動攔截
Anthropic 正式推出 Claude Opus 4.7,帶來強化的軟體工程能力、最高 2576 像素的視覺輸入解析度,以及針對高風險網路安全請求的自動偵測與阻擋機制,同時開放 API 工作預算測試功能。
OpenAI 推出 GPT‑Rosalind:面向生命科學研發的企業級推理模型預覽
GPT‑Rosalind 聚焦早期藥物研發與生物資料推理,提供工具與資料庫整合能力,但目前只向合資格企業用戶開放。
Anthropic 推出擁有 10 兆參數的 Claude Mythos 5 模型
Anthropic 宣布發表全新 Claude Mythos 5,擁有 10 兆參數,成為現今規模最大的 AI 語言模型之一,預計將在多領域推動智能革命。
Anthropic 推出 Claude Mythos 5:首款10兆參數模型,專注網絡安全與複雜編碼
Anthropic 最新發布 Claude Mythos 5,內含首款10兆參數大型語言模型,專為網絡安全、研究及複雜程式設計打造,具備多步推理處理能力。
DeepSeek V4 發布:1兆參數MoE模型,訓練成本低至520萬美元
新一代大型語言模型 DeepSeek V4 亮相,採用1兆參數稀疏專家模型(MoE),開放 Apache 2.0 授權權重,訓練花費僅520萬美元,展現與美國前沿模型媲美的競爭力。
Google DeepMind 推出 Gemini 3.1:多模態原生推理,Ultra 版本GPQA鑽石評測得分94.3%
Google DeepMind 最新推出 Gemini 3.1 系列,旗艦版本 Gemini 3.1 Ultra 在 GPQA Diamond 基準測試中獲得94.3%高分,並新增原生多模態推理功能,同時發表效能更快的 Gemini 3.1 Flash-Lite。
OpenAI 發佈 GPT-5.4「思考」版本:整合測試時計算,專攻複雜問題解決
OpenAI 全新 GPT-5.4「Thinking」版本正式亮相,引入持續計算能力,提升系統於操作系統層面解決複雜問題的表現,在 OSWorld-Verified 原生電腦操作測試中取得75.0%成績。
SpaceX 以2500億美元收購 xAI,AI產業重大整合登場
太空探索科技公司 SpaceX 宣布以2500億美元收購人工智慧新創公司 xAI,後者旗下 Grok 4.20 採用四代理協作系統,非幻覺率達78%,此舉將重塑AI產業格局。