Allen Institute for AI發布MolmoWeb:開源網頁代理直接挑戰OpenAI、Google
非營利AI研究機構Allen Institute for AI(Ai2)正式發布MolmoWeb,一款基於Molmo 2多模態模型的開源網頁操作代理。與閉源系統不同,開發者可完整審視其工作原理。8B參數版本在網頁導航基準測試中,性能超越部分OpenAI、Google和Anthropic的商業產品。
第 3 頁,共 4 頁 · 共 40 篇文章
非營利AI研究機構Allen Institute for AI(Ai2)正式發布MolmoWeb,一款基於Molmo 2多模態模型的開源網頁操作代理。與閉源系統不同,開發者可完整審視其工作原理。8B參數版本在網頁導航基準測試中,性能超越部分OpenAI、Google和Anthropic的商業產品。
Anthropic就美國政府將其列為「供應鏈風險」一事向聯邦法院申請初步禁令。衝突源於Pentagon要求無限制使用Claude AI進行軍事用途,包括自主武器決策,Anthropic拒絕後遭到封殺,CEO Dario Amodei表示公司別無選擇,必須訴諸法律途徑。
超過30名來自OpenAI和Google DeepMind的員工,包括Google首席科學家Jeff Dean,就Anthropic遭美國政府列入黑名單一事提交聯署聲明,警告此舉將損害整個美國AI行業的競爭力。競爭對手罕見攜手,揭示了整個行業對政府干預的深層憂慮。
OpenAI向外界流出一份高度類似IPO招股說明書的文件,詳細披露了公司的商業風險,其中包括對Microsoft商業夥伴關係的高度依賴。文件顯示,若Microsoft終止合作,OpenAI的業務將面臨重大衝擊,這是公司首次以如此正式的方式公開承認這一結構性風險。
MIT研究人員發現了一種利用計算閒置時間加速推理模型訓練的新方法。核心思路是自動訓練一個小型「代理模型」來預測大型推理LLM的輸出,由大模型驗證,從而大幅減少大模型的計算工作量。測試結果顯示訓練速度翻倍,準確度不受影響,有望顯著降低AI訓練的成本與能耗。
OpenAI發布GPT-5.3-Codex-Spark,這是其首個正式部署於Cerebras晶圓級(wafer-scale)芯片而非Nvidia GPU的生產模型。此舉被視為OpenAI多元化AI算力供應鏈、降低對Nvidia單一依賴的重要戰略信號。
OpenAI正式發布GPT-5.4,搭載1百萬Token超長上下文視窗,並整合自主執行多步驟工作流程的能力。在模擬真實桌面生產力任務的OSWorld-V基準測試中,GPT-5.4得分75%,首次超越人類基準線72.4%,標誌著AI從對話工具向自主數位工作者的關鍵躍升。
全球頂級支付公司Stripe的AI代理系統「Minions」已達到每週自動生成超過1,300個生產就緒Pull Request的規模。任務從Slack訊息和Bug報告自動觸發,由大型語言模型生成代碼,經CI/CD流水線驗證後,人工審查後即可合并。這標誌著AI代理在頂尖科技公司的軟件開發流程中正式進入主流應用。
最新研究揭示,ChatGPT在生成回應時,雖然會從網絡檢索大量相關網頁,但最終僅有約15%的已檢索頁面出現在最終回應的引用中。這意味著傳統SEO的「排名」邏輯正在被顛覆——被AI檢索到並非被引用的保證,網站內容是否符合AI的「引用選擇邏輯」才是新的流量關鍵。
NVIDIA推出企業級AI Agent開發工具包,包含OpenShell安全運行環境、Nemotron模型系列,以及結合開源與前沿模型的AI-Q代理藍圖。工具包旨在讓企業以更低成本構建能夠推理、行動並完成複雜任務的自主AI代理,同時保持高準確度,並打破對單一AI供應商的依賴。