AI研究

Allen Institute for AI發布MolmoWeb:開源網頁代理直接挑戰OpenAI、Google

非營利AI研究機構Allen Institute for AI(Ai2)正式發布MolmoWeb,一款基於Molmo 2多模態模型的開源網頁操作代理。與閉源系統不同,開發者可完整審視其工作原理。8B參數版本在網頁導航基準測試中,性能超越部分OpenAI、Google和Anthropic的商業產品。

在大型科技公司主導AI代理賽道的背景下,非營利研究機構艾倫人工智能研究院(Allen Institute for AI,簡稱Ai2)帶來了一個重要的開源反擊:MolmoWeb——一款可以像人類一樣操作網頁瀏覽器的開源代理系統。

MolmoWeb的工作原理

MolmoWeb建立在Ai2最新的Molmo 2多模態模型家族之上,其核心工作方式與大多數代理系統有本質區別:

  • 視覺優先:直接分析網頁截圖,而非依賴底層HTML/DOM結構
  • 行為仿人:通過識別視覺元素,執行點擊、滾動、文字輸入等操作
  • 任務導向:能夠規劃多步驟任務,如填寫表單、搜索資訊、導航複雜介面

這種「看截圖操作」的方式意味著MolmoWeb可以操作幾乎任何網頁,無論其底層技術實現如何。

基準測試:8B模型挑戰商業巨頭

在網頁導航基準測試中,MolmoWeb的8B參數版本取得了令人驚訝的成績:在多個測試任務上,其表現超過了部分來自OpenAI、Google DeepMind和Anthropic的商業代理產品。

這一結果意義重大——它表明在特定任務上,精心優化的小型開源模型,可以與研發預算高達數十億美元的閉源系統相抗衡。

開源的差異化價值

相比閉源代理系統,MolmoWeb的開源特性帶來了獨特優勢:

  1. 可審計性:開發者可以完整查看模型如何做出每一個決策
  2. 可定制性:企業可針對特定工作流程進行微調
  3. 無成本限制:按需自部署,無API調用費用
  4. 隱私保護:敏感操作可在本地運行,無需將截圖傳送至第三方服務器

機構轉型期的發布

值得關注的是,此次發布恰逢Ai2的關鍵轉型期——CEO Ali Farhadi及多名核心研究人員已相繼離開,加入微軟Mustafa Suleiman領導的超智能研究團隊。MolmoWeb的發布,在某種程度上也是Ai2在人才流失陰影下,向外界展示其持續研究實力的一次重要亮相。