OSWorld-MCP 已正式發佈,這是首個用於在真實環境中全面評估 Computer-Use Agents 產品能力的基準測試。 OSWorld-MCP 綜合衡量產品的模型上下文協議(MCP)工具調用能力、圖形用户界面(GUI)操作技能以及決策表現,其作為 OSWorld 的擴展設計,提升了評估的真實度、平衡性和可比性。 主要特性: 158 個經過驗證的 MCP 工具,涵蓋 7 個常用應
新聞 RSS 訂閱
揭秘 MiniMax M2 Agent 能力技術細節:Interleaved Thinking(交錯思維鏈)
中國 AI 獨角獸公司稀宇科技上週發佈並開源其新一代文本大模型 MiniMax-M2: 頂級代碼能力:專為端到端開發工作流打造,在 Claude Code、Cursor、Cline、Kilo Code、Droid 等多種應用中表現卓越 強大 Agentic 表現:出色規劃並穩定執行復雜長鏈條工具調用任務,協同調用 Shell、Browser、Python 代碼執行器和各種 MCP 工具 其
Ollama v0.12.8 發佈,開源跨平台大模型工具
開源本地大模型運行工具 Ollama 發佈了 v0.12.8 版本。 新功能 針對模型 qwen3‑vl(“qwen3-vl”)做了性能提升,包括默認支持 Flash Attention。 在 “thinking” 過程(即模型輸出前推理)中,qwen3-vl 現在會 減少前導空白字符(leading whitespace)輸出。 Bug 修復 修復了一個
原快手副總裁張迪已從嗶哩嗶哩離職,加入阿里
根據雷峯網的獨家報道,原快手副總裁、可靈AI技術負責人張迪加入B站不久後便已離職。知情人士透露稱,張迪應該已經迴歸阿里巴巴某部門。 張迪本碩均就讀於上海交通大學。畢業後,張迪加入阿里巴巴,擔任資深技術專家,深度參與了搜推廣業務向深度學習時代的技術轉型。 2020年,張迪加入快手。2023年初,張迪出任快手大模型與多媒體技術團隊負責人。2024年,張迪的技術生涯迎來高光時刻——他以“技術一號位”身
OpenBao 2025-2026 路線圖及社區方向
OpenBao 的開發工作組(Dev WG)和技術指導委員會(TSC)制定並通過了 2025-2026 年的新技術方向和路線圖。 和去年類似,本次路線圖分為三個主要類別: 運營體驗:通過配置文件、緊急訪問(break-glass)、備份/恢復流程和改進的監控功能,讓 OpenBao 操作更簡單安全; 可擴展性:提升 OpenBao 在大規模複雜環境中的優化和資源利用; 可持續性:確保代
Spring AI 1.1.0-M4 發佈
Spring AI 1.1.0-M4 現已發佈,本次補丁版本帶來了重要的穩定性改進和錯誤修復。 本次版本更新包含340 項改進、錯誤修復和文檔更新。重點在於: 改進:35 項增強功能,以擴展其性能和功能特性 穩定性:修復了 132 個由社區反饋的問題。 文檔:41 項改進,旨在幫助開發人員 主要亮點 功能顯著增強,共計 35 項改進 顯著提升穩定性,修復了 132 個錯誤 文檔更
數百項 AI 安全測試存在嚴重缺陷
來自英國政府 AI 安全研究所和多所知名大學的計算機科學家們發現,當前用於評估新一代人工智能(AI)模型安全性和有效性的測試存在廣泛的缺陷。這項研究分析了超過440個基準測試,發現幾乎所有的測試在某個方面都有弱點,這些弱點可能會影響到最終結論的有效性。 研究的主要作者、牛津互聯網研究所的研究員安德魯・比恩(Andrew Bean)表示,這些基準測試是檢查新發布 AI 模型安全性和是否符合人類利益的
亞馬遜與 OpenAI 達成 380 億美元協議
OpenAI已與亞馬遜雲服務(AWS)簽署一項總額高達380億美元的算力資源採購協議。這一合作被視為其減少對微軟依賴、構建多元化技術生態的重要戰略舉措。 根據協議內容,OpenAI將立即啓動在AWS基礎設施上的工作負載部署,初期將依託美國地區數十萬台英偉達高性能圖形處理器(GPU)構建算力集羣,並計劃在未來數年內持續擴大資源規模,以滿足其不斷增長的模型訓練與推理需求。 作為估值已突破5000億美
CrateDB 5.10.14 發佈,分佈式 SQL 數據庫
CrateDB 是一個分佈式的 SQL 數據庫,使得實時存儲和分析大量的機器數據變得簡單。CrateDB 提供了通常與 NoSQL 數據庫相關的可擴展性和靈活性,最小的 CrateDB 集羣可以輕鬆地每秒攝取數萬條記錄。這些數據可以在整個集羣中實時地、臨時地、並行地進行查詢。 CrateDB 5.10.14 現已正式發佈,該版本更新內容如下: 修復 針對同時包含PARTITIONBY和C
大模型如何革新搜索相關性?智能升級讓搜索更 “懂你”
一、背 景 你是否曾在社區搜索時遇到這樣的困擾:想找一雙“平價學生黨球鞋”,結果出現的多是限量聯名款?或者輸入“初冬輕薄通勤羽絨服”,卻看到厚重登山款?這類“搜不準”的情況,正是搜索相關性技術要解決的核心問題——讓搜索引擎更準確地理解用户意圖,返回真正匹配的結果。今天,我們就來揭秘得物如何用大模型技術讓搜索變得更“聰明”。 搜索相關性,即衡量搜索結果與用户查詢的匹配程度,通俗來説就是“搜得準不準
AI 大模型投資賽落幕,Qwen3-Max 以 22.32% 收益率奪冠
11月4日,美國研究機構 Nof1的首屆 AI 大模型真實投資比賽 Alpha Arena 正式落下帷幕。這場激烈的競賽旨在探索六大頂級人工智能大語言模型(LLM)在真實市場中的表現。 結果顯示,阿里巴巴的通義千問 Qwen3-Max 以22.32% 的收益率成功奪冠。 此次比賽的獨特之處在於,每個參賽模型都被賦予了1萬美元的起始資金,允許它們在 Hyperliquid 交易平台上自主交易加密貨
Subtitle Edit 4.0.14 發佈,字幕編輯工具
Subtitle Edit是一款針對文本格式類字幕的編輯工具,支持多種字符編碼和字幕格式(Sub Station Alpha、Advanced Sub Station Alpha、SubRip、MicroDVD、MPL2、MPsub (MPlayer subtitle)、SubViewer 2.0、Plain-Text、Adobe Encore DVD)。 Subtitle Edit 4.0.14
元寶接入微信支付,新增三大 AI 功能:自動收款、宣傳潤色等
微信官微發佈消息稱,元寶正式接入微信支付,開通微信支付經營收款碼的中小商户能在微信內輕鬆搞定收款算賬、社羣文案。 微信右上角點擊“收付款-二維碼收款”,打開“經營收款碼”再點擊“收款碼下單模式設置-拍菜單識別”,選擇拍照或相冊上傳。不用挨個手動錄入菜品和金額,“在線化菜單”秒生成。元寶識別出的菜單還可以直接變成收款時顧客付款可選的付款項。此外,用户下單時,還能在付款的同時備註名稱、聯繫方式和特殊
螞蟻數科推出多語種視覺大模型訓練框架
螞蟻數科在香港金融科技節上發佈了一項“多語種多模態大模型訓練框架”技術,旨在解決當前大模型在多語言環境中的應用瓶頸。該框架在埃及阿拉伯語、印尼爪哇語、巴哈薩語及巽他語等資源稀缺的小語種上表現尤為突出。 這一突破的核心在於創新的語言感知優化框架。該框架通過 “以目標語言進行思考” 的機制,結合細粒度多維度的獎勵策略與自動化數據解決方案,實現在小語種的深度理解和處理。 根據測試結果,與同等規模的開源
Grab 自研語言模型解決亞洲語言識別難題
新加坡超級應用程序公司 Grab 近日在其工程博客上分享了其自研語言模型的開發經歷,指出現有的大型語言模型在理解東南亞語言時表現不佳。Grab 的超級應用程序提供打車、外賣、購物和金融服務等功能,覆蓋新加坡、馬來西亞、印尼、菲律賓、越南、泰國、柬埔寨和緬甸等國家,這些地區的文檔通常使用非拉丁字母的腳本。 在執行如客户身份驗證等合規工作時,Grab 需要準確提取身份證、駕照和註冊證書等信息。儘管嘗試
馬斯克提議用 AI 衞星“遮陽”降温
埃隆·馬斯克本週在X上拋出新的氣候“降温方案”:部署一組由人工智能控制的衞星,通過微小調整地球接收的太陽輻射量,以抑制全球變暖。這一構想類似學術界討論多年的太空“遮陽傘”方案,但此前主要停留在理論階段。 馬斯克提出,這種“大型太陽能AI衞星”可以通過反射調節地球吸收的能量;更有甚者,他聲稱如果藉助月球工廠,年發電量可達百太瓦。但科學界對此詬病已久,研究顯示,要在可觀尺度上產生氣候效果,可能需要數
IEEE 報告:Agentic AI 將於 2026 年在消費者中實現大眾化普及
IEEE發佈《2026年及未來技術影響:IEEE全球研究》(The Impact of Technology in 2026 and Beyond: an IEEE Global Study)的調查結果。這項調查覆蓋了來自中國、巴西、印度、日本、英國和美國的全球技術領導者,內容包括2026年將受到AI影響最大的技術領域,對AI市場增長、益處、使用和技能的預期,以及未來科技發展趨勢。 Agentic
Syncthing 2.0.11 正式發佈,連續文件同步工具
Syncthing是一個免費開源的工具,它能在你的各個網絡計算機間同步文件 / 文件夾,它的同步數據是直接從一個系統中直接傳輸到另一個系統的,並且它是安全且私密的。 Syncthing 2.0.11 現已發佈,具體更新內容如下: 修復 fix(policy):僅允許非作者貢獻者進行審批#10419 fix(fs):將getExpireAdd互斥鎖存儲在caseCache(修復#9836)#1
TinyEngine - 低代碼引擎
TinyEngine 是開源低代碼引擎,使能開發者定製低代碼平台,支持在線實時構建低碼平台,支持二次開發或集成低碼平台能力。 架構: 特性: 跨端跨框架前端組件 支持在線實時構建、支持二次開發或被集成 直接生成可部署的源碼,運行時無需引擎支撐 允許接入第三方組件、允許定製擴展插件 支持高代碼與低代碼,混合開發部署應用 平台接入 AI 大模型能力,輔助開發者構建應用
青島某公司員工離職前故意刪除公司數據,構成違法犯罪
公安部網安局今日發文,通報了近日發生的一起被網友戲稱為“刪庫跑路”類型的違法案例。 近期,山東青島某公司到派出所報案稱,公司客户經理李某某離職前將公司某數據管理平台上的某項重要數據進行了全部更改,導致公司經營受到嚴重影響。 經公安機關偵查發現,該公司員工李某某因不滿降薪,惡意修改公司平台存儲的某項數據,屬於法律法規禁止的改變計算機信息網絡數據行為,非單純經濟糾紛。 公安機關對李某某違法行為
Zadig 全面推出英文版,向全球開發者開放
在全球化協作日益重要的今天,開源項目 Zadig 作為企業級雲原生 DevOps 平台,正式推出全英文版本,涵蓋官方網站、產品控制枱及技術文檔,為國際團隊提供更加友好的開發體驗。這一舉措標誌着這一原本已在 GitHub 上開源的項目,正式向全球市場拓展。 官方網站:全球煥新登場 全新設計的英文官網,以清晰的架構與國際化的視覺語言,全面展示了 Zadig 的核心特性與技術優勢,幫助用户快速洞察其自
探討超長上下文推理的潛力
編者按: 現代大語言模型已經能夠一次性處理相當於整本書的文本量,但我們是否曾想過,當模型的"記憶"容量再擴展成千上萬倍,足以容納長達數月乃至數年的交互信息時,人工智能的能力邊界將會發生怎樣顛覆性的變化? 我們今天為大家帶來的文章,作者的核心觀點是:超長上下文推理的真正潛力,並不僅僅是處理海量文檔,更在於它為實現人工智能的"持續學習"和規模化"強化學習"這兩大關鍵瓶頸提供了革命性的突破路徑。
蘋果 iOS 27 開發進展:AI 功能將迎來重大升級
科技記者 Mark Gurman 透露,iOS27正在積極開發中,並將於明年6月的全球開發者大會上首次亮相。這一新系統不僅包括 iOS27,還將涵蓋 macOS27、watchOS27等多個操作系統,而最受關注的則是 Apple Intelligence 的重大更新。 值得一提的是,剛剛推送至用户的 iOS26中雖然引入了20多項 Apple Intelligence 新功能,但這次更新並未被認
OpenResty Edge 25.9.17 發佈
OpenResty Edge 25.9.17 版本現已發佈,具體更新內容包括: 特性 支持異步鏡像請求功能。 特性 支持緩存預熱功能,可提前緩存熱點內容。 特性 Log Server API 支持通過 API Token 進行安全訪問認證。 特性 添加"啓用 S3 認證"頁面規則動作,支持對 S3 存儲服務的請求進行身份驗證。 特性 添加 Edgelang API set-openid