OpenBayes 博客

Dec 30 2025

OpenBayes - UI-TARS-1.5 實現多模態 GUI 自主操作；FrontierScience 構建專家級科學推理評測數據集

公共資源速遞 5 個公共數據集： Arena-Write 寫作生成評測數據集 IF-Bench 紅外圖像理解基準數據集 Soul-Bench 音頻驅動人體動畫評測數據集 FrontierScience 推理科研任務評測數據集 VideoRewardBench 視頻獎勵模型評測數據集 4 個公共教程： UI-TARS-1.5 多模態 Agent GLM-ASR-Nano 智譜語音

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

Dec 30 2025

OpenBayes - 教程上新丨基於AI手勢識別，僅用CPU即可定製形態多變的3D聖誕樹

裝飾聖誕樹幾乎成了每個家庭迎接節日時不可或缺的一環，彩燈一圈圈繞上樹枝，掛件、照片慢慢填滿空隙，燈亮起的那一刻，節日的氛圍也隨之到位。隨着聖誕節臨近，小貝也為大家置辦了一棵「賽博聖誕樹」。3D Christmas Tree 是由 moleculemmeng020425 開源的一個基於 React, Three.js（R3F）和 AI 手勢識別 Web 應用。基於 AI 手勢識別，用户可以輕鬆用

圖像識別 , 自然語言處理 , 教程 , 人工智能 , 深度學習

Dec 19 2025

OpenBayes - Open-AutoGLM 實現手機端自主操作；PhysDrive 數據集採集真實駕駛生理信號

公共資源速遞 5 個公共數據集： FirstAidQA 急救知識問答數據集 PhysDrive 駕駛員生理測試數據集 PolypSense3D 息肉尺寸感知數據集 Envision 多階段事件視覺生成數據集 Care-PD 帕金森三維步態評估數據集 8 個公共模型： SAM 3 Z-Image-Turbo Ovis-Image-7B Ministral-3-14B Lon

機器學習 , pytorch , 自然語言處理 , 人工智能 , 深度學習

Dec 11 2025

OpenBayes - VibeVoice-Realtime TTS重構實時語音體驗；覆蓋9大真實場景，WenetSpeech-Chuan讓模型聽懂川話

公共資源速遞 5 個公共數據集： VOccl3D 三維人體遮擋視頻數據集 Spatial-SSRL-81k 空間感知自監督數據集 WenetSpeech-Chuan 川渝方言語音數據集 MMSVGBench 多模態矢量圖生成基準數據集 Fungi MultiClass Microscopic 真菌顯微圖像數據集 6 個公共教程：基於手勢識別的 3D 聖誕樹 Dia2-TTS：

機器學習 , 算法 , 自然語言處理 , 人工智能 , 深度學習

Dec 04 2025

OpenBayes - SAM3 重塑場景分割邊界；X-Dance 解鎖圖像驅動舞姿生成新難度

公共資源速遞 5 個公共數據集： 3EED 語言驅動三維理解數據集 X-Dance 圖像驅動舞蹈動作數據集 PhysToolBench 物理工具任務數據集 OST-Bench 時空場景理解基準數據集 Astrophysical Objects Image 天體物理物體圖像數據集 4 個公共教程： SAM3：視覺分割模型 FLUX.2-dev：圖像生成與編輯模型 Superto

機器學習 , 資訊 , 自然語言處理 , 人工智能 , 深度學習

Nov 27 2025

OpenBayes - Depth-Anything-3 打開全視角空間感知；CytoData 還原細胞級顯微宇宙！

公共資源速遞 5 個公共數據集： Netflix 電影電視目錄數據集 CytoData 血液細胞圖像數據集 VERA 語音推理能力評測數據集 UNO-Bench 全模態評測基準數據集 EditReward-Bench 圖像編輯評測數據集 3 個公共教程： PixelReasoner-RL：像素級視覺推理模型 VibeThinker-1.5B：小模型也可以有大智慧 Depth-A

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

Nov 27 2025

OpenBayes - 教程上新丨美團開源視頻生成模型LongCat-Video，兼具文生視頻/圖生視頻/視頻續寫三大能力，媲美開閉源頂尖模型

世界模型旨在理解、模擬與預測複雜的現實世界環境，是人工智能在真實場景中實現有效應用的重要基礎。在這一框架中，視頻生成模型通過其生成過程，逐步壓縮並學習幾何、語義、物理等多種知識形態，因而被視為構建世界模型的一條關鍵路徑，並有望最終實現對真實物理世界動態的有效模擬與預測。而在視頻生成領域，實現高效的長視頻生成能力尤為重要。基於此，美團開源了最新視頻生成模型 LongCat-Video，該模型旨在

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

Nov 20 2025

OpenBayes - DiffVox 打造下一代聲效模型；面部情感識別數據集讓 AI 讀心術成真！

公共資源速遞 6 個公共數據集： Freebayes_Benchmark 基準測試集 DiaMoE-TTS 多方言語音表音數據集 APEX 人工智能生產力評測基準數據集 BWA_Benchmark（SBC）基準測試集 DeePMD-kit_Example 勢能模型示例數據集 Facial Emotion Recognition 面部情感識別數據集 5 個公共教程： DiffV

機器學習 , 圖像識別 , 自然語言處理 , 人工智能 , 深度學習

Nov 13 2025

OpenBayes - 跨語言智能再升級！Multi-LMentry 打造多語理解新基準；Nemotron-Personas-USA重塑虛擬人畫像生成

公共資源速遞 5 個公共數據集： Life Style Data 生活方式數據集 Multi-LMentry 多語言基礎任務評測基準 Nemotron Personas USA 美國人物畫像數據集 The Diabetes Health Indicators 糖尿病健康指標數據集 Global Earthquake-Tsunami Risk 全球地震海嘯風險評估數據集訪問官網立即使

機器學習 , 圖像識別 , 自然語言處理 , 人工智能 , 深度學習

Nov 06 2025

OpenBayes - OpenBayes 教程上新丨Qwen-Image 刷新圖像編輯 SOTA，實現精準中文渲染

近期，阿里通義千問團隊開源首個圖像生成基礎模型 Qwen-Image，參數量達 20B，採用全新 MMDiT 架構，刷新了圖像生成模型 SOTA。 Qwen-Image 專注於提升 AI 在兩大核心場景的能力：複雜的文本渲染與精準的圖像編輯。無論是海報上的標語、PPT 裏的長段落文字，還是古籍中的詩詞意境，Qwen-Image 都能憑藉卓越的中英文渲染能力精準呈現，字形、排版、語義俱佳。在多

阿里巴巴 , 通義千問 , 開源 , 生成圖片 , 圖像

Nov 06 2025

OpenBayes - OpenBayes 一週速覽丨Qwen-Image-Edit 實現圖片文字精準編輯；Nemotron 數據集含超 2K 萬條樣本

公共資源速遞This Weekly Snapshots ！ 7 個公共數據集： Nemotron 多領域推理數據集 Trendyol 安全指令調優數據集 InteriorGS 3D 室內場景數據集 CSEMOTIONS 情緒音頻數據集 LongText-Bench 文本理解基準數據集 Document Haystack 多模態文檔基準數據集 CognitiveKernel-Pro-

llm , 數據集 , 阿里巴巴 , 圖像處理 , 數據分析

Nov 06 2025

OpenBayes - OpenBayes 教程上新丨開源代碼推理模型 DeepCoder-14B-Preview 狂攬 3k stars

4 月 9 日凌晨，Agentica 團隊攜手 Together AI 聯合開源了名為 DeepCoder-14B-Preview 的代碼推理模型，這個僅需 14B 即可媲美 OpenAI o3-Mini 的新模型迅速引起業界廣泛關注，在 GitHub 狂攬 3k stars。 DeepCoder 在多項評測中的得分情況具體而言，DeepCoder-14B-Preview 是一款基於 DeepS

code , 教程 , 人工智能 , 開源 , 模型

Nov 06 2025

OpenBayes - OpenBayes 一週速覽丨公共模型一鍵部署功能上線！VibeVoice1.5B重新定義TTS技術邊界，多人長對話一鍵生成

新功能上線平台公共模型界面現已推出「一鍵部署」功能，具體使用方式如下：進入「公共模型」，點擊模型右側的「小火箭」標識，即可快速部署該模型。也可以在點擊模型後，選擇右上角「部署當前版本」進行部署。本週資源更新 4 個公共教程：微軟 VibeVoice-1.5B 重新定義 TTS 技術邊界 vLLM+Open WebUl 部署 gemma-3-270m-it vLLM

code , llm , 文本處理 , 代碼生成 , nvidia

Nov 05 2025

OpenBayes - OpenBayes 在線教程彙總丨Qwen 連發 SOTA 級模型，覆蓋文本渲染/視頻創作/編程輔助

近期，阿里通義千問團隊以「卷王」速度持續刷新開源效率，兩週內發佈的開源模型覆蓋圖像生成、視頻創作、編程輔助三大核心領域，並推出非思考模式的新版本模型，不僅迭代速度領跑行業平均水平，更是多次刷新領域 SOTA。舉例而言，Qwen-Image 作為其圖像生成基礎模型，實現了精準的中文渲染；「甜品級」編程模型 Qwen3-Coder-Flash 在提供輕量級模型部署效率的同時，實現了接近頂級閉源模型的

llm , 阿里巴巴 , 圖像處理 , 編程語言 , 開源

Oct 26 2025

OpenBayes - 教程上新丨MIT等推出BindCraft，直接調用AF2，實現蛋白質結合體的智能化設計

在生命體系中，蛋白質很少單獨發揮其生物學功能，而是依賴於蛋白質-蛋白質相互作用（PPI）來執行復雜的生物學過程。因此，設計能夠特異性靶向和調控 PPI 的蛋白質結合物具有巨大的治療和生物技術潛力。然而，傳統的蛋白質結合物生成方法，例如免疫接種、抗體庫篩選或定向進化，通常費力費時，並且對靶位的控制有限。計算蛋白質設計提供了一種強大的替代方案，能夠根據特定靶標和結合位點定製結合物。而早期計算方法（

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

Aug 14 2025

OpenBayes - OpenBayes 一週速覽丨MiniCPM-V4.0圖像理解能力突破；MathCaptcha10K助力訓練驗證碼識別模型

公共資源速遞 5 個公共數據集： HelpSteer3 人類偏好數據集 A-WetDri 惡劣天氣駕駛數據集 NonverbalTTS 非語言音頻生成數據集 STRIDE-QA-Mini 自動駕駛問答數據集 MathCaptcha10k 算數驗證碼圖像數據集 5 個公共教程： dots.ocr：多語言文檔解析模型 MiniCPM-V4.0：極致高效的端側大模型 llama.c

llm , 數學 , 自然語言處理 , 解碼 , 視頻處理

Aug 11 2025

OpenBayes - OpenBayes 一週速覽丨李沐團隊開源語音大模型Higgs Audio V2，擴展多語言對話等功能

公共資源速遞This Weekly Snapshots ！ 5 個公共數據集： B3DB 生物基準數據集 PolyMath 數學推理數據集 SongEval 音樂評估數據集 MegaScience 科學推理數據集 WebInstruct-verified 多領域推理數據集 4 個公共模型： gpt-oss-20b gpt-oss-120b Qwen3-30B-A3B-Inst

llm , 圖像識別 , 數學 , 自然語言處理 , chatgpt

Apr 10 2025

OpenBayes - OpenBayes 教程上新丨字節開源 InfiniteYou 圖像生成框架，實現高保真面部特徵遷移

InfiniteYou（簡稱 InfU）是由字節跳動智能創作團隊近期推出的一款基於 Diffusion Transformers 的身份保持 (identity-preserved) 圖像生成框架。它通過先進的技術，能夠在生成圖像的同時保持人物身份的一致性，即在生成不同場景的圖片時能夠精準保留面部特徵。作為該領域最早利用擴散 Transformer (DiTs) 的框架之一，InfU 系統性地解

機器學習 , 圖像識別 , tensorflow , 人工智能 , 深度學習

Mar 26 2025

OpenBayes - OpenBayes 教程上新丨CSM 駕到，統統閃開！更鮮活的語音生成，從此告別延遲呆板機械味

與 AI 語音助手聊天時，總感覺哪裏怪怪的。它們對問題應答自如，可就是少了點「人味」。語調呆板、停頓突兀，時不時還在莫名其妙的地方卡頓，這種似人非人的違和感，其實就是「恐怖谷效應」在作祟。當 AI 語音與人類語音相似度頗高卻又未達到完美一致時，用户便會感到不適。近期，由 Sesame 團隊推出的語音生成模型 CSM (Conversational Speech Model) 在眾多語音模型中脱穎

機器學習 , tensorflow , 自然語言處理 , 人工智能 , 深度學習

Mar 01 2024

OpenBayes - OpenBayes 一週速覽｜快來生成你的專屬聲音鈴聲、Wikipedia 維基百科數據集上線

公共資源速遞 3 個數據集： Wikipedia 維基百科數據集 FMA 音樂分析數據集 RJUA-QA 首箇中文醫療專科問答推理數據集 2 個模型： Yi-34B-Chat-GGUF Falcon-7B 2 個教程： *用GPT-SoVITS 音頻合成在線 Demo *[Stable Diffusion]()在線教程小貝快訊： *全網最簡單的 AI 聲音克隆+So

資訊 , ai開發 , 人工智能 , 開源 , 資源

OpenBayes 博客

博客 / 列表

OpenBayes - UI-TARS-1.5 實現多模態 GUI 自主操作；FrontierScience 構建專家級科學推理評測數據集

OpenBayes - 教程上新丨基於AI手勢識別，僅用CPU即可定製形態多變的3D聖誕樹

OpenBayes - Open-AutoGLM 實現手機端自主操作；PhysDrive 數據集採集真實駕駛生理信號

OpenBayes - VibeVoice-Realtime TTS重構實時語音體驗；覆蓋9大真實場景，WenetSpeech-Chuan讓模型聽懂川話

OpenBayes - SAM3 重塑場景分割邊界；X-Dance 解鎖圖像驅動舞姿生成新難度

OpenBayes - Depth-Anything-3 打開全視角空間感知；CytoData 還原細胞級顯微宇宙！

OpenBayes - 教程上新丨美團開源視頻生成模型LongCat-Video，兼具文生視頻/圖生視頻/視頻續寫三大能力，媲美開閉源頂尖模型

OpenBayes - DiffVox 打造下一代聲效模型；面部情感識別數據集讓 AI 讀心術成真！

OpenBayes - 跨語言智能再升級！Multi-LMentry 打造多語理解新基準；Nemotron-Personas-USA重塑虛擬人畫像生成

OpenBayes - OpenBayes 教程上新丨Qwen-Image 刷新圖像編輯 SOTA，實現精準中文渲染

OpenBayes - OpenBayes 一週速覽丨Qwen-Image-Edit 實現圖片文字精準編輯；Nemotron 數據集含超 2K 萬條樣本

OpenBayes - OpenBayes 教程上新丨開源代碼推理模型 DeepCoder-14B-Preview 狂攬 3k stars

OpenBayes - OpenBayes 一週速覽丨公共模型一鍵部署功能上線！VibeVoice1.5B重新定義TTS技術邊界，多人長對話一鍵生成

OpenBayes - OpenBayes 在線教程彙總丨Qwen 連發 SOTA 級模型，覆蓋文本渲染/視頻創作/編程輔助

OpenBayes - 教程上新丨MIT等推出BindCraft，直接調用AF2，實現蛋白質結合體的智能化設計

OpenBayes - OpenBayes 一週速覽丨MiniCPM-V4.0圖像理解能力突破；MathCaptcha10K助力訓練驗證碼識別模型

OpenBayes - OpenBayes 一週速覽丨李沐團隊開源語音大模型Higgs Audio V2，擴展多語言對話等功能

OpenBayes - OpenBayes 教程上新丨字節開源 InfiniteYou 圖像生成框架，實現高保真面部特徵遷移

OpenBayes - OpenBayes 教程上新丨CSM 駕到，統統閃開！更鮮活的語音生成，從此告別延遲呆板機械味

OpenBayes - OpenBayes 一週速覽｜快來生成你的專屬聲音鈴聲、Wikipedia 維基百科數據集上線

Product

Company

Support

Company