博客 / 列表

OpenBayes - Open-AutoGLM 實現手機端自主操作;PhysDrive 數據集採集真實駕駛生理信號

公共資源速遞 5 個公共數據集: FirstAidQA 急救知識問答數據集 PhysDrive 駕駛員生理測試數據集 PolypSense3D 息肉尺寸感知數據集 Envision 多階段事件視覺生成數據集 Care-PD 帕金森三維步態評估數據集 8 個公共模型: SAM 3 Z-Image-Turbo Ovis-Image-7B Ministral-3-14B Lon

機器學習 , pytorch , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - VibeVoice-Realtime TTS重構實時語音體驗;覆蓋9大真實場景,WenetSpeech-Chuan讓模型聽懂川話

公共資源速遞 5 個公共數據集: VOccl3D 三維人體遮擋視頻數據集 Spatial-SSRL-81k 空間感知自監督數據集 WenetSpeech-Chuan 川渝方言語音數據集 MMSVGBench 多模態矢量圖生成基準數據集 Fungi MultiClass Microscopic 真菌顯微圖像數據集 6 個公共教程: 基於手勢識別的 3D 聖誕樹 Dia2-TTS:

機器學習 , 算法 , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - SAM3 重塑場景分割邊界;X-Dance 解鎖圖像驅動舞姿生成新難度

公共資源速遞 5 個公共數據集: 3EED 語言驅動三維理解數據集 X-Dance 圖像驅動舞蹈動作數據集 PhysToolBench 物理工具任務數據集 OST-Bench 時空場景理解基準數據集 Astrophysical Objects Image 天體物理物體圖像數據集 4 個公共教程: SAM3:視覺分割模型 FLUX.2-dev:圖像生成與編輯模型 Superto

機器學習 , 資訊 , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - Depth-Anything-3 打開全視角空間感知;CytoData 還原細胞級顯微宇宙!

公共資源速遞 5 個公共數據集: Netflix 電影電視目錄數據集 CytoData 血液細胞圖像數據集 VERA 語音推理能力評測數據集 UNO-Bench 全模態評測基準數據集 EditReward-Bench 圖像編輯評測數據集 3 個公共教程: PixelReasoner-RL:像素級視覺推理模型 VibeThinker-1.5B:小模型也可以有大智慧 Depth-A

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

OpenBayes - 教程上新丨美團開源視頻生成模型LongCat-Video,兼具文生視頻/圖生視頻/視頻續寫三大能力,媲美開閉源頂尖模型

世界模型旨在理解、模擬與預測複雜的現實世界環境,是人工智能在真實場景中實現有效應用的重要基礎。在這一框架中,視頻生成模型通過其生成過程,逐步壓縮並學習幾何、語義、物理等多種知識形態,因而被視為構建世界模型的一條關鍵路徑,並有望最終實現對真實物理世界動態的有效模擬與預測。 而在視頻生成領域,實現高效的長視頻生成能力尤為重要。 基於此,美團開源了最新視頻生成模型 LongCat-Video,該模型旨在

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

OpenBayes - DiffVox 打造下一代聲效模型;面部情感識別數據集讓 AI 讀心術成真!

公共資源速遞 6 個公共數據集: Freebayes_Benchmark 基準測試集 DiaMoE-TTS 多方言語音表音數據集 APEX 人工智能生產力評測基準數據集 BWA_Benchmark(SBC)基準測試集 DeePMD-kit_Example 勢能模型示例數據集 Facial Emotion Recognition 面部情感識別數據集 5 個公共教程 : DiffV

機器學習 , 圖像識別 , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - 跨語言智能再升級!Multi-LMentry 打造多語理解新基準;Nemotron-Personas-USA重塑虛擬人畫像生成

公共資源速遞 5 個公共數據集: Life Style Data 生活方式數據集 Multi-LMentry 多語言基礎任務評測基準 Nemotron Personas USA 美國人物畫像數據集 The Diabetes Health Indicators 糖尿病健康指標數據集 Global Earthquake-Tsunami Risk 全球地震海嘯風險評估數據集 訪問官網立即使

機器學習 , 圖像識別 , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - OpenBayes 教程上新丨Qwen-Image 刷新圖像編輯 SOTA,實現精準中文渲染

近期,阿里通義千問團隊開源首個圖像生成基礎模型 Qwen-Image, 參數量達 20B,採用全新 MMDiT 架構,刷新了圖像生成模型 SOTA。 Qwen-Image 專注於提升 AI 在兩大核心場景的能力:複雜的文本渲染與精準的圖像編輯。 無論是海報上的標語、PPT 裏的長段落文字,還是古籍中的詩詞意境,Qwen-Image 都能憑藉卓越的中英文渲染能力精準呈現,字形、排版、語義俱佳。在多

阿里巴巴 , 通義千問 , 開源 , 生成圖片 , 圖像

OpenBayes - OpenBayes 一週速覽丨Qwen-Image-Edit 實現圖片文字精準編輯;Nemotron 數據集含超 2K 萬條樣本

公共資源速遞This Weekly Snapshots ! 7 個公共數據集: Nemotron 多領域推理數據集 Trendyol 安全指令調優數據集 InteriorGS 3D 室內場景數據集 CSEMOTIONS 情緒音頻數據集 LongText-Bench 文本理解基準數據集 Document Haystack 多模態文檔基準數據集 CognitiveKernel-Pro-

llm , 數據集 , 阿里巴巴 , 圖像處理 , 數據分析

OpenBayes - OpenBayes 教程上新丨開源代碼推理模型 DeepCoder-14B-Preview 狂攬 3k stars

4 月 9 日凌晨,Agentica 團隊攜手 Together AI 聯合開源了名為 DeepCoder-14B-Preview 的代碼推理模型,這個僅需 14B 即可媲美 OpenAI o3-Mini 的新模型迅速引起業界廣泛關注,在 GitHub 狂攬 3k stars。 DeepCoder 在多項評測中的得分情況具體而言,DeepCoder-14B-Preview 是一款基於 DeepS

code , 教程 , 人工智能 , 開源 , 模型

OpenBayes - OpenBayes 一週速覽丨公共模型一鍵部署功能上線!VibeVoice1.5B重新定義TTS技術邊界,多人長對話一鍵生成

新功能上線 平台公共模型界面現已推出「一鍵部署」功能,具體使用方式如下: 進入「公共模型」,點擊模型右側的「小火箭」標識,即可快速部署該模型。 也可以在點擊模型後,選擇右上角「部署當前版本」進行部署。 本週資源更新 4 個公共教程: 微軟 VibeVoice-1.5B 重新定義 TTS 技術邊界 vLLM+Open WebUl 部署 gemma-3-270m-it vLLM

code , llm , 文本處理 , 代碼生成 , nvidia

OpenBayes - OpenBayes 在線教程彙總丨Qwen 連發 SOTA 級模型,覆蓋文本渲染/視頻創作/編程輔助

近期,阿里通義千問團隊以「卷王」速度持續刷新開源效率,兩週內發佈的開源模型覆蓋圖像生成、視頻創作、編程輔助三大核心領域,並推出非思考模式的新版本模型,不僅迭代速度領跑行業平均水平,更是多次刷新領域 SOTA。 舉例而言,Qwen-Image 作為其圖像生成基礎模型,實現了精準的中文渲染;「甜品級」編程模型 Qwen3-Coder-Flash 在提供輕量級模型部署效率的同時,實現了接近頂級閉源模型的

llm , 阿里巴巴 , 圖像處理 , 編程語言 , 開源

OpenBayes - 教程上新丨MIT等推出BindCraft,直接調用AF2,實現蛋白質結合體的智能化設計

在生命體系中,蛋白質很少單獨發揮其生物學功能,而是依賴於蛋白質-蛋白質相互作用(PPI)來執行復雜的生物學過程。因此,設計能夠特異性靶向和調控 PPI 的蛋白質結合物具有巨大的治療和生物技術潛力。 然而,傳統的蛋白質結合物生成方法,例如免疫接種、抗體庫篩選或定向進化,通常費力費時,並且對靶位的控制有限。 計算蛋白質設計提供了一種強大的替代方案,能夠根據特定靶標和結合位點定製結合物。而早期計算方法(

機器學習 , 自然語言處理 , 教程 , 人工智能 , 深度學習

OpenBayes - OpenBayes 一週速覽丨MiniCPM-V4.0圖像理解能力突破;MathCaptcha10K助力訓練驗證碼識別模型

公共資源速遞 5 個公共數據集: HelpSteer3 人類偏好數據集 A-WetDri 惡劣天氣駕駛數據集 NonverbalTTS 非語言音頻生成數據集 STRIDE-QA-Mini 自動駕駛問答數據集 MathCaptcha10k 算數驗證碼圖像數據集 5 個公共教程: dots.ocr:多語言文檔解析模型 MiniCPM-V4.0:極致高效的端側大模型 llama.c

llm , 數學 , 自然語言處理 , 解碼 , 視頻處理

OpenBayes - OpenBayes 一週速覽丨李沐團隊開源語音大模型Higgs Audio V2,擴展多語言對話等功能

公共資源速遞This Weekly Snapshots ! 5 個公共數據集: B3DB 生物基準數據集 PolyMath 數學推理數據集 SongEval 音樂評估數據集 MegaScience 科學推理數據集 WebInstruct-verified 多領域推理數據集 4 個公共模型: gpt-oss-20b gpt-oss-120b Qwen3-30B-A3B-Inst

llm , 圖像識別 , 數學 , 自然語言處理 , chatgpt

OpenBayes - OpenBayes 教程上新丨字節開源 InfiniteYou 圖像生成框架,實現高保真面部特徵遷移

InfiniteYou(簡稱 InfU)是由字節跳動智能創作團隊近期推出的一款基於 Diffusion Transformers 的身份保持 (identity-preserved) 圖像生成框架。它通過先進的技術,能夠在生成圖像的同時保持人物身份的一致性,即在生成不同場景的圖片時能夠精準保留面部特徵。 作為該領域最早利用擴散 Transformer (DiTs) 的框架之一,InfU 系統性地解

機器學習 , 圖像識別 , tensorflow , 人工智能 , 深度學習

OpenBayes - OpenBayes 教程上新丨CSM 駕到,統統閃開!更鮮活的語音生成,從此告別延遲呆板機械味

與 AI 語音助手聊天時,總感覺哪裏怪怪的。它們對問題應答自如,可就是少了點「人味」。語調呆板、停頓突兀,時不時還在莫名其妙的地方卡頓,這種似人非人的違和感,其實就是「恐怖谷效應」在作祟。當 AI 語音與人類語音相似度頗高卻又未達到完美一致時,用户便會感到不適。 近期,由 Sesame 團隊推出的語音生成模型 CSM (Conversational Speech Model) 在眾多語音模型中脱穎

機器學習 , tensorflow , 自然語言處理 , 人工智能 , 深度學習

OpenBayes - OpenBayes 一週速覽|快來生成你的專屬聲音鈴聲、Wikipedia 維基百科數據集上線

公共資源速遞 3 個數據集: Wikipedia 維基百科數據集 FMA 音樂分析數據集 RJUA-QA 首箇中文醫療專科問答推理數據集 2 個模型: Yi-34B-Chat-GGUF Falcon-7B 2 個教程: *用GPT-SoVITS 音頻合成在線 Demo *[Stable Diffusion]()在線教程 小貝快訊: *全網最簡單的 AI 聲音克隆+So

資訊 , ai開發 , 人工智能 , 開源 , 資源