mmBERT是一個純編碼器架構的語言模型,在1800多種語言、3萬億tokens的文本上完成了預訓練。它的架構設計借鑑了ModernBERT,但又加入了不少創新點,比如逆掩碼比率調度和逆温度採樣。而且研究團隊還把1700多種低資源語言放在了衰減階段加入訓練,這個策略帶來了相當不錯的效果提升,充分利用了那些數據量本身就不大的語言資源。 模型架構 整體架構和ModernBERT保持一致,但換成
PINNs出了名的難訓練。主要原因之一就是這個多目標優化問題。優化器很容易找到投機取巧的路徑——比如拼命降低微分方程殘差,但完全不管初始條件和邊界約束。只要給初始條件和邊界損失配的權重夠低,它們增加的那點損失完全能被殘差損失的大幅下降抵消掉。調整權重也許能暫時緩解這個問題,但誰也不能保證最優權重在整個訓練過程中一直有效。 標準的PINN用複合損失函數,把三項加權求和: 初始條件損失 邊界損失
傳感器監控、安全運營、欺詐檢測——這些場景都需要及時發現異常狀況。但是問題在於,異常樣本出現頻率低導致標註數據稀缺,監督學習模型難以構建。雖然異常(anomaly)和新穎性(novelty)這兩個概念經常混用,但它們在建模假設和處理流程上存在本質差異。 本文會先講清楚異常檢測的核心概念,分析anomaly和novelty的區別,然後通過實際案例演示如何用概率密度擬合方法構建單變量數據集的無監督異常
AI能否像人類一樣從錯誤中學習?反思型Agent系統不僅能生成回答,還會主動審視自己的輸出,找出問題並持續改進。 反思策略本質上就是讓LLM對自己的行為進行自我批評。有時反思器還會調用外部工具或檢索系統來提升批評的準確性。這樣一來系統輸出的就不再是一次性的回答,而是經過多輪生成-審閲循環優化後的結果。 目前主流的反思系統主要分為三類: 基礎Reflection Agent比較輕量,就是簡單的生成器
刷短視頻本來只想看幾分鐘,不知不覺一個多小時就沒了。每條視頻都恰好戳中你的興趣點,這種精準推送背後其實是一套相當複雜的工程架構。 這種"讀心術"般的推薦效果並非偶然。驅動這種短視頻頁面的核心引擎,正是業內廣泛採用的雙塔推薦系統(Two-Tower Recommendation System)。 本文將從技術角度剖析:雙塔架構的工作原理、為何在短視頻場景下表現卓越,以及如何構建一套類似的推薦系統。
注意力機制聽起來很玄乎,但我們可以把它看作一個軟k-NN算法。查詢向量問:"誰跟我最像?",softmax投票,相似的鄰居們返回一個加權平均值。這就是注意力頭的另外一種解釋: 一個可微分的軟k-NN:計算相似度 → softmax轉換為權重 → 對鄰居值求加權平均。 通過 1/sqrt(d) 縮放防止softmax在高維時飽和,掩碼決定哪些位置可以互相"看見"(處理因果關係、填充等問題)。
推理型大語言模型現在確實火了。這類模型的特點是會先對問題做充分思考,然後再給出答案,而不是直接回復。 雖然早期訓練推理型 LLM 的方法多半被各家公司當作核心機密,但最近的DeepSeek-R1、DeepSeekMath、Kimi-k1.5 和 DAPO 這些項目都公開了相關流程。 這些方法讓 LLM 在推理過程中生成更長的思維鏈(Chain-of-Thought,CoT)輸出,推理效果因此得到提
Swarm sAmpling Policy Optimization,簡稱SAPO,這個名字聽起來有點學術,但它解決的問題很實際。大規模語言模型的後訓練一直是個讓人頭疼的事情——要麼資源不夠,要麼效率太低。SAPO提出了一種去中心化的異步RL方案,讓各個計算節點之間可以互相分享rollouts,避開了傳統並行化訓練的各種瓶頸。 論文的實驗結果。在成千上萬個社區節點的測試中,這套方法能帶來9
對於神經網絡來説,我們已經習慣了層狀網絡的思維:數據進來,經過第一層,然後第二層,第三層,最後輸出結果。這個過程很像流水線,每一步都是離散的。 但是現實世界的變化是連續的,比如燒開水,誰的温度不是從30度直接跳到40度,而是平滑的上生。球從山坡滾下來速度也是漸漸加快的。這些現象背後都有連續的規律在支配。 微分方程就是描述這種連續變化的語言。它不關心某個時刻的具體數值,而是告訴你"變化的速度"。比如
很多人認為使用AI Agent就是直接扔個提示詞過去,然後等結果。做實驗這樣是沒問題的,但要是想在生產環境穩定輸出高質量結果,這套玩法就不行了。 核心問題是這種隨意的提示方式根本擴展不了。你會發現輸出結果亂七八糟,質量完全不可控,還浪費計算資源。 真正有效的做法是設計結構化的Agent工作流。 那些做得好的團隊從來不指望一個提示詞解決所有問題。他們會把複雜任務拆解成步驟,根據不同輸入選擇合適的模型
Hyperband是機器學習中一個相當實用的超參數調優算法,核心思路是用逐次減半來分配計算資源。説白了就是讓一堆配置先跑幾輪,表現差的直接踢掉,剩下的繼續訓練更多輪次。 這個方法的巧妙之處在於平衡了探索和利用。你既要試足夠多的配置組合(探索),又要給有潛力的配置足夠的訓練時間(利用)。傳統方法要麼試得不夠多,要麼每個都試要很久浪費時間。 本文我們來通過調優一個lstm來展示Hyperband的工作
圖數據在機器學習中的地位越來越重要。社交網絡的用户關係、論文引用網絡、分子結構,這些都不是傳統的表格或序列數據能很好處理的。現實世界中實體之間的連接往往承載着關鍵信息。 圖神經網絡(GNN)的出現解決了這個問題,它讓每個節點可以從鄰居那裏獲取信息來更新自己的表示。圖卷積網絡(GCN)是其中的經典代表,但GCN有個明顯的限制:所有鄰居節點的貢獻都是相等的(在歸一化之後)。 這個假設在很多情況下並不合
對於 Python 數據處理的初學者而言,早期的 Pandas 代碼往往充斥着基礎的 .head() 、 .dropna() 調用以及大量的在線搜索。然而,掌握一些核心的處理模式後,Pandas 將展現出其快速、表達力強且優雅的特性。 本文將介紹 10 個在數據處理中至關重要的 Pandas 技術模式。這些模式能夠顯著減少調試時間,提升代碼的可維護性,並構建更加清晰的數據處理流水線。 使用
文本嵌入模型能夠將文本轉換為具有語義意義的向量表示,廣泛應用於檢索、分類等多種任務場景。然而,通用嵌入模型在處理特定領域任務時往往存在性能瓶頸。微調技術為解決這一問題提供了有效途徑。本文將深入探討嵌入模型微調的核心原理,並以AI職位匹配為例,詳細闡述基於對比學習的微調實現過程。 檢索增強生成中的嵌入應用 檢索增強生成(Retrieval-Augmented Generation, RAG)
在數據分析工作中,我們經常需要處理來自多個來源的數據集。當合並來自20個不同地區的銷售數據時,可能會發現部分列意外丟失;或在連接客户數據時,出現大量重複記錄。如果您曾經因數據合併問題而感到困擾,本文將為您提供系統的解決方案。 Pandas庫中的merge和join函數提供了強大的數據整合能力,但不恰當的使用可能導致數據混亂。基於對超過1000個複雜數據集的分析經驗,本文總結了10種關鍵技術,幫助您
ReSearch是一種創新性框架,通過強化學習技術訓練大語言模型執行"推理搜索",無需依賴推理步驟的監督數據。該方法將搜索操作視為推理鏈的有機組成部分,其中搜索的時機與方式由基於文本的推理過程決定,而搜索結果進一步引導後續推理。研究分析表明,ReSearch在強化學習訓練過程中自然地形成了高級推理能力,包括反思與自我糾正機制。 技術方法 ReSearch的訓練架構概述 與傳統的僅包含文本推理的推
視頻作為一種富含信息且密集的媒介,已廣泛應用於娛樂、社交媒體、安全監控和自動駕駛等領域。人類能夠輕鬆理解視頻內容,例如理解因果關係、定位特定時刻以及關聯動作。 但是人工智能,尤其是大型語言模型(LLM)及其多模態(MLLM)變體,在視頻理解方面仍然面臨挑戰,尤其是在處理長視頻時。儘管像 GPT-4V 或 Claude 這樣的模型可以詳細描述圖像或短片,但在需要根據長序列中特定時間間隔推斷事件
在深度學習的背景下,NVIDIA的CUDA與AMD的ROCm框架缺乏有效的互操作性,導致基礎設施資源利用率顯著降低。隨着模型規模不斷擴大而預算約束日益嚴格,2-3年更換一次GPU的傳統方式已不具可持續性。但是Pytorch的最近幾次的更新可以有效利用異構計算集羣,實現對所有可用GPU資源的充分調度,不受制於供應商限制。 本文將深入探討如何混合AMD/NVIDIA GPU集羣以支持PyTor
本文將詳細解讀NeurIPS 2024最佳論文:"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(視覺自迴歸建模:基於下一尺度預測的可擴展圖像生成)"。 該論文提出了視覺自迴歸建模(Visual Autoregressive Modeling,VAR)方法,在圖像生成領域實現了重
近期Python生態系統發生了重要變化,特別是在包管理領域。Anaconda對其商業許可證政策進行了調整,要求大型非營利組織(員工超過200人)需要為使用其默認包倉庫的每位用户獲取商業許可。這一變化促使開發社區開始尋找更開放的解決方案,特別是考慮到Python本身及其大多數包都是開源的這一事實。 Python環境管理和包依賴處理一直是開發過程中的關鍵挑戰。傳統工具如virtualenv、pip和c
人工智能領域正在經歷一場深刻的變革。隨着深度學習模型的規模呈指數級增長,我們正面臨着前所未有的計算挑戰。當前最先進的語言模型動輒包含數千億個參數,這種規模的模型訓練已經遠遠超出了單機系統的處理能力。在這個背景下,分佈式機器學習系統已經成為支撐現代人工智能發展的關鍵基礎設施。 分佈式機器學習的演進 在深度學習早期,研究人員通常使用單個GPU就能完成模型訓練。隨着研究的深入,模型架構變得越來越複雜,參
在大數據處理領域,性能和效率始終是核心問題。 polars 作為新一代數據處理框架,通過利用Rust語言的底層實現和現代化的並行計算架構,在處理大規模數據集時展現出顯著的性能優勢。根據性能測試文章的數據顯示,在CSV文件讀取操作中, polars 的處理速度可達 pandas 的20倍。這種性能提升主要得益於其優化的內存管理機制和並行計算能力。 本文將系統地介紹如何從 pandas 遷移到 po
Polars 最近新開發了一個可以支持 GPU 加速計算的執行引擎。這個引擎可以對超過 100GB 的數據進行交互式操作能。本文將詳細討論 Polars 中DF的概念、GPU 加速如何與 Polars DF協同工作,以及使用新的 CUDA 驅動執行引擎可能帶來的性能提升。 Polars 核心概念 Polars 的核心功能是創建和操作DF,這些DF可以被視為具有高級功能的電子表格。以下是一個簡單的
變分自編碼器(VAEs)是一種生成式人工智能,因其能夠創建逼真的圖像而備受關注,它們不僅可以應用在圖像上,也可以創建時間序列數據。標準VAE可以被改編以捕捉時間序列數據的週期性和順序模式,然後用於生成合成數據。本文將使用一維卷積層、策略性的步幅選擇、靈活的時間維度和季節性依賴的先驗來模擬温度數據。 我們使用亞利桑那州菲尼克斯市50年的ERA5小時温度數據訓練了一個模型。為了生成有用的合成數據,它必