tag 強化學習

標籤
貢獻20
70
05:30 AM · Oct 28 ,2025

@強化學習 / 博客 RSS 訂閱

wx6464351503832 - 強化學習(RL)簡介及其在大語言模型中的應用

看到huggingface上有個大模型課程,其中有個章節是講如何構建推理大模型,下面是對應的學習內容。 接下來會用最通俗易懂的方式介紹RL,就算之前完全沒接觸過也能看懂。會拆解核心概念,看看為什麼RL在大語言模型(LLMs)領域變得這麼重要。 什麼是強化學習(RL)? 想象一下訓練一隻狗。想教它坐下。可能會説"坐下!",如果狗坐下了,就

強化學習 , 語言模型 , 自然語言處理 , 人工智能 , Css , 大模型 , 前端開發 , HTML

收藏 評論

架構師李哲 - PPO最強,DPO一般?一文帶你瞭解常見三種強化學習方法,文末有大模型微調神器!

很多人第一次接觸各家大模型時,都會覺得它們的回答能帶來意想不到的驚喜,但有時,AI回答又怪怪的、囉嗦、甚至有點危險。 這背後,其實就是一個核心問題:對齊(Alignment)。 預訓練讓模型會“説話”,但對齊訓練,才讓模型更符合人類偏好:更有用、更安全、更有温度。在當下的大模型時代,有三種常被提到的對齊方法:PPO、DPO和KTO。 本期,LLaMA-F

強化學習 , 數據 , 損失函數 , 人工智能 , 深度學習

收藏 評論

芯動大師 - ROS2強化學習全攻略:從基礎到實戰,打造智能機器人未來

一、引言隨着機器人技術和人工智能的快速發展,ROS2(機器人操作系統 2)作為新一代機器人開發框架,為機器人應用提供了更強大的功能和更靈活的架構。強化學習作為人工智能領域的重要分支,能夠讓機器人通過與環境交互自主學習最優策略,在 ROS2 平台上的應用愈發廣泛。本文將介紹 ROS2 強化學習的學習路線以及相關案例。二、ROS2 強化學習學習路線(一)基礎理論知識強化學習基礎:深入

無人機 , 強化學習 , yyds乾貨盤點 , 機械臂 , 人工智能 , 數據結構與算法

收藏 評論

deephub - 解決GRPO優勢歸因錯誤,Chunk-GRPO讓文生圖模型更懂"節奏"

文本到圖像(T2I)生成模型的發展速度超出很多人的預期。從SDXL到Midjourney,再到最近的FLUX.1,這些模型在短時間內就實現了從模糊抽象到逼真細膩的跨越。但問題也隨之而來——如何讓模型生成的不僅僅是"一張圖",而是"正確的那張圖"?這涉及到如何讓AI理解人類在審美、風格和構圖上的真實偏好。 強化學習(RL)成為解決這個問題的關鍵技術。通過將人類偏好分數作為獎勵信號,可以對這些大模型進

generative-ai , llm , 強化學習 , 知識 , 人工智能

收藏 評論

deephub - 大模型強化學習的熵控制:CE-GPPO、EPO與AsyPPO技術方案對比詳解

LLM的強化學習訓練最近進展很快,SOTA模型在各種推理benchmark上的表現確實亮眼。但更值得關注的其實是另一條信息——從Rutgers到Alibaba再到HKUST,這些研究團隊正在攻克的是RL領域的一個老大難:怎麼控制好熵,同時避免模型退化成毫無用處的確定性輸出。 三篇新論文給出了不同角度的解法:CE-GPPO、EPO和AsyPPO。雖然切入點各有不同,但合在一起就能發現它們正在重塑大規

llm , 強化學習 , 人工智能 , 深度學習

收藏 評論

超神經HyperAI - 僅用1年成為DeepMind頂樑柱,John Jumper博士畢業7年拿諾獎,開啓蛋白摺疊新時代

「我以為我只有 10% 的機會獲得諾貝爾化學獎」,得知獲獎消息後,John Jumper 在電話採訪中笑着説道。他的語氣中帶着謙遜與感慨,而這份殊榮的背後,則是 AlphaFold2 帶來的科學革命,徹底改變了蛋白質結構預測的方式。 截至目前,已有來自 190 個國家的 200 多萬人使用這一工具,它不僅加速了新藥研發和疾病研究,也為基礎科學探索提供了前所未有的支持,深刻影響了生命科學的未來發展。

機器學習 , 強化學習 , google , 人工智能 , 深度學習

收藏 評論

wx65950818d835e - 12: 強化學習在超分中的應用

引言 強化學習(Reinforcement Learning,RL)是一種通過與環境交互學習最優策略的機器學習方法。在傳統的超分辨率(SR)任務中,模型通過固定的訓練數據進行學習,而強化學習則通過與環境的不斷交互來進行優化,這使得強化學習在圖像超分中的應用成為可能。通過強化學習,可以使模型根據圖像的實際表現進行自我調整,從而提升超分效果。本文將探討強化學習在圖像超分中的應用

自適應 , 強化學習 , c++ , 後端開發 , c , 圖像質量

收藏 評論

mob64ca140530fb - ppo算法不是深度強化學習嘛

一、概述 引用GAE論文的觀點,策略梯度法存在的兩個方面問題: 樣本利用率低,由於樣本利用率低需要大量採樣; 算法訓練不穩定,需要讓算法在變化的數據分佈中穩定提升; 目前比較常用的四種置信域方法TRPO、ACER、ACKTR、

機器學習 , 強化學習 , ppo算法不是深度強化學習嘛 , 數據分佈 , acer軟件保護卡怎麼解除 , 人工智能 , 算法訓練

收藏 評論

WangLanguager - 多智能體強化學習(MARL)介紹和代碼示例

多智能體強化學習(MARL)介紹 多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)是強化學習的一個分支,涉及多個智能體在同一環境中學習和決策。MARL 主要關注以下幾個方面: 環境交互: 多個智能體同時與環境交互,它們的行為不僅影響自身的獎勵,也會影響其他智

強化學習 , yyds乾貨盤點 , tensorflow , 前端開發 , 代碼示例 , Javascript

收藏 評論

deephub - 基於強化學習的量化交易框架 TensorTrade

打開交易圖表,堆上十個技術指標,然後對着屏幕發呆不知道下一步怎麼操作——這場景對交易員來説太熟悉了。如果把歷史數據丟給計算機,告訴它“去試錯”。賺了有獎勵,虧了有懲罰。讓它在不斷的嘗試和失敗中學習,最終迭代出一個不説完美、但至少能邏輯自洽的交易策略。 這就是 TensorTrade 的核心邏輯。 TensorTrade 是一個專注於利用 強化學習 (Reinforcement Learning,

量化交易 , 強化學習 , Python

收藏 評論

爛漫樹林 - GBDT的損失函數是什麼

本文主要講解有關 Deep Q Network(DQN)算法的相關內容。 1. DQN 的基本思想 傳統的 Q-Learning 算法當 Q 表過大時不僅難以存儲而且難以搜索,並且當狀態是連續的話,用 Q 表存儲是不現實的,這時可以用一個函數來擬合 Q 表,所以提出了神經網絡和 Q-Learning 相融合的 Dee

機器學習 , 強化學習 , DQN , 神經網絡 , 人工智能 , deep q network , GBDT的損失函數是什麼

收藏 評論

mob64ca14040d22 - Resilience4J詳解

事後觀察經驗回放。OpenAI的論文。 1707.01495 摘要: 處理稀疏獎勵。提出了Hindsight Experience Replay新技術,使得可以從稀疏二元的獎勵中進行有效的學習。可以與任意off-policy的強化學習算法結合。可以看作一種implicit curriculum。 在用機械臂操作物件的任務進行了演示。在3個不

多目標 , 強化學習 , Resilience4J詳解 , 架構 , 後端開發 , ci

收藏 評論

落花流水人家 - 機器學習 蒙特卡洛模擬因子組合最優 spss蒙特卡洛方法結果

在很多應用場景中,馬爾可夫決策過程的狀態轉移概率 \(p(s^ {\prime}|s,a)\) 和獎勵函數 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。這種情況一般需要智能體與環境交互,然後收集一些樣本,然後再根據這些樣本來求解最優策略,這種基於採樣的學習方法稱為模型無關的強化學習 \([1]\). 1 蒙特卡羅預

機器學習 , 狀態轉移 , 強化學習 , 機器學習 蒙特卡洛模擬因子組合最優 , 人工智能 , 迭代

收藏 評論

wx6464351503832 - 通義DeepResearch技術報告解讀

通義深度研究:開源AI研究助手的新里程碑 最近AI研究領域有個很有意思的現象,就是那些最厲害的AI研究助手,比如OpenAI的DeepResearch、谷歌的Gemini DeepResearch,全都是閉源的。這就像大家都在説"我做出了很棒的東西",但就是不告訴你怎麼做的。阿里巴巴通義實驗室最近開源的通義深度研究(Tongyi

強化學習 , agent , 智能體 , 數據 , Css , 大模型 , 前端開發 , HTML

收藏 評論

煜見Ai未來 - 李斌砸180億被罵瘋了,沒想到用AI玩成了千億生意

180億的"笨功夫",到底值不值? 蔚來換電站:從重資產到護城河的轉變 本篇含算法、Ai、商業模式等硬核深度內容,只想看熱鬧的可以繞道。。。 從第1次換電到第1000萬次,蔚來用了整整1506天。 但從第8000萬次到第9000萬次?只用了100天。 作為一名蔚來創始版車主,看到這兩個數字的對比,我心裏其實挺感慨的。 還記得2018年,

強化學習 , yyds乾貨盤點 , 數據 , 負載均衡 , 數據可視化 , 人工智能

收藏 評論

網絡安全守衞 - redmine異構環境遷移並升級到最新版本_linuxiou

版本差異概覽 PokemonRedExperiments項目從baselines到v2版本的升級帶來了顯著的技術改進,主要集中在強化學習環境優化、依賴管理升級和地圖探索機制重構。以下是核心變化對比: 依賴版本更新 關鍵依賴

強化學習 , CUDA , 前端開發 , Javascript , Python

收藏 評論

數碼墨魚 - java實戰系列學習資料彙總 - beifangbubai的個人空間 -

一、傳統智能物流倉儲的困境與挑戰 1.1 貨位管理:無序中的效率瓶頸 1.2 庫存管理:積壓與缺貨並存的矛盾 二、Java 大數據:智能物流倉儲的破局之道 2.1 全鏈路數據採集與處理:構建倉儲數字孿生體 2.2 智能貨位優化:算法驅動的空間革命 2.3 庫存週轉率提升:精準

貨位優化 , Java 大數據 , 智能物流倉儲 , 強化學習 , 庫存週轉率 , Css , 前端開發 , HTML

收藏 評論

一點人工一點智能 - 書籍-《強化學習數學基礎》

書籍:Mathematical Foundations of Reinforcement Learning 作者:趙世鈺 出版:Springer​ 編輯:陳萍萍的公主@一點人工一點智能 下載:書籍下載-《強化學習數學基礎》 01 書籍介紹 本書對基本概念、核心挑戰和經典強化學習算法進行了數學但易於理解的介紹。它旨在幫助讀者理解算法的理論基礎,提供對其設計和功能的見解

強化學習 , 數學 , 人工智能

收藏 評論

mob64ca14116c53 - rknn模型的形狀

RL讀書筆記1 概述 強化學習與監督學習的對比 通過與監督學習的比較,我們可以總結出強化學習的一些特徵。 標準強化學習和深度強化學習 序列決策 獎勵 序列決策 動作空間 問題 概述

機器學習 , 強化學習 , 數據 , 監督學習 , 人工智能 , rknn模型的形狀

收藏 評論

AI算法專家李智華 - deepseek-r1-distill-qwen-32B 模型技術過程——做了SFT

DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 團隊通過“知識蒸餾”(Knowledge Distillation)技術創造出來的。 簡單來説,它的誕生過程並非像傳統的“從零訓練”或單純的“繼續預訓練”,而是**“大號學霸(DeepSeek-R1)手把手教小號(Qwen-32B)做題”**的過程。 以下是其核心

sed , 強化學習 , 數據 , 前端開發 , Javascript

收藏 評論

jowvid - OpenAI的新型強化學習算法PPO-讀PAPER-02

核心概念解析 簡而言之,強化學習是關於智能體(agent)以及它們如何通過試錯來學習的研究。它將這樣一種理念形式化:對智能體的行為進行獎勵或懲罰,會使它在未來更有可能重複或放棄該行為。 強化學習能做什麼? 強化學習方法近年來在多個領域取得了廣泛的成功。例如: 它被用於教計算機在模擬環境中控制機器。 也能在現實世界中控制機器 它還因

強化學習 , 數據 , 標準差 , Css , 前端開發 , HTML

收藏 評論

deephub - BipedalWalker實戰:SAC算法如何讓機器人學會穩定行走

下肢假肢的控制系統設計一直是個老大難問題。傳統控制理論需要建立肢體和環境的精確數學模型,但現實世界可以不一樣,比如説地面摩擦力時刻在變,坡度各不相同,患者隨時可能絆一下。這就需要控制器具備自適應能力,能從失誤中恢復,還得在沒有顯式編程的情況下習得自然的步態模式。 強化學習給出了一條思路:讓假肢自己通過試錯"學會"走路。但是標準RL算法有個毛病,它太貪心了,找到一種能用的移動方式就死守着不放

強化學習 , 機器人 , 人工智能 , 深度學習

收藏 評論

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

引言 近期,阿里通義千問團隊創新性提出了 GSPO 算法,PAI-ChatLearn 框架第一時間支持並復現了GSPO的強化學習訓練過程,本文將介紹在 PAI 平台復現 GSPO 的最佳實踐。 GSPO 算法介紹 強化學習(Reinforcement Learning, RL)是拓展語言模型、增加其深度推理與問題求解能力的關鍵技術範式。為了持續拓展 RL,首要前提是確保穩定、魯棒的訓練過程。現有的

大數據處理 , 強化學習 , 最佳實踐 , 人工智能 , 模型

收藏 評論

技術領航探索者 - 一步一步理解大模型:多頭注意力機制的作用

文章目錄 前言 一、現如今的”Transformer“ 二、Attention Serious 2.1 Multi-Head Attention (MHA) 2.2 Multi-Query Attention (MQA) 2.3 Grouped Query Attention (GQ

強化學習 , 架構 , 人工智能 , 深度學習 , 大模型 , 前端開發 , Javascript

收藏 評論