強化學習

標籤

貢獻22

133

05:30 AM · Oct 28 ,2025

@deephub

暱稱deephub

Last seen
@u_16116809

暱稱wx6464351503832

Last seen
@u_16099306

暱稱落花流水人家

Last seen
@u_16213572

暱稱技術領航探索者

Last seen
@elhix0bg

暱稱阿里雲大數據AI

Last seen
@u_13539

暱稱jowvid

Last seen
@u_11908275

暱稱AI算法專家李智華

Last seen
@u_16213688

暱稱mob64ca14116c53

Last seen
@puxiaoke6

暱稱一點人工一點智能

Last seen
@u_16213567

暱稱數碼墨魚

Last seen
@u_16099203

暱稱網絡安全守衞

Last seen
@u_17349038

暱稱煜見Ai未來

Last seen

@強化學習 / 博客 RSS 訂閱

Jan 05 2026

向量檢索 - DeepResearch 應用展示

本文為您視頻展示DeepResearch在複雜推理與長多步推理、日常生活規劃與決策、深級別的跨學科問答、需要詳細且真實的旅行行程、司法與成文法解釋、多情境研究寫作場景下的應用。複雜推理與長多步推理複雜的多步推理任務，需要網絡搜索、跨來源信息綜合以及工具編排，以解決具有動態且時間敏感數據的現實世界查詢。點擊查看視頻示例

強化學習 , 阿里巴巴 , 大數據 , yyds乾貨盤點 , 數據倉庫 , AI , 人工智能

強化學習

@強化學習 / 博客 RSS 訂閱

向量檢索 - DeepResearch 應用展示

架構師李哲 - PPO最強，DPO一般？一文帶你瞭解常見三種強化學習方法，文末有大模型微調神器！

芯動大師 - ROS2強化學習全攻略：從基礎到實戰，打造智能機器人未來

deephub - 解決GRPO優勢歸因錯誤,Chunk-GRPO讓文生圖模型更懂"節奏"

deephub - 大模型強化學習的熵控制：CE-GPPO、EPO與AsyPPO技術方案對比詳解

超神經HyperAI - 僅用1年成為DeepMind頂樑柱，John Jumper博士畢業7年拿諾獎，開啓蛋白摺疊新時代

wx65950818d835e - 12: 強化學習在超分中的應用

上海拔俗網絡 - AI人工智能輔助系統：技術驅動下的人機協同新範式

mob64ca140530fb - ppo算法不是深度強化學習嘛

WangLanguager - 多智能體強化學習（MARL）介紹和代碼示例

deephub - 基於強化學習的量化交易框架 TensorTrade

爛漫樹林 - GBDT的損失函數是什麼

mob64ca14040d22 - Resilience4J詳解

落花流水人家 - 機器學習 蒙特卡洛模擬因子組合最優 spss蒙特卡洛方法結果

wx6464351503832 - 強化學習(RL)簡介及其在大語言模型中的應用

wx6464351503832 - 通義DeepResearch技術報告解讀

煜見Ai未來 - 李斌砸180億被罵瘋了，沒想到用AI玩成了千億生意

網絡安全守衞 - redmine異構環境遷移並升級到最新版本_linuxiou

數碼墨魚 - java實戰系列學習資料彙總 - beifangbubai的個人空間 -

一點人工一點智能 - 書籍-《強化學習數學基礎》

mob64ca14116c53 - rknn模型的形狀

AI算法專家李智華 - deepseek-r1-distill-qwen-32B 模型技術過程——做了SFT

jowvid - OpenAI的新型強化學習算法PPO-讀PAPER-02

deephub - BipedalWalker實戰：SAC算法如何讓機器人學會穩定行走

落花流水人家 - 機器學習蒙特卡洛模擬因子組合最優 spss蒙特卡洛方法結果