收藏 / 列表

風雨中的小七 - 解密prompt系列63. Agent訓練方案:RStar2 & Early Experience etc

當大模型成為Agent,我們該如何教會它“行動”?純粹的模仿學習(SFT)天花板明顯,而強化學習(RL)又面臨獎勵稀疏、環境複雜、探索成本高的挑戰。本文將帶你深入四種前沿的Agent訓練方案:ReTool, RAGEN, RStar2, 和 Early Experience,看它們如何巧妙地設計環境、利用反饋,讓Agent不僅“能幹”,而且“聰明”。 我們將看到一條演進路線:從優化單一動作(ReT

AI

Paul Boag - When And How To Use Freelancers In Your Organization

This article has been kindly supported by our dear friends at Upwork who create economic opportunities so people have better lives. Thank you! Using freelancers has always been a somewhat d

workflow , Teams , Communication , Business

雲棧開源日記 - Zig 完成編譯器自舉,內存佔用降 70%

Zig 完成編譯器自舉,內存佔用降 70%。通過數據導向設計、編譯期計算和零開銷 C 互操作,為後端高性能場景提供 C/C++ 的現代化替代方案。適合微服務網關、數據庫驅動等延遲敏感場景,支持漸進式遷移。 一個編譯器如何給自己"動手術"? 去年 12 月,Zig 項目完成了一件聽起來有點"遞歸"的事:用 C++ 寫的編譯器,編譯出用 Zig 重寫的新版本,然後徹底拋棄了 C++ 代碼庫。這個

後端

Lyndon Cerejo - A Five-Step Approach To The Metaverse

Ask a handful of people about the metaverse, and you’ll get a dozen different responses ranging from a virtual land of opportunity to another avenue of harassment, the new Facebook, or technology ja

ux , Branding , User Experience , Business

努力的小雨 - AI編程實戰:雲開發瘋狂助攻,React + Vite 做出 FPS 網頁遊戲不是夢

回想起最初接觸雲開發的那段時間,我出於練手的目的,開發了一款基於 HTML 的簡易槍戰遊戲。當我滿懷期待地將其展示給玩家時,沒想到卻被一句點評當場“點醒”了:這不就是打地鼠的升級版嘛?雖然當時聽了有些哭笑不得,但不得不承認,這位玩家的評價確實一針見血,讓我意識到遊戲設計在玩法創新上的不足。 在那之後,我又親自重新體驗了一遍遊戲,結果不得不承認,那位玩家的評價確實中肯:玩法的確和“打地鼠”如出一轍。

AI , mcp