原來用聊天記錄就可以創造數字分身！WeClone項目在Lab4AI平台上的復現詳情 - 人工智能,機器學習,自然語言處理 Lab4AI 博客

01 | WeClone如何創造數字分身

擁有一個數字分身可能是很多人的一個願望。其實通過給大模型餵我們的聊天記錄，就可打造出我們的數字分身，當前爆火的Weclone項目採取的就是這種做法。先導出自己的聊天記錄，再把聊天記錄作為數據用來微調大模型，讓模型學習我們的語言風格和習慣，就能打造出專屬的數字分身。近期，有開發者在Lab4AI大模型實驗室成功復現WeClone項目，不需要準備繁瑣的環境，很容易就能上手。

02 | 來Lab4AI一站式體驗

進入Lab4AI.cn，找到【WeClone：從聊天記錄創造數字分身的一站式解決方案】項目，我們有兩種方式帶您體驗數字分身。

👉 項目指路： Lab4AI 項目頁

方式一：直接使用Lab4AI的數據，體驗數字分身

Lab4AI大模型實驗室提供交互式對話，無需微調代碼，就可以執行代碼塊，迅速體驗交互過程。

方式二：使用自有數據打造數字分身

您可使用自己的聊天數據解鎖數字分身。Lab4AI大模型實驗室已準備好完整的環境、數據、算力支持，只需四步即可打造數字分身：獲取聊天記錄 --> 環境準備 --> 啓動微調 --> 模型推理。

Step 1：獲取聊天記錄

Lab4AI大模型實驗室提供的項目實踐中以Telegram為例介紹瞭如何獲取個人聊天記錄。

1）導出聊天記錄

在Telegram應用中，單擊需要導出聊天記錄的聊天對象，單擊對話框右上角的省略號按鈕，在彈出的選項中選擇“Export chat history”,選擇照片類型，格式選擇JSON，可以導出多個聯繫人（不建議使用羣聊記錄）。然後將導出的ChatExport_*文件夾放在./dataset/telegram目錄即可（不同人聊天記錄的文件夾一起放在 ./dataset/telegram）。

2）數據預處理

我們已經提供了數據處理代碼，您根據自己的數據情況和訓練需求，編輯配置文件，即可生成數據集相關的配置。

Step 2：環境準備

我們已經準備好了Conda 環境和項目依賴包。

Step 3：啓動微調

直接運行下方代碼塊，即可執行微調。

Step 4：模型推理

在JupyterLab內打開一個終端頁面用於啓動服務。模型的API在終端窗口啓動後進行聊天問題測試，模型的生成結果會保存在指定路徑下。下方展示了微調前和微調後的對話效果，可以看出：

微調前，Assistant的回答並不專業，僅具備一些通用知識，無法簡明扼要地向user索要訂票所需的關鍵信息，並且經常回答過於冗長而被提前截斷，未達到一位專業的航空公司訂票客服的業務標準。
微調後，Assistant回答更加專業，能夠了解user需求後簡短地回問索取用户信息，並回復訂票的結果。整個流程更加貼合常見的訂票人工客服操作標準，可明顯觀察到Assistant學習到了訂票客服的畫風和話術。

03 | 結語

很多人可能會覺得 “訓練數字分身很複雜”，但在Lab4AI大模型實驗室，整個過程其實很簡單：只要有足夠的聊天記錄或語料，跟着 WeClone 的步驟 —— 導出數據、預處理、微調模型、啓動推理，就能擁有專屬分身。

如果你也想有一個能替你處理事務、陪伴你的數字分身，不妨去Lab4AI.cn試試 WeClone 項目。或許你會發現，這個用聊天記錄 “克隆” 出來的小幫手，能給你的生活帶來很多意想不到的便利和温暖。

Lab4AI 博客

Lab4AI 博客

博客 / 詳情