深夜十一點,李老師揉了揉發酸的眼睛,面前還有三十多篇作文等待批改。

這是無數語文教師的日常寫照——繁重的批改負擔、難以完全統一的標準、反饋到達學生手中時已失去時效性。

而在AI技術日新月異的今天,我們能否讓機器真正“理解”一篇作文的優劣?

答案是肯定的。基於Qwen3-VL-30B-A3B-Instruct大模型,我們成功打造了一款能夠深度理解中文作文的智能閲卷助手,讓作文批改走向自動化、標準化、即時化。

在這個項目中,我們對同一篇《知之·行之·思之》進行評分,兩者都能讀懂文章、給出評價,但風格和“老師味兒”差異非常明顯:

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據集

基線模型更偏向概括性、理論化的評析風格。雖然也提及“結構嚴謹、論證充分”,但表述較為籠統,未針對具體內容展開細析,整體語言偏向正式,結構較為平鋪直敍,更像一個概括性的“評審意見”。

微調後模型則呈現出清晰、結構化的語文教師批改風格。評語嚴格遵循“總評—分項分析—總結”的結構,從“結構”“立意”“語言”三個維度展開,每部分都結合原文內容進行具體説明,並引用文中實例(如“春暖花開”“秋高氣爽”的比喻),語言自然流暢,建議具體,貼近教學實際。

下面這張表就是兩者在關鍵維度上的對比,可以非常直觀地看到差別:

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據集_02

傳統自動化作文評分系統多基於規則和淺層特徵,而大模型帶來了根本性變革——它不再只是“檢查”,而是真正“理解”。我們選用的Qwen3-VL-30B-A3B-Instruct模型,通過300篇精選高中作文數據的指令在LLaMA-Factory Online上進行微調,深度對齊了中文作文的評分標準。模型不僅能評估語言表達的規範性,更能理解文章的邏輯結構、思想深度和情感價值——這些正是優秀作文的靈魂所在。

實戰路徑:從數據到智能的蜕變

數據準備和清洗

本項目選用了面向中國高中階段的中文作文數據集:AES-Dataset。這個數據集小而精,聚焦高中場景。

● 學生羣體:全部來自中國高中生,話題接近高考/模擬考作文

● 文體類型:以議論文、記敍文為主,需要一定邏輯推理與表達能力

● 數據規模:共300篇精選作文樣本,編號從A-0001至A-0300

雖然數量不大,卻非常適合做:小樣本微調、LoRA/QLoRA輕量化實驗、驗證教育垂直領域精調的“效果上限”。

數據結構:標準化設計,方便工程介入

● 元數據文件 scores.txt:記錄作文ID、標題、人工評分

● 作文文本 /essays 文件夾:每篇作文一個txt文件,天然保留文章結構信息

不同於常規文本處理,我們將作文轉化為圖片格式輸入模型。這一看似額外的步驟實則暗含深意:它完整保留了作文的版面結構、修改痕跡、書寫特色,讓模型能夠像人類教師一樣“看到”作文的全貌。

高效微調全流程

在LLaMA-Factory Online平台上,我們採用LoRA微調方法,僅用單張H800A GPU、45分鐘就完成了模型訓練,顯著降低了計算成本。關鍵配置參數如下:

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據_03

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據集_04

開始進行模型訓練,通過任務中心可以查看任務的詳細信息、超參數、訓練追蹤和日誌。

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據_05

通過Loss曲線可以看出訓練有效且逐步收斂,但存在一定波動,可通過調整訓練策略(如增大 batch_size、微調學習率)進一步優化穩定性。

效果驗證:不只是打分更是理解

模型訓練完成後,我們進行模型評估,評估結果令人振奮:

● ROUGE-1/ROUGE-2指標表現不錯:説明生成內容在 “字詞、短語層面” 與參考文本的覆蓋度、匹配度較高

● BLEU-4處於中等水平:意味着生成文本與參考文本的長短語重合度還有提升空間

我們進行模型對話,模型生成的評語不再模板化,而是針對每篇作文的特點提供個性化反饋。

告別深夜批改:用Qwen3-VL大模型打造會“理解”的作文閲卷助手_數據_06

在實際對話測試中,模型展現了令人驚喜的“教學敏感度”。它生成的評語不再模板化,而是針對每篇作文的特點提供個性化反饋——既肯定優點,也指出不足,其給出的得分與作文的實際質量匹配度較高。這樣的反饋,已經接近資深教師的指導水平。

未來已來:智能閲卷的可實現性

基於Qwen3-VL大模型的智能閲卷助手,正悄然改變着一線教學的真實場景。它讓教師得以從深夜的案頭批改中抽身,將心力轉向更具創造性的教學設計;它讓學生的作文在提交後便能即刻獲得結構清晰、建議具體的專業點評,將漫長的反饋週期轉化為即時的成長對話。這一切,都依託於LLaMA-Factory Online平台所提供的“高效微調”與“即時對話”能力——複雜的大模型技術,由此變得簡單、可用、可落地。

這不僅僅是一個評分工具。它更是一個開始,一個以技術彌合教育資源差異、以智能放大教師專業價值的起點。未來,在LLaMA-Factory Online的持續迭代與賦能下,它可以從“評分”走向“診斷”與“個性化輔導”,更重要的是,隨着數據的不斷積累,模型將越來越“懂”教育,越來越“理解”每一篇文字背後的思考與情感,成為助力師生共同成長的可信賴夥伴。