🧭簡要概覽:Hugging Face AI Sheets 是一款開源工具,能夠用 AI 模型增強數據集的處理能力,無需編寫任何代碼。現在新增視覺功能:可以從圖像 (如收據、文檔) 中提取數據、根據文本生成圖像、甚至編輯圖片——一切都能在電子表格中完成。依託 Inference Providers,可調用數千個開放模型。

我們非常高興地發佈 Hugging Face AI Sheets 的重大更新版——這是一款可通過開放 AI 模型構建、轉換與豐富數據的開源工具。AI Sheets 基於 Inference Providers 運行,意味着你可以使用由全球頂級推理服務驅動的數千種開放模型。
AI Sheets 的首個版本 讓結構化和增強文本內容變得輕而易舉。現在,我們為它加入了視覺功能。
圖像無處不在——商品照片、收據、截圖、圖表、徽標……這些圖片中藴含着豐富的結構化信息,等待被提取、分析與轉換。現在,你終於可以在 AI Sheets 中直接處理圖像內容:查看圖片、分析內容、提取數據、生成新圖像,甚至實時編輯——全部在同一流程中完成。
你的圖片藏着故事
圖片往往包含寶貴的信息——產品目錄、客户支持單、研究檔案、收據、文檔等。現在你可以直接上傳圖片,或使用帶圖像的數據集,再借助視覺模型提取、分析並結構化這些內容。
你可以做到:
- 描述與分類圖像 —— 為產品照片生成文字描述,識別文檔類型,或根據內容自動打標籤
- 提取結構化數據 —— 從收據中提取明細,從圖表中提取數據,從掃描件中識別文本
- 添加上下文與元數據 —— 自動為圖片添加相關屬性、質量評分或自定義標註
與文本列一樣,你可以反覆調整提示詞、手動修改結果,並用“點贊”告訴模型你更喜歡哪種輸出。你的反饋會作為少量樣本 (few-shot) 幫助模型生成更好的結果。
示例:從收據中提取結構化費用信息
假設你剛出差回來,手裏有一堆收據。上傳到 AI Sheets 後,在新列中輸入提示詞:
提取該收據中的商户名稱、日期、總金額和費用類別
AI Sheets 會自動處理每一張收據,輸出一個整潔的表格,包含所有提取出的詳細信息。你可以手動糾正錯誤,對準確結果點贊,並重新生成其他條目以提升整體質量。最終可將數據導出為 CSV 或 Parquet 文件,用於你的報銷工具。
或者,你也可以將家中舊筆記本上的手寫食譜數字化——創建列提取食材、烹飪時間、菜系類型,讓個人檔案變成可搜索的結構化數據集。
在同一流程中生成與轉換文本和圖像
需要為你的內容配圖?AI Sheets 可以在電子表格中直接通過 AI 模型生成或編輯圖像,讓整個內容創作流程集中在一個界面中完成。
你可以:
- 從文本生成圖像 —— 生成與你內容匹配的社交媒體圖片、縮略圖或插畫
- 編輯與轉換圖像 —— 修改上傳或生成的圖片:更換風格、添加元素、調整構圖
- 批量生成變體 —— 一次生成多個版本或風格,測試最受歡迎的視覺形式
- 建立視覺素材庫 —— 為品牌活動批量創建風格一致的圖像資產
示例:創建帶配圖的內容日曆
假設你計劃發佈一個月的健康食譜類社交媒體帖子。你已經準備好了標題與文案,但還缺圖像。
創建一個圖像列,提示如下:
“為以下標題生成一張美味食物的照片:{{title}}。風格:明亮、俯拍、自然光。”
AI Sheets 會為每篇帖子生成獨特的圖片。效果不理想?再建一列修改:
“將背景換成鄉村木桌,加上新鮮香草作為裝飾。”
你可以多次調整生成和編輯提示,嘗試不同方案。最終,你的整月內容計劃——文字與圖片——都集中在一張表格中,可直接導出或排程發佈。
使用指南
下面我們通過一個實例來看看 AI Sheets 的實際操作。我們將用開源模型來識別祖母筆記本中手寫的食譜。
上傳數據
我們有一個文件夾,裏面保存了食譜的照片,只需上傳即可。

上傳後生成的表格如下:

瞭解 AI 操作
在電子表格中,每一列都可以通過“AI 操作”進行提取、轉換或查詢等各種處理。
點擊任意列上方的疊加層即可查看操作選項:

圖像列支持的操作包括:提取文字、圖像問答、目標檢測、上色、添加文字,以及自定義任務;
文本列則支持:摘要、關鍵詞提取、翻譯等操作。
每個 AI 操作都由“提示詞 + 模型”組合而成。讓我們看看它如何處理手寫食譜數據。
從圖像中提取文字
AI Sheets 提供了一個從圖像提取文字的模板:

執行後會生成一列包含轉錄結果的新列,例如:

上圖識別出的文本如下:
MEMORANDUM:
From
To
1 Box Duncan Hines Yellow Cake Mix
1 Box instant lemon pudding
2/3 cups water
1/2 cup Mozola oil
4 eggs
Lemon flavoring to taste.
Put in mixing bowl and beat for 10 min.
and REMEMBER... for Quality PRINTING
CALL OR WRITE
Gatling & Pierce
PRINTERS
TELEPHONE 332-2579
22 YEARS OF SERVICE IN NORTHEASTERN CAROLINA
識別效果不錯,但包含了頁眉頁腳的印刷文字。默認模板的提示是:
提取圖像中所有可見文字,包括標誌、標籤、文檔或任何文字內容。
我們可以改用自定義提示。

自定義提取的結果如下:
- 1 盒 Duncan Hines 黃蛋糕粉
- 1 盒速溶檸檬布丁
- 2/3 杯水
- 1/2 杯 Mazola 食用油
- 4 個雞蛋
- 適量檸檬香精
- 倒入攪拌碗中攪打 10 分鐘
效果非常理想。對於更復雜的圖片,我們可以嘗試不同的模型。默認模型為 Qwen/Qwen2.5-VL-7B-Instruct,在速度與準確度間平衡良好;我們還可以使用更強大的推理模型 Qwen/Qwen3-VL-235B-A22B-Reasoning。

模型對比結果如下:
| Qwen/Qwen2.5-VL-7B-Instruct | Qwen/Qwen3-VL-235B-A22B-Reasoning |
|---|---|
| in large bowl combine meat, onion, bread crumbs 1/2 nutmeg & cheese - as you add sprinkle around. Then blend - Last sprinkle blend again Bake in large pan for 10-15 min. at 350. Let stand 5 min before serving. | in lg bowl combine meat, onion, bread crumbs 1/4 nutmeg & cheese - as you add sprinkle around. then blend - last spinach blend again. Bake in lg pan for 50-60 min. @ 350 - let stand 5 min before serving |
兩個模型的輸出很接近,但更高階模型識別出了兩個重要細節 (加粗部分) :烘焙時間和關鍵配料——菠菜。
清洗、轉換與豐富文本
當我們對提取結果滿意後,可以進一步用 AI 操作轉換格式,如生成 HTML 頁面。

生成後,每份食譜都變成了結構清晰、排版優美的 HTML 頁面:

編輯與轉換圖像
AI Sheets 集成了圖像編輯模型 (如 Qwen-Image-Edit) ,可以直接對圖片進行風格化處理與增強。
例如,你希望給食譜圖片增加“復古”效果,可以選擇黑白濾鏡模板:

結果如下:

導出數據集
當你對結果滿意後,可以將數據集導出並上傳至 Hugging Face Hub!
可選擇導出至團隊組織、個人主頁,或設為私密數據集。

你可以 查看 我們剛剛創建的示例數據集。
接下來做什麼?
你可以直接 在線試用 AI Sheets,無需安裝或部署。
如果希望本地運行並獲得更高性能,建議升級到 PRO 版本,可享受 20 倍推理配額。
如有任何問題或建議,歡迎在社區留言,或通過 GitHub 提交 issue 與我們交流。
英文原文: https://huggingface.co/blog/aisheets-unlock-images
原文作者: Ame Vi, Daniel Vila, Francisco Aranda, Damián Pumar, Leandro von Werra, Thomas Wolf
譯者: Luke, Hugging Face Fellow