博客 / 詳情

返回

用 AI Sheets 解鎖圖像的力量

🧭簡要概覽:Hugging Face AI Sheets 是一款開源工具,能夠用 AI 模型增強數據集的處理能力,無需編寫任何代碼。現在新增視覺功能:可以從圖像 (如收據、文檔) 中提取數據、根據文本生成圖像、甚至編輯圖片——一切都能在電子表格中完成。依託 Inference Providers,可調用數千個開放模型。

用 AI Sheets 分析圖像

我們非常高興地發佈 Hugging Face AI Sheets 的重大更新版——這是一款可通過開放 AI 模型構建、轉換與豐富數據的開源工具。AI Sheets 基於 Inference Providers 運行,意味着你可以使用由全球頂級推理服務驅動的數千種開放模型。

AI Sheets 的首個版本 讓結構化和增強文本內容變得輕而易舉。現在,我們為它加入了視覺功能。

圖像無處不在——商品照片、收據、截圖、圖表、徽標……這些圖片中藴含着豐富的結構化信息,等待被提取、分析與轉換。現在,你終於可以在 AI Sheets 中直接處理圖像內容:查看圖片、分析內容、提取數據、生成新圖像,甚至實時編輯——全部在同一流程中完成。

你的圖片藏着故事

圖片往往包含寶貴的信息——產品目錄、客户支持單、研究檔案、收據、文檔等。現在你可以直接上傳圖片,或使用帶圖像的數據集,再借助視覺模型提取、分析並結構化這些內容。

你可以做到:

  • 描述與分類圖像 —— 為產品照片生成文字描述,識別文檔類型,或根據內容自動打標籤
  • 提取結構化數據 —— 從收據中提取明細,從圖表中提取數據,從掃描件中識別文本
  • 添加上下文與元數據 —— 自動為圖片添加相關屬性、質量評分或自定義標註

與文本列一樣,你可以反覆調整提示詞、手動修改結果,並用“點贊”告訴模型你更喜歡哪種輸出。你的反饋會作為少量樣本 (few-shot) 幫助模型生成更好的結果。

示例:從收據中提取結構化費用信息

假設你剛出差回來,手裏有一堆收據。上傳到 AI Sheets 後,在新列中輸入提示詞:
提取該收據中的商户名稱、日期、總金額和費用類別

AI Sheets 會自動處理每一張收據,輸出一個整潔的表格,包含所有提取出的詳細信息。你可以手動糾正錯誤,對準確結果點贊,並重新生成其他條目以提升整體質量。最終可將數據導出為 CSV 或 Parquet 文件,用於你的報銷工具。

或者,你也可以將家中舊筆記本上的手寫食譜數字化——創建列提取食材、烹飪時間、菜系類型,讓個人檔案變成可搜索的結構化數據集。

在同一流程中生成與轉換文本和圖像

需要為你的內容配圖?AI Sheets 可以在電子表格中直接通過 AI 模型生成或編輯圖像,讓整個內容創作流程集中在一個界面中完成。

你可以:

  • 從文本生成圖像 —— 生成與你內容匹配的社交媒體圖片、縮略圖或插畫
  • 編輯與轉換圖像 —— 修改上傳或生成的圖片:更換風格、添加元素、調整構圖
  • 批量生成變體 —— 一次生成多個版本或風格,測試最受歡迎的視覺形式
  • 建立視覺素材庫 —— 為品牌活動批量創建風格一致的圖像資產

示例:創建帶配圖的內容日曆

假設你計劃發佈一個月的健康食譜類社交媒體帖子。你已經準備好了標題與文案,但還缺圖像。

創建一個圖像列,提示如下:
“為以下標題生成一張美味食物的照片:{{title}}。風格:明亮、俯拍、自然光。”

AI Sheets 會為每篇帖子生成獨特的圖片。效果不理想?再建一列修改:
“將背景換成鄉村木桌,加上新鮮香草作為裝飾。”

你可以多次調整生成和編輯提示,嘗試不同方案。最終,你的整月內容計劃——文字與圖片——都集中在一張表格中,可直接導出或排程發佈。

使用指南

下面我們通過一個實例來看看 AI Sheets 的實際操作。我們將用開源模型來識別祖母筆記本中手寫的食譜。

上傳數據

我們有一個文件夾,裏面保存了食譜的照片,只需上傳即可。


上傳後生成的表格如下:

瞭解 AI 操作

在電子表格中,每一列都可以通過“AI 操作”進行提取、轉換或查詢等各種處理。

點擊任意列上方的疊加層即可查看操作選項:

圖像列支持的操作包括:提取文字、圖像問答、目標檢測、上色、添加文字,以及自定義任務;
文本列則支持:摘要、關鍵詞提取、翻譯等操作。

每個 AI 操作都由“提示詞 + 模型”組合而成。讓我們看看它如何處理手寫食譜數據。

從圖像中提取文字

AI Sheets 提供了一個從圖像提取文字的模板:

執行後會生成一列包含轉錄結果的新列,例如:

上圖識別出的文本如下:

MEMORANDUM:

From

To

1 Box Duncan Hines Yellow Cake Mix
1 Box instant lemon pudding
2/3 cups water
1/2 cup Mozola oil
4 eggs
Lemon flavoring to taste.
Put in mixing bowl and beat for 10 min.

and REMEMBER... for Quality PRINTING
CALL OR WRITE
Gatling & Pierce
PRINTERS
TELEPHONE 332-2579
22 YEARS OF SERVICE IN NORTHEASTERN CAROLINA

識別效果不錯,但包含了頁眉頁腳的印刷文字。默認模板的提示是:

提取圖像中所有可見文字,包括標誌、標籤、文檔或任何文字內容。

我們可以改用自定義提示。

自定義提取的結果如下:

  • 1 盒 Duncan Hines 黃蛋糕粉
  • 1 盒速溶檸檬布丁
  • 2/3 杯水
  • 1/2 杯 Mazola 食用油
  • 4 個雞蛋
  • 適量檸檬香精
  • 倒入攪拌碗中攪打 10 分鐘

效果非常理想。對於更復雜的圖片,我們可以嘗試不同的模型。默認模型為 Qwen/Qwen2.5-VL-7B-Instruct,在速度與準確度間平衡良好;我們還可以使用更強大的推理模型 Qwen/Qwen3-VL-235B-A22B-Reasoning

模型對比結果如下:

Qwen/Qwen2.5-VL-7B-Instruct Qwen/Qwen3-VL-235B-A22B-Reasoning
in large bowl combine meat, onion, bread crumbs 1/2 nutmeg & cheese - as you add sprinkle around. Then blend - Last sprinkle blend again Bake in large pan for 10-15 min. at 350. Let stand 5 min before serving. in lg bowl combine meat, onion, bread crumbs 1/4 nutmeg & cheese - as you add sprinkle around. then blend - last spinach blend again. Bake in lg pan for 50-60 min. @ 350 - let stand 5 min before serving

兩個模型的輸出很接近,但更高階模型識別出了兩個重要細節 (加粗部分) :烘焙時間和關鍵配料——菠菜。

清洗、轉換與豐富文本

當我們對提取結果滿意後,可以進一步用 AI 操作轉換格式,如生成 HTML 頁面。

生成後,每份食譜都變成了結構清晰、排版優美的 HTML 頁面:

編輯與轉換圖像

AI Sheets 集成了圖像編輯模型 (如 Qwen-Image-Edit) ,可以直接對圖片進行風格化處理與增強。

例如,你希望給食譜圖片增加“復古”效果,可以選擇黑白濾鏡模板:

結果如下:

導出數據集

當你對結果滿意後,可以將數據集導出並上傳至 Hugging Face Hub!
可選擇導出至團隊組織、個人主頁,或設為私密數據集。

你可以 查看 我們剛剛創建的示例數據集。

接下來做什麼?

你可以直接 在線試用 AI Sheets,無需安裝或部署。
如果希望本地運行並獲得更高性能,建議升級到 PRO 版本,可享受 20 倍推理配額。

如有任何問題或建議,歡迎在社區留言,或通過 GitHub 提交 issue 與我們交流。

英文原文: https://huggingface.co/blog/aisheets-unlock-images

原文作者: Ame Vi, Daniel Vila, Francisco Aranda, Damián Pumar, Leandro von Werra, Thomas Wolf

譯者: Luke, Hugging Face Fellow

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.