tag ocr

標籤
貢獻11
72
07:47 AM · Nov 04 ,2025

@ocr / 博客 RSS 訂閱

大丸子 - 使用Python從圖片中提取文本

在日常辦公或文檔數字化處理中,我們常常會遇到需要從圖片中提取文字的需求,例如掃描件、截圖、票據等。藉助OCR(光學字符識別)技術,我們可以快速將圖像中的文字轉換為可編輯文本。 本文將介紹如何使用 Spire.OCR for Python 從圖片中提取文字,包括: 基本提取方法 獲取文本的位置信息 批量處理文件夾內的多張圖片 工具介紹:Spire.OCR for Python Spire

png , 圖片處理 , ocr , 文字處理 , Python

收藏 評論

合合技術團隊 - 文檔解析技術發展回顧與路徑思考

隨着全球數字化進程的加速,非結構化數據量呈現爆炸式增長,從紙質文檔到電子文件的轉變不僅意味着信息存儲方式的革新,更標誌着舊數據被賦予了新的生命力。文檔智能技術的發展使得大量以傳統形式保存的信息資源能夠“活化”再利用,這些技術將圖像、手寫筆記等非結構化數據轉化為計算機可處理和理解的結構化格式,從而極大地拓展了數據的應用場景。得益於深度學習算法的進步,文檔解析技術在文檔數字化、票據自動化處理、筆跡錄入

ocr , aigc , 人工智能 , 文檔

收藏 評論

MonkeyKing_sun - 使用ARQ做PDF OCR和 圖片OCR的任務的方案

一、業務目標 前提假設 業務目標 • 支持 PDF OCR(多頁)和 圖片 OCR • 任務耗時可能較長(幾十秒~幾分鐘) • 要求: • 支持大量併發任務,不會把 FastAPI 頂死 • 支持重試(雲 OCR 抖一下不要直接失敗) •

redis , 封裝 , pdf , ocr , 後端開發 , 重啓 , Python

收藏 評論

碼海探險先鋒 - 飛槳博士會第四期回顧,場景文字識別的算法創新與應用 - 飛槳PaddlePaddle的個人空間 -

DeepSeek-OCR: Optical Compression Solves LLM Long Context Challenge 文章摘要 DeepSeek-OCR提出了一種革命性的方法,通過將文本轉換為圖像並使用專門的視覺編碼器進行光學壓縮,解決了大語言模型在處理長文本時面臨的計算成本爆炸性增長問題,實現了10:1的壓縮比下97%的準

語言模型 , ocr , deepseek , 人工智能 , Css , 大模型 , 前端開發 , HTML

收藏 評論

小蝌蚪 - C# SDK實現百度雲OCR的文字識別功能

為了驗證Dify對票據識別的正確率,博主開發了一個批量調用Dify API 完成OCR識別工具,在RPA項目上測試樣本數據識別的正確率。只需要點一下按鈕,程序就放出10次請求,然後把AI智能體OCR識別的結果全部返回。感謝zoujiawei提供的DifyWebClient類庫,我們只需要直接調用就行,不過還是有一些地方需要博主説

API , ocr , 後端開發 , dify , c , Python

收藏 評論

鄭知魚 - 【擁抱鴻蒙】HarmonyOS NEXT實現雙路預覽並識別文字

我們在許多其他平台看到過OCR功能的應用,那麼HarmonyOS在這方面的支持如何呢?我們如何能快速使用這一能力呢?使用這一能力需要注意的點有哪些呢?就讓我們一起來探究吧~ 【開發環境】 版本規則號:HarmonyOS NEXT 版本類型:Developer Preview2 OpenHarmony API Version:11 Release compileSdkVersion:4.

移動端 , 華為 , harmonyos-next , ocr , harmonyos

收藏 評論

HuggingFace - 用開源模型強化你的 OCR 工作流

我們在這篇文章中新增了 Chandra 和 OlmOCR-2,並附上了它們在 OlmOCR 基準上的得分 🫡 摘要: 強大的視覺語言模型 (Vision-Language Models, VLMs) 的崛起,正在徹底改變文檔智能 (Document AI) 的格局。每種模型都有其獨特的優勢,因此選擇合適的模型變得棘手。相比閉源模型,開源權重的模型在成本效率和隱私保護上更具優勢。為了幫助你快

ocr , 人工智能

收藏 評論

碼上世界 - 麒麟操作系統 (kylinos) 從入門到精通 -辦公環境 - 第五十四篇 支持OCR的圖片查看軟件

0.基礎環境 類別:筆記本 型號:中國長城 NF14C 硬件平台:飛騰處理器(ArmV8 指令集) 系統:銀河麒麟操作系統 V10 SP1(2303) 關鍵詞: 信創,麒麟系統,linux,c++,c,飛騰,arm,ocr,acdsee 1.背景 在我們日常使用的過程中,特別是windows 11後,其自帶的看圖軟件支持OCR(圖片中直接複製出需要 的文本),

信創 , 圖片 , ocr , Linux , 程序員

收藏 評論

tiandekaixinguo - 藏文OCR文字提取,零基礎藏語入門學習,3分鐘教會你使用《藏漢翻譯通》App!

近年來,各地區交流來往越來越頻繁,工作、旅遊、求學,雖然每個人的出行目的不同,但都有一個共同的需求,那就是高效率、翻譯精準的藏語翻譯APP。 針對藏語翻譯的需求,可供選擇的軟件並不多,而今天我給大家推薦一款最適合藏語翻譯、語音識別、藏文識別的應用,那就是「藏漢翻譯通」。 「藏漢翻譯通」通過利用百萬用户使用的藏語辭典、藏文語料庫來實現更加符合西藏用户語言習慣的翻譯輸出,藏譯漢、漢譯藏雙語互譯模式,致

蘋果 , ocr , Android , ios , 翻譯

收藏 評論

tiandekaixinguo - 第一款維吾爾語免費翻譯工具:《維漢翻譯通》App全新升級,免費、高效、易用!支持維吾爾文OCR文字識別提取!

大家好,我們很高興地宣佈,《維漢翻譯通》App迎來了全新升級,帶來了一系列令人興奮的新功能,同時,維漢雙語短文本翻譯即日起免費啦。現在,讓我們來看看這款App都支持哪些功能?免費的短文本翻譯首先,我們非常自豪地宣佈,短文本翻譯現在免費了(SVIP用户支持長文本翻譯)!您無需支付任何費用,就可以享受到高質量的維吾爾語翻譯服務。這對於需要翻譯日常對話或者維語詞彙的用户來説,我們的短文本翻譯功能將為您提

學習 , ocr , 學習方法 , 翻譯 , 學習資料

收藏 評論

tiandekaixinguo - 去日本旅遊30天,我下載了哪些日語翻譯工具?推薦《Navi日語社》App支持實時語音翻譯功能!無需打字對着説話就能翻譯!

如果你正在尋找一款簡單好用、功能豐富的日文OCR識別軟件,那麼推薦你試試《Navi日語社》App,在安卓和蘋果手機上,很多應用都支持免費的日語翻譯功能,但是支持日文OCR文字識別的軟件並不多,針對這一痛點,準橙翻譯開發上線了《Navi日語社》App,一款支持日文OCR識別提取文字的移動軟件,識別結果支持一鍵複製導出和一鍵翻譯,非常貼閤中國人的操作習慣。 接下來讓我詳細介紹一下它的功能和特點。 日語

工具 , 工具軟件 , ocr , Android , 翻譯

收藏 評論

小白獅ww - 跨頁表格不用愁!OCRFlux-3B 一鍵提取乾淨文本

你有沒有試過從 PDF 裏複製一張跨頁表格?粘出來後表格被撕成兩半,排版亂成一團,本來幾分鐘的工作瞬間變成半小時的「拼圖」大戰。 針對這種煩惱,OCRFlux-3B 應運而生。它在 2025 年 6 月由 ChatDOC 團隊發佈,是一個基於多模態大模型的工具包,能把 PDF 和圖片轉成乾淨、可讀的 Markdown 文本。不僅支持頁面級轉換,還能自動合併跨頁表格和段落,讓複雜文檔結構瞬間清爽。

文本處理 , pdf , ocr , 大模型 , Markdown

收藏 評論

合合技術團隊 - 所見即所得,賦能RAG:PDF解析裏的段落識別與閲讀順序還原

前幾天,有一位用户使用OCR產品識別多欄論文後向我們詢問:要怎麼解決不合適的斷句、分段以及錯誤閲讀順序的問題? 我們用一個相似案例為大家直觀展示這位用户遇到的情況。 如圖中的多欄期刊,如果用OCR識別,或直接在一些辦公軟件對文字進行復制黏貼,我們就會得到右側的效果——按PDF排版而不是語義進行換行分段,對多欄文字直接從左向右排布,得到完全不通順的文字段落。 顯然這樣的效果是無法接受的。 於

ocr , 人工智能 , 文檔

收藏 評論

TANKING - 本地使用PaddleOCR進行圖片識別獲得文字(返回JSON)

優點 ✅ 識別率高,支持繁簡中文和手寫識別 ✅ 支持角度檢測,避免文字方向影響識別效果 ✅ 還能識別表格、票據等複雜場景 方法 pip install paddleocr pip install paddlepaddle (如果你有 GPU,可以安裝 paddlepaddle-gpu 以加速識別) 使用示例 from paddleocr import PaddleOCR ocr =

圖片識別 , paddleocr , 圖片處理 , ocr , Python

收藏 評論