Python讀取PDF：文本、圖片與文檔屬性詳情 - python,pdf,pdf導出,文檔管理工具,圖片處理大丸子博客

在日常的數據採集、文檔歸檔與信息挖掘過程中，PDF格式因其版式固定、內容穩定而被廣泛使用。Python 開發者若希望實現 PDF 內容的自動化提取，選擇一個易用且功能完善的庫至關重要。本文將介紹如何使用Python實現 PDF文本提取、圖片提取 以及 文檔屬性讀取 三大核心操作，適用於信息抽取、電子檔案處理等場景。

Python讀取PDF文本
Python讀取PDF圖片
Python讀取PDF文檔屬性

本文使用免費的 Free Spire.PDF for Python。安裝方法如下：

pip install spire.pdf.free

Python讀取PDF文本

在PDF中提取可識別的文字內容，是信息處理的基礎需求。Spire.PDF 提供了 PdfTextExtractor 類，可逐頁提取文本，並通過參數控制提取方式。

操作説明：

創建 PdfDocument 實例並加載PDF；
遍歷每一頁，構建 PdfTextExtractor；
設置提取選項，如是否簡化佈局；
累加獲取到的文本內容。

代碼示例：

from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions

# 創建 PdfDocument 實例並加載文檔
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

all_text = ""
# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):
    page = pdf.Pages.get_Item(pageIndex)
    # 創建文本提取器
    text_extractor = PdfTextExtractor(page)
    # 設置提取選項
    options = PdfTextExtractOptions()
    options.IsExtractAllText = True
    options.IsSimpleExtraction = True
    # 提取文本並累加
    all_text += text_extractor.ExtractText(options)

# 輸出全部文本內容
print(all_text)

PDF文檔：
Python讀取PDF文檔示例PDF

讀取的PDF文本：
Python讀取PDF文本

Python讀取PDF圖片

PDF中的圖片可能包含插圖、圖標、水印等重要信息。Spire.PDF 提供了 PdfImageHelper 工具類，可提取頁面中嵌入的圖像並保存為文件。

操作説明：

加載PDF文檔並獲取頁面；
使用 PdfImageHelper.GetImagesInfo() 獲取圖片信息；
遍歷並保存提取的圖片對象。

代碼示例：

from spire.pdf import PdfDocument, PdfImageHelper

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取第一頁
page = pdf.Pages.get_Item(0)

# 創建圖片助手
image_helper = PdfImageHelper()
# 獲取頁面中的圖片信息
images_info = image_helper.GetImagesInfo(page)

# 保存圖片為本地文件
for i in range(len(images_info)):
    images_info[i].Image.Save("output/Images/image" + str(i) + ".png")

讀取的PDF圖片：
Python讀取PDF圖片

Python讀取PDF文檔屬性

除了內容本身，PDF還可能包含元數據（如標題、作者、關鍵詞等），便於進行文檔分類與檢索。Spire.PDF 支持直接讀取這些信息。

操作説明：

加載PDF文件；
通過 DocumentInformation 屬性訪問文檔元數據；
打印或記錄相關屬性值。

代碼示例：

from spire.pdf import PdfDocument

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取文檔屬性信息
properties = pdf.DocumentInformation
print("標題： " + properties.Title)
print("作者： " + properties.Author)
print("主題： " + properties.Subject)
print("關鍵詞： " + properties.Keywords)

讀取的PDF文檔屬性：
Python讀取PDF文檔屬性

總結

使用 Free Spire.PDF for Python，可以輕鬆完成以下三類典型的 PDF 信息提取操作：

讀取PDF文本：逐頁提取文字內容，適用於全文分析、搜索系統等；
讀取PDF圖片：提取嵌入圖像用於歸檔、識別或後續處理；
讀取PDF文檔屬性：訪問標題、作者、關鍵詞等元信息，輔助分類索引。

以上功能均可在本地環境中快速部署，適合構建輕量級 PDF 處理工具或集成至業務系統中。

更多教程請參考：Spire.PDF for Python 教程中心

大丸子博客

大丸子博客

博客 / 詳情

Python讀取PDF：文本、圖片與文檔屬性

Python讀取PDF文本

Python讀取PDF圖片

Python讀取PDF文檔屬性

總結

發佈評論

Product

Company

Support

Company

博客 / 詳情

Python讀取PDF：文本、圖片與文檔屬性

Python讀取PDF文本

Python讀取PDF圖片

Python讀取PDF文檔屬性

總結

發佈 評論

發佈評論