博客 / 詳情

返回

Python讀取PDF:文本、圖片與文檔屬性

在日常的數據採集、文檔歸檔與信息挖掘過程中,PDF格式因其版式固定、內容穩定而被廣泛使用。Python 開發者若希望實現 PDF 內容的自動化提取,選擇一個易用且功能完善的庫至關重要。本文將介紹如何使用Python實現 PDF文本提取圖片提取 以及 文檔屬性讀取 三大核心操作,適用於信息抽取、電子檔案處理等場景。

  • Python讀取PDF文本
  • Python讀取PDF圖片
  • Python讀取PDF文檔屬性
本文使用免費的 Free Spire.PDF for Python。安裝方法如下:
pip install spire.pdf.free

Python讀取PDF文本

在PDF中提取可識別的文字內容,是信息處理的基礎需求。Spire.PDF 提供了 PdfTextExtractor 類,可逐頁提取文本,並通過參數控制提取方式。

操作説明:

  1. 創建 PdfDocument 實例並加載PDF;
  2. 遍歷每一頁,構建 PdfTextExtractor
  3. 設置提取選項,如是否簡化佈局;
  4. 累加獲取到的文本內容。

代碼示例:

from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions

# 創建 PdfDocument 實例並加載文檔
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

all_text = ""
# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):
    page = pdf.Pages.get_Item(pageIndex)
    # 創建文本提取器
    text_extractor = PdfTextExtractor(page)
    # 設置提取選項
    options = PdfTextExtractOptions()
    options.IsExtractAllText = True
    options.IsSimpleExtraction = True
    # 提取文本並累加
    all_text += text_extractor.ExtractText(options)

# 輸出全部文本內容
print(all_text)

PDF文檔
Python讀取PDF文檔示例PDF

讀取的PDF文本
Python讀取PDF文本


Python讀取PDF圖片

PDF中的圖片可能包含插圖、圖標、水印等重要信息。Spire.PDF 提供了 PdfImageHelper 工具類,可提取頁面中嵌入的圖像並保存為文件。

操作説明:

  1. 加載PDF文檔並獲取頁面;
  2. 使用 PdfImageHelper.GetImagesInfo() 獲取圖片信息;
  3. 遍歷並保存提取的圖片對象。

代碼示例:

from spire.pdf import PdfDocument, PdfImageHelper

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取第一頁
page = pdf.Pages.get_Item(0)

# 創建圖片助手
image_helper = PdfImageHelper()
# 獲取頁面中的圖片信息
images_info = image_helper.GetImagesInfo(page)

# 保存圖片為本地文件
for i in range(len(images_info)):
    images_info[i].Image.Save("output/Images/image" + str(i) + ".png")

讀取的PDF圖片:
Python讀取PDF圖片


Python讀取PDF文檔屬性

除了內容本身,PDF還可能包含元數據(如標題、作者、關鍵詞等),便於進行文檔分類與檢索。Spire.PDF 支持直接讀取這些信息。

操作説明:

  1. 加載PDF文件;
  2. 通過 DocumentInformation 屬性訪問文檔元數據;
  3. 打印或記錄相關屬性值。

代碼示例:

from spire.pdf import PdfDocument

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取文檔屬性信息
properties = pdf.DocumentInformation
print("標題: " + properties.Title)
print("作者: " + properties.Author)
print("主題: " + properties.Subject)
print("關鍵詞: " + properties.Keywords)

讀取的PDF文檔屬性
Python讀取PDF文檔屬性


總結

使用 Free Spire.PDF for Python,可以輕鬆完成以下三類典型的 PDF 信息提取操作:

  • 讀取PDF文本:逐頁提取文字內容,適用於全文分析、搜索系統等;
  • 讀取PDF圖片:提取嵌入圖像用於歸檔、識別或後續處理;
  • 讀取PDF文檔屬性:訪問標題、作者、關鍵詞等元信息,輔助分類索引。

以上功能均可在本地環境中快速部署,適合構建輕量級 PDF 處理工具或集成至業務系統中。


更多教程請參考:Spire.PDF for Python 教程中心

user avatar chengxy 頭像 u_16213680 頭像 beiyouzhiyu 頭像
3 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.