pymupdf 是一個用於處理 PDF 文件的 Python 庫,提供了豐富的功能和靈活的接口,使得在 Python 環境中處理 PDF 文件變得簡單而強大。該庫建立在 MuPDF 渲染引擎的基礎上,MuPDF 是一款高性能的 PDF 渲染器,pymupdf 將其封裝成一個易於使用的 Python 模塊。
主要功能:
-
打開和查看 PDF 文件:
- 使用
fitz.open方法可以打開一個 PDF 文件,返回一個fitz.Document對象,通過這個對象可以進行後續的操作。 - 查看 PDF 中的頁面數量,獲取頁面的尺寸和其他基本信息。
import fitz pdf_path = "example.pdf" pdf_document = fitz.open(pdf_path) # 獲取頁面數量 num_pages = pdf_document.page_count print(f"Total number of pages: {num_pages}") # 獲取第一頁 first_page = pdf_document[0] width, height = first_page.rect.width, first_page.rect.height print(f"Page size: {width} x {height} points") - 使用
-
文本提取和搜索:
- 通過
get_text方法可以提取頁面上的文本內容,也可以進行基於關鍵詞的搜索。 - 文本提取可以用於實現 PDF 文本內容的分析和搜索引擎的建立。
# 提取第一頁的文本 text = first_page.get_text("text") print("Text on the first page:", text) # 搜索關鍵詞 keyword = "Python" keyword_instances = first_page.search_for(keyword) print(f"Found {len(keyword_instances)} instances of '{keyword}' on the first page.") - 通過
-
圖像提取:
- 通過
get_pixmap方法可以獲取頁面上的圖像,這為進一步的圖像處理提供了可能性。 - 圖像提取可用於分析 PDF 中的圖表、圖片等信息。
# 獲取第一頁的圖像 pixmap = first_page.get_pixmap() pixmap.writePNG("page_1_image.png") print("Image extracted from the first page.") - 通過
-
PDF 修改和創建:
fitz.Document對象支持頁面的增刪改操作,使得可以在現有 PDF 文件的基礎上進行修改。- 創建新的 PDF 文件,添加頁面並設置內容,最後保存為新文件。
# 創建新的 PDF 文檔 new_pdf = fitz.open() # 添加頁面並設置內容 new_page = new_pdf.new_page(width, height) new_page.insert_text((100, 100), "Hello, PDF!") # 保存為新的 PDF 文件 new_pdf.save("new_document.pdf") print("New PDF document created.") -
PDF 加密和解密:
fitz.Document對象支持對 PDF 進行加密和解密,保護文檔內容的安全性。
# 加密 PDF 文檔 pdf_document.encrypt("password") # 保存加密後的文檔 pdf_document.save("encrypted_document.pdf") print("PDF document encrypted.") # 解密 PDF 文檔 pdf_document.decrypt("password") # 保存解密後的文檔 pdf_document.save("decrypted_document.pdf") print("PDF document decrypted.")
以上僅是 pymupdf 提供的一小部分功能,該庫還支持更高級的特性,如註釋的添加、旋轉頁面、獲取鏈接等。由於 MuPDF 引擎的高效性能,pymupdf 在處理大型 PDF 文件時表現出色,適用於需要在 Python 中進行 PDF 文件處理的各種場景。