HTML(超文本標記語言)是一種用於創建網頁的標記語言,能讓開發者構建內容豐富、視覺吸引力強的頁面佈局。然而,HTML 文件通常包含大量標籤,若僅需獲取主要內容,這些標籤會使其難以閲讀。通過 Python 將 HTML 轉換為文本,可輕鬆解決這一問題。與原始 HTML 不同,轉換後的文本文件會剝離所有不必要的標記,僅保留乾淨易讀的內容,更便於存儲、分析或進一步處理。
安裝 HTML 轉文本 Python 庫
推薦使用 Spire.Doc for Python 實現轉換。該 Python Word 庫不僅是輕量高效的 HTML 轉文本工具,還支持幾乎所有 Word 操作(如創建、內容編輯等),兼容性強、上手簡單。
Spire.Doc for Python試用下載
請聯繫慧都科技,技術交流Q羣(125237868)
通過 pip 命令安裝(推薦)
打開終端 / 命令行,執行以下命令即可自動完成安裝:
pip install spire.doc
Python 將 HTML 文件轉換為文本
藉助 Spire.Doc for Python,僅需 3 個簡單步驟即可將本地 HTML 文件轉換為純文本:創建 Document 對象 → 加載 HTML 文件 → 保存為 TXT 格式。整個過程簡潔高效,新手也能輕鬆上手!下面詳細介紹代碼實現:
代碼示例 — HTML 文件轉 TXT 文本文件
from spire.doc import *
from spire.doc.common import *
# 打開 HTML 文件
document = Document()
document.LoadFromFile("sample.html.html", FileFormat.Html, XHTMLValidationType.none)
# 保存為文本文件
document.SaveToFile("HTML轉文本.txt", FileFormat.Txt)
document.Close()
轉換效果預覽(源文件 vs 輸出文件):

請注意:若 HTML 文件包含表格,輸出的文本文件將僅保留表格中的數據,無法保留原始表格格式。若希望移除標記的同時保留特定樣式,建議先將 HTML 轉換為 Word 文檔,這樣可保留標題、表格等格式,讓內容更易於編輯和使用。
Python 將 HTML 字符串轉換為文本
如果僅需提取網頁部分內容(如爬取的 HTML 片段),可直接將 HTML 字符串轉換為文本,無需加載完整 HTML 文件,更靈活高效。
Spire.Doc 轉換 HTML 字符串到文本文件的實現步驟:
- 直接輸入 HTML 字符串或從本地文件讀取;
- 創建 Document 對象並添加節(Section)和段落(Paragraph);
- 使用 Paragraph.AppendHTML() 方法將 HTML 字符串插入段落;
- 通過 Document.SaveToFile() 方法將文檔保存為 .txt 文件。
代碼示例 — HTML 字符串轉 TXT 文本文件
from spire.doc import *
from spire.doc.common import *
# 獲取 HTML 字符串(可註釋下方代碼,取消註釋讀取本地文件的邏輯)
# with open(inputFile) as fp:
# html = fp.read()
# 定義 HTML 字符串
html = """
<html>
<body>
<h1>示例HTML內容</h1>
<p>這是一個包含<strong>粗體</strong>和<em>斜體</em>文本的段落。</p>
<p>另一行帶有<a href='https://example.com'>鏈接</a>。</p>
<ul>
<li>列表項1</li>
<li>列表項2(帶有<em>斜體</em>文本)</li>
</ul>
<p>特殊字符:© & ®</p>
</body>
</html>
"""
# 創建新文檔
document = Document()
section = document.AddSection()
# 將 HTML 字符串插入段落
section.AddParagraph().AppendHTML(html)
# 保存為 TXT 文件
document.SaveToFile("HTML字符串轉文本.txt", FileFormat.Txt)
document.Close()
轉換後的 TXT 文件預覽:

Spire.Doc for Python試用下載
請聯繫慧都科技,技術交流Q羣(125237868)