隨著互聯網信息爆炸式增長，越來越多的人希望將網絡上的優質內容保存下來，方便離線閱讀或長期收藏。Python憑借其豐富的庫和簡潔的語法，成為實現網頁內容抓取、清洗并轉換為電子書格式的利器。本文將詳細介紹如何使用Python將網頁內容轉換為純文本和EPUB電子書，涵蓋網絡技術開發及相關信息咨詢的關鍵步驟。

一、環境準備與核心庫介紹

在開始之前，需要確保已安裝Python（建議3.7及以上版本）。核心庫包括：

Requests：用于發送HTTP請求，獲取網頁原始HTML。
BeautifulSoup 或 lxml：用于解析HTML，提取所需內容。
html2text：將HTML轉換為純文本的便捷工具。
EbookLib：用于生成EPUB格式電子書。
Readability-lxml：可智能提取網頁正文內容，去除廣告等噪音。

安裝命令：
`bash
pip install requests beautifulsoup4 html2text ebooklib readability-lxml
`

二、網頁內容抓取與解析

第一步是獲取目標網頁的HTML內容。使用Requests庫發送GET請求，并通過BeautifulSoup進行解析：

`python import requests from bs4 import BeautifulSoup

url = "https://example.com/article"
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
html_content = response.content

soup = BeautifulSoup(html_content, 'html.parser')
`

對于結構復雜的網頁，可使用readability-lxml智能提取正文：

from readability import Document
doc = Document(html_content)
clean_html = doc.summary()

三、轉換為純文本

提取到干凈的HTML后，使用html2text庫將其轉換為易讀的純文本：

`python import html2text

h = html2text.HTML2Text()
h.ignorelinks = False # 是否忽略鏈接
plaintext = h.handle(clean_html)

with open('output.txt', 'w', encoding='utf-8') as f:
f.write(plain_text)
`

四、生成EPUB電子書

EPUB是一種開放的電子書標準，支持流式閱讀。使用EbookLib庫可以輕松創建EPUB文件：

`python from ebooklib import epub

創建EPUB書籍對象

book = epub.EpubBook()
book.setidentifier('id123456')
book.settitle('網頁文章標題')
book.setlanguage('zh')
book.addauthor('作者名')

創建章節

c1 = epub.EpubHtml(title='正文', filename='chap01.xhtml', lang='zh')
c1.content = f'{clean_html} '

添加章節到書籍

book.additem(c1)
book.toc = (epub.Link('chap01.xhtml', '正文', 'intro'),)
book.spine = ['nav', c1]

添加導航文件

book.additem(epub.EpubNcx())
book.additem(epub.EpubNav())

生成EPUB文件

epub.write_epub('output.epub', book, {})
`

五、進階技巧與信息咨詢

批量處理：結合爬蟲框架（如Scrapy）可批量抓取多個頁面，并自動生成系列電子書。
樣式優化：通過CSS為EPUB電子書添加自定義樣式，提升閱讀體驗。
反爬蟲應對：部分網站設有反爬機制，可通過設置請求頭、使用代理IP或Selenium模擬瀏覽器訪問來應對。
內容清洗：使用正則表達式或自定義規則進一步清理文本中的無關字符、廣告語等。
自動化調度：將腳本部署至服務器，結合定時任務實現自動抓取與轉換。

六、注意事項

尊重版權：僅抓取公開且允許轉載的內容，避免用于商業用途。
遵守robots.txt：抓取前檢查目標網站的robots.txt文件，尊重網站規則。
控制頻率：避免高頻請求對目標服務器造成壓力。

###

通過Python實現網頁內容轉純文本與EPUB電子書，不僅能夠高效地保存網絡信息，還能根據個人需求進行定制化處理。本攻略涵蓋了從基礎抓取到高級生成的完整流程，結合網絡技術開發與信息咨詢的要點，為開發者提供了實用指南。隨著技術的不斷演進，可進一步探索AI摘要、自動分類等智能功能，讓知識管理更加便捷高效。