Crossin的编程教室»论坛 › Python › 爬虫 › 一键下载：将知乎专栏导出成电子书

查看: 7139|回复: 0

一键下载：将知乎专栏导出成电子书

169 主题	1 好友	733 积分

版主

Rank: 7 Rank: 7 Rank: 7

发消息

电梯直达

楼主

发表于 2018-9-20 23:25:50 |只看该作者 |倒序浏览

老是有同学问，学了 Python 基础后不知道可以做点什么来提高。今天就再用个小例子，给大家讲讲，通过 Python 和爬虫，可以完成怎样的小工具。

在知乎上，你一定关注了一些不错的专栏（比如 Crossin的编程教室）。但万一有那么一天，你喜欢的答主在网上被人喷了，一怒之下删帖停更，这些好内容可就都看不到了。尽管这是小概率事件（可也不是没发生过），但未雨绸缪，你可以把关注的专栏导出成电子书，这样既可以离线阅读，又不怕意外删帖了。

只是需要工具和源码的可以拉到文章底部获取代码。
【最终效果】
运行程序，输入专栏的 id，也就是网页地址上的路径：

之后程序便会自动抓取专栏中的文章，并按发布时间合并导出为 pdf 文件。

【实现思路】
这个程序主要分为三个部分：
抓取专栏文章地址列表抓取每一篇文章的详细内容导出 PDF1. 抓取列表
在之前的文章爬虫必备工具，掌握它就解决了一半的问题中介绍过如何分析一个网页上的请求。按照其中的方法，我们可以通过开发者工具的 Network 功能找出专栏页面获取详细列表的请求：

https://www.zhihu.com/api/v4/columns/crossin/articles

复制代码

观察返回结果中发现，通过 next 和 is_end 的值，我们能获取下一次列表请求的地址（相当于向下滚动页面的触发效果）以及判断是否已经拿到所有文章。

而 data 中的 id、title、url 就是我们需要的数据。因为 url 可以通过 id拼出，所以我们的代码里未保存它。

使用一个 while 循环，直到抓取完所有文章的 id 和 title，保存在文件中。

while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j['data']
for article in data:
# 保存id和title(略)
if j['paging']['is_end']:
break
url = j['paging']['next']
# 按 id 排序(略)
# 导入文件(略)

复制代码

2. 抓取文章
有了所有文章的 id / url，后面的抓取就很简单了。文章主体内容就在 Post-RichText 的标签中。

需要稍微花点功夫的是一些文本上的处理，比如原页面的图片效果，会加上 noscript标签和、highlight">

url = 'https://zhuanlan.zhihu.com/p/' + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
content = soup.find(class_='Post-RichText').prettify()
# 对content做处理(略)
with open(file_name, 'w') as f:
f.write(content)

复制代码

到这一步，就已经完成了所有内容的抓取，可以在本地阅读了。
3. 导出 PDF
为了更便于阅读，我们使用 wkhtmltopdf + pdfkit，将这些 HTML 文件打包成 PDF。

wkhtmltopdf 是一个 HTML 转 PDF 的工具，需要单独安装，具体可参考它的官网介绍。
https://wkhtmltopdf.org/downloads.html https://github.com/JazzCore/python-pdfkit/wiki/Installing-wkhtmltopdf
pdfkit 是对此工具封装的 Python 库，可从 pip 安装：

pip install pdfkit

复制代码

使用起来很简单：

# 获取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), 'zhihu.pdf')

复制代码

收藏0

使用道具举报

返回列表

		自动登录	找回密码
密码			立即加入