Crossin的编程教室

标题: 将知乎专栏所有文章转为pdf [打印本页]

作者: elaine2018    时间: 2018-8-13 10:57
标题: 将知乎专栏所有文章转为pdf
上周crossin公众号上推了一个文章,爬取知乎专栏的所有文章并转为pdf,我试着运行了一下公众号上给的代码,但是总是报错,有没有人帮忙看一下,到底是哪里错了?
代码地址如下:
https://gitee.com/crossin/snippet/tree/master/get_zhihu
报错内容如下:
捕获.PNG

生成了76个html之后就开始出现这个错误了,爬虫这块我不是很懂,不明白到底是哪里错了



作者: crossin先生    时间: 2018-8-13 12:30
知乎有些文章需要登录后可见,你把地址和结果print出来看看
作者: crossin先生    时间: 2018-8-13 12:30
解决办法是略过,或者加上自己登陆后的cookie
但不建议一直以登陆状态抓取,可能会被封
作者: elaine2018    时间: 2018-8-13 13:47
crossin先生 发表于 2018-8-13 12:30
知乎有些文章需要登录后可见,你把地址和结果print出来看看

我试的就是crossin编程教室的专栏
作者: crossin先生    时间: 2018-8-13 23:08
elaine2018 发表于 2018-8-13 13:47
我试的就是crossin编程教室的专栏

我说的就是我们专栏
里面有的文章不知道什么原因(这得问知乎),需要登录才可见




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5