Crossin的编程教室

标题: 为什么知乎用户的「关注的问题」只能爬取4个信息? [打印本页]

作者: zzz    时间: 2020-11-18 20:21
标题: 为什么知乎用户的「关注的问题」只能爬取4个信息?
大佬求助!!!
初学爬虫,用requests和beautifulsoup爬取安居客,豆瓣电影都很OK,
但是爬取知乎中,某个用户的「关注的问题」时,只能爬取4条信息,用cookie登录也是这样,为什么呀?


附上代码:
超过字符数限制了,用附件代替了,麻烦了!!

test2.py.zip

995 Bytes, 下载次数: 1

如问题所示,拜托了!!!


作者: zzz    时间: 2020-11-18 20:22
#代码如下
import requests
from bs4 import BeautifulSoup


link =  'https://www.zhihu.com/people/you-wu-jun-77/following/questions' #想要爬取的用户的关注的问题
print("知乎关注的问题爬取:")

headers = {
        'cookies': 'xxx',
        'User-Agent': 'xxx'
}
response = requests.get(link, headers=headers)

soup = BeautifulSoup(response.text, 'lxml')
print(soup)
following_question_list = soup.find_all('div', class_='List-item')
print(following_question_list)
print('-------------')

for following_question in following_question_list:
    question = following_question.find('div', class_='QuestionItem-title').text.strip()
    data = following_question.select('.ContentItem-status > span')[0].text
    answer_num = following_question.select('.ContentItem-status > span')[1].text
    following_num = following_question.select('.ContentItem-status > span')[2].text

    print(question, data, answer_num, following_num)

作者: crossin先生    时间: 2020-11-19 12:54
更多的数据是在数据请求里获取的,不是随页面一次性拿到的
了解下 AJAX
以及这篇里的Network部分:
https://mp.weixin.qq.com/s/Vi2SO5Ep3ZBLH0T4a-YlRg

作者: zzz    时间: 2020-11-22 15:18
crossin先生 发表于 2020-11-19 12:54
更多的数据是在数据请求里获取的,不是随页面一次性拿到的
了解下 AJAX
以及这篇里的Network部分:

解决了 谢谢




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5