Crossin的编程教室

标题: 爬虫自动爬到其他网页上是怎么回事 [打印本页]

作者: 人工智能    时间: 2018-4-25 22:28
标题: 爬虫自动爬到其他网页上是怎么回事
刚开始在看爬虫介绍的时候,说爬虫自己从页面中找到其他页面的入口(url)然后再进到这个页面里爬这个页面的东西,像这样的从一个网页爬到另一个网页这是自动爬取的?
还是说是人工在程序里编程的时候 先获取到这个页面的所有url,再写段代码爬取这些url页面 然后再手动获取这个页面里的url 再写段代码爬这些新得到的url,然后如此反复。
不管是requests 还是scrapy 哪个都好,关于这个从一个页面再爬到其他页面这个操作 是程序自动完成的还是我们自己手动编写代码实现的啊

作者: crossin先生    时间: 2018-4-25 23:15
看你自己的目的啊,如果你就要随意去抓所有页面,那当然自动去抓
如果你有目的就是要抓某类链接,那就按需求去开发
作者: 人工智能    时间: 2018-4-26 00:20
crossin先生 发表于 2018-4-25 23:15
看你自己的目的啊,如果你就要随意去抓所有页面,那当然自动去抓
如果你有目的就是要抓某类链接,那就按需 ...

随意抓所有页面,自动抓   这个是怎么实现的 什么原理    是scrapy框架里自带的功能吗
作者: crossin先生    时间: 2018-4-26 13:59
人工智能 发表于 2018-4-26 00:20
随意抓所有页面,自动抓   这个是怎么实现的 什么原理    是scrapy框架里自带的功能吗 ...

把页面上的链接提取出来
作者: 人工智能    时间: 2018-4-26 19:05
crossin先生 发表于 2018-4-26 13:59
把页面上的链接提取出来

嗯,说到底还是人工操作的啊
作者: crossin先生    时间: 2018-4-27 12:26
人工智能 发表于 2018-4-26 19:05
嗯,说到底还是人工操作的啊

这个,就一行代码吧





欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5