举个例子,通过豆瓣的 API 抓取 30 部影片的信息:
- import urllib, time
- time_start = time.time()
- data = []
- for i in range(30):
- print 'request movie:', i
- id = 1764796 + i
- url = 'https://api.douban.com/v2/movie/subject/%d' % id
- d = urllib.urlopen(url).read()
- data.append(d)
- print i, time.time() - time_start
- print 'data:', len(data)
复制代码参考输出结果:
- > python test.py
- request movie: 0
- 0 0.741228103638
- request movie: 1
- 1 1.96586918831
- ...
- request movie: 28
- 28 12.0225770473
- request movie: 29
- 29 12.4063940048
- data: 30
复制代码程序里用了 time.time() 来计算抓取花费的时间。运行一遍,大约需要十几秒(根据网络情况会有差异)。
如果我们想用这套代码抓取几万部电影,就算中间不出什么状况,估计也得花上好几个小时。
然而想一下,我们抓一部电影信息的过程是独立,并不依赖于其他电影的结果。因此没必要排好队一部一部地按顺序来。那么有没有什么办法可以同时抓取好几部电影?
答案就是:多线程。
来说一种简单的多线程方法:
python 里有一个 thread 模块,其中提供了一个函数:
start_new_thread(function, args[, kwargs])
function 是开发者定义的线程函数,
args 是传递给线程函数的参数,必须是tuple类型,
kwargs 是可选参数。
调用 start_new_thread 之后,会创建一个新的线程,来执行 function 函数。而代码原本的主线程将继续往下执行,不再等待 function 的返回。通常情况,线程在 function 执行完毕后结束。
改写一下前面的代码,将抓取的部分放在一个函数中: