设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 17753|回复: 1
打印 上一主题 下一主题

【Python 第74课】多线程

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2018-3-3 18:48:01 |只看该作者 |倒序浏览
很多人使用 python 编写“爬虫”程序,抓取网上的数据。

举个例子,通过豆瓣的 API 抓取 30 部影片的信息:
  1. import urllib, time



  2. time_start = time.time()

  3. data = []

  4. for i in range(30):

  5.     print 'request movie:', i

  6.     id = 1764796 + i

  7.     url = 'https://api.douban.com/v2/movie/subject/%d' % id

  8.     d = urllib.urlopen(url).read()

  9.     data.append(d)

  10.     print i, time.time() - time_start



  11. print 'data:', len(data)
复制代码
参考输出结果:
  1. > python test.py

  2. request movie: 0

  3. 0 0.741228103638

  4. request movie: 1

  5. 1 1.96586918831

  6. ...

  7. request movie: 28

  8. 28 12.0225770473

  9. request movie: 29

  10. 29 12.4063940048

  11. data: 30
复制代码
程序里用了 time.time() 来计算抓取花费的时间。运行一遍,大约需要十几秒(根据网络情况会有差异)。

如果我们想用这套代码抓取几万部电影,就算中间不出什么状况,估计也得花上好几个小时。

然而想一下,我们抓一部电影信息的过程是独立,并不依赖于其他电影的结果。因此没必要排好队一部一部地按顺序来。那么有没有什么办法可以同时抓取好几部电影?

答案就是:多线程

来说一种简单的多线程方法:

python 里有一个 thread 模块,其中提供了一个函数:

start_new_thread(function, args[, kwargs])

function 是开发者定义的线程函数,
args 是传递给线程函数的参数,必须是tuple类型,
kwargs 是可选参数。

调用 start_new_thread 之后,会创建一个新的线程,来执行 function 函数。而代码原本的主线程将继续往下执行,不再等待 function 的返回。通常情况,线程在 function 执行完毕后结束。

改写一下前面的代码,将抓取的部分放在一个函数中:
  1. import urllib, time, thread



  2. def get_content(i):

  3.     id = 1764796 + i

  4.     url = 'https://api.douban.com/v2/movie/subject/%d' % id

  5.     d = urllib.urlopen(url).read()

  6.     data.append(d)

  7.     print i, time.time() - time_start

  8.     print 'data:', len(data)



  9. time_start = time.time()

  10. data = []

  11. for i in range(30):

  12.     print 'request movie:', i

  13.     thread.start_new_thread(get_content, (i,))



  14. raw_input('press ENTER to exit...\n')
复制代码

参考输出结果:
  1. > python test.py

  2. request movie: 0

  3. request movie: 1

  4. ...

  5. request movie: 28

  6. request movie: 29

  7. press ENTER to exit...

  8. 1 0.39500784874

  9. data: 1

  10. 9 0.428859949112

  11. data: 2

  12. ...

  13. data: 28

  14. 21 1.03756284714

  15. data: 29

  16. 8 2.66121602058

  17. data: 30
复制代码
因为主线程不在等待函数返回结果,所以在代码最后,增加了 raw_input,避免程序提前退出。

从输出结果可以看出:
  • 在程序刚开始运行时,已经发送所有请求
  • 收到的请求并不是按发送顺序,先收到就先显示
  • 总共用时两秒多
  • data 里同样记录了所有30条结果


所以,对于这种耗时长,但又独立的任务,使用多线程可以大大提高运行效率。但在代码层面,可能额外需要做一些处理,保证结果正确。如上例中,如果需要电影信息按 id 排列,就要另行排序。

多线程通常会用在网络收发数据、文件读写、用户交互等待之类的操作上,以避免程序阻塞,提升用户体验或提高执行效率。

多线程的实现方法不止这一种。另外多线程也会带来一些单线程程序中不会出现的问题。这里只是简单地开个头。


#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

6

主题

0

好友

166

积分

注册会员

Rank: 2

沙发
发表于 2018-12-19 19:03:55 |只看该作者
get
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-25 08:00 , Processed in 0.013554 second(s), 20 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部