Crossin的编程教室

标题: 用Python的BeautifulSoup抓取豆瓣热映电影 [打印本页]

作者: byron    时间: 2013-9-2 21:14
标题: 用Python的BeautifulSoup抓取豆瓣热映电影
本帖最后由 byron 于 2017-9-6 19:01 编辑

BeautifulSoup是python html页面分析和xml页面分析的一个很好的工具!

最新版可以在这里下载到:http://www.crummy.com/software/BeautifulSoup/

Crossin先生说,要抓热映电影,于是,就有了这篇文章。

废话不多说,直接上代码:

QQ20130902-6.png

https://gist.github.com/imbyron/6412676
论坛贴代码太挫了,不好看,各位来gist看吧。
详细过程的分析记录在blog
作者: crossin先生    时间: 2013-9-3 21:33

顺便说下,论坛发代码的时候,选择高级模式,把整理好格式的代码直接粘贴进代码框,不要管它在编辑模式下是什么样,发布后显示就是正确的。如果编辑模式下调整了,反而就不对了
作者: byron    时间: 2013-9-6 13:39
顶下帖子,把垃圾帖缓存去掉。
作者: 匠逍之岿    时间: 2013-9-18 20:26
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screening 是什么意思?是代指源代码里的那一串数字吗?如果代指时间用什么?
    这一句改为 div_hot = soup.find('div',id = ’screening‘) 也能运行,有什么区别吗?
2、 movie_new = i.a.get_text()
      这一句里的 a 是什么意思?
作者: test777    时间: 2013-9-19 15:03
匠逍之岿 发表于 2013-9-18 20:26
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screenin ...

你需要先学一下html
作者: byron    时间: 2013-9-22 19:58
匠逍之岿 发表于 2013-9-18 20:26
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screenin ...

你是不是也在我blog提问了?
在那里回复你了,可以去看。
作者: zhouhaoran    时间: 2014-2-28 15:51
movie_new = i.a.get_text() 我想问下这段是什么意思啊?
作者: crossin先生    时间: 2014-2-28 16:50
zhouhaoran 发表于 2014-2-28 15:51
movie_new = i.a.get_text() 我想问下这段是什么意思啊?

i这个节点里<a>标签的文本值

i节点本身是<li>列表中的元素
作者: toddlerya    时间: 2014-5-10 23:05
crossin先生 发表于 2013-9-3 21:33
顺便说下,论坛发代码的时候,选择高级模式,把整理好格式的代码直接粘贴进代码框,不要管它在编辑模式下 ...

先生 WIN7 怎么装beautifulsoup 百度不到结果
作者: crossin先生    时间: 2014-5-12 12:45
toddlerya 发表于 2014-5-10 23:05
先生 WIN7 怎么装beautifulsoup 百度不到结果

http://kevinkelly.blog.163.com/b ... 809320133185748442/

方法一
命令行下运行 python setup.py install

方法二
直接把代码文件夹copy到python安装目录下的lib/site-packages
作者: toddlerya    时间: 2014-5-15 23:11
crossin先生 发表于 2014-5-12 12:45
http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/

方法一

已经搞定了先生,好耐心,在微信回复了一遍,这里又回复一遍!
作者: toddlerya    时间: 2014-5-15 23:12
crossin先生 发表于 2014-5-12 12:45
http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/

方法一

已经搞定了先生,好耐心,在微信回复了一遍,这里又回复一遍!
作者: crossin先生    时间: 2014-5-16 11:59
toddlerya 发表于 2014-5-15 23:12
已经搞定了先生,好耐心,在微信回复了一遍,这里又回复一遍!


作者: 今天手气不错啊    时间: 2014-6-10 09:50
你这个代码有误啊,运行时提示“TypeError: 'NoneType' object is not callable”。这说明你这个代码什么也没有抓取到,是不是豆瓣改源码的缘故
作者: 万建涛    时间: 2017-3-28 21:02
今天手气不错啊 发表于 2014-6-10 09:50
你这个代码有误啊,运行时提示“TypeError: 'NoneType' object is not callable”。这说明你这个代码什么也 ...

你是URL写错了,你看你是不是 写到www.douban.com





欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5