设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 16762|回复: 14
打印 上一主题 下一主题

用Python的BeautifulSoup抓取豆瓣热映电影

[复制链接]

7

主题

1

好友

269

积分

中级会员

Rank: 3Rank: 3

跳转到指定楼层
楼主
发表于 2013-9-2 21:14:38 |只看该作者 |倒序浏览
本帖最后由 byron 于 2017-9-6 19:01 编辑

BeautifulSoup是python html页面分析和xml页面分析的一个很好的工具!

最新版可以在这里下载到:http://www.crummy.com/software/BeautifulSoup/

Crossin先生说,要抓热映电影,于是,就有了这篇文章。

废话不多说,直接上代码:

QQ20130902-6.png

https://gist.github.com/imbyron/6412676
论坛贴代码太挫了,不好看,各位来gist看吧。
详细过程的分析记录在blog
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2013-9-3 21:33:42 |只看该作者

顺便说下,论坛发代码的时候,选择高级模式,把整理好格式的代码直接粘贴进代码框,不要管它在编辑模式下是什么样,发布后显示就是正确的。如果编辑模式下调整了,反而就不对了
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

7

主题

1

好友

269

积分

中级会员

Rank: 3Rank: 3

板凳
发表于 2013-9-6 13:39:09 |只看该作者
顶下帖子,把垃圾帖缓存去掉。
回复

使用道具 举报

0

主题

0

好友

88

积分

注册会员

Rank: 2

地板
发表于 2013-9-18 20:26:26 |只看该作者
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screening 是什么意思?是代指源代码里的那一串数字吗?如果代指时间用什么?
    这一句改为 div_hot = soup.find('div',id = ’screening‘) 也能运行,有什么区别吗?
2、 movie_new = i.a.get_text()
      这一句里的 a 是什么意思?
回复

使用道具 举报

0

主题

0

好友

63

积分

注册会员

Rank: 2

5#
发表于 2013-9-19 15:03:44 |只看该作者
匠逍之岿 发表于 2013-9-18 20:26
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screenin ...

你需要先学一下html
回复

使用道具 举报

7

主题

1

好友

269

积分

中级会员

Rank: 3Rank: 3

6#
发表于 2013-9-22 19:58:12 |只看该作者
匠逍之岿 发表于 2013-9-18 20:26
你好,我有几个问题请教一下
1、div_hot = soup.find('div',{"id":"screening"})
    这一句里的 screenin ...

你是不是也在我blog提问了?
在那里回复你了,可以去看。
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

7#
发表于 2014-2-28 15:51:41 |只看该作者
movie_new = i.a.get_text() 我想问下这段是什么意思啊?
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

8#
发表于 2014-2-28 16:50:45 |只看该作者
zhouhaoran 发表于 2014-2-28 15:51
movie_new = i.a.get_text() 我想问下这段是什么意思啊?

i这个节点里<a>标签的文本值

i节点本身是<li>列表中的元素
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

2

主题

0

好友

216

积分

中级会员

Rank: 3Rank: 3

9#
发表于 2014-5-10 23:05:08 |只看该作者
crossin先生 发表于 2013-9-3 21:33
顺便说下,论坛发代码的时候,选择高级模式,把整理好格式的代码直接粘贴进代码框,不要管它在编辑模式下 ...

先生 WIN7 怎么装beautifulsoup 百度不到结果
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

10#
发表于 2014-5-12 12:45:08 |只看该作者
toddlerya 发表于 2014-5-10 23:05
先生 WIN7 怎么装beautifulsoup 百度不到结果

http://kevinkelly.blog.163.com/b ... 809320133185748442/

方法一
命令行下运行 python setup.py install

方法二
直接把代码文件夹copy到python安装目录下的lib/site-packages
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-22 22:14 , Processed in 0.026595 second(s), 26 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部