设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5898|回复: 4
打印 上一主题 下一主题

大数据-抓取豆瓣电影的题 如何分离出电影标签?

[复制链接]

21

主题

1

好友

373

积分

中级会员

Rank: 3Rank: 3

跳转到指定楼层
楼主
发表于 2014-6-8 17:27:09 |只看该作者 |倒序浏览
RT,用urllib2模块获取到了豆瓣电影标签的页面,但不知如何从那么多的HTML中分离出所需要的,貌似要用到正则表达式,但不知如何构建?
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2014-6-9 11:54:30 |只看该作者
用正则
或者beautifulsoup似乎有直接提取的方法,要去查一下用法
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

21

主题

1

好友

373

积分

中级会员

Rank: 3Rank: 3

板凳
发表于 2014-6-10 09:23:47 |只看该作者
crossin先生 发表于 2014-6-9 11:54
用正则
或者beautifulsoup似乎有直接提取的方法,要去查一下用法

我用的就是beautifulsoup,但是不会啊,求先生赐教!
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2014-6-10 18:21:58 |只看该作者
今天手气不错啊 发表于 2014-6-10 09:23
我用的就是beautifulsoup,但是不会啊,求先生赐教!

好像是.string属性吧
这个网上有很多介绍的吧,搜一下
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

21

主题

1

好友

373

积分

中级会员

Rank: 3Rank: 3

5#
发表于 2014-6-12 10:43:18 |只看该作者
crossin先生 发表于 2014-6-10 18:21
好像是.string属性吧
这个网上有很多介绍的吧,搜一下

哦,好吧。多谢先生
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-4-25 22:45 , Processed in 0.027217 second(s), 21 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部