设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
楼主: crossin先生
打印 上一主题 下一主题

「一道大数据习题」豆瓣评论最多的三千部电影

[复制链接]
回帖奖励 21 金钱 回复本帖可获得 3 金钱奖励! 每人限 1 次

2

主题

0

好友

161

积分

注册会员

Rank: 2

13#
发表于 2013-10-27 20:41:21 |只看该作者
crossin先生 发表于 2013-10-27 16:05
我发现豆瓣好像接口又改过了,现在每个tag只能抓200部,貌似是刚改的。
难道又是被我们刷爆了吗! ...

干……我们有成为病毒制造者的潜质……
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

12#
发表于 2013-10-27 16:05:32 |只看该作者
jxgx072037 发表于 2013-10-25 13:06
嗯嗯,暂时的诶,目前还不清楚具体多长时间就会恢复~~这个方法应该可行,试一下~~ ...

我发现豆瓣好像接口又改过了,现在每个tag只能抓200部,貌似是刚改的。
难道又是被我们刷爆了吗!
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

2

主题

0

好友

161

积分

注册会员

Rank: 2

11#
发表于 2013-10-25 13:06:45 |只看该作者
crossin先生 发表于 2013-10-25 11:25
去过两次厦大,今年1月份刚去了次,校园很美!

这个屏蔽是暂时的吗?如果每个tag抓一次,然后把记录保存 ...

嗯嗯,暂时的诶,目前还不清楚具体多长时间就会恢复~~这个方法应该可行,试一下~~
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

10#
发表于 2013-10-25 11:25:11 |只看该作者
jxgx072037 发表于 2013-10-25 10:15
嘿嘿,暂时找不到空间放网页,就先借俺们协会的空间用一下啦……有机会到厦门可以来玩

关于屏蔽,目前 ...

去过两次厦大,今年1月份刚去了次,校园很美!

这个屏蔽是暂时的吗?如果每个tag抓一次,然后把记录保存。一旦遇到屏蔽就停止,歇一段时间继续接着抓,这样可行吗?
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

2

主题

0

好友

161

积分

注册会员

Rank: 2

9#
发表于 2013-10-25 10:15:25 |只看该作者
crossin先生 发表于 2013-10-25 09:51
厦大登山协会v5...

嘿嘿,暂时找不到空间放网页,就先借俺们协会的空间用一下啦……有机会到厦门可以来玩

关于屏蔽,目前想到可以设置一下定时,比如每隔5s抓取一部……但是这样的话会变慢……
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

8#
发表于 2013-10-25 09:57:32 |只看该作者
jxgx072037 发表于 2013-10-25 02:55
目前搞出来一个理论上可行的版本,这个版本在抓取豆瓣电影时会出现请求过多,被豆瓣屏蔽的现象……采取的方 ...

被屏蔽是个问题
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

7#
发表于 2013-10-25 09:51:45 |只看该作者
jxgx072037 发表于 2013-10-25 02:55
目前搞出来一个理论上可行的版本,这个版本在抓取豆瓣电影时会出现请求过多,被豆瓣屏蔽的现象……采取的方 ...

厦大登山协会v5...
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

2

主题

0

好友

161

积分

注册会员

Rank: 2

6#
发表于 2013-10-25 02:55:28 |只看该作者
本帖最后由 jxgx072037 于 2013-10-25 03:02 编辑

目前搞出来一个理论上可行的版本,这个版本在抓取豆瓣电影时会出现请求过多,被豆瓣屏蔽的现象……采取的方法是直接上他的页面抓取信息,因为目前能抓到的信息不多,所以排序上面没下太多功夫……就用了一个sort;

这里是根据仅抓取的几个标签生成的前100部电影;

代码在这里

求拍砖!!

403.png
回复

使用道具 举报

2

主题

0

好友

161

积分

注册会员

Rank: 2

5#
发表于 2013-10-24 17:24:21 |只看该作者
本帖最后由 jxgx072037 于 2013-10-24 17:28 编辑
crossin先生 发表于 2013-10-24 12:53
hoho... 感觉是的。是api返回403?直接上豆瓣是好的?

没用API那种方法,直接抓豆瓣电影页面上的内容,在shell里面显示403,直接访问是好的~~~哈哈……大半夜的各种换VPN
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2013-10-24 12:53:28 |只看该作者
jxgx072037 发表于 2013-10-24 01:02
貌似调试程序的时候悲催了,被HTTP Error 403: Forbidden了……是不是请求太多次了 ...

hoho... 感觉是的。是api返回403?直接上豆瓣是好的?
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-7-5 13:56 , Processed in 0.017335 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部