Crossin的编程教室

标题: Python 实战（5）：拿来主义 [打印本页]

作者: crossin先生 时间: 2015-5-17 23:32
标题: Python 实战（5）：拿来主义

有了列表，有了详细信息，有了搜索，这个电影网站已经有了基本的结构。现在要做的是：获取更多的内容。

我们没有必要也不可能自己去生产数量庞大的电影信息，互联网上的资源已足够满足我们的需求。（不过如果你要使用这些资源进行商业用途，请尊重内容来源方的版权。）

这个项目里，我将用豆瓣电影的 API 来获取内容。不要问我如何知道豆瓣有 API 可以做这样的事。我只是觉得它应该有，然后就去搜索引擎里搜索“豆瓣 api”，结果真的有。大概扫了下文档和示例，发现还挺好用的，于是就它了。

类似的情况还有之前的“查天气”系列课程（微信回复 43 可见），有人问是怎么知道获取天气的 API 地址，另外最初的地址现在已失效，如何更换新地址。对于这些，我也并不比各位了解更多，只是在需要的时候去网上搜索，发掘想要的答案。作为一名程序员，正确使用搜索引擎是最基本的技能。

现在许多内容型网站都将其数据开放了 API 供开发者使用，包括天气预报、电影、图书、地图、商户信息等等。对于没有 API 的网站，也可以通过直接抓取网页上的内容获得数据，也就是通常说的“爬虫”。API 和爬虫的区别在于，API 是内容提供方将信息整理好主动提供给你，数据有标准的格式，但使用时会受一定的限制；爬虫则是你直接从网页上的展现内容里去分析并提取你要的信息，一般来说是未经授权的。从实现上来说，API 会比爬虫简单许多，只要按照接口规范就很容易获取数据。

豆瓣 API 有比较详细的文档，各位可自行查阅。在文档中，我看到了两个比较合适的接口：

Top250（/v2/movie/top250），获取豆瓣电影排行榜前 250 部电影列表；

电影条目信息（/v2/movie/subject/:id），获取一部电影的详细信息。

所以我打算在抓取信息代码中，首先通过 Top250 接口获取 250 部电影的 id，之后再根据 id 查询每一部的详细信息。

这个代码并不作为网站功能的一部，而是直接通过命令行运行。如果你想在网页上实现此功能，会有一个问题，就是抓取过程是个很耗时的事情，但一个网页请求并不能等待很久，如果一段时间未返回，这个请求就会关闭。暂时我们还不需要去解决这个问题。

首先获取 Top250。使用最基本的 urllib 请求 API：

import urllib
response = urllib.urlopen('http://api.douban.com/v2/movie/top250')
data = response.read()
print data

可以看到结果是一长串 json 格式的文本，这就是我们想要的结果。建议在浏览器中打开此 API 地址，并且用 json 插件或工具查看返回信息，这样可以更直观地看到数据的结构。

将 json 格式转换成 dict 对象：

import json
data_json = json.loads(data)

dict 类型的结果中，subjects 对应的是影片 list：

movie250 = data_json['subjects']
for movie in movie250:
print movie['id'], movie['title']

打印出结果，发现只有 20 条。又查了下文档，原来 Top250 接口还有两个可选参数：start 和 count，表示从第几位开始取，取多少条。

那么把代码调整下，外面增加一层循环。为了避免连续请求太快，在每次循环中，通过 time.sleep 方法停顿 3 秒钟。另外，把取到的电影 id 都存入一个变量中：

import urllib
import json
import time

movie_ids = []
for index in range(0, 250 ,50):
print index
response = urllib.urlopen('http://api.douban.com/v2/movie/top250?start=%d&count=50' % index)
data = response.read()
# print data

data_json = json.loads(data)
movie250 = data_json['subjects']
for movie in movie250:
movie_ids.append(movie['id'])
print movie['id'], movie['title']
time.sleep(3)
print movie_ids

一切顺利，拿到 250 个 id，接下来就可以进行第二步，获取影片的详细信息了。这里，你可以把打印出的 movie_ids 保存下来，避免后续过程中的重复抓取。

为了能把抓取到的数据保存下来，先对我们之前的数据库做一些改动。结合文档中对条目信息的说明，决定在数据库中记录以下字段：

id - 影片 id

title - 中文名

origin - 原名

url - 影片豆瓣链接

rating - 评分

image - 海报图片地址

directors - 导演

casts - 主演

year - 年代

genres - 类型

countries - 制片国家/地区

summary - 简介

在数据库中执行：

create table movie (id, title, origin, url, rating, image, directors, casts, year, genres, countries, summary);

添加数据的 sql 语句不需要了，我们将通过抓取程序来添加。

直接复用 web.py 里的数据库方法：

import web
db = web.database(dbn='sqlite', db='MovieSite.db')

观察一下条目信息 API 的格式，增加一个将此格式数据存入数据库的方法：

def add_movie(data):
movie = json.loads(data)
print movie['title']
db.insert('movie',
      id=int(movie['id']),
      title=movie['title'],
      origin=movie['original_title'],
      url=movie['alt'],
      rating=movie['rating']['average'],

      image=movie['images']['large'],
      directors=','.join([d['name'] for d in movie['directors']]),
      casts=','.join([c['name'] for c in movie['casts']]),
      year=movie['year'],
      genres=','.join(movie['genres']),
      countries=','.join(movie['countries']),
      summary=movie['summary'],
)

之后，就是开始让程序反复地去请求、转换、存储。同样，用 sleep 保持节奏，另外 print 出一些信息，以便于了解抓取的进度。这么做也是为了在程序意外中断后，可以手动从中断处开始继续抓取。

count = 0
for mid in movie_ids:
print count, mid
response = urllib.urlopen('http://api.douban.com/v2/movie/subject/%s' % mid)
data = response.read()
add_movie(data)
count += 1
time.sleep(3)

一切就绪，奔跑吧，程序！向着 250 部电影数据。

现在再运行网站，数据已经比较丰富了。不过因为数据库表名的变动，详细数据页会有错误。这个小修改就留给你们自己了。

get_movie.py (4.28 KB, 下载次数: 339)

作者: Tig 时间: 2015-5-18 20:33
编码问题真是太烦了

请教一下先生
系统问题，python2.7不能导入web.py 但是3可以。就用3写
python3提示json的类型不能是byte..我就encoding成utf-8，但是最终插入数据库的时候又成了乱码

有没有什么解决办法
把插入的数据也编码成utf-8，但是没有用。

作者: 飞花拿么朵 时间: 2015-5-19 16:31

Tig 发表于 2015-5-18 20:33
编码问题真是太烦了
请教一下先生
系统问题，python2.7不能导入web.py 但是3可以。就用3写

楼上什么系统，我ubuntu，win7都试了没问题啊

作者: Tig 时间: 2015-5-19 16:41

飞花拿么朵发表于 2015-5-19 16:31
楼上什么系统，我ubuntu，win7都试了没问题啊

win7 64的
linux下都没问题，就是WIN7下不能。。

作者: 飞花拿么朵 时间: 2015-5-19 16:54
哦，我的win7是32位的，可能是64的问题

作者: Tig 时间: 2015-5-19 20:53
终于弄好了0 0。。搓手等更新呢

作者: csyhhb 时间: 2015-5-26 17:45
Traceback (most recent call last):
  File "E:\Program Files\Python279\lib\site-packages\web\wsgiserver\__init__.py", line 1245, in communicate
req.respond()
  File "E:\Program Files\Python279\lib\site-packages\web\wsgiserver\__init__.py", line 775, in respond
self.server.gateway(self).respond()
  File "E:\Program Files\Python279\lib\site-packages\web\wsgiserver\__init__.py", line 2018, in respond
response = self.req.server.wsgi_app(self.env, self.start_response)
  File "E:\Program Files\Python279\lib\site-packages\web\httpserver.py", line 306, in __call__
return self.app(environ, xstart_response)
  File "E:\Program Files\Python279\lib\site-packages\web\httpserver.py", line 274, in __call__
return self.app(environ, start_response)
  File "E:\Program Files\Python279\lib\site-packages\web\application.py", line 279, in wsgi
result = self.handle_with_processors()
  File "E:\Program Files\Python279\lib\site-packages\web\application.py", line 249, in handle_with_processors
return process(self.processors)
  File "E:\Program Files\Python279\lib\site-packages\web\application.py", line 245, in process
print >> web.debug, traceback.format_exc()
  File "E:\Program Files\Python279\lib\site-packages\web\webapi.py", line 478, in _debugwrite
out.write(x)
IOError: [Errno 22] Invalid argument
我这个错是什么原因？

作者: crossin先生 时间: 2015-5-26 20:13

csyhhb 发表于 2015-5-26 17:45
Traceback (most recent call last):
File "E:\Program Files\Python279\lib\site-packages\web\wsgiserv ...

不知道，你运行了啥，完全没看出原因……

作者: pandaqr 时间: 2015-6-1 20:26
本帖最后由 pandaqr 于 2015-6-1 20:27 编辑

老师好，不知道为什么，最后我的页面上最后只显示了26部电影，会是哪一步出错了么？

屏幕快照 2015-06-01 下午8.14.30.png (83.04 KB, 下载次数: 469)

屏幕快照 2015-06-01 下午8.14.30.png

作者: crossin先生 时间: 2015-6-2 23:11

pandaqr 发表于 2015-6-1 20:26
老师好，不知道为什么，最后我的页面上最后只显示了26部电影，会是哪一步出错了么？ ...

是不是数据库没抓全？你去sqlite里面看看数据

作者: lovepythoner 时间: 2015-7-6 11:41
加载了两遍后提示
{u'msg': u'You API access rate limit has been exceeded. Contact api-master@douban.com if you want higher limit. ', u'code': 1998, u'request': u'GET /v2/movie/top250'}
豆瓣太小气了

作者: crossin先生 时间: 2015-7-6 16:05

lovepythoner 发表于 2015-7-6 11:41
加载了两遍后提示
{u'msg': u'You API access rate limit has been exceeded. Contact if you want highe ...

果然又印证那个定律：我在课里说了什么api，很快这个api就不能用了

作者: lincoln 时间: 2015-7-12 14:20
打印出结果，发现只有 20 条。又查了下文档，原来 Top250 接口还有两个可选参数：start 和 count，表示从第几位开始取，取多少条。

那么把代码调整下，外面增加一层循环。为了避免连续请求太快，在每次循环中，通过  time.sleep 方法停顿 3 秒钟。另外，把取到的电影 id 都存入一个变量中：

import urllib
import json
import time

movie_ids = []
for index in range(0, 250 ,50):
print index
response = urllib.urlopen('http://api.douban.com/v2/movie/top250?start=%d&count=50' % index)
data = response.read()
# print data

data_json = json.loads(data)
movie250 = data_json['subjects']
for movie in movie250:
      movie_ids.append(movie['id'])
      print movie['id'], movie['title']
time.sleep(3)
print movie_ids

老师，这里不太理解外面增加一层循环是什么意思。
代码运行后只是前20条在不停重复，怎么办？

作者: crossin先生 时间: 2015-7-12 17:47

lincoln 发表于 2015-7-12 14:20
打印出结果，发现只有 20 条。又查了下文档，原来 Top250 接口还有两个可选参数：start 和 count，表示从第 ...

外层循环是让请求地址里的start参数不断递增，这样每次去请求的结果都是顺着往后的

作者: waterseven 时间: 2016-1-17 22:56
你好，我理解成把豆瓣上的数据抓取下来然后插入数据库，再根据前几节web实战课的内容从数据库中读取电影的数据，补全代码后实现了更多页面的效果。但是不懂为啥我只要更改了运行的主程序doupan.py里的内容，再刷新页面，又会重新等待数据库再导入一次数据。。。。app = web.application(urls,globals())是因为这条语句会把文件中所有函数再执行一遍吗，怎样让它不再重新插入数据呢？

1.jpg (36 KB, 下载次数: 298)

作者: crossin先生 时间: 2016-1-18 13:43

waterseven 发表于 2016-1-17 22:56
你好，我理解成把豆瓣上的数据抓取下来然后插入数据库，再根据前几节web实战课的内容从数据库中读取电影的 ...

你这段添加的代码直接写在了程序里，每次启动都会执行。

如果不需要，可以把它注视掉。或者写在一个方法里，只有访问某个用来刷新的页面时，才去调用它

作者: spritezhong 时间: 2016-3-18 21:49
输出的id信息不对咋办

错误.png (32.52 KB, 下载次数: 321)

错误.png

作者: spritezhong 时间: 2016-3-18 21:54

crossin先生发表于 2015-5-26 20:13
不知道，你运行了啥，完全没看出原因……

附件的代码我没有看出错误啊

作者: crossin先生 时间: 2016-3-18 23:08

spritezhong 发表于 2016-3-18 21:49
输出的id信息不对咋办

你把这里的movie打印出来看看，好像是movie里面没有id这个属性

作者: AvyMiz 时间: 2016-5-2 15:12

crossin先生发表于 2016-3-18 23:08
你把这里的movie打印出来看看，好像是movie里面没有id这个属性

先生，这个问题我也遇到了，movie里有id这个属性的。
因为正好是第20个，我一直以为是第一个循环里的问题。后来在思考中断恢复的时候我在想能不能通过movie_id这个list来恢复，结果发现这个中断的原因是第21个电影《搏击俱乐部》的movie[id]是1292000，这个id在API抓取信息的网站上是无效的，即网页：
http://api.douban.com/v2/movie/subject/1292000
的访问结果是：
{"msg":"movie_not_found","code":5000,"request":"GET \/v2\/movie\/subject\/1292000"}
所以无法提取相关的参数。
后来我用蠢方法通过修改movie_id遍历后发现这样有问题的id一共有5个：
搏击俱乐部 1292000
熔炉 5912992
电锯惊魂 1417598
杀人回忆 1300299
罪恶之城 1309027

顺便，先生请问入错出现了这样的中断，该怎么恢复呢？我的方法很没效率，是人工修改程序把这个id之前的id全删掉再重新运行一次。

作者: crossin先生 时间: 2016-5-3 11:14

AvyMiz 发表于 2016-5-2 15:12
先生，这个问题我也遇到了，movie里有id这个属性的。
因为正好是第20个，我一直以为是第一个循环里的问题 ...

通过异常处理，把会出错的代码写在try...except...里面，然后一般会在except里面把出错信息打印或保存下来，然后保证程序能跳过当前问题进入下一次循环

作者: yinxuexia1204 时间: 2016-8-2 11:54
执行没有错误，但是数据库中没有数据，也记得关闭数据库了

作者: crossin先生 时间: 2016-8-2 13:40

yinxuexia1204 发表于 2016-8-2 11:54
执行没有错误，但是数据库中没有数据，也记得关闭数据库了

这个不好说，你要调试来定位。看看是输入的数据不对，还是添加数据库的方式有问题。
把输入的数据print出来检查。
还有就是先用简单的语句测试一下导入数据库是否正常

作者: yinxuexia1204 时间: 2016-8-2 16:39

请教，往数据库插入数据时遇到的报错,不明白咋错了

作者: yinxuexia1204 时间: 2016-8-2 16:48
请教，往数据库中插入时，不知道哪里错了，感觉有单引号很正常

作者: crossin先生 时间: 2016-8-3 09:49

yinxuexia1204 发表于 2016-8-2 16:48
请教，往数据库中插入时，不知道哪里错了，感觉有单引号很正常

光从你这一句话我也不知道哪里错了……

作者: yinxuexia1204 时间: 2016-8-3 09:50
按照老师说的加了start和count，可是执行后，只读到20条数据后就报错：urllib.error.HTTPError: HTTP Error 404: Not Found
这是为什么呀

作者: crossin先生 时间: 2016-8-3 09:54

yinxuexia1204 发表于 2016-8-3 09:50
按照老师说的加了start和count，可是执行后，只读到20条数据后就报错：urllib.error.HTTPError: HTTP Error ...

404这是网页请求失败，没找到对应页面的报错。
你把问题分解开来，去调试定位，把每部分的中间数据输出出来，一部分一部分的排除问题，看哪里不对。不然没法知道哪出错了。
你这么问，真没法知道是什么问题

作者: yinxuexia1204 时间: 2016-8-3 11:14

crossin先生发表于 2016-8-3 09:54
404这是网页请求失败，没找到对应页面的报错。
你把问题分解开来，去调试定位，把每部分的中间数据输出出 ...

已经找到问题，是取到的ip，第21个没有内容，直接访问也没有内容，找不到，我加了个异常处理，就没问题的，最终取到了249个数据，谢谢老师

作者: qiaoyulong9999 时间: 2016-9-30 08:59
先生，麻烦问一个问题
像前边有位同学说的有几部电影的ID是找不到的，我用了try except语句来处理这种异常
def add_movie(data):
# print data
movie = json.loads(data)
# print movie
try:
   db.insert('movie',
      id=int(movie['id']),
      title=movie['title'],
      origin=movie['original_title'],
      url=movie['alt'],
      rating=movie['rating']['average'],
      image=movie['images']['large'],
      directors=','.join([d['name'] for d in movie['directors']]),
      casts=','.join([c['name'] for c in movie['casts']]),
      year=movie['year'],
      genres=','.join(movie['genres']),
      countries=','.join(movie['countries']),
      summary=movie['summary'],
   )
   print movie['title']
except:
   print 'ID is not found'

但是这样出现了一个问题，每次搜索到那个ID找不到的电影的，程序就会从第一部电影开始搜索，这样导致table movie的数据库有很多重复的电影
应该怎么解决，其实应该是在
下边的：
count = 0
for mid in movie_ids:
# print count, mid
response = urllib.urlopen('http://api.douban.com/v2/movie/subject/%s' % mid)
data = response.read()
add_movie(data)
count += 1
time.sleep(3)
加入某些语句，就是遇到ID找不到的电影，直接跳过，开始接下来的搜索，而不是重新开始，但是具体要添加什么语句，望指教，多谢了

作者: crossin先生 时间: 2016-9-30 23:36

qiaoyulong9999 发表于 2016-9-30 08:59
先生，麻烦问一个问题
像前边有位同学说的有几部电影的ID是找不到的，我用了try except语句来处理这种异常
...

1. try catch加的位置不对吧，如果没有找到id，程序之间在抓取的时候就报错了。之所以从头抓，是因为你又刷新或请求了页面吧。所以你应该在会报错的地方加try
2. 在insert之前，你可以查一下这个id的电影是否已经存在，避免重复添加。这样即使中途出错，下次重新运行也不会影响

作者: winmount 时间: 2016-10-31 23:29
请问老师http://api.douban.com/v2/movie/top250为什么在我的chrome上显示成这样

捕获2.PNG (94.2 KB, 下载次数: 329)

捕获2.PNG

作者: crossin先生 时间: 2016-11-1 16:57

winmount 发表于 2016-10-31 23:29
请问老师http://api.douban.com/v2/movie/top250为什么在我的chrome上显示成这样

对的啊，这个接口返回的就是 json 格式的数据。我那个是因为装了调整 json 显示的插件

作者: shmxz1989 时间: 2017-2-4 18:57
本帖最后由 shmxz1989 于 2017-2-4 20:19 编辑

在插入数据的过程中，看提示到了59条的时候就没动静了，也没报错，不知道啥原因
但在之前输出的movie_id中，后面还有好多条数据的。

补更：我把电脑重启了一下，再跑，正常了......

只是最后数据还是没获取齐全，一百来条之后，豆瓣就小气的掐掉了数据，看提示是次数超限了......
但是程序确实是正常的走完了。

作者: crossin先生 时间: 2017-2-5 00:09

shmxz1989 发表于 2017-2-4 18:57
在插入数据的过程中，看提示到了59条的时候就没动静了，也没报错，不知道啥原因
但在之前输出的movie_id中 ...

试试看每次抓取sleep停顿一下，有时太快就会被封

作者: prigioni 时间: 2017-2-19 17:14

spritezhong 发表于 2016-3-18 21:49
输出的id信息不对咋办

我是到第22个也出现这个错误

作者: crossin先生 时间: 2017-2-20 20:59

prigioni 发表于 2017-2-19 17:14
我是到第22个也出现这个错误

有时是爬太快被暂时封掉，有时是请求卡住了。也可能遇到某部电影的信息不开放

作者: nekonekobox 时间: 2017-3-15 01:05

prigioni 发表于 2017-2-19 17:14
我是到第22个也出现这个错误

试了一下终于解决了只能拉到22个的问题，原因在于Top250拉到的列表里有个id有问题
使用Try……else即可解决
在下面这个语句里加上Try else，如下，这也提了个醒，以后要养成好习惯，请求网址的时候要养成习惯使用try else语句，防止由于网址打不开后面的逻辑都走不通
count=0
for mid in movie_ids:
print(count,mid)
try:
      response=request.urlopen('http://api.douban.com/v2/movie/subject/%s'%mid)
      data=response.read().decode('utf-8')
      add_movie(data)
      count+=1
      time.sleep(3)
except:
      print('id is not found')

作者: nekonekobox 时间: 2017-3-15 01:29
我的ip被豆瓣封掉了，咋办，大概30多个的时候不行了
企业微信截图_20170315012808.png

作者: crossin先生 时间: 2017-3-15 17:09

nekonekobox 发表于 2017-3-15 01:29
我的ip被豆瓣封掉了，咋办，大概30多个的时候不行了

请求太快了吧。过一阵子应该会解封，之后再抓记得每次停一会儿

作者: 万建涛 时间: 2017-3-23 13:13

AvyMiz 发表于 2016-5-2 15:12
先生，这个问题我也遇到了，movie里有id这个属性的。
因为正好是第20个，我一直以为是第一个循环里的问题 ...

你是怎么解决的这个问题,我也是同样的问题

作者: crossin先生 时间: 2017-3-23 17:34

万建涛发表于 2017-3-23 13:13
你是怎么解决的这个问题,我也是同样的问题

有些id是抓不到的。用异常处理跳过这些电影

作者: 不会飞的hjh 时间: 2017-9-10 12:43
先生你好，可能是现在失效的id更多，抓取到的也是大概100多部，但是效率比较低，所以我按照之前的课程加入多线程，这样时间是减少了，可是为什么抓取下来，只成功了几部而已呢？

多线程代码.png (15.06 KB, 下载次数: 306)

多线程代码.png

作者: crossin先生 时间: 2017-9-10 15:14

不会飞的hjh 发表于 2017-9-10 12:43
先生你好，可能是现在失效的id更多，抓取到的也是大概100多部，但是效率比较低，所以我按照之前的课程加入 ...

没有任何输出和调试信息，无法仅从你的代码看出

可能是因为你没用 join，所以程序直接在创建完所有线程后就结束了

作者: 不会飞的hjh 时间: 2017-9-12 09:56

crossin先生发表于 2017-9-10 15:14
没有任何输出和调试信息，无法仅从你的代码看出

可能是因为你没用 join，所以程序直接在创建完所有线程 ...

如果说只是怕主程序提前退出的话，用先生之前的加入一行input语句就应该可以搞定，试了下也是没效果（在for外面），关于join的用法，查询到应该是在所有的线程都开启后，逐个join，这样一来，线程的变量名就要逐个定义，感觉应该不是这样的用法，理解的有点浅，还望先生指教

对关于报错的，在执行的时候会有这样的ERR错误，其余都无报错

20170911_212344.png (18.35 KB, 下载次数: 302)

作者: crossin先生 时间: 2017-9-12 11:51

不会飞的hjh 发表于 2017-9-12 09:56
如果说只是怕主程序提前退出的话，用先生之前的加入一行input语句就应该可以搞定，试了下也是没效果（在fo ...

把你的try去掉，或者在except里输出报错信息，不然你这个看到的都是你自己输出的 error，把真实error覆盖了

你这个是请求失败了，具体原因被你的try给隐藏了
是不是你请求太快，豆瓣每分钟最多40次

作者: 不会飞的hjh 时间: 2017-9-12 12:38

crossin先生发表于 2017-9-12 11:51
把你的try去掉，或者在except里输出报错信息，不然你这个看到的都是你自己输出的 error，把真实error覆盖 ...

请求太快会直接在我运行代码的时候就报错，添加了报错信息之后发现，显示为database is locked，然后查询了一下发现是sqlite 对多线程并发不是很支持，尤其是并发写入

作者: crossin先生 时间: 2017-9-13 11:04

不会飞的hjh 发表于 2017-9-12 12:38
请求太快会直接在我运行代码的时候就报错，添加了报错信息之后发现，显示为database is locked，然后查询 ...

可以换mysql

作者: 13253620252 时间: 2017-11-26 21:19
先生，我有两个问题。
一是：movie250=data_json['subjects']是不是每循环一次，movie250的内容都只是当前捕获50条movie的内容？下一次会覆盖上一次的？
二是：movie_ids这个list中的250条数据是不是执行上述代码后获取的每一个ID数据？

捕获.PNG (14.12 KB, 下载次数: 287)

捕获.PNG

作者: crossin先生 时间: 2017-11-27 01:35

13253620252 发表于 2017-11-26 21:19
先生，我有两个问题。
一是：movie250=data_json['subjects']是不是每循环一次，movie250的内容都只是当前 ...

是的

这个你其实通过输出就可以看出，不清楚的变量都可以输出出来看

作者: 13253620252 时间: 2017-11-30 19:52

crossin先生发表于 2017-11-27 01:35
是的

这个你其实通过输出就可以看出，不清楚的变量都可以输出出来看

先生，这里抓取到的movie_ids中，为什么是用u' ’表示呢？

作者: braid 时间: 2017-12-1 17:19

13253620252 发表于 2017-11-30 19:52
先生，这里抓取到的movie_ids中，为什么是用u' ’表示呢？

这个u表示将后面跟的字符串以unicode格式存储

作者: 小可爱 时间: 2017-12-4 19:13
=-=python3.6,web模块模式没有了，安装也总失败，flask也装不上QAQ
import urllib也变成import urllib.request
=-=萌新好头大哟

作者: TED 时间: 2017-12-4 19:35

小可爱发表于 2017-12-4 19:13
=-=python3.6,web模块模式没有了，安装也总失败，flask也装不上QAQ
import urllib也变成import urllib.re ...

我之前用python3.7 web.py不行，CherryPy也失败，tornado也安装失败。。今天下午卸载了3.7 现在安3.6也失败。。。要崩溃了

作者: zhaolehua 时间: 2017-12-14 11:32
先生，我在虚拟机上面运行了web.py，运行的终端就相当于一个服务器吗？我能在虚拟机以外的网络访问这个电影网站吗？比如我在运行虚拟机的主机上好像就不能打开那个网站了。

作者: crossin先生 时间: 2017-12-14 14:18

zhaolehua 发表于 2017-12-14 11:32
先生，我在虚拟机上面运行了web.py，运行的终端就相当于一个服务器吗？我能在虚拟机以外的网络访问这个电 ...

你要确保网络是连通的，虚拟机的网络有几种设置，如果是选择作为局域网中的一台电脑，有独立内网ip，就可以访问。桥接模式不行

作者: zhaolehua 时间: 2017-12-14 14:39

crossin先生发表于 2017-12-14 14:18
你要确保网络是连通的，虚拟机的网络有几种设置，如果是选择作为局域网中的一台电脑，有独立内网ip，就可 ...

难怪咯，我是用的桥接模式。

作者: qiqibaoer 时间: 2018-2-6 17:11

crossin先生发表于 2015-6-2 23:11
是不是数据库没抓全？你去sqlite里面看看数据

我也有遇到，抓取数据时会有找不到数据的情况，然后程序就停止了，这种不知道怎么处理下跳过该数据继续执行呢？

作者: crossin先生 时间: 2018-2-7 17:02

qiqibaoer 发表于 2018-2-6 17:11
我也有遇到，抓取数据时会有找不到数据的情况，然后程序就停止了，这种不知道怎么处理下跳过该数据继续执 ...

异常处理

作者: 风扇很响 时间: 2018-5-19 17:18
#-*-coding: utf-8 -*-
#D:\ProgramData\Anaconda3\envs\py36\python.exe code.py 127.0.0.1
import web
import urllib.request
import json
import time

urls = (
'/', 'index',
'/movie/(\d+)', 'movie',
)

render = web.template.render('templates/')

#web.py 连接 SQLite
db = web.database(dbn='sqlite', db='MovieSite.db')

def add_movie(data):
movie = json.loads(data)
#print (movie['title'])
db.insert('movie',
      id = int(movie['id']),
      title = movie['title'],
      origin = movie['original_title'],
      url = movie['alt'],
      rating = movie['rating']['average'],
      image = movie['images']['large'],
      directors = ','.join([d['name'] for d in movie['directors']]),
      casts = ','.join([c['name'] for c in movie['casts']]),
      year = movie['year'],
      genres = ','.join(movie['genres']),
      countries = ','.join(movie['countries']),
      summary = movie['summary'],
)

def movie_exist(data):
movie = json.loads(data)
n_id = int(movie['id'])
pass
class index:
def GET(self):
      movies = db.select('movie')
      return render.index(movies)

def POST(self):
      data = web.input()
      condition = r'title like "%' + data.title + r'%"'
movies = db.select('movie', where=condition)
      return render.index(movies)

class movie:
def GET(self, movie_id):
      condition = 'id=' + movie_id
      movie = db.select('movie', where=condition)[0]
      return render.movie(movie)

movie_ids = []
for index in range(0, 250, 50):
response = urllib.request.urlopen('http://api.douban.com/v2/movie/top250?start=%d&count=50' % index)
data = response.read()
data_json = json.loads(data)
movie250 = data_json['subjects']
for movie in movie250:
      movie_ids.append(movie['id'])
      #print(movie['id'], movie['title'])
time.sleep(3)
#print(movie_ids)
count = 0
for mid in movie_ids:
#print (count, mid)
try:
      response = urllib.request.urlopen('http://api.douban.com/v2/movie/subject/%s' % mid)
      data = response.read()
      add_movie(data)
      count += 1
      time.sleep(3)
except:
      print('movie %s is not found' % mid)

if __name__ == "__main__":
app = web.application(urls, globals())
app.run()

第一次从头开始sqlite3 MovieSite.db
create table movie (id, title, origin, url, rating, image, directors, casts, year, genres, countries, summary);然后运行上面的程序，进入网页报错
无标题5.jpg

第二次把获取movie_ids和存入数据库的两段注释掉，再运行，就可以正常显示网页了（虽然也没全部抓取到，只有90多个）
麻烦老师看下这会是什么问题？

作者: crossin先生 时间: 2018-5-19 17:30

风扇很响发表于 2018-5-19 17:18
#-*-coding: utf-8 -*-
#D:\ProgramData\Anaconda3\envs\py36\python.exe code.py 127.0.0.1
import web

可能只是达到豆瓣接口限制被暂时拒绝了

你要调试的话，把输出的url 给 print 出来看一下

作者: 风扇很响 时间: 2018-5-20 20:29

crossin先生发表于 2018-5-19 17:30
可能只是达到豆瓣接口限制被暂时拒绝了

你要调试的话，把输出的url 给 print 出来看一下 ...

一头雾水...
稍微改了下想减少点数量，调试方便一点
#-*-coding: utf-8 -*-
#D:\ProgramData\Anaconda3\envs\py36\python.exe code.py 127.0.0.1
import web
import urllib.request
import json
import time

urls = (
'/', 'index',
'/movie/(\d+)', 'movie',
)

render = web.template.render('templates/')

#web.py 连接 SQLite
db = web.database(dbn='sqlite', db='MovieSite.db')

def add_movie(data):
movie = json.loads(data)
#print (movie['title'])
db.insert('movie',
      id = int(movie['id']),
      title = movie['title'],
      origin = movie['original_title'],
      url = movie['alt'],
      rating = movie['rating']['average'],
      image = movie['images']['large'],
      directors = ','.join([d['name'] for d in movie['directors']]),
      casts = ','.join([c['name'] for c in movie['casts']]),
      year = movie['year'],
      genres = ','.join(movie['genres']),
      countries = ','.join(movie['countries']),
      summary = movie['summary'],
)

def movie_exist(data):
movie = json.loads(data)
n_id = int(movie['id'])
pass

class index:
def GET(self):
      movies = db.select('movie')
      return render.index(movies)

def POST(self):
      data = web.input()
      condition = r'title like "%' + data.title + r'%"'
      movies = db.select('movie', where=condition)
      return render.index(movies)

class movie:
def GET(self, movie_id):
      condition = 'id=' + movie_id
      movie = db.select('movie', where=condition)[0]
      return render.movie(movie)

def get_movie_ids(total_num, step_num):
movie_ids = []
for index in range(0, total_num, step_num):
      response = urllib.request.urlopen('http://api.douban.com/v2/movie/top250?start=%d&count=step_num' % index)
      data = response.read()
      data_json = json.loads(data)
      movie_total = data_json['subjects']
      #print(len(movie_total))
      for movie in movie_total:
         movie_ids.append(movie['id'])
         print(movie['id'], movie['title'])
      time.sleep(3)
#print(movie_ids)
#print(len(movie_ids))
return  movie_ids

def store_movie(movie_ids):
count = 0
for mid in movie_ids:
      #print (count, mid)
      try:
         response = urllib.request.urlopen('http://api.douban.com/v2/movie/subject/%s' % mid)
         data = response.read()
         add_movie(data)
         count += 1
         time.sleep(3)
      except:
         print('movie %s is not found' % mid)

movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

if __name__ == "__main__":
app = web.application(urls, globals())
app.run()

第一次运行，看到数据库已经导入记录成功了，终端里显示http://127.0.0.1:8080/
但是浏览器打开网页之后，页面一直没有显示，这时候看到终端里又自动重新运行了一遍，直到被豆瓣接口拒绝
老师能不能看下这是什么问题？

作者: crossin先生 时间: 2018-5-21 10:57

风扇很响发表于 2018-5-20 20:29
一头雾水...
稍微改了下想减少点数量，调试方便一点
#-*-coding: utf-8 -*-

movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

你这两句放在代码里，每次运行都会去执行抓取任务

作者: 风扇很响 时间: 2018-5-21 20:26

crossin先生发表于 2018-5-21 10:57
movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

好了，现在差不多了，把movie_ids的结果放到一个文件里，每次从文件读取，如果文件不存在再做get_movie_ids
不过MovieSite.db里仍然可能重复保存，浪费时间，而且弄不好又被豆瓣封掉了，我找找怎么样可以做db.insert之前先检测一下相同的id是否已经存在

作者: crossin先生 时间: 2018-5-21 22:57

风扇很响发表于 2018-5-21 20:26
好了，现在差不多了，把movie_ids的结果放到一个文件里，每次从文件读取，如果文件不存在再做get_movie_i ...

insert之前先做一次select

作者: boat 时间: 2019-8-18 08:41
这节课没啥问题，主要是两个地方注意一下。
一是python3里要用urllib.request.urlopen();
二是目前豆瓣API已经关闭了，可以尝试通过下面两种进行连接
http://www.imooc.com/qadetail/319172
https://www.xiaojianjian.net/archives/4559

作者: crossin先生 时间: 2019-8-20 22:23

boat 发表于 2019-8-18 08:41
这节课没啥问题，主要是两个地方注意一下。
一是python3里要用urllib.request.urlopen();
二是目前豆瓣API ...

赞一个

欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)