Crossin的编程教室»论坛 › Python › 语言基础 › Python 实战（5）：拿来主义

1 2 3 4 5 67 / 7 页

楼主: crossin先生

Python 实战（5）：拿来主义

[复制链接]

crossin先生

174 主题	45 好友	10万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

61^#

发表于 2018-5-19 17:30:29 |只看该作者

风扇很响发表于 2018-5-19 17:18
#-*-coding: utf-8 -*-
#D:\ProgramData\Anaconda3\envs\py36\python.exe code.py 127.0.0.1
import web

可能只是达到豆瓣接口限制被暂时拒绝了

你要调试的话，把输出的url 给 print 出来看一下

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

风扇很响

2 主题	0 好友	476 积分

中级会员

Rank: 3 Rank: 3

发消息

62^#

发表于 2018-5-20 20:29:25 |只看该作者

crossin先生发表于 2018-5-19 17:30
可能只是达到豆瓣接口限制被暂时拒绝了

你要调试的话，把输出的url 给 print 出来看一下 ...

一头雾水...
稍微改了下想减少点数量，调试方便一点
#-*-coding: utf-8 -*-
#D:\ProgramData\Anaconda3\envs\py36\python.exe code.py 127.0.0.1
import web
import urllib.request
import json
import time

urls = (
'/', 'index',
'/movie/(\d+)', 'movie',
)

render = web.template.render('templates/')

#web.py 连接 SQLite
db = web.database(dbn='sqlite', db='MovieSite.db')

def add_movie(data):
movie = json.loads(data)
#print (movie['title'])
db.insert('movie',
      id = int(movie['id']),
      title = movie['title'],
      origin = movie['original_title'],
      url = movie['alt'],
      rating = movie['rating']['average'],
      image = movie['images']['large'],
      directors = ','.join([d['name'] for d in movie['directors']]),
      casts = ','.join([c['name'] for c in movie['casts']]),
      year = movie['year'],
      genres = ','.join(movie['genres']),
      countries = ','.join(movie['countries']),
      summary = movie['summary'],
)

def movie_exist(data):
movie = json.loads(data)
n_id = int(movie['id'])
pass

class index:
def GET(self):
      movies = db.select('movie')
      return render.index(movies)

def POST(self):
      data = web.input()
      condition = r'title like "%' + data.title + r'%"'
      movies = db.select('movie', where=condition)
      return render.index(movies)

class movie:
def GET(self, movie_id):
      condition = 'id=' + movie_id
      movie = db.select('movie', where=condition)[0]
      return render.movie(movie)

def get_movie_ids(total_num, step_num):
movie_ids = []
for index in range(0, total_num, step_num):
      response = urllib.request.urlopen('http://api.douban.com/v2/movie/top250?start=%d&count=step_num' % index)
      data = response.read()
      data_json = json.loads(data)
      movie_total = data_json['subjects']
      #print(len(movie_total))
      for movie in movie_total:
         movie_ids.append(movie['id'])
         print(movie['id'], movie['title'])
      time.sleep(3)
#print(movie_ids)
#print(len(movie_ids))
return  movie_ids

def store_movie(movie_ids):
count = 0
for mid in movie_ids:
      #print (count, mid)
      try:
         response = urllib.request.urlopen('http://api.douban.com/v2/movie/subject/%s' % mid)
         data = response.read()
         add_movie(data)
         count += 1
         time.sleep(3)
      except:
         print('movie %s is not found' % mid)

movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

if __name__ == "__main__":
app = web.application(urls, globals())
app.run()

第一次运行，看到数据库已经导入记录成功了，终端里显示http://127.0.0.1:8080/
但是浏览器打开网页之后，页面一直没有显示，这时候看到终端里又自动重新运行了一遍，直到被豆瓣接口拒绝
老师能不能看下这是什么问题？

使用道具举报

crossin先生

174 主题	45 好友	10万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

63^#

发表于 2018-5-21 10:57:30 |只看该作者

风扇很响发表于 2018-5-20 20:29
一头雾水...
稍微改了下想减少点数量，调试方便一点
#-*-coding: utf-8 -*-

movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

你这两句放在代码里，每次运行都会去执行抓取任务

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

风扇很响

2 主题	0 好友	476 积分

中级会员

Rank: 3 Rank: 3

发消息

64^#

发表于 2018-5-21 20:26:50 |只看该作者

crossin先生发表于 2018-5-21 10:57
movie_ids = get_movie_ids(30, 10)
store_movie(movie_ids)

好了，现在差不多了，把movie_ids的结果放到一个文件里，每次从文件读取，如果文件不存在再做get_movie_ids
不过MovieSite.db里仍然可能重复保存，浪费时间，而且弄不好又被豆瓣封掉了，我找找怎么样可以做db.insert之前先检测一下相同的id是否已经存在

使用道具举报

crossin先生

174 主题	45 好友	10万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

65^#

发表于 2018-5-21 22:57:17 |只看该作者

风扇很响发表于 2018-5-21 20:26
好了，现在差不多了，把movie_ids的结果放到一个文件里，每次从文件读取，如果文件不存在再做get_movie_i ...

insert之前先做一次select

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

boat

0 主题	0 好友	146 积分

注册会员

Rank: 2

发消息

66^#

发表于 2019-8-18 08:41:01 |只看该作者

这节课没啥问题，主要是两个地方注意一下。
一是python3里要用urllib.request.urlopen();
二是目前豆瓣API已经关闭了，可以尝试通过下面两种进行连接
http://www.imooc.com/qadetail/319172
https://www.xiaojianjian.net/archives/4559

使用道具举报