查看: 12517|回复: 9

边学边做: 网页数据收集(xpath/yql), 并输出rss feed

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

电梯直达

楼主

发表于 2015-10-26 03:01:33 |只看该作者 |倒序浏览

最终的目标:

用python写一个网页数据收集(web scraper, with xpath), 并输出rss feed的小工具.

我的段位:

只能照猫画虎的搞一些简单的小程序, 对于任何一种语言都不熟悉. 语法什么的是白目.

自学贴, 从基础开始, 感谢crossin.
http://crossin.me/forum.php?mod=viewthread&tid=5452

本帖是我完成目标的自学摸索以及问题.

python, 网页, 如何

收藏0

相关帖子

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

沙发

发表于 2015-10-26 03:01:51 |只看该作者

学习到了模块和方法, 我很感兴趣这部分. 所以就多学了一些:

如何得到目前可以用到的模块?

python #进入python
>>>help() #进入help模式
help>modules #列出所有modules

复制代码

列出包含某个字段的modules

help>modules http

复制代码

查询特定modules的帮助信息

help>xml.etree

复制代码

退出help模式

help>q

复制代码

退出python

>>>exit()

复制代码

我完成顶楼目标的模块就是lxml, beautiful soup不支持xpath, 而且有些慢?
参考: Best Python Module for HTML parsing - Stack Overflow
http://stackoverflow.com/questio ... le-for-html-parsing

lxml.html 官方网站
http://lxml.de/lxmlhtml.html

如何安装新的module?

我想安装lxml, 看了很多网上资料很复杂, 可我尝试了下面这个语句就可以了:

pip install lxml

复制代码

如何卸载module?

pip uninstall lxml

复制代码

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

板凳

发表于 2015-10-26 04:56:19 |只看该作者

本帖最后由 anyone 于 2015-10-26 04:58 编辑

网页内容萃取(web scraper)+xpath

参考了:

[翻]使用requests和lxml进行web抓取
http://www.zhidaow.com/post/html-scraping

用lxml解析HTML
http://www.cnblogs.com/descusr/archive/2012/06/20/2557075.html

我自己搞了个小程序:

import requests
page=requests.get('http://blog.wenxuecity.com/myblog/1666/90734.html')
#page.content 是网页的内容, 还有其他的, 比如page.text等, 这个要参考requests模块的说明.
import chardet
enc=chardet.detect(page.content)
#这是个猜编码的模块, 很多地方推荐, 用法也简单. http://www.cnblogs.com/xiaowuyi/archive/2012/03/09/2387173.html
#开始我总是将page.text进行侦测, 结果返回no lenth()或者not charatar file等.
page.encoding=enc['encoding']
#对于类似json数组的引用, 就是上面这样.
#import pdb
#pdb.set_trace()
#这段是学习debug时候的成果 #Python 程序如何高效地调试？ - 知乎 #http://www.zhihu.com/question/21572891
from lxml import etree
myParser=etree.HTMLParser(encoding='utf-8')
tree=etree.HTML(page.content,parser=myParser)
titles=tree.xpath('//span[@class="atc_title"]/a/text()')
#上面参考了 #python - Parsing UTF-8/unicode strings with lxml HTML - Stack Overflow #http://stackoverflow.com/questions/11938924/parsing-utf-8-unicode-strings-with-lxml-html
#但是就是输出的是乱码.
from lxml import html
tree=html.fromstring(page.content)
titles=tree.xpath('//span[@class="atc_title"]/a/text()')
#这个我是根据http://www.zhidaow.com/post/html-scraping的样例做的, 一样.
print(titles)

复制代码

首战失败, 问题

如何操作encoding?
lxml.etree 和 lxml.html 有啥不同?

明日继续学习.

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

地板

发表于 2015-10-26 13:03:47 |只看该作者

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

5^#

发表于 2015-10-27 21:04:05 |只看该作者

crossin先生发表于 2015-10-26 13:03

请问编码的问题是如何解决? 为什么我总是得到的是一堆/xxxx这样的结果呢?

源页面时utf8中文页面
我怎么才能保证在requests.get和etree.htmlparser之后编码仍然是utf8呢?

谢谢.

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

6^#

发表于 2015-10-28 23:44:53 |只看该作者

你要把结果print出来就可以了。如果是在list中，是不会去解码的

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

7^#

发表于 2015-12-15 23:22:57 |只看该作者

本帖最后由 anyone 于 2015-12-15 23:24 编辑

前一段比较忙, 现在我开始继续这个事情. 下面是我自己学习的代码, 目前可以使用re来返回我需要的一些页面内容.

import urllib
import re
urls = ["http://www.google.com","http://www.yahoo.com", "http://www.sina.com.cn", "http://www.bbc.co.uk"]
i=0
while i<len(urls):
htmlfile = urllib.urlopen(urls[i])
htmltext = htmlfile.read()
regex = "<title>(.*?)</title>"
pattern = re.compile(regex)
needle = re.findall(pattern, htmltext)
# have to use, to add string?
# how to deal with chinese charactars?
print urls[i]," title is: ",needle
i+=1

复制代码

但是问题仍然是,

1, 我如何print出来中文呢?
2, 在print中为什么连接url和string中间使用逗号","?

烦请crossin帮我解答一下, 谢谢.

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

8^#

发表于 2015-12-15 23:31:18 |只看该作者

anyone 发表于 2015-12-15 23:22
前一段比较忙, 现在我开始继续这个事情. 下面是我自己学习的代码, 目前可以使用re来返回我需要的一些页面 ...

needle是个list，要print出中文，需要对其中的每一项输出，而不是直接作为整体输出。
逗号只是为了在同一行输出，也可以用两个print，那样会换行

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

9^#

发表于 2015-12-15 23:47:20 |只看该作者

needle是个list，要print出中文，需要对其中的每一项输出，而不是直接作为整体输出。

非常感谢, 我换成needle[0]就可以了. 原来我对于变量类型太不熟悉, 我会专门的看看你的这方面课程.

逗号只是为了在同一行输出，也可以用两个print，那样会换行

这里的逗号是一个什么操作符号呢? 在你的课程里面哪项是介绍这部分内容的呢?

非常感谢你的快速回复.

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

10^#

发表于 2015-12-16 10:43:05 |只看该作者

anyone 发表于 2015-12-15 23:47
非常感谢, 我换成needle[0]就可以了. 原来我对于变量类型太不熟悉, 我会专门的看看你的这方面课程.

这是 print 命令的一个小用法

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

返回列表

		自动登录	找回密码
密码			立即加入