Crossin的编程教室»论坛 › Python › 语言基础 › 新人求教，两个正则匹配问题，爬网页不会找内容。。 ...

12 / 2 页

楼主: vocaliu

新人求教，两个正则匹配问题，爬网页不会找内容。。

[复制链接]

feifeiwuda

0 主题	0 好友	18 积分

新手上路

Rank: 1

发消息

8^#

发表于 2017-8-20 11:48:57 |只看该作者

本帖最后由 feifeiwuda 于 2017-8-20 11:50 编辑

请教楼主，我按你的代码在pycharm中运行了一遍，怎么什么都没有啊？？也没有在f盘下有新建的pic文件夹。。。求解答
以下是运行结果：

Parent process 36988.
All subprocesses done.

Process finished with exit code 0

使用道具举报

vocaliu

1 主题	0 好友	45 积分

新手上路

Rank: 1

发消息

7^#

发表于 2017-8-17 16:06:25 |只看该作者

本帖最后由 vocaliu 于 2017-8-17 16:34 编辑

续前面的内容，关于抓网页的文字内容，整理成数据库。用

r'[\u4e00-\u9fa5]+\S+[\u4e00-\u9fa5]+'

复制代码

的方式匹配得到list1，
然后用list2.append(list1[10])的方式把有用的数据重新填到新的list里，
用到了n.append(' '.join(m_t1[4][77:-7].split()))的形式来抓具体的内容，
再整理成一个二位列表 list3.append(list2)
实现了批量抓数据的工作。
之后通过优化正则方案，得到了更精确的结果。
由于还没有学数据处理相关的操作，学了一下xlwt的方式把上述二维list导入excel保存成xls文件。抓了上千个页面，导出成为一个1000*30的excel。
爬网页数据并整理的工作初步完成。。

使用道具举报

vocaliu

1 主题	0 好友	45 积分

新手上路

Rank: 1

发消息

6^#

发表于 2017-8-16 11:52:04 来自手机 |只看该作者

本帖最后由 vocaliu 于 2017-8-19 17:35 编辑

crossin先生发表于 2017-8-16 09:20
你学得挺快

带着目的学就会快嘛，虽然是套话但是的确有道理。是真想要学会一种语言解决工作中遇到的各种情况。
跟编程的交集是大学要学C，没有感受到用处，混成补考。这些年是越来越觉得有点编程能力不管干啥都好一点，除非牛到干啥都可以掏钱找人实现。

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

5^#

发表于 2017-8-16 09:20:24 |只看该作者

你学得挺快

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

vocaliu

1 主题	0 好友	45 积分

新手上路

Rank: 1

发消息

地板

发表于 2017-8-16 00:36:30 |只看该作者

本帖最后由 vocaliu 于 2017-8-16 10:45 编辑

果然很简单。。。

regx = r'http://[\S]*/[0-9]{2}\.jpg'

复制代码

顺带又加上了建立文件夹前的if not os.path.exists和下载图片后time.sleep(0.5)，代码结构已经基本完整。
可以改进的细节：
之前为了方便做文件大小判定，用的read()之后write()进文件的方式，现在不需要判定文件大小了，可以直接用 urllib.request.urlretrieve()；
文件命名纯数字，可以获取每个网页的<title>然后保存成文件夹名；
总之这个图片站抓取完成，选这个网站的原因是一个页面直接几张图，后续需要尝试其他图片站，点击当前图片进入下一页浏览的模式。
看起来好像要学beautysoup

另一边，中文抓数据的那个由于网页非常简单，感觉似乎可以用 \w{2,} 的方式直接取中文，试试去。搞错了\w是包括抓中文不是只抓中文，网上找到这个成功了。