- 帖子
- 3232
- 精华
- 6
- 积分
- 118211
- 阅读权限
- 200
- 注册时间
- 2013-7-21
- 最后登录
- 2024-11-20
|
- import re
- a='<th>得分排名</th>\n\t\t\t\t\t\t<th>推荐排名</th>\n\t\t\t\t\t\t<th>备注</th>\n\t\t\t\t\t</tr>\n\t\t\t\t</thead>\n\t\t\t\t<tbody>\n\t\t\t\t\t<tr>\n\t\t\t\t\t\t'
- a1=re.sub(r'\n|\t','',a)
- print(a1)
复制代码 上述代码正常,但是我去抓取网站,结果里的 \t \n 就不能去除
代码如下,运行环境 python 3.7 IDLE:- import requests
- import re
- import sys
-
- def get_info(url):
- r=requests.get(url)
- r.encoding='utf-8'
- if r.status_code==200:
- print('获取成功!')
- rs=re.sub(r'\\n|\\t','',r.text)
- print(rs)
- else:
- print('获取失败,请重新尝试!')
- url='http://xxxxxxxxxxxxxxxxxxx.cn/?operationEndTime=&selectTimeName=noticeTime' # 网站不便公开
- get_info(url)
复制代码 部分结果如下,print出来里面依然有很多\n\t:- 三、采购结果</strong></h4>\n<div class="noticeBidResult-noticeBidResult _notice_content_noticeBidResult-noticeBidResult supplier" id="_notice_content_noticeBidResult-noticeBidResult">\n\t<div>\n\t\t<p class="u-content"...</span>\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t</td>\n\t\t\t\t</tr>\n\t\t\t</tbody>\n\t\t</table>\n\t</div>\n</div>\n<h4><strong>四、主要标的信息</strong></h4>\n<div class="noticeBidResult-noticeBidResult _notice_content_noticeBidResult-noticeBidResult supplierDetail">\n\t<div>\n\t\t<p class="u-content">合同包1(网络安全设备延保及网络安全三级登记保护测评):</p>\n\t\t<div>\n\t\t\t\n\n\t\t\t<div>\n\t\t\t\t<strong>
复制代码 请问是为什么?怎么能去掉?
|
|