查看: 5723|回复: 1

【范例：如何正确地提问】为什么抓取到的网页不能去除 \...

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

电梯直达

楼主

发表于 2022-10-9 12:46:29 |只看该作者 |倒序浏览

import re
a='<th>得分排名</th>\n\t\t\t\t\t\t<th>推荐排名</th>\n\t\t\t\t\t\t<th>备注</th>\n\t\t\t\t\t</tr>\n\t\t\t\t</thead>\n\t\t\t\t<tbody>\n\t\t\t\t\t<tr>\n\t\t\t\t\t\t'
a1=re.sub(r'\n|\t','',a)
print(a1)

复制代码

上述代码正常，但是我去抓取网站，结果里的 \t \n 就不能去除
代码如下，运行环境 python 3.7 IDLE：

import requests
import re
import sys
def get_info(url):
r=requests.get(url)
r.encoding='utf-8'
if r.status_code==200:
print('获取成功!')
rs=re.sub(r'\\n|\\t','',r.text)
print(rs)
else:
print('获取失败，请重新尝试!')
url='http://xxxxxxxxxxxxxxxxxxx.cn/?operationEndTime=&selectTimeName=noticeTime' # 网站不便公开
get_info(url)

复制代码

部分结果如下，print出来里面依然有很多\n\t：

三、采购结果</strong></h4>\n<div class="noticeBidResult-noticeBidResult _notice_content_noticeBidResult-noticeBidResult supplier" id="_notice_content_noticeBidResult-noticeBidResult">\n\t<div>\n\t\t<p class="u-content"...</span>\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t</td>\n\t\t\t\t</tr>\n\t\t\t</tbody>\n\t\t</table>\n\t</div>\n</div>\n<h4><strong>四、主要标的信息</strong></h4>\n<div class="noticeBidResult-noticeBidResult _notice_content_noticeBidResult-noticeBidResult supplierDetail">\n\t<div>\n\t\t<p class="u-content">合同包1(网络安全设备延保及网络安全三级登记保护测评):</p>\n\t\t<div>\n\t\t\t\n\n\t\t\t<div>\n\t\t\t\t<strong>

复制代码

请问是为什么？怎么能去掉？