(34人评价)
Python全栈+数据分析系统辅导课

名师答疑,全网最新内容,满足就业+辅修双目标

价格 ¥ 4999.00

本课有用的资源
1. scrape.center 作为爬虫练习网站
2. 代理服务器的使用

用requests爬不安全网站,可以在请求的过程中设置参数

res = requests.get('https://...", verify =False)
 

也可以用以下代码disable warning

urllib3.disable_warnings() 

 

还可以用logging模块捕获警告

import logging

import logging
import requests

logging.captureWarnings(True)
res=requests.get('url', verify=False)

 

大规模爬去的时候被封号,就要用到代理

通过代理服务器来发送请求
透明代理

匿名代理

高匿代理

所以有可能需要购买代理服务器

付费之后,售方可能会给你一个IP地址

url ='https://sssss"
head={"User-Agent":...}

proxyMeta= "http://36.62.194...."
proxies={"http":proxyMeta,}

#代理URL必须包含链接方式

html=requests.get(url, headers=head, proxies =proxies).content.decode('utf-8')

如果代理需要验证
proxyMeta = 'http://username:password@124...."

 

超时设置,一秒后没反应就pass
res = requests.get('https://...", timeout=1)

尝试五次,每次30秒
res = requests.get('https://...", timeout=(5,30))


需要登陆的网页


import requests
from requests.auth import HTTPBasicAuth

r=requests.get('https://ssr3.scrape.center/', auth=HTTPBasicAuth('admin', 'admin'))
print(r.status_code)

也可以

 


import requests
#from requests.auth import HTTPBasicAuth

#r=requests.get('https://ssr3.scrape.center/', auth=HTTPBasicAuth('admin', 'admin'))

r=requests.get('https://ssr3.scrape.center/', auth=('admin', 'admin'))

print(r.status_code)

 

[展开全文]