本课有用的资源
1. scrape.center 作为爬虫练习网站
2. 代理服务器的使用
用requests爬不安全网站,可以在请求的过程中设置参数
res = requests.get('https://...", verify =False)
也可以用以下代码disable warning
urllib3.disable_warnings()
还可以用logging模块捕获警告
import logging
import logging
import requests
logging.captureWarnings(True)
res=requests.get('url', verify=False)
大规模爬去的时候被封号,就要用到代理
通过代理服务器来发送请求
透明代理
匿名代理
高匿代理
所以有可能需要购买代理服务器
付费之后,售方可能会给你一个IP地址
url ='https://sssss"
head={"User-Agent":...}
proxyMeta= "http://36.62.194...."
proxies={"http":proxyMeta,}
#代理URL必须包含链接方式
html=requests.get(url, headers=head, proxies =proxies).content.decode('utf-8')
如果代理需要验证
proxyMeta = 'http://username:password@124...."
超时设置,一秒后没反应就pass
res = requests.get('https://...", timeout=1)
尝试五次,每次30秒
res = requests.get('https://...", timeout=(5,30))
需要登陆的网页
import requests
from requests.auth import HTTPBasicAuth
r=requests.get('https://ssr3.scrape.center/', auth=HTTPBasicAuth('admin', 'admin'))
print(r.status_code)
也可以
import requests
#from requests.auth import HTTPBasicAuth
#r=requests.get('https://ssr3.scrape.center/', auth=HTTPBasicAuth('admin', 'admin'))
r=requests.get('https://ssr3.scrape.center/', auth=('admin', 'admin'))
print(r.status_code)