爱IT论坛

原墨客安全网
 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 17|回复: 0

[Python] Python爬虫常用小技巧之设置代理IP

[复制链接]
发表于 2019-11-5 17:48 | 显示全部楼层 |阅读模式

设置代理IP的原因
我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。
我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP
代理的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是 很吃力的。还有就是现在网上有很多的代理供应商,可以在网上寻找下,然后找家靠谱的使用。毕竟网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。在这里我就是使用了我们长期使用的一家质量好的代理,亿牛云代理,而且是使用的他们的爬虫代理(动态转发)和一般的api模式不一样。这种更简单更方便,对于懒人来说绝对是最佳选择。
具体代码的使用
#! -*- encoding:utf-8 -*-
        import requests
        import random
        # 要访问的目标页面
        targetUrl = "http://httpbin.org/ip"
        # 要访问的目标HTTPS页面
        # targetUrl = "https://httpbin.org/ip"
        # 代理服务器
        proxyHost = "t.16yun.cn"
        proxyPort = "31111"
        # 代理隧道验证信息
        proxyUser = "username"
        proxyPass = "password"
        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
            "host" : proxyHost,
            "port" : proxyPort,
            "user" : proxyUser,
            "pass" : proxyPass,
        }
        # 设置 http和https访问都是用HTTP代理
        proxies = {
            "http"  : proxyMeta,
            "https" : proxyMeta,
        }
        #  设置IP切换头
        tunnel = random.randint(1,10000)
        headers = {"Proxy-Tunnel": str(tunnel)}
        resp = requests.get(targetUrl, proxies=proxies, headers=headers)
        print resp.status_code
        print resp.text
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流

你的评分是对楼主最大的支持, 看完帖子别忘记给楼主加 (IT币) 和 (好评) 评分不会扣除自己的积分, 做一个热心并受欢迎的人;

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

上个主题 下个主题 快速回复 收藏帖子 返回列表 您可能遇到的问题? 联系我们 APP下载

手机APP客户端|手机版|小黑屋|联系我们|网站地图|蜘蛛地图|论坛QQ群 New|友链交换
版权所有: 爱IT论坛 - 渝ICP备: (18008162号) 渝公网安备: (50023502000314号) - Powered by Discuz!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表爱IT论坛的立场!
若本站内容无意中侵犯了您的知识产权,请来信,我们将尽快核实 并采用相应的方式给予处理。
本站会员须知: 本站发布信息和工具均来自互联网,仅提供学习参考,严禁非法使用!
Copyright© 2013-2019 2iTa.com All Right Reserved