服务器之家

专注于服务器技术!
当前位置:首页 > 脚本编程 > Python

使用爬虫采集网站时,怎么样解决被封IP的问题?

   方法1. 之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。经验如下:1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。2.在有外网IP的机器上,部署代理服务器。3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。 好处:1.程序逻...

日期:2016-03-06

Python爬虫使用动态轮训切换ip防止被目标网站封杀

   上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。 这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. … (干死他们,哥们要是有资源,必须干掉ddos,让你防 ! ...

日期:2016-03-06

Python爬虫多线程如何使用多线程?Python爬虫实例代码

   python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。 虽然python的多线程受GIL限制,并不是真正的多线程,但是对于I/O密集型计算还是能明显提高效率,比如说爬虫。 下面用一个实例来验证多线程...

日期:2016-03-06

11个不为人知的Python类库

   目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单 PyPi上就有超过47000个包列表。 现在,越来越多的数据科学家开始使用Python,虽然他们从 pandas, scikit-learn,numpy中获得了不少好处,但我仍想向他们介绍一些年长且非常实用的Python库。在本文中,我将列一些不太知名的库,即使你是经...

日期:2015-01-29

Python如何获得脚本程序所在的目录

  1. 以前的方法 如果是要获得程序运行的当前目录所在位置,那么可以使用os模块的os.getcwd()函数。 如果是要获得当前执行的脚本的所在目录位置,那么需要使用sys模块的sys.path[0]变量或者sys.argv[0]来获得。实际上sys.path是Python会去寻找模块的搜索路径列表,sys.path[0]和sys.argv[0]是一回事因为Python会自动...

日期:2014-09-20

MAC OS X下安装python的pycurl模块

   sudo env ARCHFLAGS="-arch x86_64" easy_install pycurl 但是因为墙的原因,可能安装不成功。国内pycurl的下载可能被墙,找个能翻墙的浏览器去下载下来,我下载的是:pycurl-7.19.0.tar.gz 解压(mac os x中双击就可以解压) 命令行到解压的目录执行:sudo env ARCHFLAGS="-arch x86_64" ...

日期:2014-08-03

Tornado WEB框架简介

  内容索引 Table of Contents 概述 FriendFeed 所使用的 Web 服务器,是一款使用 Python 编写的,相对简单的非阻塞式 Web服务器。其应用程序所使用的 Web 框架,看起来有些像 web.py 或者是 Google的 webapp ,但添加了一些有用的工具,并且针对非阻塞式的服务器环境作了特别优化。 Tornado 就是这个 Web 服务...

日期:2014-08-03

卸载python后导致yum无法使用的解决办法

   由于服务器需要升级python,参照了一篇坑爹的文章卸载了旧版python# 卸载旧的pythonsudo rpm -evf --nodeps python导致yum无法使用# yum -vThere was a problem importing one of the Python modulesrequired to run yum. The error leading to this problem was:No module named yumPlease install a p...

日期:2014-08-03

python urllib2 代理与NTLM验证

   查了许久用urllib2通过代理访问网络的贴子,也写了测试代码,但是一直failed.Error Code: 407 ProxyAuthentication Required. The ISA Server requires authorization tofulfill the request. Access to the Web Proxy filter is denied.(12209) 最后打算放弃用变通的方法现实现.用curl库,网上找了下有对应p...

日期:2014-08-03

CentOS系统下如何为Python3安装pycurl模块

   sudo su -cd ~# 安装Curlwget http://curl.haxx.se/download/curl-7.30.0.tar.gztar zxvf http://curl.haxx.se/download/curl-7.30.0.tar.gzcd curl-7.30.0./configuremake && make install# 更新环境变量, 注意.之后有空格. /etc/profile# 安装pycurlpip install pycurl ...

日期:2014-08-03
 324    1 2 3 4 5 6 7 8 9 10 下一页 尾页

热点推荐