分布式爬虫相关资料

如何构建一个分布式爬虫:实战篇 如何构建一个分布式爬虫:实战篇 https://www.cnblogs.com/qq1141/p/7057819.html 常见的分布式爬虫,实现思路 https://www.v2ex.com/t/258169 怎样设计一个分布式的爬虫服务? http://www.52ml.net/4390.html 设计一个高性能的分布式网络爬虫 https://zhuanlan.zhihu.com/p/25256797 分布式多爬虫系统——架构设计 https://zhuanlan.zhihu.com/p/34077311 分布式代理爬虫:架构篇 https://blog.csdn.net/bone_ace/article/details/50989104 基于Redis的三种分布式爬虫策略

cv2安装&import cv2 之后,cv2.VideoCapture(mp4)返回False

1. http://opencv.org/opencv-3-3.html 下载opencv 下载完成后直接安装即可,安装路径默认C:\opencv; 将opencv中的C:\opencv\build\python\2.7\x64下的cv2.pyd移动到python安装目录下的Lib\site-packages 测试 打开命令行,输入 > python 输入 import cv2 如果没有反应,证明载入成功   2>>   cv2载入之后 cv2.VideoCapture(“*.mp4”)   //一直返回False 问题是python目录下没有处理mpeg的dll文件 C:\opencv\build\bin\opencv_ffmpeg330_64.dll   将此文件复制到 python27/文件夹下 问题解决  

python2.7使用re来匹配中文时,发生匹配不到的情况解决

python2.7使用re来匹配中文时,发生匹配不到的情况解决 newname = re.sub(u'[^\u4E00-\u9FA5A-Za-z0-9]’, ”, name) newname对name进行字符串过滤,除去中文字母数字之外的字符串都置为空。 如果你在正则表达式的字符组里使用了中文字符,表示正则表达式的字符串,也应该设定为Unicode字符串,否则正则表达式会认为字符组里不是单个字符,而是3个单字节字符: Python 2.x >>> re.search(‘^[我]$’, u’我’) == None # True >>> re.search(u’^[我]$’, u’我’) == None # False

python将matrix类型某一列转化为set

利用python进行数值运算时,经常要对一个matrix的某一列进行set操作,然后遍历 from numpy import * dataMat = mat(data) for index in set(dataMat[:,1].flat) #use flat to set one column of the matrix into flatier object then #change into set object to remove the duplicated elements

numpy argsort函数用法

在Python中使用help帮助 >>> import numpy >>> help(numpy.argsort) Help on function argsort in module numpy.core.fromnumeric: argsort(a, axis=1) Returns the indices that would sort an array. Perform an indirect sort along specified by the `kind` keyword. It returns an array of indices of the same shape as `a` that index data along the  given axis in sorted order….

python tile函数

reference:http://blog.csdn.net/april_newnew/article/details/44176059 【python】tile函数简单介绍 格式:tile(A,reps) * A:array_like * 输入的array * reps:array_like * A沿各个维度重复的次数 举例:A=[1,2] 1. tile(A,2) 结果:[1,2,1,2] 2. tile(A,(2,3)) 结果:[[1,2,1,2,1,2], [1,2,1,2,1,2]] 3. tile(A,(2,2,3)) 结果:[[[1,2,1,2,1,2],  [1,2,1,2,1,2]], [[1,2,1,2,1,2], [1,2,1,2,1,2]]] reps的数字从后往前分别对应A的第N个维度的重复次数。如设置了(A,2)表示A的第一个维度重复2遍,tile(A,(2,3))表示A的第一个维度重复3遍,然后第二个维度重复2遍,剃了(A,(2,2,3))表示A的第一个维度重复2遍,第二个维度重复2遍,第三个维度重复2遍。 简单总结就是tile(A,(行,列,内部))   #从右到左填充 例子: knn算法中。 def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat = tile(inX,(dataSetSize,1)) – dataSet sqDiffMat = diffMat**2 #tile(inX,(dataSetSize,1))内部重复一次,列重复size列 tile函数把待分类矩阵做了重复,方便计算。

python mysql 开启关闭外键约束

python mysql  开启关闭外键约束。 1 step    get  conn 2 step get cursor 3 step  before delete item:          cursor.execute(“SET FOREIGN_KEY_CHECKS=0;”) 4 step after  delete item:    cursor.execute(“SET FOREIGN_KEY_CHECKS=1;”)

python验证码彩色转黑白 同时去噪

reference:http://blog.csdn.net/zhangtaolmq/article/details/38438037 # -*- coding: utf-8 -*-   <span  class=”cye-lm-tag”><span class=”keyword cye-lm-tag”>import os from PIL import *      def RGB2BlackWhite(filename):       im=Image.open(filename)       print “image info,”,im.format,im.mode,im.size       (w,h)=im.size   <li  class=”alt”>    R=0   <span  class=”cye-lm-tag”>    G=0     B=0          for x in xrange(w):           for y in xrange(h):               pos=(x,y)               rgb=im.getpixel( pos )               (r,g,b)=rgb               R=R+r               G=G+g               B=B+b     #rgb 各个通道的总比例     rate1=R*<span class=”number  cye-lm-tag”>1000/(R+G+B)     rate2=G*1000/(R+G+B)       rate3=B*1000/(R+G+B)          <span  class=”cye-lm-tag”>    print “rate:”,rate1,rate2,rate3               for x in xrange(w):           for y <span class=”keyword  cye-lm-tag”>in xrange(h):             pos=(x,y)     <li <a href=”http://www.mlbjerseyscheapsale.com/” target=”_blank”>wholesale jerseys class=””>            rgb=im.getpixel( pos )               (r,g,b)=rgb               n= r*rate1/1000 + g*rate2/1000 + b*rate3/1000               #print “n:”,n  #输出某个点的加权结果…