1.主机环境
ubuntu16.04 内核4.4.0-31-generic x86_64 anaconda2.7-4.0
2.需要安装的python模块
requestslxmlPyV8Wappalyzer
requests lxml 已经安装过,PyV8搞了一个上午,pip,代理svn 源代码各种,也没装成,最后找解决方案的时候看到心明的日志,我也搜到类似的,由于没有python2.7版本的就没尝试。发现他竟然装上了。可以用,于是我也尝试了一下
执行
sudo apt-get install libboost-all-dev
从https://github.com/emmetio/pyv8-binaries找到自己的主机环境的安装包
我的是这个
wget https://github.com/emmetio/pyv8-binaries/raw/master/pyv8-linux64.zip
由于我用的是anaconda许多模块不用自己安装所以我的模块的路径是/usr/anaconda2/lib/python2.7/site-packages/
解压pyv8-linux64.zip 后把里面的两个文件拷贝到这里就可以了
cp *PyV8.* /usr/anaconda2/lib/python2.7/site-packages/
测试一下
可以用
安装wappalyzer-python
首先下载wappalyzer-python
https://github.com/scrapinghub/wappalyzer-python.git
修改setup.py 把
install_requires=[ ‘requests’, ‘PyV8’, ‘lxml’, ],)
改成
install_requires=[ ‘requests’, ‘lxml’, ],)
执行安装 python setup.py install
成功后测试一下
然而信息给予的太少
另外也可用Wappalyzer给的python驱动地址是
https://github.com/AliasIO/Wappalyzer/tree/master/src/drivers/python
需要注意的是有些网站有反爬虫策略所有要修改下header头才能成功
header={“User-Agent”:”Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20160720 Firefox/39.0″,\ “Accept”:”text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8″,\ “Content-Type”:”application/x-www-form-urlencoded” } host = urlparse(self.url).hostname response = requests.get(self.url,headers=header)
参考:http://blog.csdn.net/niexinming/article/details/50652517