python3拉勾网爬虫之(您操作太频繁,请稍后访问)
你是否经历过这个:
在这里插入图片描述
那就对了~
因为需要post和相关的cookie来请求~
所以,一个简单的代码爬拉钩~~~
复制代码
1 import requests
2 import time
3 import

更新时间:2024-04-03

阅读( 30

编辑:佚名

xpath 获取meta里的keywords及description的方法
html中的head的meta元素中的keywords与description标签如下:
<meta name="keywords" content="xxxx" >
<meta name="description" content="xxxx">
xpath获取属性使用@属性名

更新时间:2024-04-03

阅读( 37

编辑:佚名

python向上取整以50为界
python向上取整以50为界方法
import math
def getNum(limit_num,num):
if num%limit_num==0:
print(num)
else:
num=math.ceil(num/limit_num)*lim

更新时间:2024-04-03

阅读( 34

编辑:佚名

scrapy xpath遇见乱码解决
首先查看页面的编码模式
response.encoding
显示为&#39;cp1252&#39;
response.xpath("//title/text()").getall()[0].encode(&#39;cp1252&#39;).decode(&#39;gbk&#39;)
解决

更新时间:2024-04-03

阅读( 30

编辑:佚名

scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题
解决思路1、
循环暴力寻找编码,但是不如思路3
复制代码
def parse(self, response):
print(response.text[:100])
body = response.body#直接是bytes,respo

更新时间:2024-04-03

阅读( 33

编辑:佚名

scrapy采集—爬取中文乱码,gb2312转为utf-8
有段时间没怎么使用scrapy了,最近采集一个网页,发现网页编码是gb2312,
一开始就取搜索了下,发现各种操作都有,有在settings中设置
# FEED_EXPORT_ENCODING = &#39;utf-8&#39;

更新时间:2024-04-03

阅读( 36

编辑:佚名

linux清理vda1中deleted的文件
清理vda1
使用 df -h 命令查看 发现/dev/vdal 已经百分百
使用 du -sh * 命令查看占用比较大的文件或目录,看了三遍发现最大的就是30多M,百分之就是都是几十K,根本不可能满阿

更新时间:2024-04-03

阅读( 14

编辑:佚名

网站日志出现Cookie: mstshash=Administr原因与解决方法
今天一位朋友用的“discuz”论坛程序,结果今天查看日志的时候发现了如下提示:
我朋友随意网上查了一下,说这串代码是“远程代码执行漏洞”的特征,然后就怀

更新时间:2024-04-03

阅读( 796

编辑:佚名

nginx匹配url中包含Cookie: mstshash=Administr进行拒绝访问
nginx匹配url进行拒绝访问
复制代码
server {
#获取url完整请求
set $URL $scheme://$http_host$request_uri;
#根据获取的URL匹配一些限制字符,满足条件拒绝访

更新时间:2024-04-03

阅读( 131

编辑:佚名

发现一个扫描pbootcms漏洞的样本
是通过python爬取网站是不是有漏洞样本,扫描的ip是香港的。
样本如下:
154.89.4.7 - - [03/Apr/2024:07:30:11 +0800] "GET /{pboot:if((\x22file_put_co\x22.\x22ntents\x22)

更新时间:2024-04-03

阅读( 26

编辑:佚名

豫ICP备2021026617号-1  豫公网安备:41172602000185   Copyright © 2021-2028 www.78moban.com/ All Rights Reserved

本站作品均来自互联网,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如有侵犯您的版权,请联系 1565229909#qq.com(把#改成@),我们将立即处理。