1、HTTP返回码
HTTP协议状态码表示的意思主要分为五类 ,大体是 :
1×× 保留
2×× 表示请求成功地接收
3×× 为完成请求客户需进一步细化请求
4×× 客户错误
5×× 服务器错误
2、权重
权重对于站长来说,一般都是指百度权重。是百度对一个网站的重要性指标概念。但是因为站长工具这个第三方的工具平台开发有百度权重的参考数据,导致很多的新手,都误认为那个就是真正的百度权重。其实那个只是一个参考数据,并不能代表百度对一个网站的真正权重指标
3、百度抓取流程
第一步:爬行到你的网站并筛选合适的有效资源。
第二步:通过各种算法抓取你的网页。
第三步:蜘蛛很喜欢优质的文章,它们将这些文章视为抓取的首要原则。
第四步:放出页面。
4、抓取策略
1)抓取友好性:抓取压力调配降低对网站的访问压力
2)常用抓取返回码示意
3)多种url重定向的识别
4)抓取优先级调配
5)重复url的过滤
6)暗网数据的获取
7)抓取反作弊
8)提高抓取效率,高效利用带宽
5、spider抓取过程中涉及的网络协议
https协议:实际是加密版http,一种更加安全的数据传输协议。
UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。
robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。