Categories


Tags


如何判断是否冒充Baiduspider的抓取?

建议您使用DNS反向查找和DNS正向查找相结合的方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

    6.1 在linux平台下:(1)使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。(2)使用host命令对第一步中的检索到的域名运行DNS正向查找,验证该域名与访问服务器的原始ip地址是否一致。

    示例1:

    $ host 123.125.66.120    120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

    $ host baiduspider-123-125-66-120.crawl.baidu.com

    baiduspider-123-125-66-120.crawl.baidu.com has address 123.125.66.120

    示例2:

    $host 119.63.195.254

    254.195.63.119.in-addr.arpa domain name pointer BaiduMobaider-119-63-195-254.crawl.baidu.jp.

    $host BaiduMobaider-119-63-195-254.crawl.baidu.jp

    BaiduMobaider-119-63-195-254.crawl.baidu.jp has address 119.63.195.254

    6.2 在windows平台或者IBM OS/2平台下:(1)使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。(2)使用 nslookup命令对第一步中检索到的域名进行DNS正向查找,验证该域名与访问服务器的原始ip地址是否一致。

    6.3 在mac os平台下:(1)使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充;(2)使用 dig命令对第一步中检索到的域名进行DNS正向查找,验证该域名与访问服务器的原始ip地址是否一致。


Public @ 2021-10-08 15:56:48

我希望我的网站内容被搜狗索引但不被保存快照,我该怎么做?

sogou spider遵守互联网meta robots协议。您可以利用网页meta的设置,使搜狗显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,虽然您已经在网页中通过meta禁止了搜狗在搜索结果中显示该网页的快照,但搜狗搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

Public @ 2019-12-28 15:38:55

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

在网站根目录下的 robots.txt 文件可以用来告诉搜索引擎蜘蛛(包括百度蜘蛛)哪些页面可以访问,哪些页面不可访问。通过设置 robots.txt 文件,可以控制蜘蛛的爬取范围,减少不必要的流量消耗。 以下是一个提供给百度蜘蛛的 robots.txt 示例: ``` User-agent: Baiduspider Disallow: /path/to/disallowed/page.htm

Public @ 2023-07-28 12:00:44

更多您感兴趣的搜索

0.435103s