Categories


Tags


怎样看原始日志文件

读者hiisee问

请问如何用PHP脚本在后台获取蜘蛛的详细信息呀?如哪里的蜘蛛/何时来的/搜索了哪几个页面/哪些它喜欢哪些不喜欢等,和判断浏览器是不是用一样的技术?谢谢,再次麻烦您了.

刚好关于流量统计和分析以前还没有谈过,这两天分几个方面专门谈一下。今天先来谈作为SEO,怎样读服务器原始日志文件(server raw logfile)。

网站服务器会把每一个访客来访时的一些信息自动记录下来,存在服务器原始日志文件中。

一般主机提供商会在控制面板提供给你下载这个文件,如果你的主机提供商不提供原始日志文件的话,你就该换地方了。

原始日志文件只是一个纯文字形式的文件,只要用文字编辑软件如WordPad或Notepad打开就可以了。

下面是我从上个月这个blog本身的日志文件中随机选取的一行,我们来看一下它包括哪些信息:

221.201.77.63 – – [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1” 200 19031 “http://www.baidu.com/s?

wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”

(注:虽然上面是很久以前的日志中的一段,但现在的日志文件所包含的信息格式是一样的,完全没有变化)

用户IP地址

221.201.77.63

这是访问人所使用的IP 地址,能够告诉你来访的人来自什么地理位置。如果你查一下这个IP地址所属位置,可以看到这位访客来自中国北京。

日期/时间

02/Jul/2006:15:30:41

这是某一个文件被访问的时间,和IP地址结合起来,你就可以跟踪某一个特定的用户,从一个网页到另一个网页的访问顺序。

时区

+0800

这个数字是相对格林威治时间的时区差多少,北京处于东8区。

服务器动作

GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1

服务器要做的动作要么是GET,要么是POST。除了一些CGI脚本外,通常都应该是GET,也就是从服务器上获取某个网页或图片文件。

例子里的这行意思就是按HTTP/1.1协议(protocol)获取文件/seoblog/2006/04/17/user-friendly-website/

返回状态码

200

下一行是服务器反应是否成功。200就是说成功获取了文件,如果是返回了404,就是文件没有找到。401是需要密码,403禁止查看,500服务器错误,当然还有其他很多服务器状态码。

文件大小

19031

这一行指的是所获取的文件大小,在我们的来自例子里是19031 byte。

访客来源

http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3

这一段是告诉我们访客是从哪里来到这一个网页。有可能是同一个网站的其他页,有可能是来自搜索引擎的搜索页,也可能是来自其它网站的链接。

例子里的是来自百度,搜索关键词是”PRADA官方网站”。

这段信息以前是非常重要的,流量分析系统可以从这个信息统计出搜索用户是搜索了什么关键词访问你的网站。可惜的是,现在所有搜索引擎都已经屏蔽了这段关键词信息,我们只能知道流量来自哪个搜索引擎,无法知道是来自什么关键词。

浏览器类型

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)

这最后一段所表示的是浏览器和用户电脑的一些信息。

比如上面这一段所表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

在这一段如果用户使用的是其他类型电脑或浏览器,或者来访问的是搜索引擎蜘蛛,你还可能看到这些代码:

Baiduspider+(+http://www.baidu.com/search/spider.htm)

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)

http://www.gougou.com RSS Online Reader

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

意义不用解释,一看就知道了。

跟踪用户轨迹

这是很多网站运行者需要研究的地方。

从日志文件中剔除对图片的访问,剔除中间插进来的其他访客的信息,只把来自某一个IP地址的用户在一段时间内所看的网页列出来,我们就能看到这个用户在你的网站上都做了哪些行动,看了哪些网页。

用户行为信息给网站运行者提供很大的帮助。

来源:seo每天一贴 Zac 昝辉


Public @ 2013-10-12 15:32:49

如何判定网站降权?网站被降权的6种表现

1. 网站关键词排名下降:如果之前在某个关键词上排名很高,但现在突然下降到了后面的几页,那就说明网站可能被降权了。 2. 流量减少:网站的流量量突然降低了,尤其是指从搜索引擎获得的流量,就说明网站的排名或权威性可能有问题。 3. 页面被删除:如果网站中的某些页面突然被删除了,那就说明它们可能违反了某些搜索引擎的规定,导致整个网站被降权。 4. 网站被屏蔽:当搜索引擎发现某个网站存在滥用的情况

Public @ 2023-04-24 19:50:25

网站被降权怎么办 如何恢复权重

网站被降权是一个非常普遍的问题,通常是因为搜索引擎更新算法、违反搜索引擎的规则或者存在大量的垃圾链接等原因导致。以下是几种恢复网站权重的方法: 1. 发现并清除所有的垃圾链接: 垃圾链接很可能是降权的主要原因之一。使用反向链接分析工具来找到所有的链接,并去除那些不可信的链接。 2. 优化网站内容: 一些优化措施,如优化标签和元数据、提高网站速度和响应时间,改进文章的格式和结构等。 3. 建立

Public @ 2023-06-01 09:00:20

网站日志的分析是每个SEO人员的必备技能之一

网站日志的分析是每个SEO人员必备的技能之一,它可以帮助SEO人员了解网站的访问情况、用户行为和搜索引擎爬行情况,从而优化网站的排名和用户体验。 通过分析网站日志,SEO人员可以获得以下信息: 1. 网站访问量:通过分析网站日志中的访问量数据,可以了解网站每天、每周或每月的流量情况,从而判断网站的受欢迎程度。 2. 受访页面:通过分析网站日志,可以了解哪些页面受到访问者的关注度最高,从而优化

Public @ 2023-07-28 18:00:32

网站日志在哪里?如何下载日志?

网站日志是做SEO时网站管理员和搜索引擎对话沟通的途径。通过日志,了解搜索引擎蜘蛛的访问情况。在很多时间,我们需要查看网站日志。以获得了解搜索引擎如何爬取咱们的网站。如何下载日志通过FTP访问网站的根目录。可以看到一个包含log的文件夹,这是存放日志的地方。微信图片_20181108173907.如何查看日志下载、解压、打开日志文件,日志文件内容如:61.135.168.22 - - [11/Ja

Public @ 2012-04-17 15:32:53

更多您感兴趣的搜索

0.440722s