位置 : 首页 > 经验分享 > SEO技术 > google抓取网页 显示的错误

google抓取网页 显示的错误

时间:2008-07-02   收藏
要查看网站抓取错误,请在网站管理员中我的网站页选择您的网站,点击诊断标签,然后点击左侧的网络抓取

用google管理员工具验证我的网站是显示下面的错误,
显示网址: HTTP - 受 robots.txt 限制 - 在 Sitemap 中 - 找不到 - 无法访问 - 无法追踪 - 超时

网上搜了一些内容,现在没心情看,等到心情好了看一下是什么原因.
 

如何查看抓取错误?

 

要查看网站抓取错误,请在网站管理员中我的网站页选择您的网站,点击诊断标签,然后点击左侧的网络抓取。 注意:网站必须经过验证才能查看抓取错误。

 

 

网络抓取错误页提供有关Googel在您的网站尝试抓取但未能访问网址的详细内容。我们提供两种类型的网址统计信息:

 

 

包含在您的 sitemap 中的网址

 

 

通过我们的常规网络抓取找到的网址

 

 

网络抓取错误页提供错误类型列表及每种类型的大约数量。对于每种错误类别,Google的统计信息会列出网址、所发生的错误类型及错误发生日期。注意:这些抓取错误并不是详尽的错误列表,也不包含未被抓取网址的信息。

 

 

在"错误"标签下没有列出任何错误。但我网站中的网页没能全部编入索引。这是怎么回事?

 

 

"错误"标签会列出Google抓取您的网站时遇到的错误,但不会列出未被抓取的网页。随着Google不断抓取您的网站,您会发现您的更多页被编入索引;如果抓取时遇到任何问题,您也会看到更多错误列出。

 

 

 

 

 

什么是 HTTP 错误?

 

 

Google在尝试查看此网址时遇到了错误。有关HTTP错误代码的详细信息,请参阅RFC 2616。Google在尝试查看此网址时遇到的HTTP错误,通常而言:

 

 

请确保此文件位于指定位置。

 

 

如果尝试了抓取来自您Sitemap的网址,请确保您的Sitemap所列网址的正确性。

 

 

如果我们尝试抓取来自您网站某个链接的网址,请确保该链接正确。

 

 

如果其他网站列出的指向您网站的链接已损坏,我们可以列出此网址,但您可能无法更正这一错误。

 

 

如果此文件存在,在Google访问您的服务器它时可能遇到了错误:

 

 

404未找到

 

 

服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。如果您的网站上没有robots.txt文件,但在Google Sitemaps"诊断"标签的robots.txt页上看到此代码,这是正常的。但是,如果您有robots.txt文件而又看到此状态,则说明您的robots.txt文件可能命名错误或位于错误的位置(该文件应当位于顶级域,名为robots.txt)。如果对于Googlebot抓取的网址看到此状态(在"诊断"标签的 HTTP 错误页面上),则表示Googlebot追踪的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。

 

 

401/407 身份验证错误

 

 

此页要求受权,您可能不希望将此网页编入索引。如果您的Sitemap中列出该网页,您可以将其删除。但如果您将其保留在您的Sitemap中,Google也不会抓取或将该网页编入索引(尽管该网页将继续保持错误状态并在此处列出)。

 

 

4xx错误

 

 

有关这些状态码的完整列表,请参阅RFC 2616。造成这种错误的原因可能是网络服务器无法辨认或处理此申请时被禁止,或此申请超时。如果此网页已迁移且对该网页的申请返回状态代码410,您可以考虑更改回应,以返回状态代码301,并永久重定向此申请。

 

 

未找到域名

 

 

可能未正确解析DNS。我们可以与DNS服务器通讯,但无法找到域名。

 

 

无法解析HTTP响应

 

 

尝试访问您的网页时,我们无法解析从网络服务器收到的回应。

 

 

IP在排除范围中

 

 

此IP地址属于专用地址区,已保留用于局域网(如,127.0.0.1)。

 

 

什么是"网址超时"错误?

 

 

Google在访问网页时收到了超时通知,请确保网页可以访问。错误类型:

 

 

DNS 查找超时

 

 

网址超时

 

 

我们在连接至您的网络服务器时或在请求期间收到了超时通知。

 

 

robots.txt 超时

 

 

服务器在Google访问robots.txt文件时超时。在抓取您网站的网页之前,Google会检查您的 robots.txt文件,以确保Google没有抓取您不希望抓取的网页。不过,Google在访问robots.txt文件时收到了超时通知。为了确保Google不会抓取该文件中的任何网页,Google推迟了抓取。在这种情况下,Google会在以后重返您的网站,并在可以访问robots.txt文件后进行抓取。请注意,这不同于查找 robots.txt时的404错误回应。如果我们收到404错误回应,就会认为robots.txt文件不存在并继续抓取。

 

 

 

什么是"无法访问的网址"错误?

 

 

 

Google在访问此网址时遇到了错误。例如,我们可能遇到了DNS错误或超时。您的服务器在Google访问此网页时可能已关闭或处于忙碌状态。可能的网址无法访问错误类型:

 

 

5xx 错误无法访问的网址/5xx错误

 

 

有关这些状态码的完整列表,请参阅RFC 2616。该错误可能是由于服务器内部错误或服务器忙碌错误造成的。如果服务器正忙,就可能会返回过载状态,并要求Googlebot降低抓取网站的速度。在这种情况下,Google会在以后重返,以抓取其他网页。

 

 

DNS 问题 无法访问的网址/DNS 问题

 

 

我们在访问该网页时无法与 DNS 服务器通讯。

 

 

robots.txt 文件无法访问

 

 

网络无法访问 无法访问的网址/网络无法访问

 

 

我们在访问此网页时遇到了网络错误。

 

 

 

什么是"网址受到 robots.txt 的限制"错误?

 

 

 

Google因受robots.txt限制而无法抓取此网址。这种情况可能是由多种原因造成的:

 

 

您的robots.txt文件可能完全禁止了 Googlebot;

 

 

它可能禁止了对此网址所在目录的访问;

 

 

它可能禁止了某些特别的网页,其实这并不属于错误。您可能专门设置了一个robots.txt文件来阻止Google抓取此网址。如果是这种情况,则无需更正;我们将继续遵循此文件的robots.txt。

 

 

什么是"无法追踪网址"错误?

 

 

此类别列出我们无法完全追踪的网址及相关原因。总之,请注意以下内容以确保Google的抓取工具可以追踪您网站上的链接:

 

 

可使用诸如Lynx的文本浏览器来检查您的网站,因为许多搜索引擎查看网站的方式与Lynx 一样。如果诸如Javascript、Cookie、会话ID、框架、DHTML或Flash等功能造成您在文本浏览器中无法看到整个网站,则搜索引擎抓取工具在抓取您的网站时可能会遇到问题。

 

 

请勿使用"&ID="作为您网址的参数

 

 

如果您使用动态网页(如网址中包含?字符),请注意并非所有搜索引擎抓取工具都能抓取动态和静态网页。缩短参数长度并减少参数数目有助于动态网页被收录。

 

 

如果您永久将一个网页重定向至另一个网页,请使用永久重定向(301)。

 

keywords: google 抓取网页 显示的错误


    浏览排行榜
    最新文字信息
返回顶部 关注新浪微博 关注腾讯微博