生活

<p>今年早些时候,谷歌的Gary Illyes表示,30倍重定向(301,302等)不会导致PageRank的丢失或稀释</p><p>正如您所能想象的那样,许多SEO都怀疑地对此声称表示怀疑在最近的网站管理员中央办公时间环聊中,我问谷歌的John Mueller是否怀疑是因为当SEO在迁移期间失去知名度时,他们可能没有意识到所有影响排名的信号还没有传递到新页面,所以他们认为PageRank丢失了Mueller的回复:迁移时,Googlebot需要收集大量数据用于日志中的整理,映射和内部更新,排名可能会在此过程中波动但除此之外,当Googlebot访问在迁移过程中的排名波动中扮演重要角色时,可以与“网址安排”相关联,抓取预算网址调度的关键组成部分基本上是“Googlebot想要访问的内容(网址)”,以及何w经常</p><p>“另一方面,主机负载基于”Googlebot根据容量和服务器资源从IP /主机访问什么</p><p>“这些共同构成了IP或主机的”抓取预算“迁移中的这些仍然很重要在一个10页的宣传册网站上,您可能不会在网站迁移过程中看到任何可见性的损失但是如果您的网站是一个拥有数万,数百的电子商务或新闻网站会怎么样</p><p>成千上万的网址</p><p>或者,如果您将多个站点合并到同一IP主机上的一个站点,该怎么办</p><p>对于要完全通过的所有内容,所有这些都必须以最低限度开始,至少有一个完整的网站抓取Googlebot甚至可能需要进行一些完整的网站抓取,因为Googlebot更了解网址 - 以及所有内容如何适合并在内部链接在一起在一个站点中 - 随后每次访问一个新迁移的站点在较大的站点上,这可能不会在您希望的情况下尽快发生您在迁移之前使用您最喜欢的爬行工具抓住您的网站“上线”,并且您'确信没有问题但是排名和整体可见性下降可能出现什么问题</p><p>迁移可能会出现许多问题,但请考虑一下:可能没有出现任何问题也许没有通过的一些信号只是“传输中的迟到和非常晚的信号”,而不是“信号丢失”某些信号甚至可能需要数月才能通过为什么</p><p>因为Googlebot不会像抓取工具那样抓取大型网站,而且模拟工具几乎不可能你有迁移计划并不意味着Googlebot会落入谷歌机器人有自己的工作时间表,抓取网址的频率也是如此在每个网址的基础上,谷歌的John Mueller证实了这一点,他说:虽然谷歌声称影响URL抓取频率的因素很多,但在最近的一次网络研讨会中,Gary Illyes提到了预先准备好的URL的“调度”和“桶”</p><p> Googlebot访问因此我们知道调度存在它还包含许多关于抓取效率的Google专利值得注意的是抓取频率不仅仅基于PageRank,Google的Andrey Lipattsev和Gary Illyes最近都在单独的网络研讨会上评论过PageRank不是爬行或排名的唯一驱动因素,Lipattsev说,“这个(PageRank)已成为很多事情中的一件事”我我不会为过度使用“重要”这个词而道歉,因为已经证实爬行调度主要是由URL的“重要性”驱动实际上,Gary Illyes在最近的Virtual Keynote记录中采访了Eric Enge ,他指出,我们不应该继续关注PageRank作为爬行或排名的唯一驱动因素许多Google专利涉及页面重要性,并提到这“可能包括PageRank”,但很明显PageRank只是其中的一部分那么Page Importance和PageRank是不一样的,但是一个(重要性)可能包括另一个(PageRank)我们所知道的是更频繁地抓取重要页面当然,Google并没有告诉我们所有的贡献者页面重要性,但围绕抓取效率和管理网址的许多Google专利涉及主题这些是我在专利,网络研讨会,Google网站管理员环聊,旧访谈,博客帖子和Google Se中的一些调查结果arch控制台帮助为了清楚起见,毫无疑问会有更多因素,只有下面列出的一些因素才能得到Google的确认 还有其他关于页面重要性的线索:我们知道的一件事是,更改频率会影响抓取频率网址在网络上的所有时间变化通过在搜索中返回陈旧内容来保持搜索引擎的尴尬概率(“尴尬指标”)低于可接受阈值的结果是关键,必须有效管理大多数关于网络爬行效率和信息检索,会议记录甚至专利的学术论文将“搜索引擎尴尬”一词归因于Wolf等人打击“尴尬”(返回)结果中的陈旧内容),调度系统的构建是为了优先抓取重要页面和重要页面的优先级,这些页面在不太重要的页面上经常变化,例如那些具有微不足道的页面或低权限页面的页面</p><p>这些关键页面被搜索引擎看到的概率最高用户与搜索引擎结果页面中经常找不到的页面这意味着我通过搜索引擎在网页上随时间学习重要的变化频率(在爬行效率Google专利中也提到),通过将当前与页面的先前副本进行比较来检测关键变化频率的模式重点在于页面上的变化有多重要是搜索引擎用户(“关键材料更改”)以及页面本身对用户的重要程度(页面重要性,可能包括PageRank)请注意,穆勒说:“我们认为这个页面可能会发生变化”需要更改页面中对搜索引擎用户有用的一些关键功能(“关键材料更改”)从上面我们可以得出结论,Googlebot主要到达一个有目的的网站,一个“工作时间表”和一个“桶列表” “访问期间要抓取的网址”如果Google搜索引擎系统中的“调度程序”已经分配了存储区列表中的网址值得信赖(见图)我说“大部分”因为初始发现对全新网站的抓取是不同的没有知道已经有什么,所以没有什么 - 没有过去版本的URL - 供调度程序比较当Googlebot到达您的网站时,如果您的IP(主机)在访问期间没有遭遇连接速度减慢或服务器错误代码,Googlebot会完成其存储桶列表并检查周围是否有比网站更重要的内容</p><p>可能还需要收集的原始存储桶列表如果存在,那么Googlebot可能会更进一步并抓取这些其他重要网址如果没有发现更重要的内容,Googlebot将返回另一个存储桶列表,以便下次访问您的网站最近是否迁移了一个网站,Googlebot主要关注极少数(重要)网址,偶尔不时访问那些被认为最不重要的网站,或者预计不会改变网站非常经常(例如,新闻网站上的旧档案或电子商务网站上不变的产品页面)当Googlebot到达您的网站,并且您决定使用迁移时,它没有预先警告它已经有一个预定列表在您的网站上获取的网址,以及那些可能是Googlebot仍然希望在此时访问的重要网址(搜索引擎用户的预期重要更改)这些网址仍然需要优先权Googlebot不太可能想要访问所有网址您现在的新重定向网址,因为并非所有网页都具有同等重要性,并且可能不会因为一段时间内发生任何有用的更改(因此不会安排进行抓取)最有可能的是,搜索引擎已经注意到您的迁移正在进行中</p><p>将遵循Googlebot访问的网址的重定向(也可能是为了发现additi而保留的抓取百分比的更多百分比日程表之外的重要变化),所有已爬网页面的服务器响应代码将被报告回状态日志和历史记录日志如果Googlebot遇到大量重定向响应代码,它可能会发出一个信号,说“嘿,那里正在进行某种类型的迁移,“并且URL调度程序将在调度访问中作出响应,这是John Mueller所说的:他们这样做是因为他们想赶上 但是,它并不一定表示所有内容都会被直接抓取,或者所有内容都值得“追赶”很长一段时间在大多数情况下,只有最重要的迁移URL才会被抓取作为优先级,也许通常比通常更频繁,只是为了确保关于那些重要的“新”URL(从“旧”URL重定向)的所有内容(几个信号)在页面重要性上被选取,并且更改频率不是影响时间的唯一因素网址将被访问,当然还有其他一些:有限的搜索引擎资源网络的增长速度比搜索引擎可用的资源快得多例如,互联网上的网站数量在2013年和2013年之间增长了三分之一</p><p> 2014年可用的搜索引擎资源和容量必须越来越多地在IP(主机)和驻留在其中的站点之间共享以进行爬网主机负载每个IP(Web主机)都具有连接容量,它可以ha ndle搜索引擎系统会随着时间的推移了解您的主机或IP可以处理的内容,并根据Googlebots过去的知识安排Googlebots的访问</p><p>如果您使用的是共享主机,虚拟IP或内容交付网络(CDN),也将发挥作用,因为“主机负载”将被学习并与IP上的其他站点共享Googlebot被发送以不会对您的服务器URL队列造成损害以及迁移页面的低重要性的方式进行爬网爬网调度中有两种类型的队列首先,有网站队列(严格来说,它是IP /主机的队列)其次,在各个网站或IP(主机)中有爬网的页面/ URL队列主机(其中的IP和网站)在很大程度上取决于“主机负载”该主机可以处理什么</p><p>如果连接或服务器错误代码出现速度下降,Googlebot甚至可能会优先抓取最高重要性的网址,并从抓取中删除较低重要性的网址在迁移中,这意味着可能会丢弃低重要性网址(通常在网站中较深处)如果Googlebot在服务器的Googlebot也将拉回来,如果遇到这些类型的减速和错误代码一会儿就挣扎所以,(由谷歌的加里Illyes在SMX东在2014年确认)甚至更少爬行这可能意味着,随着时间的推移,你最终在您的站点内等待访问的网址排队主机内的网页队列主要由“URL调度”驱动队列可能由各种排序过程管理,主要基于页面的变化频率和重要性</p><p>迁移,可能一旦Googlebot通知了搜索引擎抓取系统中的各个玩家(URL调度程序,历史记录日志等),就会对要抓取的网址进行排序和排队通过对重定向的URL的了解如果您有许多“不重要的URL”,或者具有历史非关键更改的页面或更改的页面,但其中的功能不足以构成“重大更改, “在迁移之后你可能需要等待一段时间才能在队列中等待一段时间”这是在“主机负载”出现任何问题之前当我问John Mueller在迁移期间是否仍然应用调度时(2016年8月),他说是,继续:抓取效率仍然是关键在网站迁移中,您已经有效地添加了网站抓取网址的全部附加副本,如果您决定在现有主网站的新文件夹级别合并多个单独的网站以进行整合,则会更糟糕 - 甚至更多的网址突然之间,你要求Googlebot抓取最少的网址数量,即使只有直接重定向(没有重定向链或历史“残酷” - 另一个完整的主题),Googlebot从索引点击301,然后跳到200 OK(每个初始URL访问至少两个URL,所以网站的大小加倍)如果你添加一个全新的,内容丰富的,与您的新网站高度相关且内部链接良好的部分,而旧迁移的一些低重要性部分仍未完全抓取</p><p>好吧,有一种观点认为,新的更高重要性分数/更高质量的网站部分将被更多地抓取,而旧部分被认为具有较低的重要性,或者较低质量的URL甚至在有备用爬行能力时排队等待</p><p>换句话说,在迁移后通过所有内容还需要更长的时间 如果你有重复或低价值的内容,这个过程将花费更长的时间你可能要等几个月!根据谷歌前Webspam负责人Matt Cutts的说法:最近,在接受Eric Enge采访时,谷歌的Gary Illyes评论说:在下面的视频中大约46分钟就提到了这一点</p><p>在迁移中,一切都改变了(所有的URL),但不是一切对于用户而言,这一变化必然是一个非常重要的变化,特别是如果重定向的URL已经被归类为“不重要”且具有较低的“重大变化”频率每个最近的Google专利:如果一个页面,它会是世界末日吗</p><p>几乎没有变化,或只是在加载时改变了一些动态的碎片,从索引重定向</p><p>可能不是用户仍然设法通过重定向从搜索引擎结果页面到达目标页面,因此他们的体验没有显着降低很可能当前的长尾查询排名(可以总结很多)到位随着时间的推移,在成熟的URL上从遗留爬网中获取的许多次要信号重要的页面在迁移后得到了早期爬行,而大多数低到不重要的页面(可能包括从低到没有PageRank)加起来都是大量的总体可见性这可以包括相对重要性的投票(例如,仅来自内部链接结构),这些投票将在整个地方用于排名目的的信号在爬行之前不会传递到新生的URL并在搜索引擎上更新回来所有低重要性(但有助于提高可见性)页面需要花费很长时间才能被抓取以及旧网站上的这些页面是什么您之前在迁移之前可能没有索引</p><p>他们可能为可见性做出了一些有价值的事情Gary Illyes在最近的虚拟主题演讲中与Eric Enge一起评论说他认为从没有索引的URL传递PageRank没有任何消散,所以很可能这个和其他历史排名信号仍然存在向您的迁移网址添加内容但是它们不再在索引中,并且可能不会再被抓取很长时间,因此任何遗留信号都需要很长时间才能通过它们仍会不时被访问,以及404s甚至410s,因为“走了”永远不会真正消失(这是另一个完整的主题,我不打算进入这里)例如,在这个改变地址并且排名下降的网站的例子中,Google工程师建议原因可能是旧网站的某些页面不再被编入索引显然,有一些有价值的东西没有通过但实际上是至关重要的(从整体排名的角度来看)并且历史上在某些方面通过了一切都很重要在迁移之后所有事情都被重新组合在一起之前,你的网站不一样它处于半建状态,整体拼图的部分缺失或部分移动内部链接架构和相对必须重建来自您自己内部页面的重要信号(围绕内部链接的文本,提供上下文和任何内部锚点),一开始Googlebot还需要重新理解页面在整体架构中的位置一段时间在任何体面大小的网站上整个“互连”,你网站的主题或“本体”,以及它内部的所有语义相关性,作为一个实体,现在也是不完整的,直到重新组装所有内容(包括重要性较低的页面及其相对内部链接),相关性,上下文以及外部和内部重要性信号(包括PageRank)重新组合,网络网站不像以前那样,即使你为网站迁移采取了所有正确的搜索引擎优化步骤最初,你可能只是重建了拼图游戏的角落和侧面,因为网站的重要页面被抓取和处理,但所有这些结合在一起构成了“全局”和网站排名的区别直到网站重建之前,Googlebot和其他搜索引擎工作者的工作还没有完成至少在得出结论之前等待工作完成本文中表达的观点是客座作者的观点,