上张贴

今天这节课,我们来讲SEO技术审计,英文中的说法是Technical SEO Audit。这个概念大家可能有点陌生,你可以简单理解为它是SEO审计与IT相交的部分,也就是你需要一定的电脑知识才能掌握的部分。

SEO需要多少IT知识?

首先,我们需要了解一个基本事实:SEO技术审计的难度是根据网站的具体情况而定的。

  1. 一些新网站,尤其是基于Shopify和Word Press这种系统建立起来的网站,不太可能出现明显的技术问题,做此类审计就会非常容易。
  2. 一些大网站,尤其是那些用不知名系统建立起来的网站,时间久了就容易出现各种各样的技术问题。你需要花费更多的时间和精力去发现并解决这类问题,如果解决不了,就会影响你的SEO效果。

SEO技术审计的考察内容非常多,一篇文章不足以全部覆盖。今天这节课,我们就讲一些最重要和最常见的技术性错误。细节性的东西我们会在谷歌SEO基础课程中展开介绍。

 

一、未妥善管理的404错误

在电商网站中,我经常看到这类404错误。当一个站长删除了某些产品,但是保留了指向这些产品的站内链接的时候,就会出现404错误页。

404错误对网站SEO的负面影响主要在于它会浪费搜索引擎的索引预算。我们知道,谷歌蜘蛛每一次访问你网站的Crawl Budget是有限的,如果它频频访问不存在的页面,就会影响新网页的索取成功率。

其次,404错误页还会有以下负面影响:

  1. 它们会浪费流量(站内的流量和来自搜索引擎的流量),造成不良的用户体验;
  2. 如果有外链指向404错误页,外链的Link Juicy就会被浪费掉;
  3. 如果有内链指向404错误页,内链的Link Juicy也会被浪费掉;
  4. 如果你曾经分享到Pinterest之类的社交媒体,访客也到达不了你希望的页面;

最有效的解决方式,就是使用301重定向,把删除的旧网址指向你认为合适的相关页面。这有利于留住你网站的链接汁,并且访客也不会被404错误页面挡住去路。

如何发现404错误页面?

我们有两个方式:

  1. 使用蜘蛛模拟器Screaming Frog爬网,可以发现全部的404错误页。
  2. 使用Google Search Console报表(Crawl->Crawl Errors)。

如何处理发现的404错误页面?

  1. 在网站内为404错误页面寻找一个内容相关的有效页面;
  2. 使用301重定向,把404页面指向你所选定的相关页面。

 

二、网站迁移

这里所说的网站迁移包含三种情况:

  1. 从网站abc.com迁移到xyz.com
  2. 安装SSL证书,使http://www.abc.com显示为https://www.abc.com
  3. 移除www,使https://www.abc.com显示为https://abc.com

 

网站迁移过程中常见的SEO技术错误:

  1. 使用302重定向,而不是301重定向。302是临时性的,301才是永久性的,很多人会搞不清区别。
  2. 忘记把http版本的网址重定向到https版本,这样导致网站上有两个不同版本的网页同时存在,比如http://abc.com和https://abc.com都可以访问你的网页。这是网址规范化的常见错误,我们要确保同样的内容,在网站上只有一个显示的网址。
  3. 使用插件301重定向,而不是在服务器端重定向。插件重定向的好处是操作简便,但是如果你的根网址换了,它不会识别。比如说,我们以前已经把http://abc.com/page-1-xxx通过站内插件重定向到http://abc.com/page-1了。现在你的域名变为了http://xyz.com,那么原来的301重定向都会停止工作。
  4. 老域名的标签忘记更新。比如canonical tag, NOINDEX tag,很多网站会使用这些标签来向搜索引擎传递信号,更换到新网址的时候需要替换掉。
  5. 无意中形成了redirect链条。比如说,我们曾经把http://www.abc.com重定向到http://abc.com了,现在我更换网址为xyz.com了,那么有些人可能就会在无意中形成这样的301重定向链条:http://www.abc.com->http://abc.com->https://abc.com->https://xyz.com。301重定向虽然会传递权重,但是这个传递过程是逐级递减的,正确的做法是http://www.abc.com->https://xyz.com,一步到位。
  6. 网站同时存在www和non www版本,忘记在.htaccess中指定唯一版本。这也会造成重复内容被索引,对SEO不利。

 

如何发现网站迁移过程中的SEO技术错误:

和之前的一样,使用Screaming Frog可以轻松找出来。

 

如何处理网站迁移过程中导致的错误问题:

更新你的robots.txt和.htaccess文件即可。看不懂这两个文件的意思可以找服务器公司解决,一般售后都会提供此类服务。

 

三、网站加载速度

这个问题我们讲过多次了,大家可以从这篇文章详细了解下:https://seozdm.com/website-speed-tools/

 

四、没有优化手机用户体验

谷歌官方已经明确提出了移动优先。这意味着,谷歌蜘蛛首先会访问你网站的移动版本。如果你的网站给移动用户的体验很差,那么将会极大地影响你的网站排名——不管你的网站在桌面端看起来有多么吸引人。

你所需要做的就是确保网站对移动设备是友好的(WordPress的默认功能),也就是我们所说的响应式页面。

 

如何判断网站对移动设备是否友好?

  • 使用谷歌的移动设备适应性测试,检查下谷歌对你网站移动友好的评分。如果可以得到类似这样的结果,就表明还不错。

网页适合在移动设备上浏览

移动设备适应性测试呈现的网页
移动设备适应性测试呈现的网页
  • 确保robots.txt中没有屏蔽Googlebot Smartphone
  • 使用不同屏幕尺寸的移动设备访问网站,包括苹果和安卓系统。不只是手机要测试,还要用平板测试(横屏和竖屏都要测试)。

 

如何解决这类错误?

  • 我们不需要为移动设备专门制作一个子域名。过去的经验是提供一个m.yourdomain.com版本的网址专门给移动用户访问。在当今时代,这是错误的,它会占用更多的抓取预算,也会有很多重复性内容。
  • 雇佣专业的开发人员制作响应式主题,光靠插件来实现响应式页面是不行的。
  • 避免使用Flash,如果一定要实现动态效果,可以考虑用Google web designer, 它可以用HTML5来实现类似flash的动态效果。

 

五、XML地图问题

XML地图的作用是列出网站上的所有页面,以便搜索引擎来爬取和索引。

XML通常包含以下内容:

  • 网址清单
  • 网页最后更新的日期
  • 更新的频率
  • 该网址相对于其他网址的优先级(谷歌官方明确否定这个的作用,但是貌似对百度有效)

有些时候,XML地图作用是显著的,比如说:

  • 网站上有些页面没有站内链接,用浏览器无法直接找到;
  • 站长使用了太多Ajax,Silverlight和Flash内容,谷歌不索引这类内容;
  • 网站内容太多,蜘蛛程序无法全部爬取;

 

如何检查XML里面的错误?

  • 首先,你需要确保已经把XML提交给了Google Search Console,Bing和Yahoo的网站管理员工具;
  • 其次,在Search Console中查看Crawl->Sitemaps->Sitemap Errors;
  • 访问网站的日志,查看站点地图最后被搜索引擎机器人访问的时间(找服务器公司客服解决);

 

如何解决XML错误?

  • 最直接的方式是查看Google Search Console,谷歌会告诉你网站存在哪些问题;
  • 如果使用了SEO插件(比如Yoast),你需要确保插件更新到最新版本,和你当前使用的Word Press系统兼容;
  • 如果你发现网站一直没有被索引,而你确信XML没有出现问题,那么你可以考虑检查服务器日志(你需要向服务器公司索取),然后用服务器日志分析工具(比如SEOlyzer), 它会告诉你搜索引擎蜘蛛访问你Sitemap的频率;也可以直接咨询服务器公司,让他们帮你查看。

 

六、URL结构问题

对于大多数网站来说,尤其是不懂SEO的人来说,忽视网站的URL结构是最常见的技术性错误之一。一个糟糕的网站结构不利于用户(也不利于搜索引擎)访问你的网站,这对SEO的影响是负面的。

糟糕的URL结构有哪些特征?

  1. 网站结构组织混乱;
  2. 没有合理布局目录和子目录;
  3. URL中包含有特殊字符,大写字母,空格等;

如何找出XML中的错误?

  • 如果网站中有404,302之类的错误代码,那么要确保这些网址已经从XML中移除;
  • 使用Screamfrog爬网,对比两者之间的网址差异;
  • 从Google Search Console中去查看爬网错误提示;

如何解决XML中的错误?

  • 建站之前规划好网站的结构,我通常建议大家手绘结构图(也可以用思维导图),把父级目录和子目录之间的关系想清楚以后再上传网站;
  • 确保网站上所有内容都合理安排在正确的目录和子目录之下;
  • 确保URL路径容易阅读,容易理解,避免使用无意义字符;
  • 如果网站不同页面都在争取同一个关键词的排名,那么你要么把他们合并,要么删除其中之一(然后采用301转向);
  • 尽量减少网站的深度,如果使用了3级以上的目录结构,那么网站就过于错综复杂,不利于用户和搜索引擎访问;

 

七、robots.txt处理不当带来的麻烦

robots.txt的作用是告诉搜索引擎该如何访问你的网站,如果处理不当,它将妨碍搜索引擎索引你的网站内容。

Biu叔学堂曾有粉丝在微信群里面反应谷歌不索引自己的网站,我们后来发现是robots.txt阻止了谷歌的访问。国内有些建站公司喜欢在网站未完善之前阻止搜索引擎访问,他们认为这会向用户展示一个未完成的网站,以为对SEO不利。对这类说法,Biu叔一直是不以为然的,我从注册域名开始就不阻止谷歌访问网站内容。

 

如何找出Robots.txt中存在的问题?

 

如何解决Robots.txt中的错误问题?

  • 按照robots.txt Tester的提示操作;
  • 确保你不希望被谷歌索引的目录和文件都在robots.txt中有注明;

 

八、网站包含太多薄内容

有很多人喜欢定期添加新网页,他们认为这样“可以提高网站权重”,从而获得更好的谷歌排名。这是非常错误的操作方式,谷歌喜欢的是有价值的,有深度的内容。质量永远比数量重要。

换句话说,网站如果拥有太多的薄内容页面(正文少于500字都算是薄内容),会影响自己网站的谷歌排名。如果薄内容太多,谷歌爬取网站的频率会降低,索引率也会降低,你的流量自然就会减少。

简单地说,你不应该为每一个目标关键词设定一个内容页面,你应该为尽可能多的目标关键词设定一个内容丰富的页面。这将有利于你创建有深度的内容,从而获得更好的谷歌排名。

 

如何找出网站的薄内容页面?

  • 用蜘蛛程序爬取网站,检查少于500字的网页;
  • 检查GSC里面的消息(GSC->Messages);
  • 某些针对特定关键词制作的内容页面没有排名,需要特别检查;
  • 从Google 分析工具中查看跳出率,跳出率特别高的网页可能是薄内容页面;

 

如何解决薄内容页面所带来的不利影响?

  • 如果你的网站有很多文章都是针对含义相同的关键词写的,那么可以考虑把这些文章的内容合并;
  • 考虑为网站添加文本以外的的内容形式,比如说音频、视频、信息图等。如果自己不太会弄这类东西,可以考虑外包。除了大家熟悉的淘宝,常见的外包平台有Upwork, Fiverr和PeoplePerHour
  • 把你的用户放在首位,他们需要什么?你的主要目标就是创建可以满足用户需求的内容。

 

九、网站包含太多的不相干页面

除了我们上面说过的薄内容页面,我们还需要检查网站的“不相关页面”。所谓的不相关页面就是对网站用户没有价值的页面,或者说网站用户不想看的页面。很多时候,不相关页面没有特定的关键词排名目标,甚至就是站长的自嗨行为,对于访客来说,这些内容很无聊。不相干页面也会给网站拖后腿。

对于很多新建立的网站而言,减少甚至删除不相关页面是很重要的。与权威网站相比,谷歌访问新站的频率较低。这意味着我们要尽可能为它提供最好的内容,以便于提高我们网站的可信度和权威性,这有利于让谷歌给我们分配更多的索引预算。

 

如何找出网站的不相关页面?

  • 仔细审查自己的内容策略。确保每一篇文章都能够为用户带来价值,不要为了发布新文章而发布新文章。形式主义害死人。
  • 检查用户的参与度,一些参与度为零的文章(无人评论或者无人分享的文章),可能是不受用户欢迎的内容。

 

发现不相干页面怎么处理?

  • 最简单的方式是删除他们,然后301指向一个你认为内容相似并且有实际意义的页面(比如说已经有谷歌排名或者有自然搜索流量的页面);
  • 如果实在是需要保留这些页面,那也可以把他们加入robots.txt,阻止谷歌去索引他们。这样,我们可以确保谷歌可以集中力量优先处理我们的优质内容。

 

十、Canonical Tag的不当使用

当你网站上有两个内容相似的页面,而你又不想删除任意一个的时候,你需要使用Canonical标签告诉谷歌,哪一个页面应该优先出现在搜索结果页面之中。Canonical标签的源代码表现为:”rel=canonical”。

如果我们使用Word Press,那么Yoast可以帮助我们执行这一操作。

但是,Canonical 标签经常容易被错误使用。常见的错误操作有:

  • 用于两个内容明显不相关的网页;
  • 指向一个已经删除的网页,即我们之前所说的404页面;
  • 整个网站没有一个Canonical 标签,该用的时候不用;

Canonical标签的错误使用有时候会带来很多问题,尤其是当我们在一些重要网页上使用的时候,你很可能会流失掉许多原本可以获得的流量,相当于是自废武功。

 

如何找出网站哪些页面用了Canonical标签?

最简单的方式就是使用Screaming Frog工具检查下网站的全部页面。

 

Canonical标签用错了怎么办?

  • 人工检查,看哪些网页的标签指向了错误的页面;
  • 做一个内容审计,找出网站上所有内容相似的页面,看看其中是否有一些需要添加canonical标签。

 

十一、robots标签的错误使用

robots标签的作用和robots.txt差不多,都是为了告诉搜索引擎是否该索引网页内容,它们中的细微差别我们这里不做过多阐述。robots标签存在于网页html源代码<head></head>中,看起来是这个样子的:

robot 标签

如果使用不当(最常见的错误就是过多使用robots标签),也可能导致优化过的页面怎么都排不起来。有关robots标签的详细描述,请参考官方网站:https://developers.google.com/search/reference/robots_meta_tag

 

如何查找这类robots标签错误:

  • 用浏览器查看网页源代码,看是否包含了过多的robot标签;
  • 注意区分nofollow链接属性和nofollow robots标签。如果网页中包含有<meta name=”robots” content=”nofollow”>,那么该网页中所有链接都等同于带上了nofollow属性。

 

如何改正被错误使用的robots标签?

  • 如果你确定需要使用robots标签,那么Yoast可以帮助你实现这个目标,具体操作请看:https://yoast.com/wordpress/plugins/seo/yoast-seo-robots-meta-configuration/
  • 尽量在robots.txt中集中管理,而不是在单个页面中分别添加robots标签。

 

十二、未合理安排Craw Budget

由于信息大爆炸,哪怕是对于谷歌这样的搜索引擎巨头来说,要索引全世界的网页也是有困难的。为了提高效率,谷歌为每一个网站分配了不同的爬网预算。在理想状态下,我们希望谷歌分配的爬网预算足够覆盖网站的所有页面,这样才有利于网站的排名;但是现实生活中,谷歌分配给每一个网站的预算都不是无限的。权威网站能够分配到的Craw Budget通常高于普通网站。用谷歌自己的话来说,它们要分配爬网的优先级,以便决定什么时候来爬取你的网站,每次爬网分配多少资源。

 

如何找出这些错误?

  • 最有效的方式,是从google search console中检查爬网状态,也就是Crawl下面的Crawl Stats。
  • 查看服务器日志,查看谷歌蜘蛛把时间花费在哪些页面上了。这些信息可以帮助你找出谷歌是否在爬取你的重要页面,除了我们之前介绍的SEOlyzer,你还可以使用botify来理解服务器日志。
  • 询问服务器客服,谷歌最近的爬网状态。

 

如何解决爬网预算未合理安排所带来的后果?

  • 阻止谷歌爬取一些不重要的网页;
  • 减少301重定向的链条环节;
  • 如果是电商网站,注意屏蔽一些产品参数标签所带来的内容重复性网址,也就是英文中所说的faceted URLs;下图中左边部分是电商网站常见的导航栏目,处理不当的话很容易带来负面影响。

faceted navigation example

 

十三、未合理利用内链来传递“链接汁”

内链可以帮助网站的链接汁在不同页面之中传递,也可以用于引导用户到达你期望的转化页面。内链可以促进部分页面获得更好的关键词排名,是因为它可以把整个网站的权重向重要页面进行倾斜,或者说,内链可以把权重聚拢在某些特别重要的页面上(国外流行的权重雕琢的核心思想就在于此)。有些人认为内链可以增加网站的权重,这种说法是错误的。合理安排内链的使用,是Biu叔三大猜想之一的“谷歌微调”的理论来源之一(其他两项是谷歌初选和众星拱月)。Biu叔认为,这是一种类似于外科手术式的精确操作,把网站所有的权重聚焦在一些重要的页面,不要让次要页面争夺网站的整体权重。这对于谷歌排名来说,有时候可以起到事半功倍的效果。

 

如何找出未合理分配的内链?

  • 对于那些重要的网页(你希望获得更好谷歌排名的网页),检查下有没有给他们合理安排内链?
  • 使用Screaming Frog可以帮你统计内链情况;
  • 如果使用了某些自动添加nofollow属性的插件,你要注意那些内链是不是也带了nofollow属性。

 

如何解决内链安排失误所带来的问题?

  • 对于重要的页面,你需要给他们安排多一些内链,以便它们获得更好的排名;
  • 对于不重要的页面(比如contact us),你需要减少在文章中使用内链的频率,或者在内链中加入nofollow属性;
  • 不用过度使用内链,也不要过度使用关键词作为内链的锚文本,只有在确定必要的前提下才使用内链;
  • 如果重要的页面带了Nofollow,则要删除掉;

 

十四、结构化数据

我们之前在介绍搜索引擎结果页面特色的时候,已经知道现在谷歌会展示不一样的效果。如果你也希望打扮一下自己网站在搜索结果页面的出场方式,你需要掌握的就是结构化数据。我们需要注意的两点:

  1. 要不要使用结构化数据,决定权在站长;但是能不能表现出不一样的结果,决定权在谷歌;换句话说,你哪怕用了结构化数据,谷歌不一定就会在结果页面展示出来,要看运气。
  2. 结构化数据改变的是在搜索引擎结果页面的表现形式,并不是直接的排名因素。不过它也许可以通过提高点击率间接影响谷歌排名。

我们能够使用的结构化数据主要有:

  1. Map Data
  2. Review Data
  3. Rich snippet data
  4. Product data
  5. Book Reviews
  6. FAQ
  7. etc

 

如何找出结构化数据被错误使用的网页?

  • 使用Google Search Console, 通过Search Appearance->Structured Data来检查Schema是否被谷歌提取,以及提取过程中是否出现错误代码;
  • 使用谷歌的结构化数据标记辅助工具, 输入网址即可直接判断。

 

如何在网站中使用结构化数据?

  • 如果你使用的是Word Press,那么可以尝试这两个插件:All in One Schema 和 RichSnippets
  • 如果你不是用Word Press,那就要找程序员自己开发了。

 

以上就是与IT有关的谷歌SEO技术性的东西,如果这些东西你都掌握了,那么恭喜你,最大的一块石头被你搬走了。对于绝大多数人来说,掌握这些SEO技术已经足够,国内大多数的SEO博客都做不到这些。当然,如果你要进入更高的阶段,那么灵活使用Google Sheet就是你下一步需要掌握的高级技能,那是SEO公司主管才需要掌握的能力。