第六部分:危险的搜索引擎优化作弊
由于技术型搜索引擎在网站排名过程中完全由蜘蛛程序自动完成,未有人工参与,这为那些针对排名原理而采用欺骗蜘蛛程序的手段提供成功的可能性。因此在SEO的发展过程中,一直伴随着关于作弊方法的讨论,成为业界关注的话题。
SEO作弊手段
做SEO必须了解基本的作弊手段,目的是避免无意间采用了相关手段遭到处罚。以下是被视为作弊的常见手段:
1、关键字堆砌:
为了增加关键词的出现频次,故意在网页代码中,如在META、title、注释、图片ALT以及 URL地址等地方重复书写某关键词的行为(Stuffing)。
2、虚假关键词:
通过在META中设置与网站内容无关的关键词,如在Title中设置热门关键词,以达到误导用户进入网站的目的。同样的情况也包括链接关键词与实际内容不符的情况。
3、隐形文本/链接:
为了增加关键词的出现频次,故意在网页中放一段与背景颜色相同的、包含密集关键字的文本。访客看不到,搜索引擎却能找到。类似方法还包括超小号文字、文字隐藏层等手段。隐形链接是在隐形文本的基础上在其它页面添加指向目标优化页的行为。
4、重定向(Re-Direct):
使用刷新标记(Meta Refresh)、CGI程序、Java、Javascript或其它技术,当用户进入该页时,迅速自动跳转到另一个网页。重定向使搜索引擎与用户访问到不同的网页。
5、偷换网页:
也称"诱饵行为(Bait-&-Switch)",是在一个网页成功注册并获得较好排名后,用另一个内容无关的网页来替换它的行为。
6、复制站点或内容:
通过复制整个网站或部分网页内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引的行为。镜象站点(Mirror Sites)是此中典型。
7、桥页/门页(Bridge/Doorway/Portal/Entry):
针对某一关键词专门制作一个优化的页面,链接指向或重定向到目标页面。有时候为动态页面建立静态入口,或为不同的关键词建立不同内页也会用到类似方法,但与桥页不同的是,前者是网站实际内容所需而建立的,是访问者所需要的,而桥页本身无实际内容,只针对搜索引擎作了一堆充斥了关键词的链接而已。
8、隐形页面(Cloaked Page) 指同一个网址下对不同的访问者选择性返回不同的页面内:
搜索引擎得到了高度优化的网页内容,而用户则看到不同的内容。
9、重复注册:
违反网站提交纪律,突破时间间隔限制,将一个网页在短时间内反复提交给同一个搜索引擎以获得收录的做法。
10、垃圾链接:
加入"链接工厂"(亦称"大量链接机制")指由大量网页交叉链接而构成的一个网络系统。一个站点加入 "链接工厂"后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要"奉献"自己的链接。籍此方法来提升链接得分。
11、包含指向作弊网页的链接:
这种情况,有的是无辜被作弊网页牵连,有的则是桥页之故。
搜索引擎对作弊的处罚
由于作弊行为完全背离了搜索引擎对搜索结果排名的初衷——对用户有利的原则,破坏了正常的搜索结果,严重影响搜索引擎质量和声誉,并昭示出搜索引擎技术的漏洞,因此作弊行为被搜索引擎厂商深恶痛绝。一旦被侦破为作弊,将视情节轻重给予不同程度的处罚。发生在2005年3月底的Google清理部分垃圾性搜索结果(清理"广告位出租"的SEO垃圾)以及关闭部分作弊情节严重的作弊站长网站事件,就是典型的处罚案例。
搜索引擎技术的发展也是侦破作弊技术的发展。今天,搜索引擎对于蒙蔽它的手段识别技术越来越精,过去可能还行得通的手段在今天就有着被处罚的危险。以下是部分搜索引擎对于作弊行为的处罚:
百度:根据网页的作弊情况,会受到不同程度的惩罚。
·较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名。
·较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后。
·较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失。
·特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录。
中搜
·中搜采用多种方法惩罚作弊。封杀、只索引部分正常内容(不减权)、整个网页排序推后、连带责任。
·根据历史纪录,中搜有作弊黑名单,黑名单中的网站是重点防范、监控对象;根据作弊监控算法计算出来分值很高的网站也会被重点审查。
·有轻微作弊的基本正常网页,中搜会只收录正常内容,如隐含文字等内容不建索引。
·有较多作弊特征的网页会被减权,基本上在前几页没有机会出现。
·包含有指向作弊网页的链接的网页会被牵连,承担连带责任。
·中搜会搜索引擎技术的各个环节监控作弊,同时重点监控排序剧变的网页,网站不分大小、不分领域、部分亲属远近都受到每周7*24小时的监控。除自动监控系统外,还有一个人工监控小组打击作弊。
Google Google没有明确给出处罚条款,但站主通过以下情况可以了解到网站是否受到处罚:
·网站的PageRank变为"0"
Google工具栏上的PageRank指示为"0"
·网站在Google的外部链接数变为"0"
Google工具栏上的Backlinks或在Google搜索框中键入"link:www.yourdomain.com"命令显示没有外部链。
·网站排名骤降
以核心关键词搜索,原有的排名下降明显。不过这种情况有时候是算法更新的原因,与处罚无关。
·网站在Google中消失
直接输入网址,找不到该网站。
被处罚的网站一般情况下如果解除作弊,还是可以获得"新生",情况特别严重者除外。
附:向Google举报作弊网站:www.google.com/contact/spamreport.html(Googe的反作弊技术发展就是基于这类举报中出现的案例)
向百度投诉垃圾网页http://www.baidu.com/search/spamreport.html
第七部分:网页级别(PageRank)
Google搜索引擎采用的核心软件称为 PageRank,这是由Google创始人开发出的一套用于网页评级的系统,是Google搜索排名算法中的一个组成部分,级别从1到10级,10级为满分,PR值越高说明该网页在搜索排名中的地位越重要,也就是说,在其他条件相同的情况下,PR值高的网站在Google搜索结果的排名中有优先权。网页级别由此成为Google所有网络搜索工具的基础
网页级别概述
Google对网页级别的描述
作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页 A 链接到网页 B 时,Google 就认为"网页 A 投了网页 B 一票"。Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。"重要"的网页所投出的票就会有更高的权重,并且有助于提高其它网页的"重要性"。
重要的、高质量的网页会获得较高的网页级别。Google 在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因此,Google 将网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。
PR值算法原理总体上基于下面2个前提:
1、一个网页被多次引用,则它可能是很重要的;
一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。
2、假定用户一开始随机的访问网页集合中的一个网页,然后跟随网页的链接向前浏览网页,不回退浏览,那么浏览下一个网页的概率就是被浏览网页的PageRank值
影响PR值的因素
PR值体现为从0到10的11个数值,在Google的工具栏上以一条横向绿色柱状图显示,0级情况下呈白色。它是针对网页而不是网站,因此一个网站的首页和内页往往有着迥然不同的PR值。由于Google市场拓展进程的原因,中文网页的PR值整体上低于英文网页。对中文网站来说,拥有3级PR是基础, 4级PR算达标,5级PR可谓良好,而6、7级PR就算相当优秀的网站。当然,由于PR最直接的影响因素是来自链接,因此这种评级并不代表内容的级别水准,网站内容质量对PR的影响是间接的、长期的。根据PR值的算法原理,可知影响一个网站(首页)PR值的因素主要包括:
1、网站的导入链接质量:
根据前文对高质量导入链接的分析,则获得高PR值需要获得来自以下网站的链接:
◆ 加入搜索引擎分类目录与已经加入目录的网站交换链接
◆ 获得来自PR值不低于4并与你的主题相关或互补的网站的链接
◆ 你的链接出现在流量大、知名度高、频繁更新的重要网站上(如新闻源)
◆ 与你交换链接的网站具有很少导出链接
◆ 与内容质量高的网站链接(PR值上升潜力大)
2、 导出链接数量:
根据PR计算原理,由于"一个网页的重要性被平均的传递到它所引用的网页",因此反过来看,一个页面内过多的导出链接将潜在引起该页PR值的流失。但从内容的角度看,适当数量的与主题有关联的导出链接给搜索引擎带来良好的印象。因此,一个页面,尤其是首页的导出链接数量的把握,应该兼顾到PR值和关键词内容二者之间的平衡,即控制导出链接数量,以不超过10个为宜。
www.here123.com
3、搜索引擎收录一个网站的页面数量
在探讨SEO的时候,人们过多关注核心关键词排名以及首页的表现情况,却往往忽略了一个极其重要的问题:即搜索引擎对一个网站收录的页面数量。后者在SEO中也有着极其重要的意义。一个用核心关键词查询排名不佳的网站,可能由于被抓取大量网页而在用户使用其它关键词查询时,内页获得前三甲排名。由于用户搜索时使用的关键词具有分散性,使得这种情况往往给网站带来极大访问量。
正因为收录页面的数量直接影响访问量,因此对PR值的影响也是很大的。被收录页面越多,主页PR越高。不过需要强调的是,此处所指的数量是指被收录数与网站页面总数的比值,而不是收录页面的绝对数值。比如一个拥有50个页面的网站被收录了10个页面,网站的被收录比值是1/5,一个拥有5000个页面的网站被收录了500个页面,比值是1/10,结果是收录10个页面比收录500个页面的网站还更具排名优势。但对各个搜索引擎来说,究竟达到多大的比值算是良好,目前还没有相关的数据。
附:查询网站收录页面数量:在搜索引擎中输入:site:www.kuziyuan.com(如果输入:site:admin5.com,则获得的是在admin5.com域名下所有二级域名的网页数量)。
工具推荐:www.marketleap.com/siteindex 可获得网站在多个主流搜索引擎中的网页收录数
4、首页PR的高低
尽管对PR的界定是针对网页而不是网站,但由于每个网页都依托某一网站而存在,首页是推广的核心页面,所以网站首页PR高低对内页各PR也产生直接影响。一般而言,一个网站各页面的PR值呈现以下走向:首页