网络营销知识仓库-第35部分
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
鞯模黄浯危痈旧纤担琒EO与搜索引擎有一个共同的目标,那便是如何有效地组织内容,帮助用户以最有效的方式找到所需的内容,从这个角度,搜索引擎与 SEO 更像是一种相互储存相互补充的共生关系。 三、搜索引擎是否会人工干预? 几乎可以肯定的是,搜索引擎会采取人工的方式,降低某些网站的权重甚至删除某些网站。但多数的人工干预,是基于对象网站有明显的 Spam 行为,而这些行为暂时还没有归入搜索引擎的判断序列。 四、我的网站有大量的优质原创内容,所以我不需要SEO 了。 任何时候,内容都是 SEO 的基础,但是,内容只是SEO 成功与否的必要条件而非充分条件,也即是说,内容本身并不能保证网站能够在搜索引擎占据有利的地位。信息爆炸的时代,酒好也怕巷子深的。 五、SEO 没有技术含量或 SEO 需要很高深的技术 SEO 从业者往往是“半路出家”:很多从广告或策划公司转向 SEO 行业的人,往往笔头功夫尚可,做方案能够自圆其说,但技术上的缺陷是其力图避开的;技术人员出身的 SEO业者则往往沉溺于技术而在整体把握上有所匮乏,但他也要强调自己的优势。因此,无论是说“SEO 没有技术含量”或是说“SEO 需要很高深的技术”,究其根源,都是在寻找己之长以及人之短。六、大网站那样做了,我也向他们学习 很多人喜欢研究某些大网站如 sina(或网易、sohu、阿里巴巴)在优化方面采取的“技术”,比如说关键词填充、隐形文本等,然后照模学样,应用到自己的网站上。其理由往往很充分:既然那些权威网站可以这么做,就说明那样没问题,因此,我也可以。 但客观说来,这是很危险的。首先,对那些网站来说,由于自身多年积累的高知名度, 来自搜索引擎的访问量在其总访问量中的比例要远远低于一般的网站,因此,即便 SEO 效 果受损对其伤害也要远远小于一般的网站;其次,世上并没有绝对的公平,不管承认与否, 很多事确属他们可以做而一般的网站不能做的;第三,他们有庞大的信息量为基础,那么做 即便存在负面影响,也是足以抵销甚至忽略的。因此,最起码的,等做到像他们那么庞大的 信息量、每天那么多的更新量时,再考虑与他们攀比吧。 七、SEO 企业或 SEO 工具的保证排名宣传 我们都喜欢购买放心的产品或服务,“保证”往往是让我们放松警惕的有效手段,很多 情况下,敢于“保证”往往蕴含着背后强大的技术能力或丰富的经验,让人刮目相看。但是, 也必须清醒地看到,所谓的“保证”也许只是一种销售策略。 在很多时候,以一定的技术为保障,经验丰富的 SEO 人员能够让相应的网站或网页获得预期的排名,但是,没人能真正保证在不可知的未来也能做到这一点。因为,谁也无法确知搜索引擎的算法在下一次更新时将做如何调整。SEO在某种程度上与股票市场类似,正如没人能准确掌握股票未来的走向那样,也没人确知搜索引擎下一步将如何变化。从这个角度看,只有搜索引擎自身才具有决定网站排名的权力。 如果你要的是“保证排名”的效果,也许你应考虑竞价排名,而不是这些 SEO 企业或SEO 工具。 另一方面,对于这些信誓旦旦做保证的企业,应更谨慎一些:他们是否会采取某些搜索引擎深恶痛绝的spam 手段?从长期来看是否会对你的网站造成很难挽回的伤害?他们保证排名位置的关键词是什么?事实上,如果选择一个没人使用的关键词,通过添加相应的内容页面、进行简单的优化、建立必要的链接等,也许即便傻瓜也能做到排名第一的位置,但那样有意义么? 同样的保证,也许有的可以达到预期的效果,有的则让你的网站彻底从搜索引擎中消失。八、稳定的排名 时常有人困惑于“为什么我的排名掉下来了”之类的问题,必须明确的是,没有永远不变的排名。Internet上一直都有新的网页在产生,一直都有旧网页被删除或更新,搜索引擎索引和算法也在不断更新,排名变化是绝对的。 九、SEO 的目标就是获得排名第一的位置或尽可能多的访问量 这就有点买椟还珠的意思了。从根本上说,无论 SEO 还是网站优化,都只是手段,是为了网站的ROI (Return On Investment ),无论让网站获得高排名还是高访问量都是为了一个简单的目的:为网站带来更多的潜在消费者。 十、竞争对手无法破坏我的排名 人人都希望这是真的,尤其在道德感缺失的 SEO 行业,但很多时候,事实并不那么乐观。很多例子表明,恶意的竞争对手还是能够通过某些方式伤害你的网站的。
第四章 SEO 相关的搜索引擎技术
第一节 搜索引擎机器人一、什么是搜索引擎机器人? 搜索引擎机器人也称网络蜘蛛(Web Spider),这是一个很形象的名字。把互联网比喻 成一个蜘蛛网,那么 Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。 深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。 由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。 例如上图 A为起始网页,属于 0 层,B、C、D、E、F 属于第 1 层,G、H 属于第 2 层,I属于第3 层。如果网络蜘蛛设置的访问层数为2 的话,网页I 是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。 二、如何辨别搜索引擎机器人身份搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们 来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器 人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循 robots。txt 规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。在你的服务器日志文件中,可见每次访问的路径和相应的 IP 地址,如果是机器人来访, 则user…agent 会显示 Googlebot 或MSNBot 等搜索引擎漫游器名称,每个搜索引擎都有自己的user…agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过 DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该主机名与IP 地址匹配。 首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关键技术。一、基本原理 超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网 页,其价值就越高,就越应该在结果排序中排到前面。 超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因 为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可 以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。 搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了 互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引 数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词 的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 关键词的相关度高低,依次排列。搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站 点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之 间的关联程度以及一个站点在整个网络上的关联程度来确定的。 使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A中并没有某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件”的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。 二、工作步骤1、从互联网上抓取网页 专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在Wan…derer 基础上,一些编程者将传统的 Spider 程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。2、建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3、索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 三、搜索效果搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、 几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的 变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排 序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数 据量达到几千 G 甚至几万G。但即使最大的搜索引擎建立超过20 亿网页的索引数据库,也 占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有 更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。 使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网页而不抓;因为色情、反动、spam等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;go…pher、newsgroups、Telnet、np、wais 等非http 信息的网页。 任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。这些网页通常由 CGL、PHP、ASP等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明确表示不保证检索