八喜电子书 > 经管其他电子书 > 搜索引擎优化魔法书 >

第6部分

搜索引擎优化魔法书-第6部分

小说: 搜索引擎优化魔法书 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!




    吴可没有直奔商店,而是通过比价搜索引擎找到了最便宜的网上商店购买,比商场 

    卖了便宜了将近 1000元。  



        小王今年高考,填报志愿的事情让父母犯了愁。小王平时成绩算是中等,而且 

    他一定要去北京读大学。虽然清华北大大家都很熟悉,却不是小王的成绩能达到的, 

    而其他学校大家就都不熟悉了。父母想知道北京其它高校的教学水平、学习风气以 

    及生活条件,说要专门去趟北京考察考察。小王劝住了父母,打开电脑,搜索“北 



                                                                         第2 页 


… Page 11…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



    京 大学”,一下子北京各大高校的网站出现在面前。小王和父母把这些网站的内容 

    仔仔细细的看了一遍,还分析了一些感兴趣的学校往年的考分情况,基本上心中有 

    数了。  



        小赵所在的公司原来提供某个配件的供应商出了一些问题,不能继续提供配件 

    了,老板急得团团转。小赵通过搜索引擎找到了十多家具有生产这种配件能力厂家, 

    很快就落实了新的供应商。  



    搜索引擎已经成为广大网民日常生活中不可缺少的重要部分。中国互联网信息中心 

 (CNNIC)2007 年第二十次调查报告显示:搜索引擎以74。8%的比率已经成为中国网民最常 

使用的网络服务之一。详细数据见下表:  



                   表 1…1…1  网民使用网络的功能及其所占比例  



                     互联网功能                   使用者占网民的比例  



                      浏览新闻                          77。3%  



                      获取信息                          76。3%  



                      搜索引擎                          74。8%  



                      即时通信                          69。8%  



                       网络音乐                         68。5%  



                       网络影视                         61。1% 



                      收发邮件                          55。4% 



                       网络游戏                         47。0% 



                       网络购物                         25。5% 



                       网络教育                         24。0% 



                       网上银行                         20。9% 



                        博客                          19。1% 



                       网络求职                         15。2% 



                       网上炒股                         14。1% 



                       网络销售                         4。3% 



                     网上旅行预订                         3。9% 



  



                                                                         第3 页 


… Page 12…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



二、搜索引擎的定义  



    给搜索引擎下一个定义是非常困难的。一千个人就有一千个搜索引擎:有人认为搜索引 

擎就是百度,有人认为搜索引擎就是Google,有人认为搜索引擎就是Yahoo 。  

    如果非要给个定义,就让我们来看看微软大百科全书(MSN Encarta)是怎么定义搜索 

引擎的吧:  



    Search Engine; software program that helps users find information stored on a personal 

    computer; or a network of computers; such as the Internet。 A user enters search terms; 

    typically by typing a keyword or phrase; and the search engine retrieves a list of World 

    Wide Web  (WWW )  sites; personal computer files; or documents; either by scanning 

    the content stored on the computers or computer networks being searched or by parsing 

     (analyzing)  an index of their stored data。  



        搜索引擎是帮助用户查找存储在个人电脑、计算机网络如互联网上的信息的软 

    件程序。用户输入搜索项目,通常是通过录入一个关键词或短语,搜索引擎通过扫 

    描被搜索的计算机和计算机网络,或者分解(分析)它们数据的索引,返回万维网 

    站点、个人电脑文件或文档的列表。  



    这个定义可能越看越模糊,那么以下章节的内容将会让你清晰地认识搜索引擎。  



                 第二节 搜索引擎的基本工作原理  



    现在互联网上存在的网页数量是数以百亿千亿计的,这些网站存储在不同的服务器上, 

分布在世界各地的数据中心和机房。  

    对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来 

看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。一方面原因是抓 

取技术存在瓶颈,无法遍历所有网页,有许多网页无法从其它网页的链接中找到;另一个原 

因是存储技术和处理技术的问题,如果按照每个页面平均大小 20K  计算(包含图片),100 

亿网页的容量是 100×2000G 字节,即使能够存储,下载也存在问题(按照一台机器每秒下 

载20K 计算,需要 340 台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由 

于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是 

抓取那些重要的网页,而评价重要性的主要依据是某个网页的链接深度。  

    有人会认为搜索引擎在接收到搜索请求时,会实时地从全球所有的服务器上查询信息, 

并把查询结果展示在用户面前,这其实是一种误解。如果搜索引擎是这样工作的,那么查询 

一条信息可能要等上好几年才能得到搜索结果,这还不包括期间网页发生的变化。  

    实际上,搜索引擎会预先去拜访大量的网站,并把这些网页的部分信息预先存储在自己 

的服务器上,这样,当用户搜索的时候,其实是在搜索引擎自己的服务器中进行查询,就像 

我们在自己的电脑中查询文件一样。  

    搜索引擎是非常复杂的技术,但是其基本原理并不复杂,其基本技术包括抓取、索引、 

排序。  



                                                                        第4 页 


… Page 13…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



                                                                             



                          图1…2…1   搜索引擎工作原理  



一、抓取  



    搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描 

存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一 

个网站。为保证采集的资料最新,它还会回访已抓取过的网页。  



二、索引  



    由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 

URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 

的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 

中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。  



三、排序   



    当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所 

有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关 

度数值排序,相关度越高,排名越靠前。  

    最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。  



                                                                        第 5 页 


… Page 14…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



                       第三节 搜索引擎的分类  



    按照不同的技术特点,可以把搜索引擎分为网页级搜索、垂直搜索、元搜索引擎、目录 

搜索和集成搜索等五类。  



一、网页级搜索  



    网页级搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Yahoo、MSN Live  

Search、Ask,国内著名的有百度、搜狗等。它们都是通过从互联网上提取的各个网站的信 

息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定 

的排列顺序将结果返回给用户。网页级搜索引擎也是目前常规意义上的搜索引擎。  



二、垂直搜索  



    垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。它将网页库中 

某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理,然后再以某种形式 

返回给用户。  

    垂直搜索引擎与普通网页搜索引擎的最大区别是对网页信息进行了结构化抽取,也就是 

将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据存储到数据库,进行 

进一步的加工处理,如:去重、分类等,最后分词、索引,再以搜索的方式满足用户的需求。 

可以这样说,网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位, 

而垂直搜索是以结构化数据为最小单位。  

    各大搜索引擎都有自身的垂直搜索功能,比如 MP3 搜索、图片搜索、新闻搜索、Blog 

搜索等。独立的垂直搜索网站也受到有相关兴趣的用户的青睐,比如旅游搜索引擎、商业搜 

索引擎、比价搜索引擎等。  



三、元搜索引擎  



    元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给 

用户。元搜索引擎并不直接抓取网页,而是抓取多个搜索引擎的索引数据库,并根据自己的 

算法对抓取结果重新筛选排序。  

    虽然说元搜索引擎综合了多个搜索引擎的结果,但由于是建立在其他搜索引擎基础之 

上,自身的排序算法也难以得到认可,所以一直没有特别的影响力。  

    比较知名的元搜索引擎有Dogpile  (dogpile )、Vivisimo  (vivisimo )、 

比比猫(bbmao )等。  



四、目录搜索  



    目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分 

类的网站链接列表,并提供站内搜索而已。用户完全可以不用进行关键词查询,仅靠分类目 

录也可找到需要的信息。  

    Yahoo 和搜狐都提供分类目录功能,其它知名的目录还有 DMOZ                        (dmoz。org )、 



                                                                        第 6 页 


… Page 15…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



Looksmart (looksmart )等。  



五、集成搜索  



    集成搜索算不上是搜索引擎,只是运用了一定的网页技术,把多个搜索引擎的搜索功能 

整合在一个搜索页面,并对各个搜索引擎的功能进行分类,方便用户在多个搜索引擎的搜索 

结果中进行比较和选择。部分集成搜索甚至没有对用户的搜索请求做出任何记录。所以,集 

成搜索更像一个在线的、集合了多个搜索引擎入口的软件,而不是搜索引擎。  

    国内有很多集成搜索的网站,如优客搜索(yok )。  



                       第四节 搜索引擎的未来  



    随着计算机和互联网应用的普及,大众对搜索的要求也越来越高,人们期望搜索引擎的 

速度更快、返回结果更准确、可以搜索的内容更丰富、更加智能化和个性化。  



一、快速化  



    速度的提高是现在各个搜索引擎都在努力达到的目标。快不仅仅是指搜索引擎返回结果 

的速度,更是指搜索引擎获取新信息的速度。现在博客和论坛已经成为信息最重要的来源, 

一条爆炸性的新闻很可能来自某个人博客,而不是知名媒体。  



二、多样化  



    多样化主要包括两个方面:内容多样化和搜索途径多样化。  

    内容多样化  除文字之外还包括图片、音频、视频内容的搜索。  

    搜索途径多样化  可以通过语音指令、动作指令、甚至是思维指令进行搜索。  



三、智能化  



    语义输入  可以通过输入自然语言来查找结果,就像在问朋友问题。比方说,“第一个 

登上太空的中国宇航员是谁?”这是很多搜索引擎研究的防线。虽然如ask 一直宣称自 

己是提问式

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的