网络营销知识仓库-第11部分
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
…1。Google的主题性趋向2…1…1。关于页面级别(PageRank)及Google的旧算法出现问题的原因 页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随 机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点 击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级 越高,则随机网络冲浪者发现它的机率亦越高。 这种思路其实相当富有创意。一个网页的外部链接越多,则对任意网络冲浪 者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行, 则其导入链接就越能从链接中受益—这是由于任意网络冲浪者发现这些链接的机会就越大。 在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果 用户查询关于素粒子物理学研究方面的论文(或网页)文献集,则对于一个给定条 件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最 相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。 若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正 如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的 实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面 级别系统考虑了所有链接,但却忽视了链接页面的主题性。 Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的 搜索引擎营销商却通过在网络上到处建立充盈关键词的链接来欺骗Google的排 名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些 来自较高“页面级别”页的链接。 如果网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提 升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果 了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果 的质量开始恶化时,它是不会坐视不管的。2…1…2。新技术闪亮登场:主题性页面级别技术(Topic…SensitivePageRank) 2002年,斯坦福大学的一名博士生塔赫尔。哈维利瓦拉(TaherH。 Haveliwala)发表了一篇非常有意思的论文,名为“Topic…Sensitive PageRank(主题性页面级别计算系统)”。而更加有趣的是,一年之后哈维利瓦拉 成了Google的一份子。“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏 差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有 明确的查询目的,并更感兴趣于跟进那些具有某个特定主题的相关网页上的相关 链接。这是一个相对而言较为新颖的思路,它解决了搜索结果的质量性方面的一 系列关键性问题。 毫无疑问,哈维利瓦拉将成为搜索引擎业界中一个举足轻重的角色。他已经 在搜索技术的其它领域方面进行了一些实质性的研究工作,包括如何更有效计算 页面级别方面的一些比较有趣的研究。 在最初的研究论文中,哈维利瓦拉描述了他是如何利用斯坦福大学的网络数 据库,对应于ODP(开放目录)的16个顶级目录的16个主题来计算“主题性”页面 级别得分。虽然该研究的主题和数据数量(8千万个网页)十分有限,但能够看出 这种新系统可改善搜索结果,且具备对查询用户感兴趣于何种主题的理解能力。 就在去年,当我回过头来再阅读这篇论文时,我注意到哈维利瓦拉所描述的 这种系统对搜索引擎来说还存在着两个问题。不过下面我们将会看到,这两个问 题现在都能得到妥善解决了。 第一个问题是充分拓展主题的数量。要想改善搜索结果,16个主题自然是远 远不够的。但由于Google的页面级别计算系统的代价非常之高,因而除非新系统 能够提供一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领 域在过去的一年中的深远发展,因而我相信现在在主题数量上已不是大问题了。 第二个问题就是如何决定一个查询条件可能对应的主题–…当用户输入诸 如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以 最恰当的主题,以及为什么一些查询条件更容易受到影响的原因。2…1…3。关于AppliedSemantics公司及其专利技术CIRCA AppliedSemantics网络广告软件公司是互联网广告方面的专家,于2003年4 月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已 对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC 广告客户提供基于内容的广告就是采用了AppliedSemantics的AdSense技术。 事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术 其实就是AppliedSemantics公司所拥有的专利技术CIRCA。 CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体 论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概 念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理 解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户 更好的提供探索知识的机会。 CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术 目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关 键词词根还原系统。 尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例 如,如果用户查询“Coloradobicycletrips”,CIRCA能够将其与“Colorado” 地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数 据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。 2…1…4。二者的有机结合:主题性搜索引擎的实现 现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生 一个更好的搜索引擎呢? 首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念, Google已然解决了如何计算其主题性页面级别的问题。 在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。 但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近 似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。 现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中 若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包 含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好 的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。 由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面 级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得 分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。 当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页 面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级 别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件 之间的相关度很低,则效果亦会大打折扣。2…1…5。安然接受和理解算法的改变 可能某些查询条件返回的搜索结果有较大的变动…–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。 有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上 升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻 底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝 大部分都是由那些排名被刷下来的网站提供的。 我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可 用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。 我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询 条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体 上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外, 把它当成规则就大错特错了。2…1…6。主题并非关键词。。。亦并非十全十美 千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目, 例如“计算处理”、“市场营销”等等。而特定的查询条件(关键词),如“笔记本 电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。 但从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果 所匹配的主题是错误的。例如对”laptoprental”,用户搜索“笔记本租赁”往 往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大 学里面的住处租赁信息 google/search?sourceid=navclient&q=laptop+rental。 这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发现这些链接 大都具有相似的主题性,如puting,Housing(学生在校园里出租住处),等等。大家可以用其它词语进行查询,然后分析排名靠前的那些页面上的外部链接,就 会更容易理解为什么“laptoprentals”会有如此的搜索结果了。 Google仍有可能提供不够理想的搜索结果,当然也有可能再次受到蒙骗,只 是这种机率越来越小而已。同时我们相信Google会多花一些时间来修正这些问题。2…1…7。为什么只有部分搜索结果页发生了根本的改变? 我们不必理会那些对Google新算法的非议,只要再来看看真实的数据,你 就不难理解为什么有些查询条件较其它查询条件更易受到影响。 我们以“RealEstate”为例,依照Scroogle的方法论,有77个原来 排名在前100位的网页排名降到了100名之后。而对于更为具体的查询条件 “ColoradoRealEstate”,有24个排名在前100名的网站受到了影响。 而在那些被刷下来的网页中,我第一个看到的是一个标题为“Southern CaliforniaRealEstate”的页面。有趣的是,倘若用“SouthernCalifornia RealEstate”进行更具体的查询,你会发现它排名高踞第二位。换言之,这些 网页并不是受到了Google的处罚,而只是由于缺乏对查询条件的相关主题性而 使排名掉下来罢了。 也有极少数竞争性很强的查询关键词对搜索结果的排名没有造成什么影响。 这种现象已被用作对Google排名算法的各种猜测的正确性与否的一个依据。但 我认为对这种现象的解释其实也很简单以“searchengineoptimization”为 例,在返回的搜索结果中,前30个网页列表几乎没什么变化。如果对排在榜首 的页面进行分析的话,就可以发现这些网页上的外部链接都具有良好的相关性, 这样的网页在一个主题性页面级别的计算系统下也会做的很好。 可能Google采用的新算法与我的猜测大相径庭,不过目前为止我尚未发现 比这更好的猜测。不过这些并不重要,我们只要清楚一点:不管Google怎么改 变它的算法,成功的秘诀其实相当简单胜出的往往是那些拥有大量内容和大量 相关链接(包括导入链接和导出链接)的站点。而那些使用门页(Doorway Page) 和链接交换的网站就不会再这么好运气了。第三部分:如何在Google新算法中更有效优化 如何应对Google的新算法?大家可以根据下面所列的一些要点采取相应的措施。3…1。关键词的研究:扩大覆盖面 搜索引擎策略的中心思想是确定恰当的关键词来锁定目标群体。但有很多网 站管理员却在这一步上掉以轻心,只在屈指可数的几个平平常常的关键词身上铆 足了劲,却不知这种策略失之偏颇。关键词研究的主要目标应该是确定目标群体 所有可能使用的关键词,其中包括了品牌名称、地理位置及修饰语等“修饰成分”。 尽管对网站的每个页面只能围绕两到三个关键词进行关键词优化,但通过关 键词和修饰成分的有机结合,亦可大幅提高网站对搜索结果的覆盖率。对于 Google在2003年11月15号所做的更新,有很多实施了有效关键词策略的网站管理 员压根就没有注意到。原因很简单:他们锁定的是所有可能相关的关键词,覆盖 面极广,所以虽然个别一般性的关键词的排名下降了,但网站的整体访问量并未 受到什么影响。 若只针对少数关键词,而且这些关键词都有很好的排名,这种策略看起来似 乎也蛮不错。可是一旦搜索引擎改变了排名算法,就象Google这次一样,这种缺 乏灵活性的策略可就撞上南墙了正确的做法是锁定所有可能相关的关键词,扩 大对搜索结果的涵盖面,给自己的搜索引擎策略打下一个坚实的基础。3…2。网站结构的有效性 为保证“广泛的关键词”策略的有效性,网站需要进行组织,让搜索引擎可 以顺利地遍历或检索网站内的所有网页。为了更好的理解这一点,让我们先来看 看搜索引擎的Spiders是如何遍历网站的。 在对网站的第一次造访中,Spider首先会取得一个叫做Robots。txt的文件来 决定是否允许它检索。 当Spiders从另外一个站点发现你网站的链接时,若Robots。txt文件里并未 声明不允许它访问该页面,则Spiders会把这个页面保存下来。它不一定就是主 页,也可能是你网站的其它页面。 Spider在对这一页进行检索时,它会从中摘录一些