搜:通向世界的巨型引擎-第3部分

小说：搜:通向世界的巨型引擎字数：每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

氖歉苯拥姆绞剑热缰С盅锹硌饭就萍鎏逯频乃惴ㄌ逑怠Ｗ钕远准囊坏悖褪撬械乃阉饕娑际酝纪ü允居肽惚泶锍隼吹囊馔枷嗥ヅ涞墓愀娑玫慊髁髯！�

从一个消费者的角度来看，这样的转化也有很简单却令人信服的理由搜索，推荐系统，还有电子邮件都使我们的生活变得更加简单，快捷和方便。至少到目前为止，我们还很愿意用我们的隐私来交换便利，服务和力量。　

亚马逊A9搜索引擎的首席执行官尤迪·曼比（UdiManber）指出：〃作为一项课题，目前只有百分之五的搜索问题得到了解决。〃只有区区百分之五，但是搜索业务已经发展成为价值数十亿美元的产业。搜索引发点击流；而点击流推动利润的产生。这是点击流被永久保留的最重要的原因。　

当我们发掘全球化信息空间的时候，搜索就成为我们手中的铁锹，成为我们探寻和发现的利器。空白的搜索框和闪烁的光标预设了你的搜索产生的数字产品。你的鼠标在众多新蓝色的链接上游移不定，而这些链接都在等待你的点击将它转化成这个时代的永恒索引中的一笔。　
　

　

　

第6节：搜索所牵涉的社会问题
作者：＇美＇约翰·巴特利

搜索所牵涉的社会问题　

什么被日本十几岁的青少年认为是这一周最酷的事情？哪位流行巨星的专辑卖得最好？谁的排名又正在排行榜上处于下滑状态？那位政治人物在衣阿华，新罕布什尔州，或是加利福尼亚州最受欢迎？为什么受欢迎？谁访问了同恐怖分子有联系的网站？谁又访问了色情站点？访问者是怎么找到它们的？拉丁裔美籍男子都买哪些种类的保险？为什么买？中国的大学生是如何获取新闻的？……几乎一个人能够想到的任何问题都可以以这样或那样的方式得到解答，而答案就在因特网上一秒接一秒累积起来的不变的人类意图数据库里。　

那么，这样一种人工品的出现又预示了什么呢？它会对蕴藏数十亿美元商机的营销和传媒产业产生什么影响呢？为什么中国、德国和法国的政府威胁要关停雅虎和Google这些搜索引擎？为什么我们的国家安全取决于对这些公司数据库的深入研究？最后，关于我们自己和大家共同在网络上创造出的全球化的文化，搜索到底可以告诉我们些什么？　

这些问题的答案并不容易给出，但是我希望至少我可以在后文中，讲述搜索故事的时候尝试解答它们。搜索所牵涉的领域越来越错综复杂，其中包括市场营销、传媒、技术、流行文化，甚至国际法和公民权力。搜索技术不仅要解决数量惊人的技术难题（想一想每周数十亿词查询请求产生的数据量），而且还会遇到几乎使它寸步难行的社会责任问题。Google及其同类公司掌握了这个世界的需求，所以有权威的部门会对他们产生浓厚的兴趣，而没有自保能力的个人则把他们视为威胁。刻进Google15万台服务器芯片中的很可能是下面这些东西罹患爱滋病的同性恋男子痛苦的宣泄；试图制造炸弹的恐怖分子的无声的阴谋；也可能是连环杀手遗漏于数字空间的蛛丝马迹。Google这样的公司和他们提供的服务使个人的数字身份永不磨灭，并且，在有请求出现时还可以调用它们。目前，Google的创办人之一谢尔盖·布林向我保证，从未有人提出这样的请求，更没有这样的请求被满足过。但是搜索的威力如此巨大，这种情况还能坚持多久呢？　

即使现在还没有出现这样的事，总有一天，这样的请求会浮出水面。搜索工具拥有令人难以置信的强大力量，用它来达到不正当目的的危险是实实在在的。9·11事件之后，布什政府很快就启动了一个立法程序，重新定义国家对公民的监视权。在当时情况下，国会很快被说服；不经辩论就通过了美国爱国法案7。根据这部法案，美国政府可以迫使Google这样的公司根据政府机构的要求为他们提供信息，而且是秘密的。　

斯图尔特·贝克尔是原美国国土安全局（NSA）顾问，他指出搜索牵连的社会问题是非常广泛的。他告诉纽约时报的记者，根据爱国法案，政府可以要求如下信息：〃你所发送的每封电子邮件的收件人是谁？你是在何时发送的？谁回复了你的邮件？邮件篇幅多长？是否添加了附件？还有，你是在哪里上网发送的邮件？〃联邦调查局（FBI），国土安全局以及国防部（DepartmentofDefense），所有的部门都决心加强对因特网的监控，决不会放过像美国在线，Google，或者雅虎这些网站所拥有的内容丰富的数据库。这些公司在法律上应负有的保密责任，它们却有可能应政府要求而交出本应保密的那些信息。因此，他们的数百万用户的利益同政府的利益存在着不可调和的矛盾。当我谈到这个话题的时候，Google的一名管理人员告诉我：只要一个不体面的故事，我们就会被看作专制国家的爪牙。　

这样的事实在隐私、安全以及我们同政府和公司的关系这些方面提出许多有趣的问题。当我们的数据储存在我们的台式机里的时候，我们确信它们是属于我们自己的。这是Entourage邮件工具管理着的我的地址簿，这是我的电子邮件附件，这是我的苹果PowerBook笔记本电脑硬盘。当我在自己的本地目录里查找文档或是某一条电邮信息的时候（也就是我在本地磁盘中搜索的时候），我认为，无论他是出于善意或者恶意，第三方决不会以任何理由监控和分析我搜索、查找和使用数据时移动和点击鼠标的行为。（在很多工作的场合，情况已经不再是这样了，不过我们现在先把这个问题放在一边）　

当计算机产业的中心转移到网络上之后，因为它显然具备了诸如社会关系网络、搜索和电子商务之类的第二代功能，法律变得更加模棱两可。比如，在使用这些功能时，互动过程中会发生数据产出和存储行为。那么，谁拥有这些数据的所有权呢？我们用户对这些数据有什么样的权力？事实上，目前我们还无法回答这些问题。　

当我们把我们的数据放到亚马逊，Hotmail，雅虎和Gmail的服务器上的时候，我们都同服务商做了一个没有明确说出来的协定。大部分的民众要么满足于这个协定，要么根本就没怎么注意到这一点，而且，后者可能性更大8。　

这个协定是：我们相信你们不会用这些信息来做坏事。我们相信你们能够保证这些信息的安全，使它们免受来自政府和个人的非法搜查和攫取并且保证它们随时处于我们的完全控制之下。我们可以理解你们需要集合我们的数据以便能够为我们提供更优质更有用的服务，但是我们相信你们不会通过我们的数据来确认我们的个人身份和相关信息，相信你们不会利用我们的私人数据来做出使我们感觉自己的隐私和自由受到侵犯的举动。　

各个公司应我们的要求把这些条款纳入公司运作的准则，会有助于建立彼此之间的互相信任。无论是对他们还是我们，在面临这样一个转变可能带来的一系列后果时，都无法保证自己完全确定该怎么办。只是想一下搜索可能导致的后果，就会使一个理智的人觉得很伤脑筋。　

不过，要是你感觉到搜索拥有了自我意识，并且可以在你同它互动的时候监视你的时候，迷惘的感觉会更加强烈吧？　
　

　

　

第7节：搜索成为人工智能？
作者：＇美＇约翰·巴特利

搜索成为人工智能？　

Google公司的第一位雇员克雷格·希尔维斯通（CraigSilverstein）俏皮地说：〃我希望看到搜索引擎变成《星球大战》里那些计算机。你跟它们讲话，它们就明白你问的是什么。〃　

希尔维斯通是Google另类文化的代表人物，说话慢声细语，不过，他可不是在开玩笑。几乎在每一场关于搜索的前景的讨论中，都能够听到搜索有朝一日会变得像人一样聪明这样的论调。当被问起他将如何描述他们公司的搜索服务时，AskJeeves公司的总经理保罗·加迪（PaulGardi）回答道：〃《星球大战》里的机器人形象Data。我们知道你一切可能的需求。〃　

但是我们要如何实现它呢？只有能够像作为读者的你理解目前这个句子那样理解一个请求的搜索工具才能够被称为智能化搜索。（至少人们期待如此）。〃现在正在经营咨询事业曾获得麦克阿瑟奖（MacArthurFoudation）的天才电脑工程师丹内·希利斯（DannyHillis）说道：〃我的问题并非找到一样东西，而是理解它。〃他接着说，只有当搜索引擎能够像指导学生的专家一样理解一个人真正想找什么，并且引导他理解这个东西的时候，才真正解决了搜索理解问题。他总结道：〃搜索显然是孕育智能的温床，而智能正在这温床中发芽。〃　

希利斯认为搜索的前景更多地同理解联系在一起，而不再是单纯找到什么。但是，一台机器真的可以了解你想要找什么吗？解答这个问题的一个方法是通过图林（Turing）测试，这也许就是计算机处理的最高理想。　

何为图林测试？它是英国数学家艾伦·图林（AlanTuring）于1950年在一篇开创性的论文中提出的。这篇文章中，图林提出了一个模型，用于测试一台机器是否是智能的。学术界对这种测试本身及其具体的操作规程一直争论不休，不过我们可以了解一下它大致的工作原理。我们先将一台问答器与一台机器和一个人分别连接起来。提问者并不知道哪端连着机器，哪端连着人。这名提问者要通过向两者提问来判断哪个是机器，哪个是人。如果一台机器可以骗过提问者，使其相信自己是人类，那么它就通过了图林测试，可以被认为是具有智能的。　

图林预言，到2000年，计算机就能变得足够聪明，具备严肃挑战图林测试的实力。人们确实在认真和努力地尝试通过图林测试了，但是迄今为止，即使是计算机领域最优秀最聪明的人们也都没有能成功的通过这个测试。1990年，一位有钱的怪人休·罗纳（HughLoebner）出资一百万美元来奖励第一个通过这项测试的计算机。每一年，人工智能公司争先恐后地来争夺这笔奖金，然而，哪一年也没有人能把这笔钱带回家。　

出现这种情况的原因非常多，不过一个非常大的可能性是，人们分析这个问题的思路是错误的。目前，参赛者们的重点都放在个体机器人研究上，他们将数百万种可能的问题回答序列编入这台机器人的程序中，希望它可以为每个可能的问题提供一个合理的答案。9这类尝试中最负盛名的成果是〃Cyc〃（源于〃encyclopedia〃发音很像psych）。它是人工智能先驱道格·莱纳特（DougLenat）毕生努力的结晶。Cyc将成千上万条常识性的原则编入程序，这些原则包括山脉先上升后下降，山谷位于山头或山脉之间等等常识。然后，它在这些简单的原则基础之上构建一个坚固的模型。Cyc试图通过这种方式来解决人工智能技术领域最致命性的问题。丝毫不令人惊讶，Cyc设计的参与者，斯里尼贾·斯里尼瓦桑（SrinijaSrinivasan）成为了雅虎最早的雇员之一，并几乎从一开始就管理雅虎的以网页目录为基础的搜索产品。　

目前所有单个组织的蛮干都失败了，而且它们将来成功的希望也非常渺茫。而搜索更有可能被智能化。通过巧妙地利用各种算法，开发和整合网络上业已存在的智能，也就是由数以百万计的程序处理，话语，行为以及链接这个构成网络的基石汇聚而成的人类意图数据库。归根结底，这是Google起步的方式。如果真有一家公司能够宣称自己发明了智能化的搜索引擎，这家公司就是Google。　

希尔维斯通告诉我：〃Google同其它各家搜索企业的目标就是为人们提供有价值的信息。开篇第一个问题就是，要实现这个目标的话，搜索引擎是否必须达到人类的理解水平。我的答案是肯定的。〃　

这个世界需要什么？建立一家全方位解答这个问题的公司，你就能够揭开市场营销，商业运作甚至是人类文明领域（尽管对此人们还存有疑义）的众多未解之谜。过去几年中间，Google似乎就建立起了这样一家公司。　
　

　

　

第8节：早期的搜索1
作者：＇美＇约翰·巴特利

第三章　

前Google时代搜索　

AltaVista不是第一个搜索引擎，可是，它处理搜索问题的方式却显著地改进了这项艺术。　

微软公司著名工程师加里·弗雷克（GaryFlake）博士　

早期的搜索　

一般认为，第一个网络搜索引擎的荣耀属于Archie。这个前网络时代用户搜索程序是由麦吉尔（McGill）大学的一名叫做艾伦·埃姆塔基（AlanEmtage）的学生在1990年发明的。1990年以前，搞学术和科研的人经常使用因特网来存储论文、技术规范和计算机上其他文件，以便他人可以通过公共途径获得这些文件。可是，除非你知道计算机的确切地址和文件名，否则根本不可能找到这些档案文件。Archie所做的就是，捕获因特网上的所有档案文件（英语单词拼写是Archive，因此程序叫做Archie）然后为每个被找到的文件建立一个索引。　

根据因特网的普通文件传输协议（FTP）标准，Archie的体系结构同大部分的现代搜索引擎类似捕获网络资源，建立索引，再提供一个搜索界面。不过，前网络时代不是一个用户界面友好的时代。只有真正的技术人员和搞学问的人在使用Archie，不过在这些人中间它确实很受欢迎。一个典型的用户通过一个命令控制端口直接同Archie服务器连接起来，然后向引擎发出查询请求。如果他们认为某些关键词在匹配的文件名中，就向Archie发出包含这些关键词的查询请求，然后，会收到一张地址列表，说明某个匹配的文件可能被保存在这些地址。然后，他们再同这台机器建立连接，在上面查找自己想要找的文件。并不是非常好用，但总比什么都没有强。　

Archie这个名字里有奇异的吸引力，非常适合年轻的因特网。1993年，内华达大学的学生发明�

返回目录上一页下一页回到顶部赞（0）踩（0）

第3部分

搜:通向世界的巨型引擎-第3部分

你可能喜欢的