翻译:

原文:

The Anatomy of a Large-Scale Hypertextual Web Search Engine

- Google的开始--剖析大规模超文本网络搜索引擎 (五)

原作者 Sergey Brin and Lawrence Page 的其他文章:

本周热门

其它收藏服务:

Yahoo书签 QQ书签 百度搜藏 Del.icio.us Google书签 和讯网摘 天极网摘 添加到饭否 收客网
--专题: 搜索引擎

金牌译作 Google的开始--剖析大规模超文本网络搜索引擎 (五)

2074个读者 翻译: workclock  02/08/2007 原文 引用 双语对照及眉批 字体大小

Google的开始--剖析大规模超文本网络搜索引擎 (五)

5 结果与表现

衡量一个搜索引擎最重要的标准是其搜索结果的质量。虽然如何做一个完整的用户评估超越了本文的范围,但是我们在Google身上得到的经验,表明它提供结果,比主要商用搜索引擎对绝大多数搜索提供的结果更好。图表4 表示的 Google对于搜索“比尔.克林顿”的结果,作为一个例子可以说明,对PageRank, anchor text (关键词),和proximity(相似度)的使用。这样的搜索结果显示了Google的特色。搜索结果被服务器串联在一起。这样的方法当在需要对结果集筛选时非常有用。很大数量的结果会来自域名whitehouse.gov,有理由相信这个来源含有本次该搜索中被期望找到的结果。当前,绝大多数主要的商用搜索引擎不会返回任何来自whitehouse.gov的结果,更不用说正确的结果。注意,第一个搜索到的连接没有标题,是因为它不是抓取得结果,而是Google 基于anchor text 决定这个结果是查询所期望得到的好结果。同样的,第15号结果是一个电子邮件地址,当然这也是基于anchor text的结果,而非可抓取得结果。

所有结果都是合理的高质量页面,而且最后检查,没有坏连接。这主要归功于他们有很高的PageRank。PageRank的百分比使用红色条形图表示。最后,这里的结果中,没有只有Bill没有Clinton 或只有 Clinton 没有Bill 的,这是因为我们在关键词出现时使用了非常重要的proximity。当然对一个实际的对搜索引擎的质量测试应该包括广泛的对用户研究或者对搜索结果的分析,但是我们没有时间做以上析。但是我们邀请读者在 http://google.stanford.edu/flp 自己测试Google。

5.1 存储需求 

除搜索质量外,Gooogle被设计为能够消化互联网规模不断增长带来的效能问题。一方面,使用高效存储。表一是对Google的统计与存储需求的详细分类,由于压缩后的存储体积为53GB,为源数据的三分之一多一点。就当前的硬盘价格来说可以为有用资源提供廉价的相关存储设备。更重要的是,搜索引擎使用的所有数据的总合需要相应的存储大约为55GB。此外,大多数查询能被要求充分使用短反向索引 [short inverted index],在更好的编码与压缩文档索引后,一个高质量的网络搜索引擎可能只需要一台有7GB存储空间的新电脑。

5.2 系统性能
这对搜索引擎的抓取与索引来说很重要。这样信息被转化为数据的速度以及系统主要部分改变后被测试的速度都相对更快。就Google来说,主要操作包括:抓取,索引和排序。一旦硬盘被填满、或命名服务器崩溃,或者其它问题导致系统停止,都很难度量抓取所需要化费的时间。全部花费在下载2千6百万个页面[包括错误页面]的时间大概是9天。但是如果系统运行更为流畅,这个过程还可以更快,最后的1千1百个页面只使用了63个小时,平均4百万每天,每秒48.5页。索引的运行速度快于抓取速度的重要原因是我们花费了足够的时间来优化索引程序,使它不要成为瓶颈。优化包括对本地硬盘上的文档的索引进行大规模的升级和替换关键的数据结构。索引的速度达到大概54页每秒。排序可以完全平行作业,使用四台机器,整个处理时间花费近24个小时。

5.3 搜索性能

提高搜索性能并不是本次我们研究的重点。当前版本的Google返回多数查询结果的时间是1到10秒。这个时间主要受到硬盘IO以及NFS[网络文件系统,当硬盘安置到许多机器上时使用] 的限制。进一步说,Google没有做任何优化,例如查询缓冲区,常用词汇子索引,和其它常用的优化技术。我们倾向于通过分布式,硬件,软件,和算法的改进来提高Google的速度。我们的目标是每秒能处理几百个请求。表2有几个现在版本Google响应查询时间的例子。它们说明IO缓冲区对再次搜索速度的影响。


 

继续阅读
  • 被否决的Google Logo

    优胜劣汰,Google Logo也不例外。幸福的Logo是一样的,不幸的Logo各有各的不幸······

  • 2006 年互联网技术发展趋势

    已经十二月了,是该回顾一下2006年互联网技术的发展状况,和展望2007年的时候了。在随后的几周,Read/WriteWeb将发表一系列深度分析2006年出现的产品和趋势的文章。同时我们会畅想一下20...

  • 101个Google技巧——Google技巧的终极收集

    可能我们用了很久Google都还不知道我们一直在被那个只有十多个链接的Google首页欺骗了,Google那个简单的输入框下还隐藏了多少秘密呢?让这101个Google搜索技巧提示你,或许它可以帮助你...

  • Google 的疯狂面试题

    几星期前,一个朋友接受了Google公司的面试,他透露了面试中的一些问题。顺便,我把从其他几个曾经面试过的人那里听来的内容也整理在一起。最大的互联网公司Google的一份面试题集,看看你是否能够回答出...

  • Facebook如何击败Myspace,Yahoo!和Google?

    Facebook如何击溃Myspace,Yahoo!和Google? 原文作者:Christopher Beam (Slate.com在线杂志专栏作家) 每个年轻人——通常刚脱稚气——必须作出一个重...

  • 聪明地使用Google的7个技巧

    我在下面编辑了一份包含7个使用Google的技巧的清单,我相信每个人都会想要知道这些.我认为这些技巧合在一起已经代表了使用Google搜索的所有技巧和方法的最高成就.虽然除此之外还有很多小技巧,但这7...

  • 三条提高gmail工作效率的可靠忠告

    如果你是个技术专家,email是必不可少的,但要完全控制所有电邮会很困难。如果你使用gmail和firefox,这里有一些技巧可以帮你如意掌控所有电邮。 第一个技巧是补救措施:把所有邮件保存在邮箱之...

  • Google办公室(总部)照片——世界各国的Google总部

    Google办公室(总部)——位于世界各国的照片...这是做梦都想去工作的地方呀:)

相关小组

标签:

内容有问题?请与我们联络。

译作评分

  • Currently 0.00/5
  • 1
  • 2
  • 3
  • 4
  • 5
 0.0  |  0 个评分

3条评论    0眉批

  • 1.

    workclock 进士

    http://blog.csdn.net/fxy_2002/...

    -----------------------
    翻译完成才发现 找就有现成的翻 T_T

    02/08/2007

  • 2.

    雷声大雨点大 大学士 | Blog

    非常抱歉。但希望您在精读和翻译本文时有所收获,没有觉得浪费了时间。我已经设法联系了这篇译文的作者,希望她/他能来译言与我们交流,切磋对这篇经典的理解。如果未能有幸邀请来这为译者,我可能倾向于以个人的理解对原译文做一些改进,就如同第一部分那样。

    非常感谢workclock发现了这个信息!

    02/08/2007

  • 3.

    workclock 进士

    5 结果与表现 [除了最后一句:进一步说,Google没有做任何优化...]都是自己翻译的。
    不过“雷声大雨点大”说的对,关键是自己的收获。和书非借不能读一个意思:)

    02/08/2007

添加评论

欢迎访问译言网。在这里,您可以。。。

阅读
发现
翻译