5 结果与表现
衡量一个搜索引擎最重要的标准是其搜索结果的质量。虽然如何做一个完整的用户评估超越了本文的范围,但是我们在Google身上得到的经验,表明它提供结果,比主要商用搜索引擎对绝大多数搜索提供的结果更好。图表4 表示的 Google对于搜索“比尔.克林顿”的结果,作为一个例子可以说明,对PageRank, anchor text (关键词),和proximity(相似度)的使用。这样的搜索结果显示了Google的特色。搜索结果被服务器串联在一起。这样的方法当在需要对结果集筛选时非常有用。很大数量的结果会来自域名whitehouse.gov,有理由相信这个来源含有本次该搜索中被期望找到的结果。当前,绝大多数主要的商用搜索引擎不会返回任何来自whitehouse.gov的结果,更不用说正确的结果。注意,第一个搜索到的连接没有标题,是因为它不是抓取得结果,而是Google 基于anchor text 决定这个结果是查询所期望得到的好结果。同样的,第15号结果是一个电子邮件地址,当然这也是基于anchor text的结果,而非可抓取得结果。
所有结果都是合理的高质量页面,而且最后检查,没有坏连接。这主要归功于他们有很高的PageRank。PageRank的百分比使用红色条形图表示。最后,这里的结果中,没有只有Bill没有Clinton 或只有 Clinton 没有Bill 的,这是因为我们在关键词出现时使用了非常重要的proximity。当然对一个实际的对搜索引擎的质量测试应该包括广泛的对用户研究或者对搜索结果的分析,但是我们没有时间做以上析。但是我们邀请读者在 http://google.stanford.edu/flp 自己测试Google。
5.1 存储需求
除搜索质量外,Gooogle被设计为能够消化互联网规模不断增长带来的效能问题。一方面,使用高效存储。表一是对Google的统计与存储需求的详细分类,由于压缩后的存储体积为53GB,为源数据的三分之一多一点。就当前的硬盘价格来说可以为有用资源提供廉价的相关存储设备。更重要的是,搜索引擎使用的所有数据的总合需要相应的存储大约为55GB。此外,大多数查询能被要求充分使用短反向索引 [short inverted index],在更好的编码与压缩文档索引后,一个高质量的网络搜索引擎可能只需要一台有7GB存储空间的新电脑。
5.2 系统性能
这对搜索引擎的抓取与索引来说很重要。这样信息被转化为数据的速度以及系统主要部分改变后被测试的速度都相对更快。就Google来说,主要操作包括:抓取,索引和排序。一旦硬盘被填满、或命名服务器崩溃,或者其它问题导致系统停止,都很难度量抓取所需要化费的时间。全部花费在下载2千6百万个页面[包括错误页面]的时间大概是9天。但是如果系统运行更为流畅,这个过程还可以更快,最后的1千1百个页面只使用了63个小时,平均4百万每天,每秒48.5页。索引的运行速度快于抓取速度的重要原因是我们花费了足够的时间来优化索引程序,使它不要成为瓶颈。优化包括对本地硬盘上的文档的索引进行大规模的升级和替换关键的数据结构。索引的速度达到大概54页每秒。排序可以完全平行作业,使用四台机器,整个处理时间花费近24个小时。
5.3 搜索性能
提高搜索性能并不是本次我们研究的重点。当前版本的Google返回多数查询结果的时间是1到10秒。这个时间主要受到硬盘IO以及NFS[网络文件系统,当硬盘安置到许多机器上时使用] 的限制。进一步说,Google没有做任何优化,例如查询缓冲区,常用词汇子索引,和其它常用的优化技术。我们倾向于通过分布式,硬件,软件,和算法的改进来提高Google的速度。我们的目标是每秒能处理几百个请求。表2有几个现在版本Google响应查询时间的例子。它们说明IO缓冲区对再次搜索速度的影响。











Google的开始--剖析大规模超文本网络搜索引擎 (五)
翻译:

workclock 进士
http://blog.csdn.net/fxy_2002/...
-----------------------
翻译完成才发现 找就有现成的翻 T_T
02/08/2007
雷声大雨点大 大学士 | Blog
非常抱歉。但希望您在精读和翻译本文时有所收获,没有觉得浪费了时间。我已经设法联系了这篇译文的作者,希望她/他能来译言与我们交流,切磋对这篇经典的理解。如果未能有幸邀请来这为译者,我可能倾向于以个人的理解对原译文做一些改进,就如同第一部分那样。
非常感谢workclock发现了这个信息!
02/08/2007
workclock 进士
5 结果与表现 [除了最后一句:进一步说,Google没有做任何优化...]都是自己翻译的。
不过“雷声大雨点大”说的对,关键是自己的收获。和书非借不能读一个意思:)
02/08/2007