翻译:

原文:

The Anatomy of a Large-Scale Hypertextual Web Search Engine

- Google的开始--剖析大规模超文本网络搜索引擎 (二)

原作者 Sergey Brin and Lawrence Page 的其他文章:

本周热门

其它收藏服务:

Yahoo书签 QQ书签 百度搜藏 Del.icio.us Google书签 和讯网摘 天极网摘 添加到饭否 收客网
--专题: 搜索引擎

金牌译作 Google的开始--剖析大规模超文本网络搜索引擎 (二)

2526个读者 翻译: TechLunch  02/07/2007 原文 引用 双语对照及眉批 字体大小

2.系统功能


Google搜索引擎通过两个重要功能来产生高精确度的结果。第一,它利用互联网的链接结构为每个网页计算出一个高质量的排名。这个排名被称为PageRank[注一],具体在Larry Page98年的论文[Page 98]中有详述。第二,Google利用链接本身来提高搜索结果的质量。

2.1 PageRank: 给互联网带来秩序


现有的搜索引擎在很大程度上忽略了一个重要资源--把互联网看做是一个引用关系(链接关系)图(见第一部分的注解)。我们已经产生了包含5亿1千8百万这样的超文本链接(就是网页指向网页的链接)的地图--这是对整个互联网的一个相当显著的采样。这样的地图让我们能快速计算网页的“PageRank”--一个对于网页被引用程度的客观衡量,而被引用程度与人们对于网页重要性的主观认识也很好地吻合。由于这样的吻合,PageRank成为对用关键字搜索网页返回的结果进行排序的极好方式。对于最热门的分类,局限于网页标题进行简单的文字查找,PageRank排序后的搜索结果效果极好。而在整个Google系统中进行全文查找,PageRank的作用也是非常显著的。

2.1.1 PageRank 计算简述

学术文献的引用机制被应用到互联网上--主要就是计算一个网页被引用,或被反向链接的次数。这给出了对一个网页重要性或质量的估计。PageRank进一步发展了这个想法:来自不同页面的链接被给以不同的权重,并依据一个网页上链接的个数正态化。PageRank的定义如下:
我们假定网页 A 有若干其他网页(T1...Tn)指向它(即引用关系)。参数d是一个0,1之间的阻尼系数。我们通常把d设为0.85。下一节会有关于d的详述。C(A)是从网页A指向其他网页的链接个数。那么网页A的PageRank的计算如下:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

我们注意到PageRank构成一个分布于所有网页上的概率分布函数,因此所有网页的PageRank总和应该为 1。

PageRank,或PR(A)可以通过一个简单的循环算法来计算。这对应于正态化后的互联网链接矩阵的主要艾根向量的计算。另外,2千6百万网页的PageRank可以在一台中型服务器上,通过几小时的计算完成。这里有很多细节超出了本论文的讨论范围。

2.1.2 直观解释

PageRank 可以被想像成一个对用户行为建立的模型。我们假想一个“随机上网者”;随机地给他一个网页;他漫无目的地点击网页的链接,而从来不点“返回键”;最终他觉得烦了,又从另一个随机的网页从新开始。在上述模型中,“随机上网者”访问一个页面的概率就是这个页面的PageRank。而阻尼系数d,则是我们的“随机上网者”在访问了一个页面后,觉得烦了,开始访问一个新的页面的概率。上述模型的一个重要变形是把阻尼系数d加到一个网页上,还是加到一组网页上。这个变形使得故意欺骗系统获得高排名的企图几乎变成不可能的。我们对PageRank有若干延伸,详见这里[Page 98]。

另一个直观的解释是如果有很多其他网页指向一个页面,或者其他有很高PageRank的网页指向这个页面,该页面应该有较高的PageRank。直觉告诉我们,如果一个网页被互联网上的很多其他网页引用,它应该是值得关注的。而那些只有一个引用的页面,如果它来自象Yahoo!首页,那大约这个网页也值得看看。如果一个网页质量不高或根本就是一个死链接,Yahoo首页多半不会链接它。PageRank 考虑了上述两种以及之间的各种情况,它用递归方式把网页的权重通过互联网的链接结构传播出去。

2.2 锚链接(Anchor,是HTML的语法,即网页链接)的文本


链接的文字在我们的搜索引擎中受到特殊处理。大多数搜索引擎把链接中的文本部分(比如keso这个链接中的keso)归属于这个链接所在的网页。而我们除此之外,还把它归属于这个链接指向的页面。这有几个好处。第一,锚链接对被指向网页的描述,通常比网页本身的描述更准确。第二,锚链接可能指向那些不能被建立文本索引的文档,如图片、程序、数据库。这使得现在不能爬行搜索的页面可以被搜索到了。注意,以前从未被爬行搜索过的页面可能会产生问题,因为它们的有效性从未被验证过。比如搜索引擎甚至会返回一个有链接指向,但其实根本不存在的页面。然而,由于我们可以对结果排序,这个问题很少会出现。

把锚链接中的文本传播到被指向的页面这个想法,在World Wide Web Worm [McBryan 94] 已经被实施了。主要用于对非文本文件的搜索,和把搜索结果扩展到更多下载文档。而我们使用锚链接,主要是因为它可以提供高质量的结果。有效使用锚链接在技术上是很难实现的,因为大量数据需要处理。在我们现在爬行搜索过的2千4百万网页中,我们为2亿5千9百万锚链接建立了索引。

2.3 其他功能

除了使用PageRank和利用锚链接中的文本外,Google还有其他一些功能。第一,它有所有网页的位置信息,因此在搜索过程中充分应用了接近程度。第二,Google 记录网页的一些视觉表现,如单词的字体大小。大字体的权重比小字体要高。第三,完整的原始HTML页面被保存下来(即Google的网页快照功能)。


[注一] PageRank 可以译为网页排名,建议后面就用原文了。另外,Page 恰恰是Google创始人之一Larry Page的姓。
继续阅读
  • Facebook 详解

    译者:本文译自英文维基百科条目“Facebook”。只翻译了个人觉得对中国互联网从业者有价值的部分。比如有关Facebook相关的法律纠纷,就略去了。中文维基百科只完成了原文2%的翻译。如中文维基百...

  • 23种方法下载YouTube视频

    尽管谷歌口袋里装有大把的钞票,最近针对YouTube的诉讼案件还是让人不得不考虑是否是时候把“管子”上喜爱的视频抢救出来存放在律师们看不到的地方——你的硬盘。 幸运的是,我们有大量工具可以将视频从Y...

  • Top 100 web2.0网站 最热门的100个网站

    视频 *YouTube :YouTube(你的视频)是一个可以让用户免费上传、观赏、分享视频短片的热门视频共享网站 *Meta Cafe: Metacafe (麦塔咖啡厅)-得到最好的网上视频-搞笑...

  • 《长尾(The Long Tail)》的完整中译版

    自从2004年10月发表以来,Chris Anderson的经典文章《长尾》一直在深刻地影响着全球各地互联网业的发展。他所提出的推动型模式与拉动型模式的结合,广泛性与个性化的统一,已经成为网络产品设计...

  • 被否决的Google Logo

    优胜劣汰,Google Logo也不例外。幸福的Logo是一样的,不幸的Logo各有各的不幸······

  • 2006 年互联网技术发展趋势

    已经十二月了,是该回顾一下2006年互联网技术的发展状况,和展望2007年的时候了。在随后的几周,Read/WriteWeb将发表一系列深度分析2006年出现的产品和趋势的文章。同时我们会畅想一下20...

  • 101个Google技巧——Google技巧的终极收集

    可能我们用了很久Google都还不知道我们一直在被那个只有十多个链接的Google首页欺骗了,Google那个简单的输入框下还隐藏了多少秘密呢?让这101个Google搜索技巧提示你,或许它可以帮助你...

  • Facebook上最伟大的十个应用程序(Apps)——工作篇

    作为读写网Facebook周活动的一部分,我为大家带来Facebook平台下的最优秀的Apps。有将近1800个Apps可以在Facebook平台下运行,这给Facebook带来了巨大的成功。在这些应...

相关小组

标签:

内容有问题?请与我们联络。

译作评分

  • Currently 0.00/5
  • 1
  • 2
  • 3
  • 4
  • 5
 0.0  |  0 个评分

0条评论    0眉批

添加评论

欢迎访问译言网。在这里,您可以。。。

阅读
发现
翻译