翻译:

原文:

Google Books vs. BISON - Is the BISON catalog going the way of i

- Google Books vs. BISON - BISON书目系统会成为

本周热门

其它收藏服务:

Yahoo书签 QQ书签 百度搜藏 Del.icio.us Google书签 和讯网摘 天极网摘 添加到饭否 收客网

银牌译作 Google Books vs. BISON - BISON书目系统会成为

294个读者 翻译: zhxxmu  06/19/2008 原文 引用 双语对照及眉批

简介

从Google  Books项目介绍出发,在布法罗大学图书馆的研究数据基础上,探究此项目与图书馆的关系,并对学术图书馆使用Google  Books这类工具提出了自己的看法。

就像互联网可能是我们这个时代最具有颠覆性的科技产品一样,Google Books可能成为对学术图书馆来说最具颠覆性的科技产品。最直接的挑战就是,Google Books的深度搜索和更好的相关度排序,这些通常比我们在用的图书馆联机目录要好,而且它总是会有结果返回。

对于图书馆联机目录,是越大越好的,一个包含了所有书库信息的系统比其他许多小一些的系统表现得好。不幸的是,少于500万册书目记录的图书馆,他们大约有80至100万的图书与近几年出现的Google Books中的内容重叠。虽然Google Books已经扫描的图书数量至今还对外保密,但是Google声称大约一天要扫描3000册。单单密歇根大学参与计划扫描的一百万册图书已经在2008年2月送回了该校。

Google Books同样也有对应学生实际查询的新出版物,而这些资料通常不会立即出现在学术图书馆或者通过馆际互借获得。Google Books跟WorldCat的紧密联系或许会产生额外的馆际互借拥塞,但是读者也会去其他地方找,因为图书馆也在努力迅速地搜集那些用户在研究中需要用到的新论文资料。

布法罗大学图书馆University Libraries of the University at Buffalo),我们对我们的新联机目录系统BISON (Buffalo Information System ONline)是否确实改进了我们的服务感到好奇,是否像Google Books这样的竞争对手已经取代了我们的老目录系统和本地馆藏(对于完整的历史,参见“BISON's发展史”)? 像Google Books这样已存在且可替代本地馆藏目录的服务对我们的本地服务提出了额外的问题。Google Books应该出现在图书馆的网站上吗?什么时候适合将它展现给最终用户?

由于Google Books的增长包括了最好的图书馆中最好的馆藏,所以不清楚那些中等的,预算有限的学术图书馆是否将要离开。我们有权利通过Google的图书搜索形成一种发现传递机制而不是将它视为简单的搜索服务商?当然,Google Books的“在图书馆中查找”链接使用户可以通过WorldCat检索我们的馆藏,这使我们得以实施发现传递机制。但当Google Books在线馆藏的日益增加时,是否会减少传递请求数量?考虑到这个背景,我们决定拿Google Books做个实验。

在处理Google和Google Books时图书馆发现的一个问题是Google对它的工作原理透露得很少。这保护了其独特的搜索算法和扫描项目的机密性,所以图书馆员不知道已经完成的工作或其已经有多少内容了。改进搜索结果的过程几乎成为了巫术诞生的过程。做为图书馆员,我们必须分析Google Books的细节以便我们能像了解其他我们提供的大型数据库一样了解它。只有这样我们才能考虑如何将它与其他电子书更有效的融入到我们的服务、馆藏和网站中。

自我们研究以来,Google已经推出了一项API服务,允许本地目录链接到某本特定图书。我们正计划测试这个功能,可能下学年会实施它。它只是为读者加强了每个条目的内容,并没有改进本地联机目录的搜索结果,本地目录的索引完全是基于MARC编目数据。随着Google Books的可访问性的提高,加上API的强大能力,会把用户从本地目录和馆藏中进一步吸引过去吗?

模拟用户搜索

我们进行测试的用意非常清楚,虽然这需要用到些必须的工具且完成大量的工作。我们通过BISON的日志找出了某个代表性的一天里每个搜索请求和得到的结果。接着我们在Google Books中做同样的搜索以比较两者的表现。

可是,Google Books旨在反垃圾机器人跟我们这些想要研究它的人。唯一可通过它运行数以千计的搜索方法是模拟用户每次的搜索请求,一次提交一个请求。它必须看起来像是人工请求,否则Google Books将会停止响应。为了实现它,我们使用一个叫Macro Express的软件执行脚本并且在电脑上记录下一组用户的检索和结果。我们找到了一种方式,将搜索词从一个文件复制、剪切到Google Books的搜索框,并且将搜索结果从Google Books的页面复制到另一个文件。因为网速问题,我们不得不以半速运行并且保证每一步的一致性。经过2007年11、12月数周的测试,我们得到了数千组的搜索词和搜索结果,并且捕获到代表每次命中结果数量的统计数据。使用SAS(统计分析系统),我们将Google Books的命中数量和从BISON传输日志中的原始记录量综合比较。得到了令人惊叹的数字,将在下面讨论。

不过,仍有几个特例和异常需要考虑。BISON需要单词“and”来进行逻辑与操作,Google Books则是使用“+”号。在BISON的关键词中“and”永远做为逻辑操作符。在Google Books中,“and”是个可以被检索的关键词。尽管Google Books在每个单词中间使用了逻辑与的关系,但使用“+”会产生一个稍大的检索结果(以搜索“war and peace”和“war + peace”为例)。这就产生了一个我们未考虑到的情况,用户可能因为使用Google的搜索表达式而造成他们在我们的OPAC系统中没有检索结果。这很容易通过在Aleph中进行重新配置而解决。为了综合比较搜索结果,我们将结果内所有的“and”改成“+”以便统计分析。对来自于BISON的搜索日志进行排序是必要的,这使得用户在搜索中的思维过程变得清晰。

数量之争

在我们的测试日,BISON的295个搜索返回了零记录。这是出于总共1596次“发现”搜索。(我们排除了如搜索ISBNs和OCLC控制号这类的不像用户产生的搜索)。同样的搜索在Google Books中都有结果返回,而且都是相关的结果。像拼写错误这样的问题Google Books还会生成“你是不是要找”这样的提示。事实上,在BISON中平均每个“无命中结果”的搜索,在Google Books中有351个搜索结果。

我们投入了相当大量的精力希望学生能使用我们的资源;当知道我们经常返回零结果给他们时是难以忍受的,特别是当他们不向图书馆员寻求帮助。

大小之差

此外,当用户将在Google中搜索的短语放到BISON中搜索,从结果中还暴露出一个问题,就是在BISON中只有一小部分被用于描述图书的词和短语。 尽管BISON有一些目录,Google Books却是使用全文索引的。被索引的对象可以是全文可看、部分可看或者可搜索的文本,全文索引将包含章节名和引文这些永远不会出现在传统目录中的信息。最后比较的结果是,Google Books对所有搜索100%有结果返回,而BISON有大约 15-20%的搜索返回零结果(包含或者不包含对已知条目的搜索)。

BISON有简单、高级和专业级搜索模式,期刊搜索,到其他目录的跳转点。这些接口是由有学术背景的图书馆员设计的,但这也反映出图书馆的理念。没有一个可以搜索所有记录的所有关键词的单一搜索框。相反地,Google Books的界面,如其他Google产品,有一个单一的搜索框,在它旁边是一个高级搜索选项。图书封面代表一本图书,如果没有可用的图书封面,则用 Google生成的图书封面。用户在Google中可以像在图书馆OPAC系统中一样使用图书封面视图或列表视图。

根据我们的研究结果和这些差别,我们计划实施一个类似于Google的“你是不是要找”工具以解决拼写错误的问题。我们也计划运行一个程序监控那些“无命中结果”的搜索,目标是提高整个搜索结果。

迎头赶上

一些人可能会说,虽然BISON的搜索结果较少,但其质量却优于Google Books,因为他们更精确,而且用户得到相关资料的机会更大,因为这些结果是基于主题的。实际上,多数Google Books的结果也是相关的而且有用。尽管用户不是总想获得全文,结果中的细节信息已经足够他们判断这一资源是否有用。所以用户要看到Google Books的“甜圈饼”,例如,超出版权包含的扫描材料和从出版商那得到的有版权保护的新电子出版物,Google Books的提供的资料远远超过了那些本地目录和我们的馆藏。Google Books 通常可以使用“在书内搜索”且提供封面图像,图书目录等等。在老的权威作品中,常以多种格式提供全文。

像Google Books这样的电子图书平台将很快成为一个对于本地搜索入口来说具有特性的替代工具。确保本地搜索入口的可检索性、可获取性和可见性是图书馆能满足的唯一角色。这项研究表明图书馆积极扫描对学术有益的独一无二的资料的需求。站在今日我们和其他许多大学的立场上,丰富的特殊馆藏已经数字化并放到了网上。不幸的是,这些资料从没有出现在Google搜索结果的最顶部,统计表明用户不可能找到分散在我们网站上的多个资源库。图书馆考虑策略和实施开放可见的系统。他们必须能被搜索引擎爬虫索引,以超过我们自己特有的小索引。

额外价值

对于连续出现的图书馆通过使用如Google Books这样的工具而更好地服务读者和利于学术的机会,我们感到兴奋,但是我们有限的研究引出了更多有待回答的问题。 其他资源的相关研究应该继续,以研究本地用户为何喜欢像Google Books和Google Scholar这样的产品胜过我们基于订阅的电子资源。是否普通的本科生用Google Books开始他们的研究?如果Google Books正在扫描旧资料,并且同时从出版商那获得新资料,这就容易为中小学术图书馆做出贡献。 一旦数以百万的研究材料加入到Google Books,图书馆将需要找到获得超出文献获取与传递的其他附加值的方式。这似乎是确定的,图书馆的电子资源预算分配将继续变化,以使尽可能多的专题资料上网。但是图书馆在保存,编目和流通中的角色将如何变化?Google和Google Books是否像我们所了解的一样,将要导致学术搜索的毁灭?

我们的研究也指出图书馆员有必要研究这些具有侵略性分裂性的新技术,把它建成任何可能的新服务。图书馆跟图书馆员必须不断地满足用户的行为习惯;我们需要考虑如何使用我们特有的品质和集合每个人的优势。成熟的互联网和各类Web2.0服务的出现,使我们的读者是一群被叫做“Google一代”的人。我们可以商榷这一名称,但是,肯定没人会称之为“学术图书馆的一代”。我们的BISON目录系统可能不会消失,但是它正因竞争而被质疑。本质上,图书馆是最能适应,变化迅速,并建立在过去成功基础上的。

继续阅读
  • 聪明地使用Google的7个技巧

    我在下面编辑了一份包含7个使用Google的技巧的清单,我相信每个人都会想要知道这些.我认为这些技巧合在一起已经代表了使用Google搜索的所有技巧和方法的最高成就.虽然除此之外还有很多小技巧,但这7...

  • Google 以外的17个搜索引擎创新

    有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者:关于破坏性创新,请参见这里)。这些创新分为4类: 查询预...

  • Blog的搜索引擎优化

    (注释:BLOG是指博客 BLOGGER是指写博客的人 SEO代表搜索引擎优化) 搜索引擎优化是令很多BLOGGER头疼的一件事,因为每次我写SEO文章的时候总有很多BLOGGER跟我抱怨:为什么我经...

  • 最好的免费电子图书馆指南(上)

    (已更新)一个全球免费在线阅读网站的索引,原文很长,译者将逐渐译完全文,这次是第一部分,包括澳大利亚部分,新西兰部分,世界部分和其他语种部分,共四篇。

  • 2007年Yahoo!十大搜索关键字

    又到了年末各大搜索引擎公布他们年度最热门的搜索内容的时候了。一如传统,今年还是Yahoo!第一个公布,今天就是公布的日子。如2006年一样,每当人们看到每个搜索空格的时候,还是忍不住输入“Briney...

  • 如何在网上追踪到他、她、它

    当你尝试在互联网上寻找某人时,Google并不是唯一的工具。在过去的两年中,一些新的针对真人的搜索引擎面世,这些搜索引擎提供了更好的方式来通过名字、代号、特定区域和工作地点来精确搜索到特定人物。Whi...

  • Technorati的机会和退出选项

    本文翻译自Read/Write Web 大约两个月之前,HitWise发表了关于搜索引擎市场领先者Technorati的数据报告,数据显示Technorati的流量有史以来第一次输给了Google ...

  • Facebook 是搜索引擎的未来吗?

相关小组

标签:

内容有问题?请与我们联络。

译作评分

  • Currently 0.00/5
  • 1
  • 2
  • 3
  • 4
  • 5
 0.0  |  0 个评分

0条评论    0眉批

添加评论

欢迎访问译言网。在这里,您可以。。。

阅读
发现
翻译