Google承认“Data is the Intel Inside(数据是核心)”
Tim O'Reilly
12.17.07
在我最初的Web 2.0 manifesto(Web 2.0宣言)中最鲜为人理解的原则是“Data is the Intel Inside(数据才是核心)”,现在这一点也正在越发广为人知。Google Operating System博客上有一篇文章Google is Really About Large Amounts of Data,记录了Marissa Mayer(Google VP of Search Products and User Experience)在十月份Web 2.0 Summit(Web 2.0峰会)上的一个采访中“承认能够访问大量数据在很多时候比创造伟大的算法更重要”。
(看来她在Web2.0和语义Web的争论问题上和我观点一致。)
尤其是Marissa承认他们提供411服务是为语音识别算法搜集语音数据。你一定是最开始从这里知道这件事的。有趣的是她讲的为什么他们目前想提高语音识别算法:为了提高视频搜索。这里有一个有趣的规律:一项技术最显然的应用(像语音录制和语音识别)并不一定就是它最重要的目的。这就是为什么像Google这样的公司致力于增加所有种类数据的积累(还有如何应用这些数据的算法的基础性研究)。当应用出现后这些数据将会在不同领域变得有价值,然后拥有最多数据的公司就胜利了。
Tim O'Reilly
12.17.07
在我最初的Web 2.0 manifesto(Web 2.0宣言)中最鲜为人理解的原则是“Data is the Intel Inside(数据才是核心)”,现在这一点也正在越发广为人知。Google Operating System博客上有一篇文章Google is Really About Large Amounts of Data,记录了Marissa Mayer(Google VP of Search Products and User Experience)在十月份Web 2.0 Summit(Web 2.0峰会)上的一个采访中“承认能够访问大量数据在很多时候比创造伟大的算法更重要”。
“目前Google在关键词方面作得很好,遇到的局限性我们认为随着时间的推移也应该能够解决。但人们应该能够问问题而且我们应该能够理解他的意思,人们应该能够在概念的层面上谈论问题。我们看到很多基于概念的问题——不是问什么词出现在页面中?而是问“这是什么”。很多人会转向像语义Web来寻求可能的解决办法。但我们看到的实际情况是通过海量数据最终可以做到那种像是智能化的事情——但实际你是通过强力搜索做到的。
如果你在Google输入'GM'我们知道你是说'General Motors(通用汽车)'。如果你输入'GM foods'我们回答'Genetically modified foods(转基因食品)'。因为处理了如此多的数据以至于我们掌握了很多上下文环境来理解这些缩写。突然间搜索引擎好像变得聪明了能处理语义理解之类的事情了,但实际上并不是这样。”
如果你在Google输入'GM'我们知道你是说'General Motors(通用汽车)'。如果你输入'GM foods'我们回答'Genetically modified foods(转基因食品)'。因为处理了如此多的数据以至于我们掌握了很多上下文环境来理解这些缩写。突然间搜索引擎好像变得聪明了能处理语义理解之类的事情了,但实际上并不是这样。”
(看来她在Web2.0和语义Web的争论问题上和我观点一致。)
尤其是Marissa承认他们提供411服务是为语音识别算法搜集语音数据。你一定是最开始从这里知道这件事的。有趣的是她讲的为什么他们目前想提高语音识别算法:为了提高视频搜索。这里有一个有趣的规律:一项技术最显然的应用(像语音录制和语音识别)并不一定就是它最重要的目的。这就是为什么像Google这样的公司致力于增加所有种类数据的积累(还有如何应用这些数据的算法的基础性研究)。当应用出现后这些数据将会在不同领域变得有价值,然后拥有最多数据的公司就胜利了。
本文版权所有,未经许可,请勿转载
内容合作请 联系我们









Google也承认“Data is the Intel Inside"(数据是核心)







丹青 贡生 | 2009年04月03日
intel inside 核心? 意思是对的,关于intel