Google工程总监揭示算法改进背后的数字

开发 算法
日前,Google工程总监斯科特•霍夫曼(Scott Huffman)介绍了Google算法改进背后的数字:Google已解决超过45000亿次搜索请求;在2011年进行了41931次必要性评估、9250次小规模试验、7363项在线实时实验,最终完成了520多项改进。

很多人认为Google已经解决了搜索的问题,但是在Google看来搜索的发展才刚刚起步。如果说搜索是一本书,那Google才刚写完了开篇。10多年来,Google搜索一直在不断改进,通过数据驱动和实验评估等科学的方法不断完善搜索引擎。日前,Google工程总监斯科特•霍夫曼(Scott Huffman)介绍了Google算法改进背后的数字:Google已解决超过45000亿次搜索请求;在2011年进行了41931次必要性评估、9250次小规模试验、7363项在线实时实验,最终完成了520多项改进。

 

[[61626]]
Google工程总监斯科特•霍夫曼(Scott Huffman)

当通过Google搜索信息时,用户并不是在对网页执行操作,而是在Google的网页索引中进行查找。Google旗下庞大的计算机群统称“Google机器人”,它由算法控制,抓取、浏览网络中的几十亿网页,并为其中的每一个词编写索引。当用户输入搜索请求后,机器便会在索引中搜索匹配网页,并将关联度最高的搜索结果呈现给用户。 

Google致力于在最短的时间内为用户提供最为相关的搜索结果,这也是其对搜索算法不断改进的动力。Google对算法的改进通常有三个步骤,首先对每项改进做必要性评估,然后在全球不同地区进行小规模实验,之后随机挑选用户进行在线实时实验。在特定时间,Google针对搜索功能会进行50-200个在线实验。借助这些精准有序的科学方法,一个好的改进方案从构思到在Google.com上实施操作,最多只需24小时。2011年,Google进行了58000多项实验,并对搜索系统做出520多处改进。

通过这些实验,Google可以不断提升用户的搜索体验,诸如: 在搜索结果中剔除垃圾信息;根据用户需求改变搜索界面呈现的结果数量;相同词在不同地域搜索,呈现的结果不同。

同时,Google搜索算法进行了一系列重大改进,比如:

  • 新鲜度算法调整:在某些情况下,Google需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索“奥运会”,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于1984年奥运会的陈旧信息。
  • 优质网站算法调整:它对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名。
  • 页面布局算法调整:这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度 ,提高信息容易被搜索到的网页的排名。

Google搜索背后的数字

  • Google通常只需0.25秒便可对搜索请求做出回应,而人平均每眨一次眼睛需要0.1秒
  • 自2003年到现在,Google搜索已解决4500亿个搜索请求
  • 用户每天搜索的关键词中,16-20%都是新的
  • 平均每个Google搜索关键词往返于用户电脑和数据中心的单程距离长达750英里
  • Google对搜索结果使用了包括“网页排名”在内的200多种排名指标
  • Google的索引库中收录了几十亿个网页,数据存储多达1亿GB
  • 截止目前,Google在搜索算法开发上投入的时间超过1000人工年
  • Google搜索覆盖的语言多达146种
  • Google搜索全球范围内拥有181个域名

 

责任编辑:yangsai 来源: 厂商投递
相关推荐

2011-12-07 10:31:36

Google新闻

2012-03-16 00:43:11

谷歌搜索

2012-06-19 09:53:55

Google数据

2013-08-14 11:14:20

开源Google

2012-09-29 13:18:38

2009-01-04 09:26:44

架构Google服务器

2010-02-23 16:00:21

Oracle数据库机

2012-05-27 20:15:24

三星

2013-07-30 12:29:19

Google App Google技术Engine

2009-12-09 09:25:27

Chrome浏览器Mac版

2022-09-29 10:25:01

数字孪生物联网

2011-04-15 17:43:15

Google App Google

2009-04-23 15:03:06

谷歌Chrome拉斯·巴克

2009-03-30 09:01:09

Python性能Unladen SwaGoogle

2011-12-12 09:46:46

2015-08-24 10:16:53

Google雷击技术架构 分布式UPS

2009-05-21 13:52:57

GoogleAndroid移动OS

2012-03-12 09:20:59

2009-09-18 12:32:28

Rasmus LerdPHP

2009-10-19 09:51:16

零宽带费
点赞
收藏

51CTO技术栈公众号