很多人认为Google已经解决了搜索的问题,但是在Google看来搜索的发展才刚刚起步。如果说搜索是一本书,那Google才刚写完了开篇。10多年来,Google搜索一直在不断改进,通过数据驱动和实验评估等科学的方法不断完善搜索引擎。日前,Google工程总监斯科特•霍夫曼(Scott Huffman)介绍了Google算法改进背后的数字:Google已解决超过45000亿次搜索请求;在2011年进行了41931次必要性评估、9250次小规模试验、7363项在线实时实验,最终完成了520多项改进。
Google工程总监斯科特•霍夫曼(Scott Huffman)
当通过Google搜索信息时,用户并不是在对网页执行操作,而是在Google的网页索引中进行查找。Google旗下庞大的计算机群统称“Google机器人”,它由算法控制,抓取、浏览网络中的几十亿网页,并为其中的每一个词编写索引。当用户输入搜索请求后,机器便会在索引中搜索匹配网页,并将关联度最高的搜索结果呈现给用户。
Google致力于在最短的时间内为用户提供最为相关的搜索结果,这也是其对搜索算法不断改进的动力。Google对算法的改进通常有三个步骤,首先对每项改进做必要性评估,然后在全球不同地区进行小规模实验,之后随机挑选用户进行在线实时实验。在特定时间,Google针对搜索功能会进行50-200个在线实验。借助这些精准有序的科学方法,一个好的改进方案从构思到在Google.com上实施操作,最多只需24小时。2011年,Google进行了58000多项实验,并对搜索系统做出520多处改进。
通过这些实验,Google可以不断提升用户的搜索体验,诸如: 在搜索结果中剔除垃圾信息;根据用户需求改变搜索界面呈现的结果数量;相同词在不同地域搜索,呈现的结果不同。
同时,Google搜索算法进行了一系列重大改进,比如:
-
新鲜度算法调整:在某些情况下,Google需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索“奥运会”,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于1984年奥运会的陈旧信息。
-
优质网站算法调整:它对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名。
-
页面布局算法调整:这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度 ,提高信息容易被搜索到的网页的排名。
Google搜索背后的数字
-
Google通常只需0.25秒便可对搜索请求做出回应,而人平均每眨一次眼睛需要0.1秒
-
自2003年到现在,Google搜索已解决4500亿个搜索请求
-
用户每天搜索的关键词中,16-20%都是新的
-
平均每个Google搜索关键词往返于用户电脑和数据中心的单程距离长达750英里
-
Google对搜索结果使用了包括“网页排名”在内的200多种排名指标
-
Google的索引库中收录了几十亿个网页,数据存储多达1亿GB
-
截止目前,Google在搜索算法开发上投入的时间超过1000人工年
-
Google搜索覆盖的语言多达146种
-
Google搜索全球范围内拥有181个域名