搜狗输入法的前世今生

系统
“刚开始做输入法的时候,我们不敢想象它会成为一款有3 亿用户规模的产品。应该说,目前搜狗输入法的成绩远超当时的预期”,搜狗桌面事业部总经理杨洪涛坦陈。那么,为什么只有搜狗做成了输入法?

如今,在所有的中文文字软件当中,搜狗输入法无疑是最成功的产品。搜狗输入法究竟有多成功?一组数据可以说明:用户量超过3 亿,市场份额80%以上,80000 多款输入法皮肤,104 项专利(其中国际专利超过10 项)。

“刚开始做输入法的时候,我们不敢想象它会成为一款有3 亿用户规模的产品。应该说,目前搜狗输入法的成绩远超当时的预期”,搜狗桌面事业部总经理杨洪涛坦陈。那么,为什么只有搜狗做成了输入法?

“不靠谱”的创意

“当时决定做搜狗输入法的原因其实很简单,并没有公司高层的战略规划之类的因素。当时搜狗缺少项目,我们把这个项目报了上去,上面批了,然后就做了搜狗输入法。”

搜狗输入法的创意其实来自互联网之外。2005年,本科刚毕业、在太原一家国企做机械设计的马占凯发现了一种“省力”的中文输入方法:只要在搜索框里输入相应的拼音(比如zhoujielun),获得搜索引擎相应的提示(“您要找的是不是:周杰伦”),复制粘贴过来即可。由此,他产生了一个大胆的想法:用搜索引擎做输入法。

接下来,马占凯给国内做搜索引擎的公司逐一发送电子邮件,提出了“搜索+输入法”这个创意,最后却都石沉大海,只有搜狗接纳了他,不过也不是因为输入法。当时的搜狗仍然专注于搜索,而马占凯在电子邮件中对搜狗搜索提出了很多产品细节的改进建议,引起了搜狗的重视。

在2005 年,谁还会想到进入输入法领域呢?早在上世纪九十年代,微软就相继收购了智能ABC 并开发微软拼音,捆绑在Windows 操作系统(中文版)之中。此后还有一些来自个人程序员的作品。到了此时,市场格局已定,智能ABC、紫光拼音、拼音加加和微软拼音占据了90%的市场份额。

进入搜狗的马占凯一开始被分到了搜索项目组,但是他并没有忘记当初的构想,一有机会就去游说搜狗的高层,最后说服了当时的负责人王建军和王小川。

此前,身为搜狐研发中心的搜狗团队虽然拥有搜狐最主要的研发力量,却一直没有机会在市场上证明自己的价值。作为搜索行业的后来者,搜狗想在百度、谷歌领先的情况下获得重大突围几乎没有可能。搜狗还先后做过工具条、音乐客户端等产品,但都没有成功。

输入法对于搜索业务是否会有促进?杨洪涛透露:“当时的设想是在输入法上放个搜索框,或者按个快捷键去搜索,希望通过这种方式给搜索带来流量。”事后证明,这个设想不靠谱。不过,就是因为这个“不靠谱”的想法,搜狗输入法项目才得以批准。

靠谱的产品

输入法立项之后,一开始的想法是收购当时广受用户好评的紫光拼音,结果却没有谈成。这样一来,搜狗只能从最基础的阶段开始自主研发。如果当时收购紫光成功,如果一开始只是把输入法当成流量来源而不是战略级产品,也许第一件事情就是想办法把紫光的用户转变成搜狗搜索的用户。这样,搜狗也就不可能从最基础的阶段做研发,输入法也不太可能转变成搜狗的战略级产品。

一开始,搜狗输入法的研发人员并不多,第一年只有几个人专职参与,但同时复用了搜狗搜索的技术积累。当时在清华大学人工智能实验室读博士的杨磊成了搜狗输入法项目的第一批研发人员。

事实上,最开始做输入法的时候,杨磊的心里相当没谱——输入法这种基础产品如何才能做好?直到设计出最初的语言模型之后,他才第一次体会到了其中的妙趣。

与其他输入法不同,搜狗输入法是第一款为互联网而生的输入法——它通过搜索引擎技术,将互联网变成了一个巨大的“活”词库。网民们不仅仅只是词库的使用者,同时也是词库的生产者。正是由于互联网的思维方式,使得搜狗输入法得以后来居上。

“我随意在网上找了一篇新闻,然后用搜狗输入法对着敲了一遍,几乎没有错别字,当时就给我一个特别震撼的感觉。”杨磊回忆道。当时正值超级女声最火的时候,最流行的关键词是“李宇春”和“张靓颖”。“以往的输入法都打不出这些词,我们把互联网词库引入之后,这个问题就解决了。”

搜狗输入法正式推出的时间是2006 年6 月5 日,过了4 天,德国世界杯就开幕了。一时间,伴随着网民的热议,罗纳尔多、齐达内、巴拉克、格罗索等足球明星的名字都进入了搜狗词库。这些热点事件和热词进一步提升了搜狗输入法的口碑,并在网民中传播了开来。#p#

 

持续的改进

一个互联网产品要取得成功,好的开始固然重要,持续的改进更为重要。当然,这个过程非常艰难。在解决了最核心的互联网词库和中文语言模型问题之后,最令人抓狂的就是如何提升搜狗输入法在Windows 下的兼容稳定性。作为美国人开发的操作系统,当时的Windows 对整个东亚语言的开发支持都不够完善。“跟其他应用软件不一样,输入法需要与很多第三方软件打交道,如果兼容性差不仅会直接导致软件崩溃,甚至会造成系统宕机。”杨洪涛说,“当时微软开发文档中对输入法相关的接口描述很不清晰,也欠缺标准。我们好通过逆向工程,不断分析、摸索和试错,逐渐找到了过河的道路。”

另一方面,虽然互联网上内容丰富,但是却是鱼龙混杂。网友在发布内容时有意无意地会写出很多错别字,而搜索引擎把这些内容抓取之后,如果不加筛选地放入词库,就会产生大量的错误词语,错音错型的尤其多。

为了解决这个问题,除了技术手段之外,很多时候只能通过人工鉴别的办法来解决。为此,搜狗专门请了北大中文系毕业的刘媛尊带队整理词库,把几十万个词条一个个进行人工审阅和校对。

这个工作从2006 年底开始,一直进行了3 个月,一本《现代汉语词典》被她翻了不知道有多少遍。“基本上所有的词条我都打了一遍,当时最大的感觉就是如果再有机会加高考,语文试卷的错字识别我肯定轻松拿下。”刘媛尊回忆道,“记得当时我们建了一个邮件列表,每天发送错词更新,就像非典时期的病例报告一样。一开始错词的数量每天有一百多个,到后来减少到了几十个、十几个、几个。”就是凭着这股愚公移山的精神,所有的词条都被人工过滤了一遍。直到有一天,他们发现邮件列表里已经连续一个星期都没有发现错误的时候,才知道自己竟然把这个不可能完成的任务完成了。

“帮忙”的谷歌

此时,互联网巨人谷歌竟然也看上了输入法这个极其中国化的领域,希望将其打造成谷歌本地化的一个标志性产品。

搜狗推出输入法后不久,谷歌也启动了输入法的开发。对于一款软件产品来说,这个时间差并不能构成太大的领先优势,更何况对手还是谷歌这个互联网巨头。

2007 年4 月4 日,谷歌拼音输入法正式上线。不过,搜狗很快就发现,谷歌输入法涉嫌盗用搜狗输入法词库。随后,搜狗公布了双方拼音输入法的一些词库重词,不仅一些错词一模一样,谷歌输入法词库中竟然还出现了搜狗开发团队的一些生僻名字。很快,各家媒体都对“谷歌盗用搜狗词库”进行口诛笔伐,网民更是铺天盖地质疑号称“不作恶”的谷歌;4 月9 日,谷歌不得不在官方博客上向搜狗公开道歉。

通过这次事件,搜狗输入法一时间吸引了全社会的目光,得以声名鹊起。而对于搜狗来说,更重要的收获就是搜狐决策层对输入法的重视程度比以往高出了不少,不仅投入增加了好几倍,还将输入法上升到了公司战略级产品的高度。

通过这件事情,搜狗也更加重视知识产权的保护工作。在此之前,搜狗已经成立了专利工作组。谷歌侵权事件之后,搜狗加强了专利的申报工作。如今,搜狗输入法已经向国家知识产权局申报了100 多项的专利,其中还有超过10 项的国际专利。这些专利已经构成了强大的竞争壁垒,使得竞争对手难以超越。

发现“量子理论”

不过,当时刚刚推出中文输入法一年的搜狗却发现自己陷入了“叫好不叫座”的困境。虽然用过搜狗输入法的用户都在交口称赞,甚至还有人上门送锦旗,但是搜狗输入法的用户拓展却并不理想。一年过去了,虽然动用了搜狐首页的广告资源,加上各种媒体的宣传,搜狗输入法的市场份额仍然只有可怜的2%。

这也让搜狗研发负责人王小川(现任搜狗首席执行官)感到非常疑惑:明明是一个非常好的产品,搜狐也在很努力地使用各种资源做推广,为什么却没有用户?整个2007 年,这件事情都给王小川带来了非常大的困扰。“这件事的意义对于我来说就像发现量子理论一样,世界的模式突然跟你想的不一样了,颠覆你之前的价值观。”

最终,王小川决定换一种思维方式。在得到搜狐董事长张朝阳的特批之后,王小川开始在搜狗这个“纯”产品和研发部门组建商务团队,而且不再选择搜狐首页,而是去下载站、装机光盘和各种能想到的渠道做推广。今天,到外面买流量,用各种方法做推广大家会觉得很正常,但是在当时的搜狐,这么做甚至可以说是“政治”错误。

但是当时已经没了退路。本来输入法在搜狐内部就不是核心业务,如果再不能折腾出点动静,这块业务的结局可想而知。正所谓置之死地而后生,放开了手脚的搜狗仅仅用了半年的时间,就证明了这条道路是走得通的。2008 年,搜狗输入法的市场份额从2%飙升到了40%;而到了2009 年,这个数字变成了70%!

更重要的是,搜狗颠覆了搜狐的传统观念,给搜狐普及了“渠道”的概念。通过这次事件,王小川也意识到,技术产品型的搜狗要在媒体属性的搜狐内部取得大的发展,需要突破太多有形和无形的阻碍,这也更加坚定了他的决心,从而有了2010年搜狗的独立运营。#p#

相信未来

到了2009 年,已经在中文输入法占据了压倒性优势的搜狗并没有停下创新的脚步,又开始了新的尝试。

对于输入法来说,最困难的其实是语言模型,要想让输入法进一步提升准确率,更加智能地帮助用户输入成语、诗词等生僻词甚至长句,就必须有一个更大的词库和更复杂的计算。当时搜狗输入法存储在电脑本地的词库大约有45 万个词条,如果进一步增加词条,就会消耗大量的本地计算和存储资源。这个现实的问题也让搜狗的技术团队抓狂:如何在不增加太多本地资源的基础上,进一步提高输入法的准确率?

由此,云输入法诞生了。大量的词条不用再存放在本地计算机上,而是放在了云端,用户在联网的条件下可以直接调用云端词库,从而进一步提升准确率。这已经很接近搜索引擎的工作原理,而且将云端服务和本地软件的能力有效地结合了起来。

更多基于输入法的新功能也在不断地推出。搜狗技术团队发现,输入法是电脑中与用户交流最为频繁的软件之一,除了帮助用户打字之外,它还能够做些什么?

第一个被反复提及的功能就是皮肤。在搜狗输入法诞生的那个年代里,各种软件花花绿绿的皮肤一直是最受大众用户追捧的基本功能。搜狗开发团队敏锐地捕捉到了这个需求,在2007 年初发布的3.0 版本中增添了便利的皮肤功能和皮肤编辑器,以超前的开放姿态建立了分享平台,鼓励广大网友制作并分享独特的输入法皮肤。如今,每天超过5000 万用户正在使用广大热心网友制作的超过8 万款各式各样的皮肤,其中像杨幂等明星皮肤的使用量更是达到了数百万。

2011 年,搜狗开发团队又看到了新的发展方向,首次尝试了基于Flash 的动态皮肤。与传统静态皮肤不同的是,这种基于Flash 的皮肤不仅能满足用户美化桌面、彰显个性的基本需求,还能够通过与云端服务器的交互,进一步实现更丰富、更具创造力的功能。由此,搜狗输入法已经超越了文字工具的概念,成为互联网时代独特的文化现象。

在“开放共赢”的理念之下,搜狗的Flash 皮肤为众多第三方合作伙伴提供了一个难得的平台。如今,搜狗输入法已经发展了将近200 家合作伙伴,为互联网提供了琳琅满目、丰富多彩的应用,星座、电台、天气预报、背单词,应有尽有。可以想见,凭借搜狗的创新技术,结合语音识别、动作捕捉等前端技术的发展,未来的搜狗输入法一定会更加耀眼。

“我特别欣赏乔布斯对于信仰的坚持。他说过,‘只有信仰让我不会失去希望,它让我的人生变得与众不同’。当年我们刚开始做搜狗输入法的时候,不敢想像会有今天的规模。”杨洪涛感叹道,“但是,现在当我们回顾的时候,才发现正是由于搜狗重视创新和用户体验,坚持下来成果就非常可观了。那一系列的偶然,其实都是一种必然。”

是的,只要肯坚持,成功就会成为必然。

搜狗输入法的主要贡献者:

马占凯 搜狗输入法产品理念的提出者

杨磊 原搜狗输入法首位开发者,现任部门经理

王建军 原搜狐副总裁及搜狗负责人

王小川 原搜狗研发负责人,现任搜狗CEO

杨洪涛 原搜狗技术经理,现任搜狗桌面事业部总经理

刘媛尊 原搜狗输入法词库审核负责人,现任运营主管

郭奇 原搜狗研究团队主管,负责输入法的词库和语言模型

感谢所有为搜狗输入法做出了贡献的人们!

责任编辑:张浩 来源: 信息早报
相关推荐

2013-09-18 10:44:01

搜狗输入法词语

2010-03-25 13:19:17

云计算

2020-03-09 08:54:01

搜狗百度输入法

2011-05-31 15:36:34

TCL搜狗手机输入法

2015-04-14 11:01:23

搜狗手机输入法

2018-10-10 14:00:51

搜索

2023-08-14 07:36:58

搜狗拼音加密

2013-09-16 13:05:47

搜狗手机输入法

2013-06-06 18:05:58

搜狗输入法隐私泄露robots协议

2012-05-31 17:41:02

搜狗超级输入法

2009-11-26 10:52:55

LinuxChrome OS

2015-04-24 15:24:39

搜狗手机输入法

2018-08-09 10:59:33

搜狗

2015-03-26 14:06:30

搜狗手机输入法颜文字

2015-02-10 17:51:27

搜狗输入法iPhone版V2.1

2013-06-07 15:59:41

2013-06-07 15:06:26

搜狗输入法泄露用户隐私必应

2017-03-30 10:09:01

互联网

2012-02-17 18:16:33

搜狗输入法

2018-08-22 11:42:36

搜狗
点赞
收藏

51CTO技术栈公众号