最近保持每天浏览2,3个新的创业网站的习惯。在这个过程中,我注意到一个现象,社会化搜索(Social Search)这个关键字多次出现,关于Social Search, google 上有1.8亿个网页的搜索结果。也有超过40个网站号称自己是社会化搜索 – 我想如果国内的业内人士注意到这个并且开始拷贝的话,这个数字应该是400 个。此外,在百度搜索“社会化搜索”,结果大约只有一百万个(2009年3月)。所以有必要做一点稍微深入的研究。
首先,需要定义社会化搜索 (social search)。
在Wiki里有这样的定义:“Social searchor a social search engine is a type of web search method that determines the relevance of search results by considering the interactions or contributions of users” – 社会化搜索或者社会化搜索引擎是搜索结果考虑用户的交互性和贡献的一种网站搜索方法。
在百度百科里,对社会化搜索也有说明,但是基本算离题万里的胡说八道。读者可以自己点这里去看看。
当然,关于搜索我们不能忽略来自Google 的意见。这些意见大多来自著名的美女副总裁 --- Marissa Mayer。其中最著名的有两份,一份来自 VentureBeat 的2008年1月的访谈,标题是“社会化搜索就是未来”,一份是2008年9月10日GOOGLE的名为“搜索的未来”的官方BLOG。中文版可以点这里。
在这些资料中,MM对社会化搜索的定义更加宽泛:“We believe social search is any search aided by a social interaction or a social connection…”我们相信社会化搜索是任何运用社会性交互和联系来协助的搜索。
Wiki 的定义比较准确,但仍然没有足够考虑到社会化的因素。也许我们可以把它们合在一起,定义社会化搜索如下:
社会化搜索是指考虑了社会化因素例如交互,联系,用户行为模式等的网络搜索方法。
社会化搜索的概念,起始于2004年,但是真的被重视和发展,是从2008年开始的。以这个美女副总裁自己为例:2007年8月,她说,还没有看到社会化搜索的前景;2008年1月,开始说 社会化搜索就是未来;而08年9月,更发表了正式的搜索的未来的官方博客。
你可以喜欢任何颜色,但我们只提供黑色的车 -- 福特
搜索引擎大致可以划分为三个阶段:
l 纯粹的机器算法阶段:这个阶段可以上溯到YAHOO的第一个目录,而Google 的PR,虽然有据说超过200 个参数 – 比如链接数目,域名注册时间等--的加权调整,目前能提供给用户的搜索答案,仍然是千人一面的结果。无论你是非洲的黑人小孩,还是纽约的白人老头。
l 基于用户的算法(user-based)优化:在这个阶段,用户的参与被加入考虑。运用的技术包括,专家打分,多用户投票,META-TAG,点击跟踪技术等等。基本的思路是,用户参与决定哪些搜索结果比较重要。类似的尝试是Google+Digg. 很遗憾,搜索结果还是统一的唯一结果。而且还有一个问题:最热门的答案,一定就是最准确的吗?
l 个性化的搜索 (Subjective):每一个用户,获得不同的搜索结果。而社会化搜索,是其中的一个方向。这个个性化,可以来自如下的信息:
n 该用户的个体搜索历史 – 可以从Cookie 获得
n 该用户的行为,兴趣模式 – 可以从社会化网络获得
n 用户自己提供的兴趣 – 用户自己提供
在福特汽车的黑T时代,老福特可以只提供黑色的车。但是在门槛很低互联网上,只提供黑色车的商业环境,正在被挑战。就算Google 自己,也在致力于社会化搜索的研究。Google 也在广告系统中开始试验Cookie 和用户自己提供信息的办法。
从5W 说起
如果我们借用新闻的5W 概念,也许可以推导出后面的一个 HOW。
和目前所有人面对同一搜索结果相比,个性化的搜索需要搜索的结果来源于如下的信息:
l WHO:搜索引擎开始试图理解屏幕前输入查询关键字的用户是怎样的人。或者叫市场细分。一个期货商搜索“天气”和天文学家搜索“天气”,背后关注的兴趣点显然不同。而这个社会身份的认定,来自于个人的网络行为模式,搜索历史和他参与,联系的网络人群。
在这里这个WHO,往往还具备了一个社会人的很多属性。或者可以用消费者细分的几个纬度来进行区隔。这些纬度包括:种族,文化,亚文化,职业,年龄,性格,消费习惯等等。而很多信息,都可以从其它途径例如FACEBOOK 里的好友,个人信息等获得。
l WHEN: 很遗憾,目前的搜索结果是按照相关性排列的,而时间戳的问题一直没有解决。我们知道,网络广告已经可以提供按不同时间显示不同内容的服务了。但是在搜索结果上,如何做到与时俱进,还有待考虑。
l WHERE: 虽然有很多本地搜索和生活型网站的出现,但如果搜索引擎能从IP 所在地,提供更相关的搜索结果,对相当多搜索者,是有用的。-- 百度前 CTO 说,本地搜索大约是搜索总量的40% 。
l WHY: 搜索是为了获得答案。目前的基于分词匹配技术的算法,不能理解问题背后的原因。换言之,不能理解“需求背后的需求”。在搜索引擎的发展方向上,语义理解或者说自然语言搜索一直是一个重要分支,但是进展不大,比较有名的是Powerset。社会化搜索,一般可以从who来推导这个why, 也有直接绕过文本分词匹配的一些尝试。