Twitter、Facebook和国会图书馆等所有这些机构都有令人心烦意乱的大量的结构化和非结构化数据。这些数据必须做出索引并且能够快速搜索。在Twitter的案例中,每天要索引大约3亿条新信息。
因此,这种机构将进入尚未充分开发的开源软件搜索应用领域是不会让人感到意外的。这不仅是为了节省成本,而且是为了迅速地客户化和修改应用程序。此外,开源软件有一个活跃的社区,能够帮助解决相关的问题。
但是,企业用户如何呢?据市场研究公司Gartner称,在普通的企业,目前大约80%的信息是非结构化数据,如文本、电子邮件、博客和视频等。这个比例正在增长。所有这些数据都可能有价值。目前,每一个网站预计都会像互联网搜索引擎那样尽快地查询和制作相关的结果。Gartner分析师惠特·安德鲁斯(Whit Andrews)称,实际上,人们目前做的一切事情都需要搜索技术。每一个人都认为搜索功能将嵌入到一切事情中。
安德鲁斯补充说,现在,大多数机构的搜索能力都有限。这些搜索能力通常以SQL查询为基础或者以具体的格式或报告为基础。这种范例将很快被打破,因为大量的数据都非常大,并且在每周7天每天24小时的环境中迅速地出现。
***的搜索
各种规模的企业都在开始探索开源软件搜索应用以便初步了解其收集的结构化和非结构化数据。一个这种产品是位于加州圣马特奥市的Lucid Imagination软件公司开发的开源软件搜索平台Lucene Solr。
Black Duck Software旗下的开源软件咨询公司Olliance Group的高级经理格雷格·奥尔森(Greg Olson)称,对于开源软件搜索应用的兴趣是在三年前开始增强的。当时,我们看到创建了Lucid Imagination公司。这家公司是开源软件的一个商业性技术支持的来源。那是很好的指示器,表明了对这种服务的主流需求或者围绕类似Lucene的技术的解决方案的需求。
安德鲁斯称,Lucene是为大量使用搜索的人提供的。这是没有错误的。Lucene对于需要高级搜索产品或服务的人是非常重要的。它的典型用户是需要在技术应用中进行大规模搜索的人。那是使用Lucene的好地方。你需要能够搜索数量极大的东西。当一个内部网需要在下周四之前进行一次搜索的时候,你看不到使用Lucene的地方。
还有一些厂商提供基于同样的Lucene开源软件技术的轻型搜索工具。例如,搜索团队负责人Aye Thu称,在线零售商Zappos.com使用Lucene Solr驱动其每个月的6300万用户的查询。但是,这家公司在内部部署了Elasticsearch开源软件搜索引擎,用于非网站重要的系统或者非重要性能的服务。
许多其它搜索应用厂商最近已经被软件巨头收购,产生了其未来方向的问题。微软在2008年收购了搜索应用Fast Search & Transfer并且通过SharePoint使用这个技术。在2011年8月,惠普收购了英国的Autonomy。两年之后,甲骨文宣布计划收购Endeca。Endeca提供非结构化数据管理、网络商务和商务智能解决方案。
安德鲁斯称,虽然这些软件巨头都没有宣布它们将停止支持新收购的搜索引擎,但是,每一次你的技术提供商被收购,都会让你感到紧张,特别担心你是不是另一个技术提供商。
现在,剩下了Lucene Solr作为主要的独立的企业搜素平台。Lucene报告称,Lucene Solr软件每个月的下载量达到20至30万份。
EMC正在使用Lucene Solr为其关系数据库服务建立一个文本分析插件。EMC负责研发的高级主管George Chitouras称,如果你考察企业搜索行业,大多数老牌厂商或者被收购,或者被搁在一边。从我的观点看,最有增长势头的技术和成熟最快的技术是Lucene Solr技术。
Chitouras称,虽然EMC还没有把开源软件搜索功能用于自己的企业内部,但是,他看到几乎任何行业都在使用这个技术。任何大公司都使用信息检索,无论这个公司是做呼叫中心处理、客户关系管理、还是技术创新管理。
开源软件的选择
在2011年年中,在开源软件搜索领域的专家的支持下,Lucid Imagination为该企业发布了基于订阅的企业软件包LucidWorks。 目前,有100家企业客户使用这个产品。Lucid在2月份还发布了基于云的搜索即服务版的产品。
Lucid***执行官Paul Doscher认为,有三种需求推动机构使用企业开源软件搜索。***,人们要使用有效的搜索驱动其网站,但是,他们不想要搜索技术所需要的麻烦的基础设施、管理和维护。他说,LucidWorks连接到他们的网站,提取数据并且在搜索框中创建回应,其能力超过了他们现有的搜索技术。
第二,当大型企业要有一个沙箱以开发原型应用程序而又没有做这些事情的开发人员技术专长、基础设施或者硬件的时候,大型企业会转向开源软件搜索。
第三,企业会支持开源软件的选择,如果他们正在设法扩展他们目前拥有的数据价值的话。Doscher称,这种搜索即服务应用对于这些用户可能会有吸引力。同Salesforce.com提供的功能类似,Lucid的云应用允许用户获取在其SaaS应用中的信息,然后更有效地搜索这种信息或者把这个信息与企业中的其它信息或者网络上的其它信息结合在一起。你可以使用它作为一个应用开发平台去开发更丰富的和更有效的信息应用。
Lucid***科学家Grant Ingersoll还看到一些混合应用开源软件搜索的情况。他说,你在自己的数据中心内部配置你自己的应用,然后你把过剩的容量用于云支持的版本。
Doscher称,为了保持领先于竞争对手的地位,Lucid Imagination计划进入商务智能和数据仓库领域并且与大数据技术结合在一起。向这些领域使用开源软件搜索技术将缓解从太多的数据、不充分的索引和搜索能力中建立搜索的压力。
Doscher表示,企业未来存储的信息量将是惊人的。开源软件搜索技术将解决这个数据泛滥的问题。
Doscher称:“我认为谷歌已经为互联网做了这个事情。像我们这样的技术将通过帮助客户化企业内部信息为企业做这个事情。最终,你将能够在企业内部有自然语言的查询,接触到企业运行的所有不同的数据库、应用程序和ERP应用。这将允许人们得到与他们感兴趣的话题有关的即时的、实时信息。