【51CTO 5月9日外电头条】推特、Facebook和美国国会图书馆,这三大机构都拥有数量惊人的结构化数据和非结构化数据,而且必须快速地索引和搜索这些数据。就拿推特来说,它每天需要索引的新信息大约就有3亿则。
所以,也就难怪这些机构大胆涉足看似处女地的开源搜索应用软件领域,不仅是为了节省成本,还在于能够迅速定制和改动应用软件。此外,开源技术拥有活跃的社区,这有助于解决相关问题。
但是其他企业用户又怎样呢?据知名调研机构加特纳集团声称,如今一家典型企业中大约80%的信息是非结构化信息,包括各种文本、电子邮件、博客和视频,而这个比例在加大。所有这些数据可能蕴含着价值;如今每一个网站查询和提供相关结果的速度都应该与最优秀的互联网搜索引擎一样快。加特纳集团的分析师Whit Andrews说:“人们在如今从事的几乎每一项工作中都需要搜索技术。大家都认为搜索功能将会嵌入到各个方面。”
眼下,大多数企业的搜索功能非常有限,这些功能通常基于SQL查询或特定的表单或报告。他补充说:“这种模式很快难以为继,因为数据量实在太庞大了,数据量在24/7环境下在非常迅速地增加。”
重要的搜索功能
形形色色的企业都在开始探究开源搜索应用软件,以便了解自己收集的结构化数据和非结构化数据。Lucene Solr就是这样一款产品,这个开源搜索平台由总部设在加利福尼亚州圣马特奥的软件公司Lucid Imagination开发而成。
三年前,大家开始对开源搜索应用软件产生了浓厚的兴趣。Olliance Group 是一家开源咨询公司,也是Black Duck软件公司旗下的部门。高级主管Greg Olson说:“Lucid Imagination也就是在那个时候成立的,其初衷是为开源软件提供商业支持服务。这充分表明了主流用户需要围绕像Lucene这些新技术的服务或解决方案。”
Andrews表示,毫无疑问,Lucene面向大量使用搜索的用户。“Lucene对于需要一款非常高级的搜索解决方案或产品的人来说很重要。其典型的用户是需要大规模应用技术的厂商。这是使用Lucene的合适环境——你需要能够搜索海量的信息。你不会看到Lucene用于内联网在下周四之前需要搜索的场合。”
另外几家厂商提供较轻量级的搜索工具,它们基于同样的Lucene开源技术。比如说,在线零售商Zappos.com就使用Lucene Solr,支持每个月多达6300万次的客户查询。但是在内部,这家公司部署了开源搜索引擎Elasticsearch,“用于非网站关键系统或不受性能限制的服务,”搜索团队负责人Aye Thu如是说。
其他许多搜索应用软件开发商最近已被软件巨擘们收购,这就让人对它们的未来方向打上了问号。2008年,微软收购了搜索应用软件Fast Search & Transfer,并且通过SharePoint供用户使用。2011年8月,惠普收购了总部设在英国的Autonomy公司;两个月后,甲骨文宣布计划收购Endeca,这家公司提供非结构化数据管理、互联网商务和商业智能解决方案。
尽管这些软件巨擘还没有一个表明会停止支持刚收购的搜索引擎,但是“一旦你的技术提供商被另一家公司收购,你就会惴惴不安——如果你是另一家技术提供商,更是紧张不安,”Andrews说。
眼下,这使得Lucene Solr成为首屈一指的独立企业搜索平台。Lucid声称,Lucene Solr每月的下载量达到了200000份至300000份。
EMC正在借助Lucene Solr为其关系数据库解决方案开发一款文本分析附件。EMC的研究主开发高级主管George Chitouras说:“如果你看一下企业搜索行业,就会发现大多数传统厂商不是被收购,就是无人问津。在我看来,眼下发展势头最强劲、国家队迅速趋于成熟的技术就是Lucene Solr的技术。”
尽管EMC还没有把开源搜索功能搬入到其自己的企业,但是Chitouras表示,他发现这项技术在几乎任何行业都有广泛的应用。他说:“任何大公司都可用于信息检索,无论它是在进行呼叫中心处理、客户关系管理还是创新管理。”
开源方案
2011年年中,Lucid Imagination公司向企业用户发布了LucidWorks,这款基于订购模式的企业级软件包得到了开源搜索专家们的支持。如今,100家企业客户在使用该产品。Lucid在今年2月还发布了一个基于云计算、搜索即服务的版本。
Lucid首席执行官Paul Doscher认为,三种需求在促使众多机构使用企业开源搜索产品。他说,首先,“人们想要使用高效的搜索技术来支撑自己的网站,但是他们又不想为高效搜索技术的基础设施、管理和维护而操心。”LucidWorks连接至他们的网站,检索数据,在搜索框中提供响应结果,“这种能力要比他们现有的功能高级得多,”Doscher补充说。
其次,大企业想要有一个沙箱(sandbox)来开发原型应用软件,但又没有相应的开发专长、基础设施或硬件时,纷纷求助于开源搜索技术。
第三,如果公司企业试图进一步挖掘目前拥有的数据的价值,可能会积极采用开源方案。Doscher表示,搜索即服务应用软件可能会吸引这些用户。与Salesforce.com提供的应用软件相似的是,Lucid的云计算应用软件也让用户可以搜索其软件即服务(SaaS)应用软件中的信息,然后更高效地搜索信息,或者将其与企业里面或外面网上的其他信息整合起来。Doscher说:“它可以作为应用开发平台来使用,以便开发更丰富、更高效的信息应用软件。”
Lucid的首席科学家Grant Ingersoll还认为开源搜索技术有一些混合用途。他说:“你可以在自己的数据中心内部提供自己的应用软件,但是之后可以把过多的功能提供给云环境支持的应用软件。”
Doscher表示,为了领先竞争对手,Lucid Imagination打算进军商业智能和数据仓库领域,并且能够与大数据技术集成起来。他说:“在一些情况下,如果你把传统的数据仓库或商业智能这类应用软件搭建到Hadoop软件平台上,这简直好比拿来一只井盖后,硬塞到花园浇水用的软管里头。”将开源搜索技术运用到这些方面,有望减轻海量数据以及索引和搜索功能不够强大带来的压力。
Doscher说,将来,企业存储的信息量“会多得吓人”。开源搜索技术将有望应对信息泛滥这种情况。
Doscher说:“我认为,正如谷歌的搜索技术给互联网带来巨变那样,像我们这样的技术会给企业带来巨变,因为有助于使企业里面的信息消费化。最终,你将来能够在企业里面执行自然语言查询,可以适用于企业运行的所有不同的数据库、应用软件和企业资源规划(ERP)系统。这将让人们可以针对感兴趣的话题,立即获得整合的、上下文相关的实时信息。”
原文: Open source search applications move toward the enterprise
【编辑推荐】