汤森路透德温特世界专利索引(Derwent World Patents Index)的报告称,到2015年,来自中国的专利申请数量预计将达到近50万件,紧随其后的是美国和日本,分别将达到40万件和大约30万件。
汤森路透的数据显示,2006年至2010年,来自中国专利办公室的申请数量从17.1万件增至近31.4万件,平均每年增长16.7%。
在此期间,日本的国际专利申请量居世界***,之后依次为美国、中国、韩国和欧洲。
在中国提交所有的专利申请中,国内申请所占比例从2006年的不到52%升至2010年的近73%,说明中国企业在专利高潮中已超过了外国企业。
根据世界知识产权办公室(WIPO)的数据,中国企业提交的海外专利申请数量也在不断增加。
2010年,中国第二大电信设备制造商中兴通讯(ZTE)的国际专利申请量居世界第二,仅次于日本的松下公司。
美国芯片制造商高通公司(QCOM)排名第三,中国华为技术有限公司排名第四。
由此可见,专利信息数据量与日俱增,从几千万到几个亿,其中中文专利就有300多万件,数据空间容量几百GB;系统对检索性能要求高,在数百并发请求的压力下要求95%的检索在1秒内完成,98%的检索请求在3秒内完成响应;数据结构复杂,包含著录项、代码化全文数据XML等,同时有些专利还附有图形说明书,包括TIFF图、PDF文件,物化视图和虚拟库势力,包括和虚拟库实例;排序结果智能处理要求高,要求查准和接近100%查全、丰富的概览和详览展示、检索结果分类统计等。
长期以来,对于海量专利数据的处理一直为国外企业所垄断,如美国汤姆森科技,韩国WIPS等跨国集团。为了贯彻我国知识产权战略,摆脱长期依赖国外专利技术系统的局面,实现专利检索和分析系统的自主建设和自主发展,我国在知识产权保护和管理方面正在积极发展与探索着,但同时也面临着十分严峻的挑战。
我国在知识产权信息化服务中,对于专利数据的挖掘分析涉及到海量文本挖掘、信息检索、信息可视化等技术的通常做法是:采用文本挖掘对海量专利文本进行信息的抽取;采用语义检索筛选专利;采用信息可视化技术对分析结果进行输出。这些环节需要大量的数学运算,属于典型的计算密集型业务,只有通过高性能计算集群才能保证任务的完成周期。关键问题包括:如何利用现有的先进技术,组织和管理中国专利文献,如何为专利审查员和专利申请人提供高效、快捷的专利文献全文检索和分析机制。
专利信息量的迅速增长以及查询的复杂化,使传统的分析检索系统已不能满足对数据进行深层次多维度分析的要求,因此需要建设能够处理海量非结构化信息的、高度智能化的专利分析解决方案,通过对专利信息进行多维分析处理,从而将分析结果以多维视图的方式展现给决策者。
云计算高速并行的计算能力为我国知识产权信息化服务机构提供了新的契机。它将帮助这些服务机构建立基于多种索引模式和知识词典的全文检索、提供自然语言检索和相似性检索、专利群族等全方位智能检索,甚至可以提供更多更精确的分类检索、表格检索、表达式检索、英文词根检索、跨语言的专利查询、专利文献的复杂单元(化学表达式和数学表达式)检索,各项检索都支持二次检索、同义词检索等,并可以将检索结果作为检索历史保留,等等。
云计算的***要素是信息。信息技术的发展,是一个从信息匾乏到信息无处不在的过程,我们经历了以系统为中心的集中处理阶段,以PC为中心的分布处理阶段,以网络为中心的信息分享阶段,到现在能随时随地存取的云计算阶段。面对云计算对信息收集、处理产生的巨大影响,知识产权信息服务机构需要对云计算创新服务模式进行尝试,直到完全适应,并发挥更大效能。
1、基于云计算的数据组织、管理方式。
不断增长的海量数据,只有被充分组织、管理和利用才能发挥其真正的价值。在传统的网络环境下,信息资源的组织方式一般分为四种方式:即文件方式、数据库方式、主题树方式、超媒体方式。而文件方式本身可看作信息单元,需要作为对象来管理,所以很难在网络信息载体中广泛被使用,但运用云计算,用户数据都存储于服务器中,软硬件服务也都由云提供,这样对于存储于网络中的用户个人数据,或部分用户数据,使用这种简单方便的存储非结构化信息的天然单位的文件方式存储数据,是***的解决方案。这也会带动目前普遍的数据库方式改革以克服其不能提供数据信息之间的知识关联和对用户和数据库服务端要求较高的缺点。
2、实现基于云计算的知识产权检索、分析的系统布署。
由于用户的信息需求千差万别,并且随时间的变化而动态变化,向用户提供满意的知识产权信息服务是很不容易的。为此,在信息服务活动中需要遵循针对性原则、及时性原则、易用性原则一、成本效益原则。对于云计算来说,深层次信息服务也是其最终目的。在云环境下,需要基于工程文献基础数据,综合云的特征,高效开展集成检索、定题服务、情报分析、决策参考等深度服务。
著名的穆尔斯(Mooers )定律: 一个情报检索系统如果对用户来说,取得情报比不取得情报更伤脑筋和麻烦的话,用户就会倾向于不使用该系统。Dialog 信息检索服务的名誉主席Roger K. Summit 则以另一种方式对此进行了表述:“穆尔斯定律告诉我们信息的使用与获得信息的容易程度成正比。”信息用户总是希望信息系统越便于使用越好,越是简便易用的信息系统,用户使用的频率也越高。反之,则很少有用户去使用。云服务由于整合了大量的一手的用户的数据和信息,使得用户通过非正规渠道查找所需要的信息比以往更加便利。
检索系统的好坏、使用是否方便,不仅要看系统本身能否实现用户的预期目的,另一个关键在于系统的硬件部署是否可以满足大数据量访问的要求。
基于云计算的知识产权检索、分析系统,其优越在于:
(1)更低成本
传统的存储均采用SAN和NAS结构,尤其是SAN,硬件设备相对昂贵的多,而云存储系统中不仅采用廉价的大容量存储服务节点和网络设备构成存储平台,而且通过系统软件实现统一管理和容错机制,就可以提供高效、稳定服务,在同样容量和性能的条件下,可以将系统构建成本节省5-10倍以上,并且规模越大,价格优势越明显。
(2)优异性能
可以支持高并发、带宽饱和利用,数据在多个节点上并行读写,服务器自动均衡负载,系统性能随节点数增加而线性增长,性能与节点规模成正比,没有性能瓶颈,可提供2GB/s以上的单点访问性能。
(3)高度可靠
元数据服务器主备双机镜像热备份,主元数据服务器宕机后,备元数据服务器能自动接替主元数据服务器工作,且不丢失数据;操作日志本地持久化保存;块位置副本信息分布在块数据服务器上,启动注册时生成。元数据日志多机冷备份,防止主备元数据服务器同时损毁的情况;可根据元数据日志恢复元数据。
采用高可靠的冗余编解码机制,支持多重数据保护,根据数据需求可灵活设置备份方式(如8+2方式、4+2方式),自动屏蔽故障,提供24×30×365小时不间断存储服务;任意节点出现故障,系统将会自动根据节点情况,依据编解码方案恢复原数据。这样,在节点发生故障的情况下,也可以实现数据的无间断服务。
(4)无限容量
可支撑的容量接近无限,理论容量为1024×1024×1024 PB (1G个PB容量);
(5)在线伸缩
在不停止服务的情况下,根据存储容量的需求,动态加入新的存储节点,无需任何操作,即实现系统容量从TB级平滑扩展到PB级,能够根据客户端的数目动态的提高存储系统的访问性能要求。
国内已有企业研究出了***实现以上所有性能的超低功耗PB云存储系统,不仅使系统超高密度和超低功耗得到优化,而且采用了冗余备份机制,保障用户数据的安全可靠性,更智能便捷的使用模式将极大程度的满足用户的数据访问、存储、处理要求,恰恰满足知识产权信息利用的大数据处理要求。
云计算作为新兴产业浪潮的重要驱动力,必将在发展进程中对我国经济和社会产业广泛深远的影响。通过高效处理海量数据的机制,推动中国信息化建设进程,提高资源利用率,减少人力资源浪费和能源功耗。基于云计算的知识产权信息服务的研究,将打破长期以来依赖国外专利技术系统的局面,为实现专利检索和分析系统的自主建设和自主发展,提供更广阔的思路和发展空间。