使用nutch检索的历程

开发 后端
最近开始做一个项目的搜索引擎,技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外,还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的,在系统中已经有了)。

最近开始做一个项目的搜索引擎,技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外,还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的,在系统中已经有了)。所以用爬虫爬完网站后,就想着再把结构化的数据通lucene的api写进nutch的索引中,最后通过多次尝试发现很难实现。虽然能将lucene建立的索引追加进到nutch的索引中,可是却很难读出来(有一款luke软件可以,可是想要赶紧完成项目,这个luke的源码没有时间来读)。

lucene是一个平面化的存储,一个索引就相当于数据库的一张表。而nutch的存储结构是hdfs存储系统,hadoop的分布式系统,索引里面写入了很多hadoop的数据,而且其中10个字段title/url/segment/host/site/content/anchor/boost/digest/tstamp业也不像原生的lucene索引的存放方式。多次尝试发现用lucene基础api读取nutch的索引很难实现。

最近才发现原来nutch的搜索应用中的一个的一个配置文件regex-urlfilter.txt ,里面默认在后台只爬取静态页面。所以导致我开始的想法。

知道这个以后好办了,修改后台和前台应用的配置文件,消除对php/jsp/xxAction.do等动态url的过滤:

方法如下:修改conf下面的2个文件regex-urlfilter.txt,crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

从而允许动态传参数的?=&等url的爬取。

换了个思路,省了不少事儿。nutch继续研究使用中

【相关文章】

责任编辑:金贺 来源: ITEYE博客
相关推荐

2014-11-19 14:48:58

Nutch爬虫Lucene

2010-06-07 15:07:24

nutch+hadoo

2009-02-06 17:18:47

LionbridgFalconStor飞康

2009-09-21 17:06:26

CakePHP模型检索数据

2010-07-09 10:36:22

SQL Server

2010-07-16 15:42:32

SQL Server

2010-05-04 12:18:43

Oracle Text

2012-03-14 11:38:16

ibmdw

2014-10-31 09:48:36

Go语言

2017-05-27 21:07:24

NFV网络功能虚拟化数据中心

2023-08-25 13:32:00

JavaScript虚拟DOM

2023-08-02 08:02:30

Redis数据原生方法

2016-11-14 10:00:29

hadooplinux大数据

2013-04-24 10:24:03

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2009-11-13 10:31:07

ADO.NET Dat

2010-11-01 06:38:03

Windows Ser

2009-01-05 10:06:24

草根站长网站心路历程

2013-09-11 14:00:16

Windows 8.1

2019-01-21 14:45:41

进程crash源码
点赞
收藏

51CTO技术栈公众号