RSS解析器MagpieRSS笔记-rss?

MagpieRSS是一个不错的RSS抓取/解析工具，我本来打算自己写一个php的RSS解析工具，不过试了一下MagpieRSS，觉得还不错，能满足需要。

顺便看了看代码，记点笔记。

1.乱码问题

MagpieRSS过去时常出现乱码问题，从0.7版本解决了这个问题

Version0.7

support for input and output charset encoding

based on the work in FoF，uses iconv or mbstring if available

0.7之后的版本可以指定输入和输出字符编码，然后使用iconv或mbstring函数进行编码转换。这个工作在create_parser函数里面完成的，如果两个函数都不存在，可以在RSS_fetch.inc中让MAGPIE_DETECT_ENCODING为false，不检测和转换编码，否则就会出错。

一切正常的情况下，把RSS_fetch.inc中MAGPIE_OUTPUT_ENCODING定义成你需要的输出编码，比如UTF-8：define(‘MAGPIE_OUTPUT_ENCODING’，‘UTF-8’)；就可以获得正确的输出结果了。

2.抓取方法

MagpieRSS用了Snoopy作为http客户端来抓取RSS。这个库比较完善，支持https，支持gzip。

需要注意的是，Snoopy用exec命令调用curl，然后返回结果，而不是使用编译进php的curl函数。默认的路径是“/usr/bin/curl”，如果这里没有curl或是没有执行权限，就可能失败。不过只有https需要用到curl，普通的http访问是用fsockopen的。

同时，Snoopy可以使用代理服务器，但是MagpieRSS没有使用，如果需要可以在RSS_fetch.inc中的_fetch_remote_file函数里面添加$client->proxy_host和$client->proxy_port。

3.缓存

MagpieRSS设置了一个默认3600秒超时的缓存。在./cache下放了一堆文件，文件名是md5之后的url+MAGPIE_OUTPUT_ENCODING，格式是php的serialize。

所以cache目录要可写。超时时间在RSS_cache.inc的var$MAX_AGE=3600；这行设置，也可以在创建cache对象的时候设置。

综合起来，这个库还是不错的，优点很多，也考虑了主机的各种情况，兼容性很好。函数形式的接口，很容易调用。不过应该先用head来取RSS的http header，根据Etag来判断是否抓整个页面回来，这样效率还能再有提高。这个改动之后，cache就可以存在更长的时间，而不是一个固定的3600秒。同时我比较想把文章保存起来，以便以后用，这就需要数据库了。

我将来应该会基于这个东西发布一个新版本，把我想要的功能加进来。

【编辑推荐】