Squid对动态页面Cache的相关须知

系统 Linux
本文概述了Squid对动态页面进行cache的时候需要考虑的方面。因为通常session都是用cookie实现,启动一个session意味着服务器会发送一个Set-Cookie的HTTP头,squid把这样的页面cache之后,会造成所有后续的访问用户都在自己的浏览器里设置相同的cookie,这会造成严重的后果。

使用Squid做代理服务器,静态页面还比较简单,但动态页面则并没有那么简单了。尤其现在大部分网页都是动态页面,运维人员在架设Squid的时候需要对这方面的配置留心。下面概述一下Squid对动态页面进行cache的时候需要考虑的方面。

1 被cache的页面必须对所有用户显示的内容都是一致的。

如果同一个URL(包括参数)对不同用户如果显示不同的内容,那么cache它会使一些用户看到其它用户才能看到的内容。

(我***步缓存的是访问量***的阅读帖子的页面,但是页面上原来有非常复杂的权限判断,针对这种情况,考虑到大部分信息在短期内基本是变化不大的,只好将用户基本信息写入cookie,使用前端的js来控制。虽然这样会导致限制不严格现象,但是因为毕竟不是商业应用,这些损失和性能相比还是可以接受的)

2 被cache的动态页面不能启动一个session。

因为通常session都是用cookie实现,启动一个session意味着服务器会发送一个Set-Cookie的HTTP头,squid把这样的页面cache之后,会造成所有后续的访问用户都在自己的浏览器里设置相同的cookie,这会造成严重的后果。所有设置cookie操作的页面都有此类问题,即使不是启用一个session。所以,这类页面是绝对不能cache的。但是对包含在一个已启动的session里的页面进行cache则不会有这个问题。

(我基本上没有用到session,set-cookie(服务器端的)在需要缓存的这个页面也没有,只有一个为了配合广告活动增加的用js来set- cookie,所以也没有问题)

3 用户的访问频度必须远远超过页面内容的更新频度,否则cache的意义不大。

(这个页面每天的pv超过100万,所以还是想当有必要的 )

另外,cache动态页面以后,由于squid会拦截用户的请求,应用程序服务器收不到被拦截的请求,必须保证这不会影响应用的处理逻辑。

使用squid来cache动态页面有两种方式,一种是在页面里动态生成几个HTTP头:其中一个是Last-Modified,这个头表示页面上次修改的时间,一般访问静态页面时,apache会根据静态文件的一个上次修改时戳来设置这个属性。

(我们采用了这个last-modifyed 头来进行,然后在文件会发生变化时通知squid这样可以提高squid的缓存命中率)

另一个是Expires或者Cache-Control。Expires代表页面将在该时间之后过期,squid会从后端的应用服务器重新获取页面。Cache-Control则通过一个max-age属性来告诉squid和浏览器这个页面从Last-Modified开始的生存时间。Expires和Cache-Control只设置一个就可以。

Last-Modified和Expires的时间格式是,Wed, 14 May 2003 13:06:17 GMT。注意生成这个时间时一定要转换成GMT时间,这样才能使互联网的全球用户都能正确识别。max-age的时间是一个整数,单位是秒。详细的文档请参考RFC2616。这几个HTTP头必须在所有页面内容输出之前进行设置,否则应用程序会报错。

php的例子如下:

# Last-Modified时间设置为当前时间
header("Last-Modified: " . gmdate("D, d M Y H:i:s" . " GMT";
# Expires时间设置为1小时后
header("Expires: " . gmdate("D, d M Y H:i:s", time() + 3600) . " GMT";

第二种cache方式是使squid强制cache某些指定的页面,而不管页面中是否有前面提到的那几个HTTP头。相应的配置参数举例如下:

#下面两行表示凡是带参数(含有?)的URL就不cache,必须注释掉。
#acl QUERY urlpath_regex cgi-bin \?
#no_cache deny QUERY
#下面两行创建一个acl,它匹配两个jsp页面
acl CACHABLE_PAGES urlpath_regex ^/topic/readSub\.jsp
acl CACHABLE_PAGES urlpath_regex ^/topic/listFrame\.jsp
#下面一个acl匹配所有的动态页面
acl NONE_CACHABLE_PAGES urlpath_regex \? \.jsp
#允许cache两个jsp页面
no_cache allow CACHABLE_PAGES
#禁止cache其它的jsp页面
no_cache deny NONE_CACHABLE_PAGES
#下面几行设置页面cache的时长,***行cache一天,第二行cache两分钟
refresh_pattern ^http://post.mop.com/topic/readSub\.jsp 1440 0% 1440 ignore-reload
refresh_pattern ^http://post.mop.com/topic/listFrame\.jsp 2 0% 2 ignore-reload

对于显示帖子内容的页面,当用户回复之后,帖子内容就改变了,为了实时刷新页面,可以在用户改变帖子内容之后,打开一个tcp连接到squid,发送一个PURGE指令,就可以将指定的URL过期,squid会重新到服务器上抓***页面。

相应页面中需要增加:

Date last_modified_time = s.getLastReplyTime();
String modifySince=request.getHeader("If-Modified-Since";
SimpleDateFormat tempSdf=new SimpleDateFormat("EEE, d MMM yyyy HH:mm:ss z",new java.util.Locale("en");
try{
Date modifySinceDate=tempSdf.parse(modifySince);
if (!modifySinceDate.before(last_modified_time)){
response.sendError(HttpServletResponse.SC_NOT_MODIFIED);
return;
}
}catch (Exception e){
out.println("";
}
long last_modified = last_modified_time.getTime();
response.setDateHeader("Last-Modified",last_modified);

—————————————————————————————-

察看cache命中率等信息,可以用如下命令:

/data/squid/bin/squidclient -p 80 cache_object://localhost/info

其中的如下信息比较重要:

Cache information for squid:
Request Hit Ratios: 5min: 41.5%, 60min: 40.1%
Byte Hit Ratios: 5min: 52.3%, 60min: 50.8%
Request Memory Hit Ratios: 5min: 27.7%, 60min: 30.7%
Request Disk Hit Ratios: 5min: 38.3%, 60min: 39.2%
Storage Swap size: 1886720 KB
Storage Mem size: 39452 KB
Mean Object Size: 50.85 KB
Requests given to unlinkd: 1685

参考:http://www.708034.cn/?p=298

【编辑推荐】

  1. 巧用Squid的ACL和访问列表实现高效访问控制
  2. Nginx squid架构的七大关键流程介绍
  3. 帮你轻松完成RHEL Squid安装及调试
责任编辑:yangsai 来源: 网络
相关推荐

2011-03-31 14:44:55

cactisquid监控

2009-07-17 17:33:22

jQuery

2015-11-16 10:34:19

Linux动态库总结

2010-03-09 09:23:30

Python中文

2010-09-10 16:19:59

Squid 3.0Squid 2.7

2010-02-02 16:22:37

Python动态类型语

2009-07-21 15:40:59

Asp.Net动态页面

2012-04-02 17:46:08

缓存对比

2009-11-26 15:51:38

Squid开源系统

2009-07-02 13:36:24

动态页面JSP技术

2010-03-09 17:23:12

python开源

2010-09-14 10:02:39

获取Squid

2012-09-18 09:50:41

2023-04-06 00:11:12

Java接口开发

2010-03-23 09:16:43

Python源码剖析

2011-05-06 09:36:16

动态页面

2010-02-23 14:55:00

Python动态语言

2022-07-08 10:11:04

探查数据治理数据质量

2009-09-22 10:50:04

Hibernate c

2009-06-29 09:00:42

Hibernate的Q
点赞
收藏

51CTO技术栈公众号