Servlet源文件到Class的过程
Servlet源文件是以“.java”结尾的文本文件。本节将讨论Servlet的编译过程并跟踪其中的中文变化。
用“javac”编译Servlet源文件。javac可以带“-encoding < Compile-charset>”参数,意思是“用< Compile-charset >中指定的编码来解释Serlvet源文件”。
源文件在编译时,用< Compile-charset>来解释所有字符,包括中文字符和ASCII字符。然后把字符常量转变成Unicode字符,最后,把Unicode转变成UTF。
在Servlet中,还有一个地方设置输出流的CharSet。通常在输出结果前,调用HttpServletResponse的 setContentType方法来达到与在JSP中设置< Jsp-charset>一样的效果,称之为< Servlet-charset>。
注意,文中一共提到了三个变量:< Jsp-charset>、< Compile-charset>和< Servlet-charset>。其中,JSP 文件只与< Jsp-charset>有关,而< Compile-charset>和< Servlet-charset>只与Servlet有关。
- import javax.servlet.*;
- import javax.servlet.http.*;
- class testServlet extends HttpServlet
- {
- public void doGet(HttpServletRequest req,HttpServletResponse resp)
- throws ServletException,java.io.IOException
- {
- resp.setContentType("text/html; charset=GB2312");
- java.io.PrintWriter out=resp.getWriter();
- out.println("");
- out.println("#中文#");
- out.println("");
- }
- }
该文件也是用UltraEdit for Windows编写的,其中的“中文”两个字保存为“D6 D0 CE C4”(GB2312编码)。
开始编译。下表是< Compile-charset>不同时,CLASS文件中“中文”两字的十六进制码。在编译过程中,< Servlet- charset>不起任何作用。< Servlet-charset>只对CLASS文件的输出产生影响,实际上是< Servlet-charset>和< Compile-charset>一起,达到与JSP文件中的< Jsp-charset>相同的效果,因为< Jsp-charset>对编译和 CLASS文件的输出都会产生影响。
“中文”从Servlet源文件到Class的转变过程
Compile-charset Servlet源文件中 Class文件中 等效的Unicode码
GB2312 D6 D0 CE C4
(GB2312) E4 B8 AD E6 96 87 (UTF) \u4E2D\u6587 (在Unicode中=“中文”)
ISO-8859-1 D6 D0 CE C4
(GB2312) C3 96 C3 90 C3 8E C3 84 (UTF) \u00D6 \u00D0 \u00CE \u00C4 (在D6 D0 CE C4前面各加了一个00)
无(默认) D6 D0 CE C4 (GB2312) 同ISO-8859-1 同ISO-8859-1
普通Java程序的编译过程与Servlet完全一样。
CLASS文件中的中文表示法是不是昭然若揭了?OK,接下来看看CLASS又是怎样输出中文的呢?
【编辑推荐】