在进行WEB开发时,字符集编码常常困扰着我们。我们需要区分两种情况,一是URL编码,二是HTTP Body编码。这两种编码所处理的机制不同。
URL编码和解码
客户端负责对URL编码,服务端负责解码。客户端总是按UTF-8编码,例如把“张三”编码为“%E5%BC%A0%E4%B8%89”。如果服务端也按UTF-8解码则一切正常。
按Servlet规范,对URL解码由Servlet容器完成。但不巧到是,Tomcat默认按ISO-8859-1来解码,因此就造成了中文乱码的问题。为解决此问题,我们需要对Tomcat进行设置,让它按UTF-8来解码,方法是在Server.xml里的<Connector>增加URIEncoding=“UTF-8”。
HTTP Body编码
HTTP Body的字符集编码由Content Type定义。
参见
- 这里面说到,对URL和Body的编码和解码的机制是不同的。也说到通过tomcat7:run命令行来启动时该如何设置。
- 这里面对URL和Body编码进行了深入的讨论。