JDK9对String字符串的新一轮优化,不可不知

开发 后端
随着JDK的迭代String字符串的内存结构及方法等也在不断地进行演变。这是因为String字符串往往是JVM中占用内存最多的类,通过对它的改造升级,对性能的提升会更加明显。

 [[386182]]

本文转载自微信公众号「程序新视界」,作者二师兄。转载本文请联系程序新视界公众号。

String类可以说是Java编程中使用最多的类了,如果能对String字符串的性能进行优化,那么程序的性能必然能大幅提升。

这不JDK9就对String字符串进行了改进升级,在某些场景下可以让String字符串内存减少一半,进而减少JVM的GC次数。

String的底层存储

在面试的时候我们通常会说String字符串有不可变的特性,每次都要创建新的字符串。那么,为什么String字符串是不可变的呢?

先来看一下String字符串的底层存储结构:

 

  1. public final class String 
  2.     implements java.io.Serializable, Comparable<String>, CharSequence { 
  3.      
  4.     private final char value[]; 
  5.  
  6.     public String() { 
  7.         this.value = "".value; 
  8.     } 
  9.  
  10.     public String(String original) { 
  11.         this.value = original.value; 
  12.         this.hash = original.hash; 
  13.     } 
  14.     // ... 
  15. }     

看到什么了?当我们new一个String对象时,对应的字符串其实是以char数组的形式存储在String对象内部。而这个char数组是final的,也就是说不可变的。

这也就是为什么我们说String字符串拥有不可变的特性,当字符串改变了,char数组不可变,就只能创建一个新的对象,新的char数组了。

底层存储的优化

上面说的情况是JDK8及以前版本,到了JDK9,String中字符串的存储不再用char数组了,改用byte数组。

  1. public final class String 
  2.     implements java.io.Serializable, Comparable<String>, CharSequence { 
  3.  
  4.     @Stable 
  5.     private final byte[] value; 
  6.  
  7.     private final byte coder; 
  8.      
  9.     @Native static final byte LATIN1 = 0; 
  10.     @Native static final byte UTF16  = 1; 
  11.      
  12.     static final boolean COMPACT_STRINGS; 
  13.    
  14.     public String() { 
  15.         this.value = "".value; 
  16.         this.coder = "".coder; 
  17.     } 
  18.  
  19.     @HotSpotIntrinsicCandidate 
  20.     public String(String original) { 
  21.         this.value = original.value; 
  22.         this.coder = original.coder; 
  23.         this.hash = original.hash; 
  24.     } 
  25.      
  26.     // ... 

不仅将char数组改为byte数组,而且新增了一个coder的成员变量。

在程序中,绝大多数字符串只包含英文字母数字等字符,使用Latin-1编码,一个字符占用一个byte。如果使用char,一个char要占用两个byte,会占用双倍的内存空间。

但是,如果字符串中使用了中文等超出Latin-1表示范围的字符,使用Latin-1就没办法表示了。这时JDK会使用UTF-16编码,那么占用的空间和旧版(使用char[])是一样的。

coder变量代表编码的格式,目前String支持两种编码格式Latin-1和UTF-16。Latin-1需要用一个字节来存储,而UTF-16需要使用2个字节或者4个字节来存储。

据说这一改进方案是JDK的开发人员用大数据和人工能智能,调研了成千上万的应用程序的heapdump信息后,得出:大部分的String都是以Latin-1字符编码来表示的,只需要一个字节存储就够了,两个字节完全是浪费。

COMPACT_STRINGS属性则是用来控制是否开启String的compact功能。默认情况下是开启的。可以使用-XX:-CompactStrings参数来对此功能进行关闭。

改进的好处

改进的好处是非常明显的,首先如果项目中使用Latin-1字符集居多,内存的占用大幅度减少,同样的硬件配置可以支撑更多的业务。

当内存减少之后,进一步导致减少GC次数,进而减少Stop-The-World的频次,同样会提升系统的性能。

小结

随着JDK的迭代String字符串的内存结构及方法等也在不断地进行演变。这是因为String字符串往往是JVM中占用内存最多的类,通过对它的改造升级,对性能的提升会更加明显。

 

责任编辑:武晓燕 来源: 程序新视界
相关推荐

2010-06-11 14:46:38

可路由协议

2020-04-16 14:16:26

网络攻击APT34恶意软件

2020-11-30 13:12:04

Linux文本命令

2015-01-15 09:34:28

2009-07-15 09:19:45

2015-07-13 15:55:26

互联网

2021-01-27 09:45:17

负载均衡

2010-10-27 10:39:44

求职

2024-03-21 08:57:39

语言软件开发

2014-06-20 14:35:48

浪潮数据

2019-08-18 23:10:14

数据科学算法数学

2020-01-17 06:12:10

物联网IOT技术

2015-07-30 17:30:43

Linux命令

2010-04-16 17:09:18

Oracle查看锁

2019-12-02 14:14:20

缓冲系统调用函数

2020-11-11 21:27:55

缓冲文件调用

2018-06-12 11:05:33

2014-06-09 13:21:27

2013-01-15 14:13:05

UbuntuAndroid

2012-11-19 10:57:03

AMD重组裁员
点赞
收藏

51CTO技术栈公众号