概覽
計算機能識別的是機器指令碼,簡稱機器碼。機器碼是二進制的,計算機可以直接識別,但與人類的語言差別太大,不容易被人理解和記憶。後來,就誕生了各種高級語言,人們用高級語言編寫程序,然後通過把程序解釋或編譯成機器碼。
比如python,就是一種解釋型語言。Python程序源碼不需要編譯,可以直接從源代碼運行程序。Python解釋器將源代碼轉換為位元組碼,然後把編譯好的位元組碼轉發到Python虛擬機(PVM)中進行執行。
而C語言就是典型的編譯型語言,需要先用編譯器編譯成機器碼,比如我們通常用gcc來編譯C語言程序:
$ gcc hello.c # 編譯
$ ./a.out # 執行
hello world!
那Java是解釋型語言還是編譯型語言呢?
Java是兼具編譯型語言與解釋型語言的特點的。程序員寫好Java程序後,需要先用javac編譯成JVM可以使用的位元組碼class文件。然後JVM加載class文件,逐條解釋執行。在運行過程中,部分熱點代碼會被即時編譯器編譯成機器碼。
源代碼到位元組碼
Java語言的源代碼是.java
為後綴的文件。當然現在有很多其它高級語言也架構在JVM上,比如groovy、kotlin等。源代碼是給人看的,易於閱讀、理解、維護。
源代碼經過編譯後得到位元組碼,位元組碼是給JVM用的,易於理解和識別。位元組碼是以.class
為後綴,其格式是JVM的一套規劃,位元組碼人類對照文檔也是勉強能看懂的,只是相對Java代碼來說要難以理解一些而已。
Java與Python不同,Python不需要編譯位元組碼文件(當然,Python也提供了這種操作),編譯是一個自動的過程,一般不會在意它的存在。而Java會先編譯好位元組碼文件,這樣JVM直接讀位元組碼文件,可以節省加載模塊的時間,提高效率。同時位元組碼的形式也增加了反向工程的難度,可以保護源代碼(當然,也可以被反編譯)。
熟悉JVM的小夥伴都知道,它有一個「類加載過程」,可以說是老八股文了,經常會被面試官問到。類加載過程其實就是指的JVM從讀取一個class文件到準備好這個類,以及最後銷毀的整個過程。
所以class文件其實是以「類」為單位的,這跟java文件有一些不同。如果我們在一個Java文件裏面聲明多個類,用Javac編譯出來會發現有多個class文件。比如我們聲明一個One.java文件:
public class One {
public class OneInner {}
private class OnePrivateInner {}
public static class OneStaticInner {}
private static class OneprivateStaticInner {}
}
class Two{}
用Javac編譯後,會出現6個class文件
➜ $ ls
'One$OneInner.class' 'One$OneStaticInner.class' One.class Two.class
'One$OnePrivateInner.class' 'One$OneprivateStaticInner.class' One.java
位元組碼到機器碼
加載和使用位元組碼
前面提到,JVM會加載class文件,然後加載後的Java類會被存放於方法區(Method Area)中。從指定的類的main方法作為入口開始運行。實際運行時,虛擬機會執行方法區內的代碼,JVM會使用堆和棧來存儲運行時數據。
每當進入一個方法,Java虛擬機會在當前線程的棧中生成一個棧幀,存放局部變量以及位元組碼的操作數,這個棧幀的大小是提前計算好的。

退出方法時,不管是正常返回還是異常返回,Java虛擬機均會彈出當前線程的當前棧幀,並將之捨棄。
Java虛擬機需要將位元組碼翻譯成機器碼,才能讓機器執行。這個過程有兩種形式,一種是解釋執行,即逐條將位元組碼翻譯成機器碼並執行;另一種是即時編譯(Just-In-Time compilation,JIT),即將一個方法中包含的所有位元組碼編譯成機器碼後再執行。

分層編譯
這兩種編譯方式是怎麼協作的呢?
HotSpot虛擬機包含多個即時編譯器C1、C2和Graal。其中,Graal是一個實驗性質的即時編譯器,可以通過參數 -XX:+
UnlockExperimentalVMOptions -XX:+UseJVMCICompiler啟用,並且替換C2。
C1和C2各有優劣,適用於不同的場景。在Java 7以前,只能選擇一種編譯器。C1編譯快,但生成的代碼執行效率一般,常用於對於執行時間較短的,或者對啟動性能有要求的程序,常用於客戶端;C2編譯慢,但生成的代碼執行效率快,適用於對於執行時間較長的,或者對峰值性能有要求的程序,常用於服務端。實際上,C1對應的參數是client,C2對應的參數是server,也跟它們的應用場景比較匹配。
Java7引入了分層編譯的概念,綜合了C1的啟動性能優勢和C2的峰值性能優勢。C1和C2編譯出的機器碼是不同的。C2代碼的執行效率要比C1代碼高出30%以上。機器碼越快,需要的編譯時間就越長。分層編譯是一種折衷的方式,既能夠滿足部分不那麼熱的代碼能夠在短時間內編譯完成,也能滿足很熱的代碼能夠擁有最好的優化。
熱點代碼
那怎麼判定熱點代碼呢?
JVM會收集方法的運行時信息,主要包括調用次數和循環回邊的次數。當方法的調用次數和循環回邊的次數的和,超過指定閾值時,便會觸發即時編譯。
循環回邊次數可以簡單理解為方法內部代碼的循環次數,比如方法內部有for循環或while循環。
在分層編譯出現前,這個閾值是由參數-XX:CompileThreshold
指定的,使用C1時,該值為1500;使用C2時,該值為10000。
當啟用分層編譯時,JVM使用另一套閾值系統。在這套系統中,閾值的大小是動態調整的。JVM將閾值與某個係數 s 相乘。該係數與當前待編譯的方法數目成正相關,與編譯線程的數目成負相關。
編譯線程
默認情況下編譯線程的總數目是根據處理器數量來調整的。Java 虛擬機會將這些編譯線程按照1:2的比例分配給 C1和C2(至少各為1個)。舉個例子,對於一個四核機器來說,總的編譯線程數目為3,其中包含一個C1編譯線程和兩個C2編譯線程。
機器資源太少的時候,也可能各1個線程。
用arthas可以看到編譯線程:

可以看到,它們的ID是-1,優先級也是-1。我們自己創建的線程優先級是0~10,所以編譯線程的優先級會更高一些。
總結
一句話來總結Java程序是怎麼在機器上運行的呢?首先Java程序員編寫Java代碼,然後Java代碼會被編譯成class文件,多個class文件會被打包成jar包或者war包。然後JVM加載class文件,然後先解釋執行為位元組碼。程序運行一段時間後,JVM會通過方法調用次數和循環持續判斷一個方法是否為熱點代碼,如果是,會使用分層編譯,通過編譯線程編譯成位元組碼,在機器上運行。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/227960.html