AVX2指令集詳細闡述

一、指令集介紹

AVX2即Advanced Vector Extensions 2，是Intel推出的擴展指令集，主要針對SIMD(Single Instruction Multiple Data)操作。

與SSE(SIMD Extensions)指令集相比，AVX2指令集可以處理更多的數據，同時對於一些複雜的計算可以降低運算的時間和成本。

在AVX2指令集中，可以同時處理256位的數據，也就是可以同時進行8個64位的數據的計算。

二、數據的載入與存儲

在使用AVX2指令集進行計算的時候，首先需要將需要處理的數據載入到處理器中，然後計算後再存儲回內存中。

AVX2指令集提供了多種數據的載入與存儲指令，其中最常用的指令包括：

vmovdqa    xmm1, [rdi]      ;將8個數據從rdi指針指向的內存地址載入到xmm1寄存器中
vpmovzxwd  ymm1, [rdi]      ;將16個無符號16位數據從rdi指針指向的內存地址載入到ymm1寄存器中，其餘的位數為0
vpmovsxdq  ymm1, [rdi]      ;將8個有符號64位數據從rdi指針指向的內存地址載入到ymm1寄存器中，其餘的位數為0
vpmovsqd   [rdi], ymm1      ;將8個有符號64位數據從ymm1寄存器存儲到rdi指針指向的內存地址中
vzeroupper                 ;清空ymm寄存器的上半部分，以便正確執行SSE指令

三、算術運算

AVX2指令集提供了多種算術運算指令，包括加、減、乘、除和求模等，其中比較常用的指令如下：

vaddpd    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數相加，結果存放到ymm1寄存器中
vsubpd    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數相減，結果存放到ymm1寄存器中
vmulpd    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數相乘，結果存放到ymm1寄存器中
vdivpd    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數相除，結果存放到ymm1寄存器中
vpsrldq   ymm1, ymm2, 4         ;將ymm2寄存器中的16個位元組向右移4個位元組，結果存放到ymm1寄存器中
vpmullw   ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的16個無符號16位數據相乘，結果存放到ymm1寄存器中
vpaddq    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個64位整數相加，結果存放到ymm1寄存器中

四、邏輯運算

AVX2指令集還提供了多種邏輯運算指令，包括與、或、非、異或和移位等，常用指令如下：

vandpd   ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數按位相與，結果存放到ymm1寄存器中
vorpd    ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數按位相或，結果存放到ymm1寄存器中
vandnpd  ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數按位與非，結果存放到ymm1寄存器中
vxorpd   ymm1, ymm2, ymm3      ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數按位異或，結果存放到ymm1寄存器中
vpslld   ymm1, ymm2, 4         ;將ymm2寄存器中的8個有符號32位數據向左移4個位，結果存放到ymm1寄存器中
vpsrld   ymm1, ymm2, 4         ;將ymm2寄存器中的8個有符號32位數據向右移4個位，結果存放到ymm1寄存器中

五、條件運算

AVX2指令集還提供了多種條件運算指令，包括比較運算和條件選擇等，常用指令如下：

vpcmpeqd   ymm1, ymm2, ymm3     ;比較ymm2和ymm3兩個寄存器中的8個32位整數是否相等，結果存放到ymm1寄存器中
vpcmpgtq   ymm1, ymm2, ymm3     ;比較ymm2和ymm3兩個寄存器中的8個64位整數的大小關係，結果存放到ymm1寄存器中
vblendpd   ymm1, ymm2, ymm3, 1  ;將ymm2和ymm3兩個寄存器中的8個雙精度浮點數按照條件1進行選擇，結果存放到ymm1寄存器中

六、彙編示例

下面是一個簡單的AVX2彙編示例，實現了將兩個向量相乘，結果存在另一個向量中：

.data
x: .double 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0
y: .double 8.0, 7.0, 6.0, 5.0, 4.0, 3.0, 2.0, 1.0
z: .double 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

.section .text
.globl main
main:
    mov     $8, %rax              ;將向量長度存儲到寄存器rax中
    lea     x(%rip), %rdi         ;將向量x的地址存儲到寄存器rdi中
    lea     y(%rip), %rsi         ;將向量y的地址存儲到寄存器rsi中
    lea     z(%rip), %rdx         ;將向量z的地址存儲到寄存器rdx中
    vmovupd (%rdi), %ymm0         ;將向量x的前四個元素載入到ymm0寄存器中
    vmovupd (%rsi), %ymm1         ;將向量y的前四個元素載入到ymm1寄存器中
    vmulpd  %ymm0, %ymm1, %ymm2   ;將ymm0和ymm1兩個寄存器中的8個雙精度浮點數相乘，結果存放到ymm2寄存器中
    vmovupd %ymm2, (%rdx)         ;將向量z的前四個元素存儲到內存中
    add     $32, %rdi             ;向量x的地址移動到下一個元素
    add     $32, %rsi             ;向量y的地址移動到下一個元素
    add     $32, %rdx             ;向量z的地址移動到下一個元素
    dec     %rax                  ;寄存器rax減1
    jnz     main                  ;若rax不為0，則跳轉到main循環重新執行上述指令
    xor     %eax, %eax            ;將eax寄存器的值置0，然後返回

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/195427.html