深入分析mysql索引知識「mysql的索引是什麼數據結構」

閱讀目錄

  • Myisam引擎(非聚集索引)
  • Innodb引擎(聚集索引)
  • 磁碟數據頁的存儲結構
  • 主鍵索引頁存儲結構

什麼是索引:

  索引是一種高效獲取數據的存儲結構,例:hash、 二叉、 紅黑。

  Mysql為什麼不用上面三種數據結構而採用B+Tree:

    若僅僅是 select * from table where id=45 , 上面三種演算法可以輕易實現,但若是select * from table where id<6 , 就不好使了,它們的查找方式就類似於”全表掃描”,因為他們的高度是不可控的(如下圖)。B+Tree的高度是可控的,mysql通常是3到5層。注意:B+Tree只在最末端葉子節點存數據,葉子節點是以鏈表的形式互相指向的。

mysql索引實現原理

B+Tree的特性

  (1)由圖能看出,單節點能存儲更多數據,使得磁碟IO次數更少。

  (2)葉子節點形成有序鏈表,便於執行範圍操作。

  (3)聚集索引中,葉子節點的data直接包含數據;非聚集索引中,葉子節點存儲數據地址的指針。

mysql索引實現原理

回到頂部

Myisam引擎(非聚集索引)

  若以這個引擎創建資料庫表Create table user (…..),它實際是生成三個文件:

  user.myi 索引文件 user.myd數據文件 user.frm數據結構類型。

  如下圖:當我們執行 select * from user where id = 1的時候,它的執行流程。

    (1)查看該表的myi文件有沒有以id為索引的索引樹。

    (2)根據這個id索引找到葉子節點的id值,從而得到它裡面的數據地址。(葉子節點存的是索引和數據地址)。

    (3)根據數據地址去myd文件裡面找到對應的數據返回出來。

mysql索引實現原理

回到頂部

Innodb引擎(聚集索引)

  若以這個引擎創建資料庫表Create table user (…..),它實際是生成兩個文件:

  user.ibd 表索引和數據文件 user.frm 表結構類型

  因為innodb引擎創建表默認就是以主鍵為索引,所以不需要myi文件。

  下圖為innodb表的結構圖:很顯然它與myisam最大的區別是將整條數據存在葉子節點,而不是地址。(葉子節點存的是主鍵索引和數據信息)

  若此時,你在其他列創建索引例如name,它就會另外創建一個以name為索引的索引樹,(葉子節點存的是索引和主鍵索引)。

  你在執行select * from user where name = 『吳磊』,他的執行過程如下:

    (1)找到name索引樹

    (2)根據name的值找到該樹下葉子的name索引和主鍵值

    (3)用主鍵值去主鍵索引樹去葉子節點到該條數據信息

mysql索引實現原理

MyISAM引擎和InnoDB引擎的區別
  MyISAM:支持全文索引;不支持事務;它是表級鎖;會保存表的具體行數.
  InnoDB:5.6以後才有全文索引;支持事務;它是星級鎖;不會保存表的具體行數.
  一般:不用事務的時候,count計算多的時候適合myisam引擎。對可靠性要求高就是用innodby引擎。推薦用InnoDB引擎.

  加了索引之後能夠大幅度地提高查詢速度,但是索引也不是越多越好,一方面它會佔用存儲空間,另一方面它會使得寫操作變得很慢。通常我們對查詢次數比較頻繁,值比較多的列才建索引。
  例如:select * from user where sex = “女”, 這個就不需要建立索引,因為性別一共就兩個值,查詢本身就是比較快的。
     select * from user where user_id = 1995 ,這個就需要建立索引,因為user_id的值是非常多的。

回到頂部

磁碟數據頁的存儲結構

  磁碟中的數據頁是按順序一頁一頁存放的,然後兩兩相鄰的數據頁之間會採用雙向鏈表的格式互相引用。每一行數據都會按照主鍵大小進行排序存儲,同時每一行數據都有指針指向下一行數據的位置,組成單向鏈表。剛開始第一行是個起始行,他的行類型是2,就是最小的一行,然後他有一個指針指向了下一行數據,每一行數據都有自己每個欄位的值,然後每一行通過一個指針不停地指向下一行數據,普通的數據行的類型都是0,最後一行是一個類型為3的,就是代表最大的一行。

  我們剛說了,數據頁中的數據行一定是按照主鍵大小正序排列的。下一頁的主鍵也一定會比上一頁的大。如果我們是自增還好,若是自己生成的則會出現順序錯亂情況。mysql則會通過頁分裂的機制將數據挪動到上一個數據頁,保證下一個數據頁里的主鍵值都比上一個數據頁里的主鍵值要大。

回到頂部

主鍵索引頁存儲結構

  主鍵索引的目錄結構,只要在一個主鍵索引里包含每個數據頁跟他最小主鍵值,就可以組成一個索引目錄。然後後續你查詢主鍵值,就可以在目錄里二分查找直接定位到那條數據所屬的數據頁,接著到數據頁里二分查找定位那條數據就可以了。

  現在問題來了,你的表裡的數據可能很多很多,比如有幾百萬,幾千萬,甚至單表幾億條數據都是有可能的,所以此時你可能有大量的數據頁,然後你的主鍵目錄里就要存儲大量的數據頁和最小主鍵值,這怎麼行呢?所以在考慮這個問題的時候,實際上是採取了一種把索引數據存儲在數據頁里的方式來做的。也就是我們上面提到的b+tree結構。

  比如我現在要找id=45的數據,就會先從35頁找到23頁,再找到6頁,最後找到第4頁。然後它就指向了葉子節點(數據頁)。

  若是你基於非主鍵欄位name 建立了一個索引,那麼此時你插入數據的時候,就會重新搞一顆B+樹,B+樹的葉子節點也是數據頁,但是這個數據頁里僅僅放主鍵欄位和name欄位、數據行按name大小排列,就不是具體數據了。先找到name對應的主鍵地址,再去主鍵索引樹找到具體數據信息。這種行為叫做回表查詢(若select的所有欄位都是索引中的欄位則直接就返回了,不用去主鍵索引樹中找了。這種行為叫做覆蓋索引)

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/287525.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-23 13:39
下一篇 2024-12-23 13:39

相關推薦

發表回復

登錄後才能評論