linux系統命令大全「linux原理和方法」

Linux 編輯器之神 vim 的 IO 存儲原理

故事起因

無意間用 vim 打開了一個 10 G 的文件,改了一行內容,:w 保存了一下,慢的我喲,耗費的時間夠泡幾杯茶了。這引起了我的好奇,vim 打開和保存究竟做了啥?

vim — 編輯器之神

vim 號稱編輯器之神,以極其強大的擴展性和功能聞名。vi/vim 作為標準的編輯器存在於 Linux 的幾乎每一種發行版里。vim 的學習曲線比較陡峭的,前期必須有一個磨鍊的過程。

vim 是一個終端編輯器,在可視化的編輯器橫行的今天,為什麼 vim 還如此重要?

因為有些場景非它不可,比如線上伺服器終端,除 vi/vim 這種終端編輯器,你別無選擇。

vim 的歷史很悠久,Github 有個文檔歸納了 vim 的歷史進程:vim 歷史,Github 開源代碼:代碼倉庫。

筆者今天不講 vim 的用法,這種文章網上隨便搜一大把。筆者將從 vim 的存儲 IO 原理的角度來剖析下 vim 這個神器。

思考幾個小問題,讀者如果感興趣,可以繼續往下讀哦:

  1. vim 編輯文件的原理是啥,用了啥黑科技嗎?
  2. vim 打開一個 10G 的大型文件,為什麼這麼慢,裡面做了啥?
  3. vim 修改一個 10G 的大型文件,:w 保存的時候,感覺更慢了?為什麼?
  4. vim 好像會產生多餘的文件?~ 文件 ?.swp 文件 ?都是做啥的呢?

劃重點:由於 vim 的功能過於強大,一篇分享根本說不完,本篇文章聚焦 IO,從存儲的角度剖析 vim 原理。

vim 的 io 原理

聲明,系統和 Vim 版本如下:

操作系統版本:Ubuntu 16.04.6 LTSVIM 版本:VIM – Vi IMproved 8.2 (2019 Dec 12, compiled Jul 25 2021 08:44:54)測試文件名:test.txt

vim 就是一個二進位程序而已。讀者朋友也可以 Github 下載,編譯,自己調試哦,效果更佳。

一般使用 vim 編輯文件很簡單,只需要 vim 後面跟文件名即可:

vim test.txt

這樣就打開了文件,並且可以進行編輯。這個命令敲下去,一般情況下,我們就能很快在終端很看到文件的內容了。

Linux 編輯器之神 vim 的 IO 存儲原理

這個過程發生了什麼?先明確下,vim test.txt 到底是啥意思?

本質就是運行一個叫做 vim 的程序,argv[1] 參數是 test.txt 嘛。跟你以前寫的 helloworld 程序沒啥不一樣,只不過 vim 這個程序可以終端人機交互。

所以這個過程無非就是一個進程初始化的過程,由 main 開始,到 main_loop(後台循環監聽)。

1 vim 進程初始化

vim 有一個 main.c 的入口文件,main 函數就定義在這裡。首先會做一下操作系統相關的初始化( mch 是 machine 的縮寫):

mch_early_init();

然後會,做一下賦值參數,全局變數的初始化:

/*
* Various initialisations shared with tests.
*/
common_init(¶ms);

舉個例子 test.txt 這樣的參數必定要賦值到全局變數中,因為以後是要經常使用的。

另外類似於命令的 map 表,是靜態定義好了的:

static struct cmdname
{
    char_u      *cmd_name;      // name of the command
    ex_func_T   cmd_func;       // function for this command
    long_u      cmd_argt;       // flags declared above
    cmd_addr_T  cmd_addr_type;  // flag for address type
} cmdnames [] = {

EXCMD(CMD_write, "write", ex_write,
 EX_RANGE|EX_WHOLEFOLD|EX_BANG|EX_FILE1|EX_ARGOPT|EX_DFLALL|EX_TRLBAR|EX_CMDWIN|EX_LOCK_OK,
 ADDR_LINES),

}

劃重點::w,:write,:saveas 這樣的 vim 命令,其實是對應到定義好的 c 回調函數:ex_write 。 ex_write 函數是數據寫入的核心函數。再比如,:quit 對應 ex_quit ,用於退出的回調。

換句話說,vim 裡面支持的類似 :w ,的命令,其實在初始化的時候就確定了。人為的交互只是輸入字元串,vim 進程從終端讀到字元串之後,找到對應的回調函數,執行即可。再來,會初始化一些 home 目錄,當前目錄等變數。

init_homedir();  // find real value of $HOME
// 保存交互參數
set_argv_var(paramp->argv, paramp->argc);

配置一下跟終端窗口顯示相關的東西,這部分主要是一些終端庫相關的:

// 初始化終端一些配置
termcapinit(params.term); // set terminal name and get terminal
// 初始化游標位置
screen_start();  // don't know where cursor is now
// 獲取終端的一些信息
ui_get_shellsize();  // inits Rows and Columns

再來會載入 .vimrc 這樣的配置文件,讓你的 vim 與眾不同。

// Source startup scripts.
source_startup_scripts(¶ms);

還會載入一些 vim 插件 source_in_path ,使用 load_start_packages 載入 package 。

下面這個就是第一個交互了,等待用戶敲下 enter 鍵:

wait_return(TRUE);

我們經常看見的:「Press ENTER or type command to continue「 就是在這裡執行的。確認完,就說明你真的是要打開文件,並顯示到終端了。

怎麼打開文件?怎麼顯示字元到終端屏幕?

這一切都來自於 create_windows 這個函數。名字也很好理解,就是初始化的時候創建終端窗口來著。

    /*
     * Create the requested number of windows and edit buffers in them.
     * Also does recovery if "recoverymode" set.
     */
    create_windows(¶ms);

這裡其實涉及到兩個方面:

  1. 把數據讀出來,讀到內存;
  2. 把字元渲染到終端;

怎麼把數據從磁碟上讀出來,就是 IO。怎麼渲染到終端這個我們不管,這個使用的是 termlib 或者 ncurses 等終端編程庫來實現的,感興趣的可以了解下。

這個函數會調用到我們的第一個核心函數:open_buffer ,這個函數做兩個時間:

  1. create memfile:創建一個 memory + .swp 文件的抽象層,讀寫數據都會過這一層;
  2. read file:讀原始文件,並解碼(用於顯示到屏幕);

函數調用棧:

-> readfile
-> open_buffer
-> create_windows
-> vim_main2
-> main

真正幹活的是 readfile 這個函數,吐槽一下,readfile 是一個 2533 行的函數。。。。。。

readfile 裡面會擇機創建 swp 文件(以前有的話,可以用於恢複數據),調用的是 ml_open_file 這個函數,文件創建好之後,size 佔用 4k,裡面主要是一些特定的元數據(用來恢複數據用的)。

劃重點:.{文件名}.swp 這個隱藏文件是有格式的,前 4k 為 header,後面的內容也是按照一個個block 組織的。

再往後走,會調用到 read_eintr 這個函數,讀取數據的內容:

long
read_eintr(int fd, void *buf, size_t bufsize)
{
    long ret;
    for (;;) {
     ret = vim_read(fd, buf, bufsize);
     if (ret >= 0 || errno != EINTR)
         break;
    }
    return ret;
}

這是一個最底層的函數,是系統調用 read 的一個封裝,讀出來之後。這裡回答了一個關鍵問題:vim 的存儲原理是啥?

劃重點:本質上調用 read,write,lseek 這樣樸素的系統調用,而已。

readfile 會把二進位的數據讀出來,然後進行字元轉變編碼(按照配置的模式),編碼不對就是亂碼嘍。每次都是按照一個固定 buffer 讀數據的,比如 8192 。

劃重點:readfile 會讀完文件。這就是為什麼當 vim 打開一個超大文件的時候,會非常慢的原因。

這裡提一點題外話:memline 這個封裝是文件之上的,vim 修改文件是修改到內存 buffer ,vim 按照策略來 sync memfile 到 swp 文件,一個是防止丟失未保存的數據,第二是為了節省內存。

mf_write 把內存數據寫到文件。在 .test.txt.swp 中的就是這樣的數據結構:

Linux 編輯器之神 vim 的 IO 存儲原理

block 0 的 header 主要標識:

  1. vim 的版本;
  2. 編輯文件的路徑;
  3. 字元編碼方式;

這裡實現提一個重要知識點:swp 文件里存儲的是 block,block 的管理是以一個樹形結構進行管理的。block 有 3 種類型:

  1. block0:頭部 4k ,主要是存儲一些文件的元數據,比如路徑,編碼模式,時間戳等等;
  2. pointer block:樹形內部節點;
  3. data block:樹形葉子節點,存儲用戶數據;

2 敲下 :w 背後的原理

進程初始化我們講完了,現在來看下 :w 觸發的調用吧。用戶敲下 :w 命令觸發 ex_write 回調(初始化的時候配置好的)。所有的流程皆在 ex_write ,我們來看下這個函數做了什麼。

先撇開代碼實現來說,用戶敲下 :w 命令其實只是想保存修改而已

那麼第一個問題?用戶的修改在哪裡?

在 memline 的封裝,只要沒執行過 :w 保存,那麼用戶的修改就沒修改到原文件上(注意哦,沒保存之前,一定沒修改原文件哦),這時候,用戶的修改可能在內存,也可能在 swp 文件。存儲的數據結構為 block 。所以,:w 其實就是把 memline 裡面的數據刷到用戶文件而已。怎麼刷?

重點步驟如下(以 test.txt 舉例)

  1. 創建一個 backup 文件( test.txt~ ),把原文件拷貝出來;
  2. 把原文件 test.txt truancate 截斷為 0,相當於清空原文件數據;
  3. 從 memline (內存 + .test.txt.swp)拷貝數據,重新寫入原文件 test.txt;
  4. 刪除備份文件 test.txt~;

以上就是 :w 做的所有事情了,下面我們看下代碼。

觸發的回調是 ex_write ,核心的函數是 buf_write ,這個函數 1987 行。

在這函數,會使用 mch_open 創建一個 backup 文件,名字後面帶個 ~ ,比如 test.txt~ ,

bfd = mch_open((char *)backup

拿到 backup 文件的句柄,然後拷貝數據(就是一個循環嘍), 每 8K 操作一次,從 test.txt 拷貝到 test.txt~ ,以做備份。

劃重點:如果是 test.txt 是超大文件,那這裡就慢了哦。

backup 循環如下:

// buf_write 
 while ((write_info.bw_len = read_eintr(fd, copybuf, WRITEBUFSIZE)) > 0)
 {
  if (buf_write_bytes(&write_info) == FAIL)
   // 如果失敗,則終止
  // 否則直到文件結束
  }
 }

我們看到,幹活的是 buf_write_bytes ,這是 write_eintr 的封裝函數,其實也就是系統調用 write 的函數,負責寫入一個 buffer 的數據到磁碟文件。

long write_eintr(int fd, void *buf, size_t bufsize) {
    long    ret = 0;
    long    wlen;

    while (ret < (long)bufsize) {
        // 封裝的系統調用 write 
        wlen = vim_write(fd, (char *)buf + ret, bufsize - ret);
        if (wlen < 0) {
            if (errno != EINTR)
            break;
        } else
            ret += wlen;
    }
    return ret;
}

backup 文件拷貝完成之後,就可以準備動原文件了。

思考:為什麼要先文件備份呢?

留條後路呀,搞錯了還有的恢復,這個才是真正的備份文件。

修改原文件之前的第一步,ftruncate 原文件到 0,然後,從 memline (內存 + swp)中拷貝數據,寫回原文件。

劃重點:這裡又是一次文件拷貝,超大文件的時候,這裡可能巨慢哦。

for (lnum = start; lnum <= end; ++lnum)
{
    // 從 memline 中獲取數據,返回一個內存 buffer( memline 其實就是內存和 swap 文件的一個封裝)
    ptr = ml_get_buf(buf, lnum, FALSE) - 1;

    // 將這個內存 buffer 寫到原文件
    if (buf_write_bytes(&write_info) == FAIL)
    {
        end = 0;        // write error: break loop
        break;
    }
    // ...
}

劃重點:vim 並不是調用 pwrite/pread 這樣的調用來修改原文件,而是把整個文件清空之後,copy 的方式來更新文件。漲知識了。

這樣就完成了文件的更新啦,最後只需要刪掉 backup 文件即可。

// Remove the backup unless 'backup' option is set or there was a
// conversion error.
mch_remove(backup);

這個就是我們數據寫入的完整流程啦。是不是沒有你想的那麼簡單!

簡單小結下:當修改了 test.txt 文件,調用 :w 寫入保存數據的時候發生了什麼?

  1. 人機交互,:w 觸發調用 ex_write 回調函數,於 do_write -> buf_write 完成寫入 ;
  2. 具體操作是:先備份一個 test.txt~ 文件出來(全拷貝);
  3. 接著,原文件 test.txt 截斷為 0,從 memline( 即 內存最新數據 + .test.txt.swap 的封裝)拷貝數據,寫入 test.txt (全拷貝) ;

數據組織結構

之前講的太細節,我們從數據組織的角度來解釋下。vim 針對用戶對文件的修改,在原文件之上,封裝了兩層抽象:memline,memfile 。分別對應文件 memline.c ,memfile.c 。

Linux 編輯器之神 vim 的 IO 存儲原理

先說 memline 是啥?

對應到文本文件中的每一行,memline 是基於 memfile 的。

memline 基於 memfile,那 memfile 又是啥?

這個是一個虛擬內存空間的實現,vim 把整個文本文件映射到內存中,通過自己管理的方式。這裡的單位為 block,memfile 用二叉樹的方式管理 block 。block 不定長,block 由 page 組成,page 為定長 4k 大小

這是一個典型虛擬內存的實現方案,編輯器的修改都體現為對 memfile 的修改,修改都是修改到 block 之上,這是一個線性空間,每個 block 對應到文件的要給位置,有 block number 編號,vim 通過策略會把 block 從內存中換出,寫入到 swp 文件,從而節省內存。這就是 swap 文件的名字由來。

block 區分 3 種類型:

  1. block 0 塊:樹的根,文件元數據;
  2. pointer block:樹的分支,指向下一個 block;
  3. data block:樹的葉子節點,存儲用戶數據;

swap 文件組織:

Linux 編輯器之神 vim 的 IO 存儲原理

block 0 是特殊塊,結構體佔用 1024 個位元組內存,寫到文件是按照 1 個page 對齊的,所以是 4096 個位元組。如下圖:

Linux 編輯器之神 vim 的 IO 存儲原理

block 其他兩種類型:

  • pointer 類型:這個是中間的分支節點,指向 block 的;
  • data 類型:這個是葉子節點;
#define DATA_ID        (('d' << 8) + 'a')   // data block id
#define PTR_ID        (('p' << 8) + 't')   // pointer block id

這個 ID 相當於魔數,在 swp 文件中很容易識別出來,比如在下面的文件中第一個 4k 存儲的是 block0,第二個 4k 存儲的是 pointer 類型的 block。

Linux 編輯器之神 vim 的 IO 存儲原理

第三,第四個 4k 存儲的是一個 data 類型的 block ,裡面存儲了原文件數據。

Linux 編輯器之神 vim 的 IO 存儲原理

當用戶修改一行的時候,對應到 memline 的一個 line 的修改,對應到這行 line 在哪個 block 的修改,從而定期的刷到 swap 文件。

Linux 編輯器之神 vim 的 IO 存儲原理

vim 特殊的文件 ~ 和 .swp ?

假設原文件名稱:test.txt 。

1 test.txt~ 文件

test.txt~ 文件估計很多人都沒見過,因為消失的太快了。這個文件在修改原文件之前生成,修改原文件之後刪除。作用於只存在於 buf_write ,是為了安全備份的。

劃重點:test.txt~ 和 test.txt 本質是一樣的,沒有其他特定格式,是用戶數據。

讀者朋友試試 vim 一個 10 G的文件,然後改一行內容,:w 保存,應該很容易發現這個文件(因為備份和回寫時間巨長 )。

2 .test.txt.swp 文件

這個文件估計絕大多數人都見過,.swp 文件生命周期存在於整個進程的生命周期,句柄是一直打開的。很多人認為 .test.txt.swp 是備份文件,其實準確來講並不是備份文件,這是為了實現虛擬內存空間的交換文件,test.txt~ 才是真正的備份文件。swp 是 memfile 的一部分,前面 4k 為 header 元數據,後面的為 一個個 4k 的數據行封裝。和用戶數據並不完全對應。

memfile = 內存 + swp 才是最新的數據。

思考解答

1 vim 存儲原理是啥?

沒啥,就是用的 read,write 這樣的系統調用來讀寫數據而已。

2 vim 的過程有兩種冗餘的文件?

test.txt~ :是真正的備份文件,誕生於修改原文件之前,消失於修改成功之後;.test.txt.swp :swap 文件,由 block 組成,裡面可能由用戶未保存的修改,等待:w 這種調用,就會覆蓋到原文件;

3 vim 編輯超大文件的時候為什麼慢?

一般情況下,你能直觀感受到,慢在兩個地方:

  1. vim 打開的時候;
  2. 修改了一行內容,:w 保存的時候;

先說第一個場景:vim 一個 10G 的文件,你的直觀感受是啥?

我的直觀感受是:命令敲下之後,可以去泡杯茶,等茶涼了一點,差不多就能看到界面了。為什麼?

在進程初始化的時候,初始化窗口之前,create_windows -> open_buffer 裡面調用 readfile會把整個文件讀一遍(完整的讀一遍),在屏幕上展示編碼過的字元。

劃重點:初始化的時候,readfile 會把整個文件讀一遍。 10 G的文件,你可想而知有多慢。我們可以算一下,按照單盤硬體 100 M/s 的帶寬來算,也要 102 秒的時間。

再說第二個場景:喝了口茶,改了一個單詞,:w 保存一下,媽呀,命令敲下之後,又可以去泡杯茶了?為什麼?

  1. 先拷貝出一個 10G 的 test.txt~ 備份文件,102 秒就過去了;
  2. test.txt 截斷為 0,再把 memfile( .test.txt.swp )拷貝回 test.txt ,數據量 10 G,102 秒過去了(第一次可能更慢哦);

4 vim 編輯大文件的時候,會有空間膨脹?

是的,vim 一個 test.txt 10 G 的文件,會存在某個時刻,需要 >=30 G 的磁碟空間。

  • 原文件 test.txt 10 G
  • 備份文件 test.txt~ 10G
  • swap 文件 .test.txt.swp >10G

總結

  1. vim 編輯文件並不沒有用黑魔法,還是用的 read,write,樸實無華
  2. vim 編輯超大文件,打開很慢,因為會讀一遍文件( readfile ),保存的時候很慢,因為會讀寫兩遍文件(backup 一次,memfile 覆蓋寫原文件一次);
  3. memfile 是 vim 抽象的一層虛擬存儲空間(物理上由內存 block 和 swp 文件組成)對應一個文件的最新修改,存儲單元由 block 構成。:w 保存的時候,就是從 memfile 讀,寫到原文件的過程;
  4. memline 是基於 memfile 做的另一層封裝,把用戶的文件抽象成「行」的概念;
  5. .test.txt.swp 文件是一直 open 的,memfile 會定期的交換數據進去,以便容災恢復;
  6. test.txt~ 文件才是真正的備份文件,誕生於 :w 覆蓋原文件之前,消失於成功覆寫原文件之後;
  7. vim 基本都是整個文件的處理,並不是局部處理,大文件的編輯根本不適合 vim ,話說回來,正經人誰會用 vim 編輯 10 G 的文件?vim 就是個文本編輯器呀;
  8. 一個 readfile 函數 2533 行,一個 buf_write 函數 1987 行代碼。。。不是我打擊各位的積極性,這。。。反正我不想再看見它了。。。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/274175.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-17 14:11
下一篇 2024-12-17 14:11

相關推薦

發表回復

登錄後才能評論