如何用C語言將字符串分割成數組

在C語言中，字符串是char類型的數組，而有時我們需要將字符串按照一定規則切割成若干個子字符串，存儲到一個新的數組中。這樣的需求在文本處理、數據處理等方面都是非常常見的。本文將從多個方面詳細闡述如何使用C語言將字符串分割成數組。

一、切割標準：分隔符

分割字符串最常見的方法是使用分隔符。分隔符可以是任何單個字符，如空格、逗號、製表符、分號等。可以使用C函數strtok()實現字符串的切割。

#include <string.h>
#include <stdio.h>
int main() {
  char str[] = "This is a sample string";
  const char delim[] = " "; // 分隔符為空格
  char* token = strtok(str, delim);
  while (token != NULL) {
    printf("%s\n", token);
    token = strtok(NULL, delim);
  }
  return 0;
}

上述代碼使用空格作為分隔符，輸出結果為：

This
is
a
sample
string

可以通過修改分隔符數組delim來實現使用不同的分隔符進行字符串的切割。

二、切割標準：固定長度

另外一種簡單的切割方法是按照固定的長度進行切割，即將字符串均分成若干個長度相同的子串。以下代碼使用固定長度5對字符串進行切割：

#include <string.h>
#include <stdio.h>
int main() {
  char str[] = "0123456789";
  const int len = 5; // 切割長度為5
  int pos = 0;
  while (pos < strlen(str)) {
    char temp[len + 1];
    strncpy(temp, str + pos, len);
    temp[len] = '\0';
    printf("%s\n", temp);
    pos += len;
  }
  return 0;
}

輸出結果為：

01234
56789

可以看到，使用固定長度進行切割需要手動維護切割的位置，首先需要使用strlen()函數獲取字符串長度，然後使用strncpy()函數將指定長度的子串複製到一個新的數組中。

三、切割標準：正則表達式

正則表達式可以通過模式匹配的方式將字符串切割成多個部分。在C語言中，可以使用第三方庫PCRE（Perl Compatible Regular Expressions）來實現正則表達式的功能。

#include <pcre.h>
#include <stdio.h>
int main() {
  const char pattern[] = "a(bc)*d"; // 匹配abcccbcd
  const char test[] = "abcbcbcd";
  pcre* re = pcre_compile(pattern, 0, NULL, NULL, NULL);
  int ovector[30];
  int rc = pcre_exec(re, NULL, test, strlen(test), 0, 0, ovector, 30);
  if (rc >= 0) {
    for (int i = 0; i < rc; i++) {
      char* substring_start = test + ovector[2 * i];
      int substring_length = ovector[2 * i + 1] - ovector[2 * i];
      printf("%.*s\n", substring_length, substring_start);
    }
  }
  return 0;
}

上述代碼使用正則表達式”abcccbcd”將字符串”abcbcbcd”切割成3個部分。輸出結果為：

abcccbcd
bcccb
d

需要注意的是，使用正則表達式進行字符串的切割可以極大地提高處理效率，但需要使用第三方庫。

四、多種分割方式的比較

以上介紹了使用分隔符、固定長度和正則表達式三種方法對字符串進行切割。下面對它們在以下幾個方面進行比較。

1. 處理效率

從處理效率上來看，固定長度切割是最快的，因為它只需要在每個固定位置上截取子字符串。分隔符切割次之，雖然需要在每個分隔符處查找，但查找的過程可以使用C標準庫中的strtok()函數實現，非常方便。正則表達式切割是效率最低的，因為其需要使用複雜的模式匹配算法，同時需要加載PCRE庫。

2. 可擴展性

從可擴展性上看，正則表達式切割是最好的，因為正則表達式可以描述非常複雜的模式，可以滿足各種需求。而固定長度和分隔符的切割則只適用於簡單場景。在實際開發中，如果需要支持多種不同的分割方式，可以考慮使用正則表達式。

3. 算法複雜度

從算法複雜度上來看，固定長度切割的算法複雜度為O(n)，分隔符切割的算法複雜度為O(n^2)，而正則表達式切割的算法複雜度為O(2^n)。正則表達式的複雜度會隨着模式的複雜度指數級增加。

需要根據實際需求選擇合適的字符串切割方式，對於簡單場景，可以使用固定長度或分隔符的方式切割字符串；對於複雜場景，可以考慮使用正則表達式實現。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/257266.html