30天拿下Rust之字符串詳情 - rust,字符串希望_睿智博客

概述

在Rust中，字符串是一種非常重要的數據類型，用於處理文本數據。Rust的字符串是以UTF-8編碼的字節序列，主要有兩種類型：&str和String。其中，&str是一個對字符數據的不可變引用，更像是對現有字符串數據的“視圖”，而String則是一個獨立、可變更的字符串實體。

&str和String

&str和String是Rust中兩種主要的字符串類型，它們在以下6個方面存在比較明顯的區別。
所有權和可變性
&str：是Rust核心語言中唯一的字符串類型，它是一個不可變的字符串切片，是對字符串數據的引用，並不擁有數據的所有權。&str可以安全地使用，但它的內容是不可變的，也就是説，不能改變它指向的字符串的內容。&str可以指向String的內容，也可以指向靜態字符串字面量。
String：這是一個在堆上分配的、可變的字符串類型。String類型由Rust標準庫提供，而不是編入核心語言。它擁有其內容的所有權，這意味着String可以被修改。String本質上是一個封裝了動態大小數組（Vec<u8>）的結構體，該數組存儲了UTF-8編碼的字節。
生命週期
&str：生命週期取決於它的來源。如果是字符串字面量，則生命週期為'static。如果來自某個作用域內的String或其他類型，則其生命週期與該作用域相同。
String：沒有明確的生命週期限制，只要String實例存在，它就可以被使用。
存儲位置
&str：可能是指向靜態內存中的字符串字面量（&'static str），比如：編譯時確定的常量字符串。也可能是指向堆上分配的String的一部分，或者任何其他類型的UTF-8編碼數據的區域。
String：始終在堆上動態分配。
性能
&str：由於它只是一個引用，沒有額外的內存分配成本，因此在某些情況下可能更高效。
String：由於它在堆上分配，因此會有額外的內存分配和複製成本，尤其是在字符串拼接時。
使用場景
&str：當只需要讀取字符串內容，或者想要避免額外的內存分配時，使用&str。此外，在函數參數中，使用&str可以允許函數接受不同類型的字符串參數，包括：String和靜態字符串字面量。
String：當需要一個可變的字符串，或者不關心字符串的具體來源時，使用String。
與C/C++語言的比較
&str：類似於C語言中的const char *，它只是一個指向字符串數據的指針，並不擁有數據。在Rust中，&str比C語言中的裸指針更安全，因為它有一個生命週期參數來確保引用的有效性。
String：類似於C++中的std::string，是一個字符的容器，並且擁有其內容。

字符串的創建

在Rust中，創建字符串有多種方法。根據具體需求，我們可以選擇不同的方法。如果需要一個可變的字符串並且打算在程序運行時修改它，那麼String類型是最佳選擇。如果只是需要一個對靜態文本的引用，那麼&str就足夠了。
使用字符串字面量創建&str
字符串字面量是在代碼中直接寫入的文本，它們被存儲在程序的只讀數據段中，並且是不可變的。字符串字面量隱式地具有&str類型。在下面的示例代碼中，text是一個指向字符串字面量的引用，其類型為&str。

let text: &str = "Hello, World";

使用String::new創建空的String
如果我們想要一個可變的、可以增長的字符串，應該使用String類型。在下面的示例代碼中，empty_str是一個空的String變量，我們可以向其中添加內容。

fn main() {
    let mut empty_str = String::new();
    empty_str.push_str("Hello");
    println!("{}", empty_str);
}

使用字符串字面量初始化String
可以直接將字符串字面量轉換為String，這是通過調用to_string方法或to_owned方法來實現的。

fn main() {
    let text1 = "Hello, World".to_string();
    let str_slice: &str = "Hello, Rust";
    let text2 = str_slice.to_owned();
    println!("{}", text1);
    println!("{}", text2);
}

使用format!宏創建String
format!宏是Rust中創建格式化字符串的強大工具，它可以根據提供的格式字符串和參數生成一個 String。

fn main() {
    let name: &str = "World";
    let info = format!("Hello, {}", name);
    println!("{}", info);
}

使用String::from創建String
String::from是一個便利的方法，用於從實現了Into<String>特徵的任何類型創建String。因為字符串字面量隱式地實現了這個特徵，故可以直接使用。

let text = String::from("Hello, World");

字符串的拼接

Rust提供了強大的字符串拼接功能，可以讓字符串操作變得更加靈活和高效。
使用+運算符或+=運算符
如果想要將兩個String類型進行拼接，可以使用+運算法。

fn main() {
    let str1 = String::from("Hello");
    let str2 = String::from(" World");
    // 不能直接使用str1 + str2
    let str = str1 + &str2;
    println!("{}", str);
    // 編譯錯誤：value borrowed here after move
    println!("{}", str1);
}

在上面的示例代碼中，我們將str1和str2進行了拼接，並得到了str。拼接時，我們使用了&str2，而沒有直接使用str2。拼接完成後，str1不再有效。之所以會這樣，與使用+運算符時調用的函數簽名有關。Rust的+運算符使用了add函數，其簽名與下面的函數聲明類似。

fn add(self, s: &str) -> String

首先，str2使用了&，意味着我們使用第二個字符串的引用與第一個字符串相加。這是因為add函數只能將&str和String相加，而不能將兩個String值相加。在Rust中，可以通過Deref強制轉換將&String強轉成&str，相當於自動把&str2變成了&str2[..]。其次，add函數直接獲取了self的所有權，因為self沒有使用&。這意味着，str1的所有權被移動到add函數後，str1將不再有效。
若要對可變的String進行拼接操作，還可以使用+=操作符。但實際上，這並不是簡單的連接，而是創建了一個新的String實例，並丟棄了原String分配的內存。

fn main() {
    let mut str1 = String::from("Hello");
    let str2 = " World";
    str1 += str2;
    println!("{}", str1);
}

注意：使用+=運算符，或者連續使用+運算符進行多次拼接，會導致多次內存分配，效率較低，尤其是在處理大量數據時。如果需要高效地拼接多個字符串，建議使用下面的format!宏。
使用format!宏
format!宏是一種更靈活且高效的字符串拼接方法，尤其適用於包含變量和格式化文本的情況。format!宏可以處理各種複雜的格式化需求，並且它的性能通常優於簡單的+拼接。

fn main() {
    let name: &str = "World";
    let info = format!("Hello, {}", name);
    println!("{}", info);
}

使用push_str方法或push方法
如果已經有了一個String變量，並且想要將另一個字符串或字符追加到它後面，可以使用push_str方法或push方法。注意：push系列方法不會創建新的String實例，而是直接在原有的String緩衝區上追加內容，這通常比使用+運算符更高效。

fn main() {
    let mut text = String::from("Hello ");
    text.push_str("Rust");
    println!("{}", text);

    text.push(' ');
    text.push('C');
    text.push('S');
    text.push('D');
    text.push('N');
    println!("{}", text);
}

字符串的搜索與替換

在Rust中，我們可以使用find、rfind、contains、replace等方法來進行字符串的搜索與替換。在下面的示例代碼中，我們首先調用find方法查找子串"World"，並返回一個Option類型的值。接下來，我們調用contains方法來檢查text字符串是否包含了子串"Hello"，若包含，返回true，否則返回false。最後，我們調用replace方法來替換字符串中的子串。
replace方法接收兩個參數：第一個參數是要被替換的子串，第二個參數是替換後的新子串。該方法會返回一個新的字符串，其中所有與給定模式匹配的子串都被替換為指定的替換字符串。注意：第一個參數中的原始字符串不會被修改。

fn main() {
    let text = "Hello World";

    // 搜索子串
    let index = text.find("World");
    if let Some(value) = index {
        println!("found: {}", value);
    } else {
        println!("not found");
    }

    // 包含子串
    let contain_hello = text.contains("Hello");
    println!("contain hello: {}", contain_hello);
    
    // 替換子串
    let replaced: String = text.replace("World", "GitHub");
    println!("{}", replaced);
}

字符串的長度

在Rust中，獲取字符串的長度是一個常見的操作。Rust的String類型提供了一個len方法，可以用來獲取字符串中字節的數量。需要特別注意的是：這個長度是以字節為單位的，對於ASCII字符串來説，每個字符佔用一個字節；但是，對於包含多字節字符（比如：UTF-8編碼的Unicode字符）的字符串，len方法返回的是字節的總數，而不是字符的總數。
如果想要獲取字符串中Unicode字符的數量，我們應該使用chars方法，然後計算迭代器中元素的數量。chars方法會返回一個迭代器，該迭代器逐個產生字符串中的Unicode字符。

fn main() {
    let text = "Hello 霸都";

    // 獲取字節長度
    let byte_len = text.len();
    // 輸出：12
    println!("{}", byte_len);

    // 獲取字符長度
    let char_len = text.chars().count();
    // 輸出：8
    println!("{}", char_len);
}

另外，Rust字符串不支持直接通過索引來訪問單個字符。這是因為，UTF-8編碼格式下，單個字符可能佔用1到4個字節，索引操作會帶來潛在的非確定性和不一致性問題。如果確實需要通過索引訪問字符，可以使用chars()方法。它會返回一個迭代器，產生字符串中的每個Unicode字符。然後，我們可以使用nth方法或者其他集合方法來獲取特定位置的字符。

fn main() {
    let text = "Hello 霸都";
    // 注意：索引從0開始計數
    let index = 6;
    let cur_char = text.chars().nth(index);
    // 輸出：index 6: 霸
    match cur_char {
        Some(c) => println!("index {}: {}", index, c),
        None => println!("index out of bounds"),
    }
}

字符串與字節的轉換

Rust中的字符串和字節之間可以方便地進行轉換，這在處理二進制數據和編解碼時非常有用。

fn main() {
    let text = "Hello World";

    // 字符串轉字節
    let bytes = text.as_bytes();
    // 輸出：[72, 101, 108, 108, 111, 32, 67, 83, 68, 78]
    println!("{:?}", bytes);
    
    // 字節轉字符串
    let bytes2 = [72, 101, 108, 108, 111];
    let text2 = std::str::from_utf8(&bytes2).unwrap();
    // 輸出：Hello
    println!("{}", text2);
}

總結

由於Rust強調安全性與內存管理，它的字符串設計也體現出了這一點：不可變的&str確保了引用安全，而String則通過所有權系統保證了內存的有效管理，避免了懸垂引用和其他常見的內存錯誤。

💡 如果想閲讀最新的文章，或者有技術問題需要交流和溝通，可搜索並關注微信公眾號“希望睿智”。

希望_睿智博客

希望_睿智博客

博客 / 詳情