复合类型

1. 字符串

1.1 切片

切片可以让我们引用集合中部分连续的元素序列，而不是引用整个集合。

对于字符串而言，切片就是对String类型中某一部分的引用：

let s = String::from("hello world");

let hello = &s[0..5];
let world = &s[6..11];
rust

对于一个切片，它并没有实际地去拷贝集合中的东西：

slice

如果想从某个位置到结尾或者开头，可以这样写：

let s = String::from("hello");

// 开头到索引为2的位置
let slice = &s[..2];

// 索引为4到结尾
let slice = &s[4..];

// 甚至全部切片。。
let slice = &s[..];
rust

对字符串使用切片时，如果索引没有落到边界位置，代码则会导致崩溃。

例如汉字在UTF-8中占三个字节，下面的代码会导致崩溃:

let s = "中国人";
// 在这里就报错了，并没有走到后面的打印语句
let a = &s[0..2];
println!("{}",a);
rust

报错信息：

byte index 2 is not a char boundary; it is inside '中' (bytes 0..3) of `中国人`
stack backtrace:

...
log

1.2 str和String以及&str

str只是类型级别的东西，它只能用来在类型级别上发挥作用，它是动态大小类型，因此str占用的大小在编译时无法确定，只能在运行时才能确定，所以无法将其存储在变量中:

let s = "hello".to_string();

let b = s[..];

let a = b;
rust

报错：

  |
6 |     let a = b;
  |         ^ doesn't have a size known at compile-time
  |
log

str代表u8字节的一个数组，而且保证其形成有效的UTF-8，但是不知道其大小，它会被硬编码进可执行文件，也无法被修改。

可以理解为String内容有一个str并且拥有其所有权，而&str只有一个可读引用。

其实这里我当初也没明白，我都用双引号来给字符串了，而且又是UTF-8，长度怎么就不明白呢？

到后面查了很多资料才明白了，首先是因为str类型的字符串它没有保存长度，而&str保存了长度，具体为什么不保存长度我也不知道，网上也没有搜到相关内容，个人猜测是为了字符串复用？然后我们知道Rust的GC是自动的，变量退出作用域自动被回收，但是回收的前提是你需要知道这个变量在内存的什么位置，以及它的大小，而str类型是没有保存大小的，如果直接放到变量中使用，是无法进行内存回收的，因为不知道其具体大小，例如下面的代码：
fn test(val: str) {
  // xxx   
}
rust
我们在这里获取了str的所有权，在函数结束时就需要将其回收，而在这里无法确定str的大小，因此无法进行回收。

1.3 字符串索引

在rust中，使用索引访问字符串的某个字符会导致报错：

let s1 = String::from("hello");
let h = s1[0];
rust

报错：

3 |     let h = s1[0];
  |             ^^^^^ `String` cannot be indexed by `{integer}`
  |
  = help: the trait `Index<{integer}>` is not implemented for `String`
log

在字符串底层的数据存储格式实际上是一个u8数组，而UTF-8中，每种类型的字符所占的字节都不一样，所以无法使用索引来取值。

1.4 字符串操作

1.4.1 追加

push(): 追加字符char
push_str()：追加字符串字面量

追加要求被修改的字符串必须是可变的，所以对应的变量必须被mut修饰：

fn main() {
    let mut s = String::from("Hello ");

    s.push_str("rust");
    println!("追加字符串 push_str() -> {}", s);

    s.push('!');
    println!("追加字符 push() -> {}", s);
}
rust

1.4.2 插入

insert()：插入单个字符char
insert_str()：插入字符串字面量

插入方法同时需要提供插入的索引，并且也需要保证插入位置在字符的边界:

fn main() {
    let mut s = String::from("Hello rust!");
    s.insert(5, ',');
    println!("插入字符 insert() -> {}", s);
    s.insert_str(6, " I like");
    println!("插入字符串 insert_str() -> {}", s);
}
rust

1.4.3 替换

replace()：可同时用在&str和String类型上，会替换掉所有满足的字符串。
replacen()：可同时用在&str和String类型上，接收三个参数，前两个参数与 replace() 方法一样，第三个参数则表示替换的个数。
replace_range()：只能在String上使用，表示替换一定范围内的字符串。

上面的方法都会返回一个新的字符串，而不是操作原来的字符串。

let string_replace = String::from("I like rust. Learning rust is my favorite!");
// "I like RUST. Learning RUST is my favorite!"
let new_string_replace = string_replace.replace("rust", "RUST");


let string_replace = "I like rust. Learning rust is my favorite!";
// I like RUST. Learning rust is my favorite!
let new_string_replacen = string_replace.replacen("rust", "RUST", 1);
dbg!(new_string_replacen);

let mut string_replace_range = String::from("I like rust!");
// I like Rust!
string_replace_range.replace_range(7..8, "R");
rust

1.4.4 删除

删除相关的方法都只适用于String，并且都会改变原来的字符串。

pop()：删除并返回字符串的最后一个字符
remove()：删除并返回字符串中指定位置的字符，使用时需要保证索引在字符边界的起始位置
truncate()：删除字符串中从指定位置开始到结尾的全部字符，需要保证索引在字符的结束位置
clear()：清空字符串，类似于truncate(0)

let mut string_pop = String::from("rust pop 中文");
// '文'
let p1 = string_pop.pop();

let mut string_remove = String::from("测试remove方法");
 // 删除第一个汉字
string_remove.remove(0);
// 下面代码会发生错误
// string_remove.remove(1);
// 直接删除第二个汉字
// string_remove.remove(3);


let mut string_truncate = String::from("测试truncate");
// "测"
string_truncate.truncate(3);
rust

1.4.5 连接

使用`+`连接字符串

可以使用+或者+=连接字符串，要求右边的参数必须为字符串的切片引用类型。+返回的是一个新的字符串，操作时可以不需要mut关键字。

fn main() {
    let string_append = String::from("hello ");
    let string_rust = String::from("rust");
    // &string_rust会自动解引用为&str
    let result = string_append + &string_rust;
    let mut result = result + "!"; // `result + "!"` 中的 `result` 是不可变的
    result += "!!!";

    // 连接字符串 + -> hello rust!!!!
    println!("连接字符串 + -> {}", result);
}
rust

对于以下代码会导致报错：

fn main() {
    let s1 = String::from("hello,");
    let s2 = String::from("world!");
    // 在下句中，s1的所有权被转移走了，因此后面不能再使用s1
    let s3 = s1 + &s2;
    assert_eq!(s3,"hello,world!");
    // 下面的语句如果去掉注释，就会报错
    // println!("{}",s1);
}
rust

看起来很难理解，其实换一下就知道了，add的类型定义为：

fn add(self, s: &str) -> String {}
rust

我们换成add来看：

let a = "ss".to_string();

let b = a.add("eee");
// 报错，a已经转移给b
println!("{}", a);
rust

这里我们就可以理解为调用add方法后，变量a返回了它自己。

使用`format!`连接字符串

format! 这种方式适用于 String 和 &str 。format! 的用法与 print! 的用法类似，详见格式化输出。

fn main() {
    let s1 = "hello";
    let s2 = String::from("rust");
    let s = format!("{} {}!", s1, s2);

    // hello rust!
    println!("{}", s);
}
rust

1.5 字符串转义

可以通过转义(\)的方式输出 ASCII 和 Unicode 字符。

fn main() {
    // 通过 \ + 字符的十六进制表示，转义输出一个字符
    let byte_escape = "I'm writing \x52\x75\x73\x74!";
    println!("What are you doing\x3F (\\x3F means ?) {}", byte_escape);

    // \u 可以输出一个 unicode 字符
    let unicode_codepoint = "\u{211D}";
    let character_name = "\"DOUBLE-STRUCK CAPITAL R\"";

    println!(
        "Unicode character {} (U+211D) is called {}",
        unicode_codepoint, character_name
    );

    // 换行了也会保持之前的字符串格式
    // 使用\忽略换行符
    let long_string = "String literals
                        can span multiple lines.
                        The linebreak and indentation here ->\
                        <- can be escaped too!";
    println!("{}", long_string);
}
rust

特殊的转义符：

fn main() {
    println!("{}", "hello \\x52\\x75\\x73\\x74");
    let raw_str = r"Escapes don't work here: \x3F \u{211D}";
    println!("{}", raw_str);

    // 如果字符串包含双引号，可以在开头和结尾加 #
    let quotes = r#"And then I said: "There is no escape!""#;
    println!("{}", quotes);

    // 如果还是有歧义，可以继续增加，没有限制
    let longer_delimiter = r###"A string with "# in it. And even "##!"###;
    println!("{}", longer_delimiter);
}
rust

1.6 操作 UTF-8 字符串

以 Unicode 字符的方式遍历字符串：

for c in "中国人".chars() {
    println!("{}", c);
}
rust

输出：

中
国
人
log

以字节的方式遍历：

for b in "中国人".bytes() {
    println!("{}", b);
}
rust

输出：

如果需要精准的从UTF-8字符串中获取子串，可能需要借助其它的标准库，例如：utf8_slice

2. 元组

元组是由多种类型组合到一起形成的，因此它是复合类型，元组的长度是固定的，元组中元素的顺序也是固定的：

fn main() {
    let tup: (i32, f64, u8) = (500, 6.4, 1);
}
rust

获取元组的值：

fn main() {
    let tup = (500, 6.4, 1);

    let (x, y, z) = tup;

    println!("The value of y is: {}", y);

    let five_hundred = x.0;

    let six_point_four = x.1;

    let one = x.2;
}
rust

3. 结构体

结构体由struct定义，它由不同的字段组成：

struct User {
    active: bool,
    username: String,
    email: String,
    sign_in_count: u64,
}
rust

该结构体名称是 User，拥有 4 个字段，且每个字段都有对应的字段名及类型声明，例如 username 代表了用户名，是一个可变的 String 类型。

创建一个结构体实例：

let user1 = User {
    email: String::from("someone@example.com"),
    username: String::from("someusername123"),
    active: true,
    sign_in_count: 1,
};
rust

有几点值得注意:

初始化实例时，每个字段都需要进行初始化
初始化时的字段顺序不需要和结构体定义时的顺序一致

通过.即可访问/操作结构体字段：

let mut user1 = User {
    email: String::from("someone@example.com"),
    username: String::from("someusername123"),
    active: true,
    sign_in_count: 1,
};

user1.email = String::from("anotheremail@example.com");
rust

只有将结构体声明为可变的才能修改其字段，rust不允许结构体部分字段可变。

rust支持跟TypeScript一样的简化操作：

fn build_user(email: String, username: String) -> User {
    User {
        // email: email,
        email,
        // username: username
        username,
        active: true,
        sign_in_count: 1,
    }
}
rust

也可以类似与ts解构一个对象(注意这里是两个点，ts是三个点)：

let user2 = User {
    email: String::from("another@example.com"),
    ..user1
};
rust

当结构体部分字段所有权被转移时，该结构体将不可用，但是其它字段仍然可用：

let user1 = User {
    email: String::from("someone@example.com"),
    username: String::from("someusername123"),
    active: true,
    sign_in_count: 1,
};
let user2 = User {
    active: user1.active,
    username: user1.username,
    email: String::from("another@example.com"),
    sign_in_count: user1.sign_in_count,
};
println!("{}", user1.active);
// 下面这行会报错
println!("{:?}", user1);
rust

3.1 内存体的结构排序

如下的结构体：

#[derive(Debug)]
struct File {
    name: String,
    data: Vec<u8>,
}
rust

在内存中的结构为： File内存结构

从图中可以清晰地看出 File 结构体两个字段 name 和 data 分别拥有底层两个 [u8] 数组的所有权，通过 ptr 指针指向底层数组的内存地址，这里你可以把 ptr 指针理解为 Rust 中的引用类型。

该图片也侧面印证了：把结构体中具有所有权的字段转移出去后，将无法再访问该字段，但是可以正常访问其它的字段。

3.2 元组结构体

结构体必须要有名称，但是结构体的字段可以没有名称，这种结构体长得很像元组，因此被称为元组结构体，例如：

struct Color(i32, i32, i32);
struct Point(i32, i32, i32);

let black = Color(0, 0, 0);
let origin = Point(0, 0, 0);
rust

元组结构体在你希望有一个整体名称，但是又不关心里面字段的名称时将非常有用。例如上面的 Point 元组结构体，众所周知 3D 点是 (x, y, z) 形式的坐标点，因此我们无需再为内部的字段逐一命名为：x, y, z。

注意在解构时需要加上类型：

let black = Color(0, 0, 0);

// error
let (r, g, b) = black;

let Color(r, g, b) = black;
rust

4. 枚举

枚举(enum 或 enumeration)允许你通过列举可能的成员来定义一个枚举类型，例如扑克牌花色：

enum PokerSuit {
  Clubs,
  Spades,
  Diamonds,
  Hearts,
}
rust

使用枚举值：

let heart = PokerSuit::Hearts;
let diamond = PokerSuit::Diamonds;
rust

在函数中使用：

fn main() {
    let heart = PokerSuit::Hearts;
    let diamond = PokerSuit::Diamonds;

    print_suit(heart);
    print_suit(diamond);
}

fn print_suit(card: PokerSuit) {
    // 需要在定义 enum PokerSuit 的上面添加上 #[derive(Debug)]，否则会报 card 没有实现 Debug
    println!("{:?}",card);
}
rust

枚举也可以提供固定的值，但是只能使用isize类型的整型，例如：

enum RankScore {
    FIRST = 100,
    SECOND = 90,
    THIRD = 80,
    // FOURTH会以上面的基础 + 1
    FOURTH
}

fn main() {
    // 使用时必须使用as强转为isize或者其它整型
    // THIRD = 80, FOURTH = 81
    println!("THIRD = {}, FOURTH = {}", RankScore::THIRD as isize, RankScore::FOURTH as isize)
} 
rust

如果没有指定明确的值，则以0开始递增。

在rust中可以给枚举带上类型，例如这样：

enum PokerCard {
    Clubs(u8),
    Spades(u8),
    Diamonds(u8),
    Hearts(u8),
}

fn main() {
   let c1 = PokerCard::Spades(5);
   let c2 = PokerCard::Diamonds(13);
}
rust

例如标准库中的例子：

struct Ipv4Addr {
    // --snip--
}

struct Ipv6Addr {
    // --snip--
}

enum IpAddr {
    V4(Ipv4Addr),
    V6(Ipv6Addr),
}
rust

在实际使用中，每种枚举字段的类型可以不一样：

enum Message {
    Quit,
    Move { x: i32, y: i32 },
    Write(String),
    ChangeColor(i32, i32, i32),
}

fn main() {
    let m1 = Message::Quit;
    let m2 = Message::Move{x:1,y:1};
    let m3 = Message::ChangeColor(255,255,0);
}
rust

4.1 访问枚举值

如果枚举值自带了类型，访问时则需要使用匹配模式来访问：

fn main() {
    let msg = Message::Move{x: 1, y: 2};

    if let Message::Move{x: a, y: b} = msg {
        // use data from Message::Move
        assert_eq!(a, b);
    } else {
        // not Message::Move
    }
} 
rust

在这里无法对msg变量被视作了Message类型，即使创建时使用了Message::Move。如果尝试将msg使用as强转为Message::Move，则会报错：

   |
11 |     let Message::Move { x, y } = msg as Message::Move;
   |                                         ^^^^^^^^^^^^^
   |                                         |
   |                                         not a type
   |                                         help: try using the variant's enum: `crate::Message`
log

4.2 空值

在Java或其它语言中，null表示一个空值，它可以被赋给任何对象，如果尝试访问一个空对象的任何属性或方法，则会造成空指针异常导致程序崩溃。

因此rust舍弃了空值，而改为使用Option枚举变量来表述这种结果：

enum Option<T> {
    Some(T),
    None,
}
rust

其中 T 是泛型参数，Some(T)表示该枚举成员的数据类型是 T，换句话说，Some 可以包含任何类型的数据。

Option是被默认导入的(被包含在了rust标准库prelude中)，即不需要显式导入即可使用：

let some_number = Some(5);
let some_string = Some("a string");

let absent_number: Option<i32> = None;
rust

5. 数组

在 Rust 中，最常用的数组有两种，第一种是速度很快但是长度固定的 array，第二种是可动态增长的但是有性能损耗的 Vector。

5.1 创建数组

创建一个数组:

fn main() {
    let a = [1, 2, 3, 4, 5];

    // 效果同上
    let a: [i32; 5] = [1, 2, 3, 4, 5];

    // 初始化某个值出现N次的数组, [类型; 长度]，只有类型支持Copy的才能使用
    // 长度必须在编译时就已知，不能为动态值
    let a = [3; 5];

}
rust

5.2 访问数组

数组访问和其它语言一样，使用下标索引访问：

fn main() {
    let a = [9, 8, 7, 6, 5];

    let first = a[0]; // 获取a数组第一个元素
    let second = a[1]; // 获取第二个元素

    // 获取数组长度
    let len = a.len();
}
rust

如果出现数组越界异常，则会导致程序崩溃，崩溃是在运行时崩溃，而不是编译期。

5.3 数组切片

数组切片允许你引用集合中的部分连续片段，而不是整个集合：

let a: [i32; 5] = [1, 2, 3, 4, 5];

let slice: &[i32] = &a[1..3];

assert_eq!(slice, &[2, 3]);
rust

切片的长度可以与数组不同，并不是固定的，而是取决于你使用时指定的起始和结束位置
创建切片的代价非常小，因为切片只是针对底层数组的一个引用
切片类型[T]拥有不固定的大小，而切片引用类型&[T]则具有固定的大小，因为 Rust 很多时候都需要固定大小数据类型，因此&[T]更有用,&str字符串切片也同理