Rust 数据结构:String

news2025/5/17 15:32:26

Rust 数据结构:String

  • Rust 数据结构:String
    • 什么是字符串?
    • 创建新字符串
    • 更新字符串
      • 将 push_str 和 push 附加到 String 对象后
      • 使用 + 运算符和 format! 宏
    • 索引到字符串
      • 字符串在内存中的表示
      • 字节、标量值和字形簇
    • 分割字符串
    • 遍历字符串的方法

Rust 数据结构:String

在本文中,我们将讨论每种集合类型都具有的 String 操作,例如创建、更新和读取。我们还将讨论 String 与其他集合的不同之处,即由于人和计算机解释 String 数据的方式不同,对 String 进行索引变得复杂。

什么是字符串?

Rust 在核心语言中只有一种字符串类型,它是字符串切片 str,通常以它的借用形式 &str 出现。字符串切片是对存储在其他地方的一些 UTF-8 编码字符串数据的引用。例如,字符串字面值存储在程序的二进制文件中,因此是字符串切片。

String 类型是由 Rust 的标准库提供的,而不是编码到核心语言中,它是一个可增长的、可变的、拥有的、UTF-8 编码的字符串类型。

当在 Rust 使用“字符串”时,它们可能指的是 String 或 String slice &str 类型,而不仅仅是其中一种类型。虽然本文主要是关于 String 的,但这两种类型在 Rust 的标准库中都大量使用,并且 String 和 String 切片都是 UTF-8 编码的。

创建新字符串

String 实际上是作为字节向量的包装器实现的,带有一些额外的保证、限制和功能,所以在使用上很多和 vector 类似。

let mut s = String::new();

这一行创建了一个新的空字符串 s,然后我们可以将数据加载到其中。

通常,我们会有一些初始数据,我们想用这些数据开始字符串。为此,我们使用 to_string 方法,该方法可用于任何实现 Display trait 的类型,就像字符串字面量一样。

    let data = "initial contents";

    let s = data.to_string();

    // The method also works on a literal directly:
    let s = "initial contents".to_string();

还可以使用 String::from 函数从字符串字面值创建 String。

let s = String::from("initial contents");

更新字符串

String 的大小可以增长,其内容可以改变。

将 push_str 和 push 附加到 String 对象后

push_str 方法接受一个字符串切片,并且不获取参数的所有权。

    let mut s = String::from("foo");
    s.push_str("bar");

push 方法接受单个字符作为参数,并将其添加到 String 中。

    let mut s = String::from("lo");
    s.push('l');

使用 + 运算符和 format! 宏

+ 操作符可以组合两个现有字符串。

    let s1 = String::from("Hello, ");
    let s2 = String::from("world!");
    let s3 = s1 + &s2; // note s1 has been moved here and can no longer be used

s1 在相加之后不再有效的原因,以及我们使用 s2 引用的原因,与使用 + 操作符时调用的方法的签名有关。+ 操作符使用 add 方法,其签名看起来像这样:

fn add(self, s: &str) -> String {

首先,s2 有一个 &,这意味着我们将第二个字符串的引用添加到第一个字符串。

我们能够在 add 调用中使用&s2(String 类型)的原因是编译器可以将 &String 实参强制转换为 &str。当我们调用 add 方法时,Rust 使用了一个强制转换,它将 &s2 转换为 &s2[…]。因为 add 没有获得 s 形参的所有权,所以在这个操作之后 s2 仍然是一个有效的 String。

其次,我们可以在签名中看到 add 取得了 self 的所有权,因为 self 没有 &。这意味着 s1 将被移动到 add 调用中,并且在此之后将不再有效。

综上,s3 = s1 + &s2; 看起来它将复制两个字符串并创建一个新字符串,这个语句实际上获取 s1 的所有权,附加 s2 内容的副本,然后返回结果的所有权。

如果需要连接多个字符串,则 + 操作符的行为会变得笨拙:

    let s1 = String::from("tic");
    let s2 = String::from("tac");
    let s3 = String::from("toe");

    let s = s1 + "-" + &s2 + "-" + &s3;

对于以更复杂的方式组合字符串,我们可以使用 format! 宏:

    let s1 = String::from("tic");
    let s2 = String::from("tac");
    let s3 = String::from("toe");

    let s = format!("{s1}-{s2}-{s3}");

format! 宏返回一个包含内容的 String。format! 宏使用引用,因此此调用不会获得其任何参数的所有权。

索引到字符串

在许多其他编程语言中,通过索引引用字符串中的单个字符是一种有效且常见的操作。但是,如果尝试在 Rust 中使用索引语法访问 String 的某些部分,则会得到一个错误。

    let s1 = String::from("hi");
    let h = s1[0];

报错:error[E0277]: the type `str` cannot be indexed by `{integer}`

这个要从 Rust 如何在内存中 存储字符串开始讲起。

字符串在内存中的表示

String是Vec<u8>的包装器。

考虑以下两个字符串:

let s1 = String::from("Hola");
let s2 = String::from("Здравствуйте");

s1 的长度是 4 字节。当用 UTF-8 编码时,这些字母中的每个都占 1 字节。然而,s2 的长度不是 12 字节,而是 24 字节。因为该字符串中的每个 Unicode 标量值需要 2 字节的存储空间。

来看一下错误代码:

let hello = "Здравствуйте";
let answer = &hello[0];

当用 UTF-8 编码时,З 的第一个字节是 208,第二个字节是 151,所以看起来答案实际上应该是 208,但是 208 本身并不是一个有效的字符。为了避免返回意外值并导致可能无法立即发现的错误,Rust 根本不编译此代码。

字节、标量值和字形簇

关于 UTF-8 的另一点是,从 Rust 的角度来看,实际上有三种相关的方式来看待字符串:字节、标量值和字形簇(最接近我们称之为字母的东西)。

如果我们看看写在 Devanagari 脚本中的印地语单词 “नमस्ते”,它被存储为 u8 值的向量,看起来像这样:

[224, 164, 168, 224, 164, 174, 224, 164, 184, 224, 165, 141, 224, 164, 164,
224, 165, 135]

这是 18 个字节,这就是计算机最终存储这些数据的方式。如果我们把它们看作 Unicode 标量值,也就是 Rust 的 char 类型,这些字节看起来是这样的:

['न', 'म', 'स', '्', 'त', 'े']

Rust 提供了不同的方式来解释计算机存储的原始字符串数据,这样每个程序都可以选择它需要的解释,而不管这些数据是什么人类语言。

Rust 不允许我们索引 String 以获取字符的最后一个原因是,索引操作总是需要常数时间(O(1))。但是不能保证 String 的性能,因为 Rust 必须从头到尾遍历内容,以确定有多少个有效字符。

分割字符串

对字符串进行索引通常不是一个好主意,与其用 [] 索引单个数字,不如用 [] 索引一个范围来创建包含特定字节的字符串切片。

let hello = "Здравствуйте";

let s = &hello[0..4];

这里,s 将是一个 &str,它包含字符串的前 4 个字节。前面,我们提到每个字符都是两个字节,这意味着 s 将是 “Зд”。

如果我们尝试用 &hello[0…1], Rust 会在运行时报错,就像在 vector 中访问无效索引一样。

遍历字符串的方法

对字符串片段进行操作的最佳方法是明确说明是需要字符还是字节。对于单个 Unicode 标量值,使用 chars 方法。在 “Зд” 上调用 chars,分离并返回两个 char 类型的值,再遍历。

for c in "Зд".chars() {
    println!("{c}");
}

程序输出:

З
д

或者,bytes 方法返回每个原始字节。

for b in "Зд".bytes() {
    println!("{b}");
}

程序输出:

208
151
208
180

一定要记住,有效的 Unicode 标量值可能由多个字节组成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IntelliJ IDEA打开项目后,目录和文件都不显示,只显示pom.xml,怎样可以再显示出来?

检查.idea文件夹 如果项目目录中缺少.idea文件夹&#xff0c;可能导致项目结构无法正确加载。可以尝试删除项目根目录下的.idea文件夹&#xff0c;然后重新打开项目&#xff0c;IDEA会自动生成新的.idea文件夹和相关配置文件&#xff0c;从而恢复项目结构。 问题解决&#xff0…

Hot100-链表-JS

160.相交链表 160. 相交链表 已解答 简单 相关标签 相关企业 给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#xff1a; 题目数据 保证 整…

事件驱动架构:从传统服务到实时响应的IT新风潮

文章目录 事件驱动架构的本质&#xff1a;从请求到事件的范式转变在EDA中&#xff1a; 事件驱动架构的演进&#xff1a;从消息队列到云原生标配核心技术&#xff1a;事件驱动架构的基石与工具链1. 消息队列&#xff1a;事件传递的枢纽2. 消费者&#xff1a;异步处理3. 事件总线…

网络流量分析 | NetworkMiner

介绍 NetworkMiner 是一款适用于Windows&#xff08;也适用于Linux/Mac&#xff09;的开源网络取证分析工具。它可被用作被动网络嗅探器/数据包捕获工具&#xff0c;也可被用于检测操作系统、会话、主机名、开放端口等&#xff0c;还能被用于解析pcap文件进行离线分析。点击此…

深入理解 Git 分支操作的底层原理

在软件开发的世界里&#xff0c;Git 已经成为了版本控制的标配工具。而 Git 分支功能&#xff0c;更是极大地提升了团队协作和项目开发的效率。我们在日常开发中频繁地创建、切换和合并分支&#xff0c;但是这些操作背后的底层原理是怎样的呢&#xff1f;在之前的博客探秘Git底…

Excel MCP: 自动读取、提炼、分析Excel数据并生成可视化图表和分析报告

最近&#xff0c;一款Excel MCP Server的开源工具火了&#xff0c;看起来功能很强大&#xff0c;咱们今天来一探究竟。 基础环境 最近两年&#xff0c;大家都可以看到AI的发展有多快&#xff0c;我国超10亿参数的大模型&#xff0c;在短短一年之内&#xff0c;已经超过了100个&…

C语言:深入理解指针(4)

目录 一、字符指针变量 二、数组指针变量 三、二维数组传参的本质 四、函数指针变量 五、typedef 类型重命名 六、函数指针数组 一、字符指针变量 我们常见的字符指针变量是这样的&#xff1a; char a w; char* p &a; char arr[] "abcd"; char* pa ar…

【更新】全国省市县-公开手机基站数据集(2006-2025.3)

手机基站是现代通信网络中的重要组成部分&#xff0c;它们为广泛的通信服务提供基础设施。随着数字化进程的不断推进&#xff0c;手机基站的建设与布局对优化网络质量和提升通信服务水平起着至关重要的作用&#xff0c;本分享数据可帮助分析移动通信网络的发展和优化。本次数据…

基于MNIST数据集的手写数字识别(CNN)

目录 一&#xff0c;模型训练 1.1 数据集介绍 1.2 CNN模型层结构 1.3 定义CNN模型 1.4 神经网络的前向传播过程 1.5 数据预处理 1.6 加载数据 1.7 初始化 1.8 模型训练过程 1.9 保存模型 二&#xff0c;模型测试 2.1 定义与训练时相同的CNN模型架构 2.2 图像的预处…

idea Maven 打包SpringBoot可执行的jar包

背景&#xff1a;当我们需要坐联调测试的时候&#xff0c;需要对接前端同事&#xff0c;则需要打包成jar包直接运行启动服务 需要将项目中的pom文件增加如下代码配置&#xff1a; <build><plugins><plugin><groupId>org.springframework.boot</gr…

HarmonyOs开发之——— ArkWeb 实战指南

HarmonyOs开发之——— ArkWeb 实战指南 谢谢关注!! 前言:上一篇文章主要介绍HarmonyOs开发之———合理使用动画与转场:CSDN 博客链接 一、ArkWeb 组件基础与生命周期管理 1.1 Web 组件核心能力概述 ArkWeb 的Web组件支持加载本地或在线网页,提供完整的生命周期回调体…

国标GB/T 12536-90滑行试验全解析:纯电动轻卡行驶阻力模型参数精准标定

摘要 本文以国标GB/T 12536-90为核心框架&#xff0c;深度解析纯电动轻卡滑行试验的完整流程与数据建模方法&#xff0c;提供&#xff1a; 法规级试验规范&#xff1a;从环境要求到数据采集全流程详解行驶阻力模型精准标定&#xff1a;最小二乘法求解 ( FAv^2BvC ) 的MATLAB实…

初识——QT

QT安装方法 一、项目创建流程 创建项目 入口&#xff1a;通过Qt Creator的欢迎页面或菜单栏&#xff08;文件→新建项目&#xff09;创建新项目。 项目类型&#xff1a;选择「Qt Widgets Application」。 路径要求&#xff1a;项目路径需为纯英文且不含特殊字符。 构建系统…

kkFileView文件文档在线预览镜像分享

kkFileView为文件文档在线预览解决方案&#xff0c;该项目使用流行的spring boot搭建&#xff0c;易上手和部署&#xff0c;基本支持主流办公文档的在线预览&#xff0c;如doc,docx,xls,xlsx,ppt,pptx,pdf,txt,zip,rar,图片,视频,音频等等 开源项目地址 https://gitee.com/kek…

实例分割AI数据标注 ISAT自动标注工具使用方法

文章目录 🌕ISAT安装和启动方法🌕下载和使用AI分割模型🌙SAM模型性能排行🌙手动下载sam模型 & sam模型下载路径🌕使用方法🌙从file中导入图片🌙点击左上角的图标进入分割模式🌙鼠标左键点击画面中的人则自动标注🌙点击右键该区域不标注🌙一个人一个人的…

Qt图表绘制(QtCharts)- 性能优化(13)

文章目录 1 批量替换代替追加1.1 测试11.2 测试21.3 测试3 2 开启OpenGL2.1 测试12.2 测试22.3 测试32.4 测试4 更多精彩内容&#x1f449;内容导航 &#x1f448;&#x1f449;Qt开发 &#x1f448;&#x1f449;QtCharts绘图 &#x1f448;&#x1f449;python开发 &#x1f…

如何在 Windows 10 或 11 上使用命令提示符安装 PHP

我们可以在 Windows 上从其官方网站下载并安装 PHP 的可执行文件,但使用命令提示符或 PowerShell 更方便。 PHP 并不是一种新的或不为人知的脚本语言,它已经存在并被全球数千名网络开发人员使用。它以开源许可并分发,广泛用于 LAMP 堆栈中。然而,与 Linux 相比,它在 Wind…

RK3588 ADB使用

安卓adb操作介绍 adb&#xff08;Android Debug Bridge&#xff09;是一个用于与安卓设备进行通信和控制的工具。adb可以通过USB或无线网络连接安卓设备&#xff0c;执行各种命令&#xff0c;如安装和卸载应用&#xff0c;传输文件&#xff0c;查看日志&#xff0c;运行shell命…

Please install it with pip install onnxruntime

无论怎么安装都是 Please install it with pip install onnxruntime 我python 版本是3.11 &#xff0c;我换成3.10 解决了

低损耗高效能100G O Band DWDM 10km光模块 | 支持密集波分复用

目录 前言 一、产品概述 100G QSFP28 O Band DWDM 10km光模块核心特点包括&#xff1a; 二、为何选择O Band DWDM方案&#xff1f; 1.低色散损耗&#xff0c;传输更稳定 2.兼容性强 三、典型应用场景 1.数据中心互联&#xff08;DCI&#xff09; 2.企业园区/智慧城市组网 3.电信…