我用 Rust 重写了一个命令行工具

桃源隐者

统计加载中...

GitHub

加载中...

加载GitHub贡献图...

✨ 欢迎来到桃源笔记

这里是记录生活、分享技术、探索世界的小天地。愿你在忙碌的生活中，也能找到属于自己的那片桃源～

查看详情

标签

安全宝库笔记编程实践博客触摸事件低碳生活调试都市减压独处个人成长个性化教育更新日志工具工业4.0 工作生活平衡公告构建孤独观察航天技术合成生物学环保火星任务基因编辑计算器技能技术创新加密货币焦虑教育开源科技趋势科技与生活可持续生活量子计算灵活办公零浪费浏览器API 留白艺术慢生活哲学命令行工具内心成长评论系统前端区块链去中心化人工智能人文人性思考商业航天商业应用生活生活方式生活平衡生活哲学生态友好生物技术时间管理实验室实用方法书单数字化数字极简主义数字经济数字孪生数字伦理数字转型随笔太空探索太空殖民体验优化推荐未来工作未来经济未来科技未来学习未来展望物联网咸鱼之王小工具效率效率工具协议心理健康心理健康工具心灵治愈性能优化虚拟现实医疗创新移动端音乐游戏元宇宙远程工作远程医疗阅读增强现实正念知识管理智慧生活智能制造专注力自我关怀自我疗愈自我探索自我提升 Astro Canvas GitHub Obsidian Pagefind PKM Python RSS Rust Svelte Umami Web3

分类

--

分

预计充满时间 -- | 剩余电量 --

1334 字

7 分钟

我用 Rust 重写了一个命令行工具

2025-12-25

技术

Rust

/

/

/

/

统计加载中...

TL;DR#

把一个日常使用的 Python 脚本用 Rust 重写了，性能从 2.3s 提升到 0.04s，内存占用从 45MB 降到 3MB。这篇文章记录了整个迁移过程和踩过的坑。

起因：一个越来越慢的脚本#

我有个 Python 脚本，用来批量处理 Markdown 文件：提取 frontmatter、统计字数、生成目录。最开始只有几十个文件时还挺快，但随着文章越来越多（现在 200+ 篇），每次运行都要等好几秒。

1
$ time python process.py
2
处理完成：215 个文件
3

4
real    0m2.347s
5
user    0m2.156s
6
sys     0m0.187s

虽然 2 秒不算太慢，但每次修改文章后都要跑一遍，一天下来要等好几分钟。更要命的是，这个脚本还会被 CI/CD 调用，拖慢了整个构建流程。

为什么选 Rust#

最开始想过几个方案：

优化 Python 代码：试过用 multiprocessing，但 GIL 和进程开销反而更慢
换成 Go：写起来确实快，但二进制文件太大（15MB+）
试试 Rust：听说性能好，正好学习一下

最终选 Rust 的原因：

零成本抽象，性能接近 C
内存安全，不用担心段错误
生态成熟，有很多现成的库
编译后的二进制小（3MB 左右）

实现过程#

1. 项目初始化#

1
cargo new md-processor --bin
2
cd md-processor

添加依赖（Cargo.toml）：

1
[dependencies]
2
walkdir = "2"           # 遍历目录
3
gray_matter = "0.2"     # 解析 frontmatter
4
regex = "1"             # 正则匹配
5
rayon = "1.7"           # 并行处理
6
serde = { version = "1", features = ["derive"] }
7
serde_json = "1"

2. 核心逻辑#

Python 版本的核心代码：

1
def process_file(path):
2
    with open(path, 'r', encoding='utf-8') as f:
3
        content = f.read()
4

5
    # 提取 frontmatter
6
    matter = frontmatter.loads(content)
7

8
    # 统计字数
9
    text = re.sub(r'[^\\u4e00-\\u9fa5a-zA-Z0-9]', '', matter.content)
10
    word_count = len(text)
11

12
    return {
13
        'path': path,
14
        'title': matter.get('title', ''),
15
        'words': word_count
16
    }
17

18
# 串行处理
19
results = [process_file(f) for f in files]

Rust 版本：

1
use rayon::prelude::*;
2
use std::fs;
3

4
#[derive(Debug, Serialize)]
5
struct FileInfo {
6
    path: String,
7
    title: String,
8
    words: usize,
9
}
10

11
fn process_file(path: &Path) -> Result<FileInfo> {
12
    let content = fs::read_to_string(path)?;
13

14
    // 解析 frontmatter
15
    let matter = gray_matter::Matter::<gray_matter::engine::YAML>::new();
16
    let parsed = matter.parse(&content);
17

18
    // 统计字数（只保留中英文和数字）
19
    let text: String = parsed.content
20
        .chars()
21
        .filter(|c| c.is_alphanumeric() || (*c >= '\\u{4e00}' && *c <= '\\u{9fa5}'))
22
        .collect();
23

24
    Ok(FileInfo {
25
        path: path.display().to_string(),
26
        title: parsed.data
27
            .as_ref()
28
            .and_then(|d| d.get("title"))
29
            .and_then(|t| t.as_str())
30
            .unwrap_or("")
31
            .to_string(),
32
        words: text.len(),
33
    })
34
}
35

36
fn main() -> Result<()> {
37
    let files: Vec<_> = WalkDir::new("posts")
38
        .into_iter()
39
        .filter_map(|e| e.ok())
40
        .filter(|e| e.path().extension() == Some(OsStr::new("md")))
41
        .collect();
42

43
    // 并行处理
44
    let results: Vec<_> = files
45
        .par_iter()
46
        .filter_map(|entry| process_file(entry.path()).ok())
47
        .collect();
48

49
    println!("处理完成：{} 个文件", results.len());
50
    Ok(())
51
}

3. 踩过的坑#

坑1：字符串处理

Rust 的字符串是 UTF-8 编码，不能直接按索引访问。一开始写成：

1
let char = content[0]; // ❌ 编译错误

正确做法：

1
let char = content.chars().next(); // ✅

坑2：错误处理

Python 可以随便 try-except，Rust 必须显式处理每个 Result。一开始写了很多 unwrap()，结果遇到异常文件就 panic。

改用 ? 操作符和 filter_map 优雅处理：

1
let results: Vec<_> = files
2
    .par_iter()
3
    .filter_map(|entry| process_file(entry.path()).ok()) // 忽略错误
4
    .collect();

坑3：并行处理的开销

一开始直接用 rayon 并行，发现小文件反而变慢了。原因是线程创建和调度的开销。

解决方案：只在文件数量 > 50 时才并行：

1
let results = if files.len() > 50 {
2
    files.par_iter().filter_map(|e| process_file(e).ok()).collect()
3
} else {
4
    files.iter().filter_map(|e| process_file(e).ok()).collect()
5
};

性能对比#

基准测试#

测试环境：

CPU: AMD Ryzen 7 5800H
RAM: 16GB
文件数：215 个 Markdown 文件
总大小：约 3.2MB

指标	Python	Rust	提升
执行时间	2.347s	0.043s	54x
内存占用	45MB	2.8MB	16x
二进制大小	-	3.1MB	-
启动时间	0.18s	0.001s	180x

为什么这么快？#

编译优化：Rust 编译时做了大量优化（内联、循环展开等）
零拷贝：字符串处理时避免了不必要的内存分配
并行处理：rayon 自动利用多核 CPU
无 GC：没有垃圾回收的停顿

实际收益#

开发体验#

优点：

编译器非常严格，很多 bug 在编译期就被发现
类型系统强大，重构很安全
性能确实快，用起来很爽

缺点：

学习曲线陡峭，所有权系统需要时间理解
编译时间长（首次编译 2 分钟+）
生态虽然成熟，但不如 Python 丰富

CI/CD 优化#

之前构建流程：

1
拉取代码 (5s) → 安装依赖 (15s) → 处理文件 (2.3s) → 构建 (30s)
2
总计：52.3s

现在：

1
拉取代码 (5s) → 下载二进制 (1s) → 处理文件 (0.04s) → 构建 (30s)
2
总计：36s

每次构建节省 16 秒，一天跑 20 次就是 5 分钟。

经验总结#

什么时候该用 Rust#

适合：

性能敏感的工具（CLI、数据处理）
需要长期维护的项目
对内存占用有要求
需要跨平台分发

不适合：

快速原型开发
频繁变更需求的项目
团队没有 Rust 经验
简单的一次性脚本

给新手的建议#

从小项目开始：不要一上来就重写大型项目
多看文档：Rust Book 和 Rust by Example 写得很好
善用编译器：错误信息很详细，认真读
拥抱所有权：不要和编译器对抗，理解它的设计哲学
利用生态：crates.io 上有很多优秀的库

后续计划#

这次重写让我尝到了甜头，接下来打算：

把其他几个 Python 脚本也迁移过来
学习 async/await，处理网络请求
尝试用 Rust 写个 Web 服务（Axum 框架）

代码仓库#

完整代码已开源：github.com/example/md-processor

欢迎 star 和提 issue！

更新记录：

2025-12-25：初版发布
2025-12-26：添加了错误处理优化
2025-12-27：修复了中文字符统计的 bug

我用 Rust 重写了一个命令行工具

https://sylviz.cn/posts/14/

作者

kiwi

发布于

2025-12-25

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

2026，科技与人性的新平衡

一个人的电影院

心是桃源，处处水云

TL;DR#

起因：一个越来越慢的脚本#

为什么选 Rust#

实现过程#

1. 项目初始化#

2. 核心逻辑#

3. 踩过的坑#

性能对比#

基准测试#

为什么这么快？#

实际收益#

开发体验#

CI/CD 优化#

经验总结#

什么时候该用 Rust#

给新手的建议#

后续计划#

代码仓库#