09 Mar 2026 7 min read 随手记

llmfit：一条命令测出你的电脑能跑哪些 AI 大模型（附配置建议）

折腾本地 AI 模型最烦的事：下了半天发现跑不动，或者跑起来卡成 PPT。llmfit 是个 Rust 工具，一条命令扫你的硬件，直接给出能跑哪些模型、跑多快、推荐哪种量化版本，省掉所有试错时间。

折腾本地 AI 的人大概都经历过这个：好不容易找到一个模型，下载花了一两个小时，结果跑起来发现内存直接爆掉，或者推理速度慢得像老年机在思考人生。我之前也是靠感觉选模型——看看参数量，估一下内存，觉得差不多就拉，碰运气。后来在 Reddit 的 r/LocalLLaMA 看到有人提到 llmfit，说是能扫硬件然后直接告诉你能跑什么，就去试了一下。

这篇写一下 llmfit 的实际用法，顺便给不同配置的人整理了一份参考清单，省掉自己试错的时间。

它到底做什么

一句话说清楚：llmfit 扫你本机的 CPU 核数、内存容量、显卡型号和 VRAM，然后从它内置的 500+ 大模型数据库（覆盖 133 个提供商）里，把你能跑起来的模型全部筛出来，配上四维评分和预估速度，告诉你应该下哪个。

四个评分维度：

Quality：模型参数量和口碑，越大越好
Speed：根据你的硬件预估 tok/s
Fit：内存/显存适配度，分 Perfect / Good / Marginal / Too Tight 四档
Context：上下文窗口大小

适配等级里，Perfect 是完全没压力跑，Too Tight 就是别想了。Good 和 Marginal 中间那档其实可以跑，就是别同时开浏览器几十个标签页。

它还支持 Ollama、llama.cpp、MLX（Apple Silicon 专用）三种运行时，平台覆盖 macOS / Linux / Windows。工具本身用 Rust 写的，速度挺快，启动几乎不等待。

怎么装

不需要 Rust 环境，装的是编译好的二进制，三种方式都很简单：

Mac（最省事）：

brew install llmfit

Windows（需要先装 Scoop）：

scoop install llmfit

Linux / 通用一键脚本：

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

装完直接在终端跑 llmfit，默认启动 TUI 交互界面；加 --cli 参数就是纯表格输出。

跑起来长什么样

先用 llmfit system 确认一下它检测到的硬件对不对，这步很重要——如果识别错了，后面推荐的模型全白搭：

TUI 默认界面里，上方一栏是你的硬件信息，中间是按综合评分排序的模型列表，每行显示模型名、量化推荐（比如 Q4_K_M）、预估 tok/s 和适配等级。

几个常用快捷键：

/：进入搜索模式，直接输关键词过滤
f：按 Fit 等级筛选，只看 Perfect 或 Good
d：直接下载选中模型（走 Ollama）
p：Plan mode，反向查某模型需要啥硬件

CLI 模式用起来：

# 先确认检测到的硬件
llmfit system

# 只看 Perfect 适配的前 10 个模型
llmfit fit --perfect -n 10

# 搜索特定模型
llmfit search "llama 8b"

# 按用途推荐，JSON 输出
llmfit recommend --json --use-case coding --limit 3

下面是在一台 16GB 内存、纯 CPU 机器上跑 llmfit --cli fit 的实际输出：

llmfit CLI 模式输出：模型兼容性分析表格，显示适配等级、预估速度、量化推荐

不同配置能跑什么

这节是核心。直接按内存档位说，省掉自己查文档的功夫。

8GB 内存（无独显，纯 CPU）

能跑，但得选小模型。推荐：Qwen2.5-1.5B、Llama-3.2-1B、Phi-3.5-mini。

这几个日常聊天、写代码辅助都够用，不要指望跑 7B 以上的，内存会打满然后开始疯狂 swap，速度从"勉强能用"变成"算了我还是用网页版吧"。

量化推荐 Q4_K_M，这个档位平衡感最好。速度预估大概 20-40 tok/s（CPU x86 基准 70 tok/s，实际随参数量往下压）。

16GB 内存 / 8GB VRAM（RTX 3070、RTX 4060 等）

这个配置开始好玩了，能跑 Good 以上的 7B 级别：Llama3-8B、Qwen2.5-7B、Mistral-7B。

量化推荐 Q5_K_M 或 Q6_K，能保住更多精度。有独显走 CUDA 的话，实际速度落在 60-90 tok/s 这个区间，聊天基本是实时感。

32GB 内存 / 16-24GB VRAM（RTX 3090/4090，或 Mac M2/M3 Pro）

能跑量化版的大模型了，这才是本地 AI 的完整体验：Llama3-70B（Q4_K_M 量化版）、DeepSeek-R1-32B、Qwen2.5-32B。

GPU 预估 70-120 tok/s，Apple Silicon 走 Metal 跑 32B 量化大概在 60-100 tok/s，比很多人想象的快。Mac 这边因为是统一内存架构，32B 的 Q4 放进去没什么压力。

快查表：

配置	推荐模型	量化	预估速度
8GB 内存，无独显	Qwen2.5-1.5B / Phi-3.5-mini	Q4_K_M	20-40 tok/s
16GB 内存 / 8GB VRAM	Qwen2.5-7B / Mistral-7B	Q5_K_M	40-80 tok/s
32GB 内存 / 24GB VRAM	DeepSeek-R1-32B / Llama3-70B(Q4)	Q4_K_M	70-120 tok/s
Mac M2/M3 Pro（32GB 统一内存）	Qwen2.5-32B / Llama3-70B(Q4)	Q4_K_M	60-100 tok/s

Plan mode：反查"跑这个模型需要啥硬件"

这个功能反向操作：给定一个模型名，推算你需要多少内存/显存才能流畅跑，还告诉你能不能 CPU offload。

llmfit plan "Qwen/Qwen2.5-7B-Instruct" --context 8192

输出示例（真实跑的）：

=== Hardware Planning Estimate ===
Model: Qwen/Qwen2.5-7B-Instruct
Quantization: Q4_K_M

Minimum Hardware:
  VRAM: 5.4 GB
  RAM:  8.0 GB

Recommended Hardware:
  VRAM: 7.1 GB
  RAM:  12.0 GB

Feasible Run Paths:
  GPU:        Yes  — est speed: 33.2 tok/s
  CPU offload: Yes  — est speed: 16.6 tok/s
  CPU-only:   Yes  — est speed: 10.6 tok/s

Upgrade Deltas:
  +5.4 GB VRAM -> Good
  +7.1 GB VRAM -> Perfect

用场景是买电脑之前：先确定要跑哪个模型，用 plan 算出需要什么配置，比在论坛发帖问准多了。

和 Ollama 配合用

llmfit 和 Ollama 搭配是最顺手的组合。TUI 里选好模型，直接按 d 下载到 Ollama，省掉自己查模型名手动 pull 的步骤。

也可以 CLI 拿推荐结果再手动拉：

# 按用途推荐
llmfit recommend --use-case coding --limit 3

# 拿到推荐后手动 pull
ollama pull qwen2.5:7b

之前折腾过 Ollama 配合 OpenClaw 做本地记忆搜索，llmfit 先帮你选好模型，再接上 Ollama，整个流程就顺了。如果你在用 OpenClaw，可以看看 OpenClaw CLI 命令指南，有不少和本地模型配合的用法。

几个小坑

显卡识别不准：主要出现在虚拟机或 nvidia-smi 挂了的情况。手动指定内存绕过：

llmfit --memory=24G --cli

速度是估算，不是跑分：实际受量化版本、并发、上下文长度影响很大。长上下文（8K+ tokens）场景速度会比估算值低，别把这个数字当成保证。

模型数据库要联网更新：不是完全离线的，离线环境用不了最新模型数据。

Windows 要先装 Scoop：这个包管理器装起来是一条 PowerShell 命令的事，官网直接有，不麻烦。

如果在找 VPS 做本地 AI 部署的基础资源，可以看看这份免费 VPS 清单，有几个跑轻量模型的选项。

试了之后确实省了不少时间，再也不靠感觉下模型了。已经在用 Ollama 的话，顺手装上 llmfit，选模型这步基本就自动化了。

它到底做什么

怎么装

跑起来长什么样

不同配置能跑什么

8GB 内存（无独显，纯 CPU）

16GB 内存 / 8GB VRAM（RTX 3070、RTX 4060 等）

32GB 内存 / 16-24GB VRAM（RTX 3090/4090，或 Mac M2/M3 Pro）

Plan mode：反查"跑这个模型需要啥硬件"

和 Ollama 配合用

几个小坑

You might also like...

2026年 Fansly 免费看：镜像网站、搬运站现状和可用方案汇总

国内订阅 Patreon 完整教程（2026）：用人人卡解决支付问题

2026年免费看 OnlyFans 内容：Kemono 还活、Coomer 停更，现状一次说清楚

2026年免费查看 Patreon 内容完整指南：能用的、不能用的，一次说清楚

OpenClaw 安装报错完全解决手册（2026）：missing control ui assets / spawn einval / brew not installed