7 min read

llmfit:一条命令测出你的电脑能跑哪些 AI 大模型(附配置建议)

折腾本地 AI 模型最烦的事:下了半天发现跑不动,或者跑起来卡成 PPT。llmfit 是个 Rust 工具,一条命令扫你的硬件,直接给出能跑哪些模型、跑多快、推荐哪种量化版本,省掉所有试错时间。

折腾本地 AI 的人大概都经历过这个:好不容易找到一个模型,下载花了一两个小时,结果跑起来发现内存直接爆掉,或者推理速度慢得像老年机在思考人生。我之前也是靠感觉选模型——看看参数量,估一下内存,觉得差不多就拉,碰运气。后来在 Reddit 的 r/LocalLLaMA 看到有人提到 llmfit,说是能扫硬件然后直接告诉你能跑什么,就去试了一下。

这篇写一下 llmfit 的实际用法,顺便给不同配置的人整理了一份参考清单,省掉自己试错的时间。

它到底做什么

一句话说清楚:llmfit 扫你本机的 CPU 核数、内存容量、显卡型号和 VRAM,然后从它内置的 500+ 大模型数据库(覆盖 133 个提供商)里,把你能跑起来的模型全部筛出来,配上四维评分和预估速度,告诉你应该下哪个。

四个评分维度:

  • Quality:模型参数量和口碑,越大越好
  • Speed:根据你的硬件预估 tok/s
  • Fit:内存/显存适配度,分 Perfect / Good / Marginal / Too Tight 四档
  • Context:上下文窗口大小

适配等级里,Perfect 是完全没压力跑,Too Tight 就是别想了。Good 和 Marginal 中间那档其实可以跑,就是别同时开浏览器几十个标签页。

它还支持 Ollama、llama.cpp、MLX(Apple Silicon 专用)三种运行时,平台覆盖 macOS / Linux / Windows。工具本身用 Rust 写的,速度挺快,启动几乎不等待。

怎么装

不需要 Rust 环境,装的是编译好的二进制,三种方式都很简单:

Mac(最省事):

brew install llmfit

Windows(需要先装 Scoop):

scoop install llmfit

Linux / 通用一键脚本:

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

装完直接在终端跑 llmfit,默认启动 TUI 交互界面;加 --cli 参数就是纯表格输出。

跑起来长什么样

先用 llmfit system 确认一下它检测到的硬件对不对,这步很重要——如果识别错了,后面推荐的模型全白搭:

llmfit system 命令输出:显示检测到的 CPU、内存、显卡信息

TUI 默认界面里,上方一栏是你的硬件信息,中间是按综合评分排序的模型列表,每行显示模型名、量化推荐(比如 Q4_K_M)、预估 tok/s 和适配等级。

几个常用快捷键:

  • /:进入搜索模式,直接输关键词过滤
  • f:按 Fit 等级筛选,只看 Perfect 或 Good
  • d:直接下载选中模型(走 Ollama)
  • p:Plan mode,反向查某模型需要啥硬件

CLI 模式用起来:

# 先确认检测到的硬件
llmfit system

# 只看 Perfect 适配的前 10 个模型
llmfit fit --perfect -n 10

# 搜索特定模型
llmfit search "llama 8b"

# 按用途推荐,JSON 输出
llmfit recommend --json --use-case coding --limit 3

下面是在一台 16GB 内存、纯 CPU 机器上跑 llmfit --cli fit 的实际输出:

llmfit CLI 模式输出:模型兼容性分析表格,显示适配等级、预估速度、量化推荐

不同配置能跑什么

这节是核心。直接按内存档位说,省掉自己查文档的功夫。

8GB 内存(无独显,纯 CPU)

能跑,但得选小模型。推荐:Qwen2.5-1.5B、Llama-3.2-1B、Phi-3.5-mini。

这几个日常聊天、写代码辅助都够用,不要指望跑 7B 以上的,内存会打满然后开始疯狂 swap,速度从"勉强能用"变成"算了我还是用网页版吧"。

量化推荐 Q4_K_M,这个档位平衡感最好。速度预估大概 20-40 tok/s(CPU x86 基准 70 tok/s,实际随参数量往下压)。

16GB 内存 / 8GB VRAM(RTX 3070、RTX 4060 等)

这个配置开始好玩了,能跑 Good 以上的 7B 级别:Llama3-8B、Qwen2.5-7B、Mistral-7B。

量化推荐 Q5_K_M 或 Q6_K,能保住更多精度。有独显走 CUDA 的话,实际速度落在 60-90 tok/s 这个区间,聊天基本是实时感。

32GB 内存 / 16-24GB VRAM(RTX 3090/4090,或 Mac M2/M3 Pro)

能跑量化版的大模型了,这才是本地 AI 的完整体验:Llama3-70B(Q4_K_M 量化版)、DeepSeek-R1-32B、Qwen2.5-32B。

GPU 预估 70-120 tok/s,Apple Silicon 走 Metal 跑 32B 量化大概在 60-100 tok/s,比很多人想象的快。Mac 这边因为是统一内存架构,32B 的 Q4 放进去没什么压力。

快查表:

配置推荐模型量化预估速度
8GB 内存,无独显Qwen2.5-1.5B / Phi-3.5-miniQ4_K_M20-40 tok/s
16GB 内存 / 8GB VRAMQwen2.5-7B / Mistral-7BQ5_K_M40-80 tok/s
32GB 内存 / 24GB VRAMDeepSeek-R1-32B / Llama3-70B(Q4)Q4_K_M70-120 tok/s
Mac M2/M3 Pro(32GB 统一内存)Qwen2.5-32B / Llama3-70B(Q4)Q4_K_M60-100 tok/s

Plan mode:反查"跑这个模型需要啥硬件"

这个功能反向操作:给定一个模型名,推算你需要多少内存/显存才能流畅跑,还告诉你能不能 CPU offload。

llmfit plan "Qwen/Qwen2.5-7B-Instruct" --context 8192

输出示例(真实跑的):

=== Hardware Planning Estimate ===
Model: Qwen/Qwen2.5-7B-Instruct
Quantization: Q4_K_M

Minimum Hardware:
  VRAM: 5.4 GB
  RAM:  8.0 GB

Recommended Hardware:
  VRAM: 7.1 GB
  RAM:  12.0 GB

Feasible Run Paths:
  GPU:        Yes  — est speed: 33.2 tok/s
  CPU offload: Yes  — est speed: 16.6 tok/s
  CPU-only:   Yes  — est speed: 10.6 tok/s

Upgrade Deltas:
  +5.4 GB VRAM -> Good
  +7.1 GB VRAM -> Perfect

用场景是买电脑之前:先确定要跑哪个模型,用 plan 算出需要什么配置,比在论坛发帖问准多了。

和 Ollama 配合用

llmfit 和 Ollama 搭配是最顺手的组合。TUI 里选好模型,直接按 d 下载到 Ollama,省掉自己查模型名手动 pull 的步骤。

也可以 CLI 拿推荐结果再手动拉:

# 按用途推荐
llmfit recommend --use-case coding --limit 3

# 拿到推荐后手动 pull
ollama pull qwen2.5:7b

之前折腾过 Ollama 配合 OpenClaw 做本地记忆搜索,llmfit 先帮你选好模型,再接上 Ollama,整个流程就顺了。如果你在用 OpenClaw,可以看看 OpenClaw CLI 命令指南,有不少和本地模型配合的用法。

几个小坑

显卡识别不准:主要出现在虚拟机或 nvidia-smi 挂了的情况。手动指定内存绕过:

llmfit --memory=24G --cli

速度是估算,不是跑分:实际受量化版本、并发、上下文长度影响很大。长上下文(8K+ tokens)场景速度会比估算值低,别把这个数字当成保证。

模型数据库要联网更新:不是完全离线的,离线环境用不了最新模型数据。

Windows 要先装 Scoop:这个包管理器装起来是一条 PowerShell 命令的事,官网直接有,不麻烦。

如果在找 VPS 做本地 AI 部署的基础资源,可以看看这份免费 VPS 清单,有几个跑轻量模型的选项。

试了之后确实省了不少时间,再也不靠感觉下模型了。已经在用 Ollama 的话,顺手装上 llmfit,选模型这步基本就自动化了。