事情是这样的,我在 github 上刷到了一个直觉感受不可能的项目,他里面的一行描述让我停下来:

"Run a 1-billion parameter LLM on a $10 board with 256MB RAM"
我的第一反应是——这不可能。
不是不可能跑,是不可能用256MB RAM跑。我下意识地做了个估算:1B参数的模型,哪怕用最激进的INT4量化,也得……等等,我得认真算一下。
先把这道基础题做对
在看这个项目之前,我觉得有必要先把数字搞清楚。因为我发现很多人说"模型太大跑不了",但从来没算过"到底有多大"。
一个参数,用不同精度存储:
-
• FP32(全精度):4 字节 → 1B 参数 = 4 GB -
• FP16(半精度):2 字节 → 1B 参数 = 2 GB -
• INT8(8位量化):1 字节 → 1B 参数 = 1 GB -
• INT4(4位量化):0.5 字节 → 1B 参数 = ~500 MB
500MB。就算最激进的INT4量化,权重本身就要500MB。
然后 256MB 的设备要跑它?
这个时候我意识到,一定有什么东西不对——要么这 256MB 的说法有问题,要么这个推理方式根本不是我们平时理解的那种"全部加载进内存"。
等等,"运行"不等于"全部加载"
我重新去读了作者 Jaber 在 X 上发的那条推文 : x[1]
"model sits on the sd card, streams one layer at a time through 45mb of ram"

这句话让我停顿了一下。
"streams one layer at a time"——逐层流式推理。
好,这里有个关键认知需要建立:
Transformer 推理的本质,是把输入 token 依次经过每一层(Layer),最后输出下一个 token。而每一层在处理完之后,其权重在当前 token 的推理中就不再需要了。
所以,有没有可能——我们不把整个模型放进内存,而是每次只加载当前需要的那一层,用完就扔,再加载下一层?
答案是:可以。这就是 picolm 的核心设计。 真的是太妙了,但是想想,这不是和 skills 的实现方式类似吗,说他是渐渐式加载也不为过吧,只不过他用完就丢,做得更狠了,这似乎又和动态规划算法原理有点类似,用完前面的推导了就可以丢了,所以朋友们,你们看,有些原理其实就是这么美妙而直接,他会反复的被用到各种工程之处,并不是我们发明了多少,而是我们成功组合了多少。
推导一遍这个方案
我来把这个设计思路完整推一遍,因为光知道结论不够,要知道"为什么这样做"。
传统的推理流程是这样的:
[完整模型权重] → 全部加载进 RAM → 输入 Token → 逐层计算 → 输出 Token
这要求 RAM 足够装下整个模型。
picolm 的方案是:
[SD 卡上的量化模型]
↓(逐层读取,每次只读一层)
[45MB RAM 缓冲区]
├── 当前层权重(从 SD 卡流入)
├── 激活值(当前 token 的中间状态)
└── KV Cache(注意力机制的缓存)
↓
[CPU 计算当前层]
↓(计算完毕,当前层权重可以丢弃)
[读入下一层权重] → 重复...
↓
[最终输出 Token]

这样最关键的问题就变成:45MB 能不能装下一层的权重 + 激活值 + KV Cache?
对于一个标准的 1B 参数 Transformer(比如 Llama 架构),通常有 16-32 层,每层参数量大约是总参数的 1/层数。以 32 层为例,每层约 31M 参数,用 INT4 存储约 15-16MB。
加上激活值和 KV Cache 的开销,挤一挤,45MB 是可以装下的。
这里有个代价:每个 token 推理都需要从 SD 卡读取所有层的权重一遍。 这就是为什么速度是 10-21 tokens/秒,而不是 GPU 上的几百 tokens/秒。但在这个硬件条件下,这已经非常出色。
量化到底做了什么
讲完架构,再往下挖一层:模型怎么量化才能塞进 SD 卡,而且还能保持语言能力?
量化的基本原理是用低精度整数来近似浮点数。最常见的方式是 INT4 量化,也就是把每个权重从 FP32(4字节,约40亿个取值)压缩到 4bit(0.5字节,16个取值)。
这显然会有精度损失。关键在于:怎么把损失控制到"基本不影响语言理解"的程度?
目前主流的方案有几种思路:
-
• 按层分组量化(Group Quantization):不是整个权重矩阵用一个缩放因子,而是每 128 个或 64 个权重一组,各自有独立的缩放参数。这样可以大幅减少量化误差。 -
• 异常值处理(Outlier handling):某些权重值特别大,直接量化误差会很严重。现代量化方案(如 GPTQ、AWQ)会特别处理这些异常权重。 blog.4geeks[2]
picolm 大概率使用了 GGUF 格式的量化模型(从配套的 PicoClaw 生态来看),这是 llama.cpp 生态里最成熟的量化格式,对 INT4/INT3/INT2 都有良好支持。 hackster[3]
80KB 二进制,纯 C,零依赖——这是什么意思
作者特别强调了几个数字:80KB 二进制,pure C,zero dependencies。
我琢磨了一下,这三个约束其实互相解释:
首先,为什么要纯 C?
因为目标平台是嵌入式 Linux(Raspberry Pi)和 RISC-V 裸板(LicheeRV Nano)。这两类设备:
-
• 没有 Python 运行时(或者有但很慢) -
• 没有 PyTorch/TensorFlow/ONNX Runtime -
• 内存本来就只有 256MB,运行时自身不能占太多
纯 C 是在嵌入式世界里的通用语言,编译出来的二进制小、启动快、内存可控。
为什么只有 80KB?
这是纯 C + 零依赖的直接结果。没有引入任何第三方库,整个推理引擎从头实现。80KB 的二进制意味着:
-
• 启动速度极快 -
• 可以在任何 Linux/RISC-V 设备上直接跑 -
• 不需要 pip install任何东西
这让我想到了 llama.cpp 早期的设计哲学——当时作者 Georgi Gerganov 也是用纯 C/C++ 从头实现推理引擎,正是因为这个才能跑在苹果 M1 上超越 GPU。picolm 把这个思路推到了更极端的硬件边界。
整个系统的数据流
现在把完整的系统流程画出来,从硬件到推理输出:
┌─────────────────────────────────────────────────┐
│ 硬件层(LicheeRV Nano / Pi) │
│ │
│ ┌──────────┐ ┌─────────────────────────┐ │
│ │ SD 卡 │───>│ 45MB RAM 工作缓冲区 │ │
│ │ │ │ ┌───────────────────┐ │ │
│ │ 量化模型 │ │ │ 当前层权重 ~15MB │ │ │
│ │ (INT4) │ │ │ 激活值 (中间状态) │ │ │
│ │ │ │ │ KV Cache │ │ │
│ │ ~500MB │ │ └───────────────────┘ │ │
│ └──────────┘ └──────────┬──────────────┘ │
│ │ │
│ ┌────────▼───────────┐ │
│ │ CPU 推理引擎 │ │
│ │ (80KB 纯C二进制) │ │
│ └────────┬───────────┘ │
│ │ │
└─────────────────────────────│────────────────────┘
│
┌─────────▼──────────┐
│ Token 输出 │
│ ~10-21 tokens/s │
└────────────────────┘
│
┌─────────▼──────────┐
│ PicoClaw 接口 │
│ (完整离线AI助手) │
└────────────────────┘
推理的每一个 token,都会触发一次"从 SD 卡按层读取 → RAM 计算 → 丢弃上一层"的循环。这个循环的瓶颈在 SD 卡的读取速度,而不是 CPU 算力。
性能数字怎么看
作者给出的性能数据是:
-
• Raspberry Pi:约 21 tokens/秒 -
• LicheeRV Nano($10 RISC-V):约 10 tokens/秒
10 tokens/秒是什么感觉?大概就是每秒出现10个字,比人类阅读速度快一点,但明显比 GPU 推理慢很多。
但换个角度想:这是在 $10 的板子 上,跑 1B 参数的语言模型,完全 离线,不需要任何云服务。
这个对比才是关键。如果你的应用场景是:
-
• 不能联网的工业现场 -
• 需要本地隐私保护的嵌入式设备 -
• 开发低成本 AI 终端 -
• 教育/实验室用的低成本 AI 节点
10 tokens/秒就完全够用了。
这件事背后有一个更重要的问题
我把这个项目反复看了几遍,有一个问题一直在脑子里转:
为什么是现在才出现这个?
技术上,逐层流式推理不是新思路,INT4量化也已经成熟,纯C推理引擎 llama.cpp 早就存在。但 picolm 把这些东西组合起来,特别针对 256MB 内存的嵌入式板子做了工程优化,并且把配套的 PicoClaw 整个生态也建起来了。
这里有一个技术密度极高但被低估的工程选择:内存 budget 的精确分配。
45MB 这个数字不是随便选的。作者需要在以下几项之间精确平衡:
-
1. 当前层权重大小(由模型架构决定) -
2. 激活值缓存(由序列长度和 hidden dim 决定) -
3. KV Cache(由 context 长度决定,越长越占内存) -
4. 系统和进程本身的开销(Linux kernel + 进程 ≈ 50MB+)
总计需要在 256MB 里抠出 45MB 干净的工作内存,同时系统不崩溃。这需要对每一个字节的去向都了如指掌。这种程度的内存控制能力,在现代 AI 工程师里已经很少见了。
那它能干什么,不能干什么
说实话,1B 参数的语言模型,能力上限就摆在那里。
能做的:
-
• 基本的问答和对话 -
• 简单的文本分类/摘要 -
• 代码补全(简单片段) -
• 作为本地 AI 助手核心引擎(配合 PicoClaw)
不能做的:
-
• 复杂推理(数学、逻辑) -
• 长上下文理解(context 受 KV Cache 内存限制)
但这不是这个项目的目标。picolm 的价值不在于"打败 GPT-5",而在于把 AI 推理的硬件门槛降到极限。
最后想说一件事
我做技术这些年,见过很多"用大力气做小事"的项目,也见过很多"用小力气做大事"的项目。
picolm 属于后者。
80KB 的二进制,一个人写的,解决了一个清晰而真实的问题:让最便宜的硬件也能跑语言模型。
这背后没有什么神奇的新技术,用的都是已有的东西——量化、逐层推理、纯C实现。但工程上的每一个选择都很克制,很扎实。
有时候,工程问题的答案不是"找到一个更好的算法",而是"想清楚什么东西是真的必要的,把其他的全部扔掉"。
picolm 就是把"不必要的"扔干净之后,剩下的那 80KB。


