注册并分享邀请链接,可获得视频播放与邀请奖励。

huangserva (@servasyy_ai) “这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没” — TopicDigg

huangserva 的个人资料封面
huangserva 的头像
huangserva
@servasyy_ai
古早程序员 | AI出海 | 自由职业 机车游侠&机速购&骑享租创始人 15年前 freelance 起步 → 连续创业者 → 亏过1个亿,逆风翻盘中 分享创业,AI,读书,生活,健身 Official X channel of SERVASYY LLC
加入 December 2025
624 正在关注    31.6K 粉丝
这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,处理了完整的客户项目。 他坐在跨大西洋航班的靠窗位置,设备是 MacBook Pro M4,64GB 内存。机上 WiFi 要价 25 美元,他拒绝了。 没有云端 API,没有连接 Anthropic 或 OpenAI 的服务器,完全没有互联网。 只有一台本地运行的 Llama 3.3 70B(bf16)和他自己写的编排脚本。 模型通过 llama.cpp 运行。生成速度 71 tokens/秒,上下文约 60,000 tokens,内存占用 48.6 GiB / 64 GiB,起飞时电池剩余 3 小时 21 分钟。 起飞前他给编排器写了这样的系统提示: "你是一个运行在单台 MacBook 上的离线编排器。没有网络。你唯一的资源是 /Users/dev/work 下的本地文件、localhost:8080 的 Llama 70B 推理服务,以及 3 小时 21 分钟的电池预算。处理 /Users/dev/work/queue.jsonl 中的任务队列(每行一个客户任务)。对每个任务:起草 → 运行本地评估 → 保存产物到 /Users/dev/work/done/。每 12 个任务保存一次上下文检查点,以便更换电池后恢复。仅在队列为空或电池低于 5% 时停止。" 所以这个系统完全清楚自己运行在什么资源上。 它知道自己未来 11 小时没有外部连接。它知道自己的内存和电池都是有限的。它知道在飞机降落之前不会有人类介入。 系统跑在一个循环里。从队列取任务,推理,保存产物,写检查点。一个接一个。 当电池低于 5% 时,编排器自动暂停,等待笔记本切换到备用充电宝,然后从最后一个检查点恢复。 这是系统在飞行中的日志: "saved context checkpoint 8 of 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)" "restored context checkpoint (pos_min = 488, pos_max = 50118)" "prompt processing progress: n_tokens = 50 / 60818" "task 37016 done | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md" 窗外是云层、蓝天,没有 WiFi。托盘上是一台 MacBook,一个打开的终端,两个屏幕,一个 localhost 推理服务。 这是过去一年里我见过的最漂亮的离线 AI 工作流: 11 小时飞行,WiFi 费用 0 美元,所有客户队列在降落前全部清空。 这个故事的核心不是技术多牛(llama.cpp 跑 70B 现在很常规),而是一个完整的离线自主工作流,编排器理解自己的资源约束,自动管理电池和检查点,没人干预干了 11 小时。 这种"self-aware computing"的感觉确实挺酷的!
显示更多
0
121
1.5K
242
转发到社区