抱抱脸模型TOP榜，我现在只服yuxinlu1

时间：2026-06-29 15:06:58 来源：网络整理编辑：综合

核心提示

听雨 | 发自凹非寺 | 量子位公众号 QbitAI在一众科技大厂林立的环境中，一位个人开发者竟然强势杀入 Hugging Face Models Trending 榜前列？这看似普通的一天，当我像

听雨 | 发自凹非寺 | 量子位公众号 QbitAI

在一众科技大厂林立的抱抱榜现环境中，一位个人开发者竟然强势杀入 Hugging Face Models Trending 榜前列？脸模

这看似普通的一天，当我像往常一样浏览 Hugging Face 的只服热榜时，景象却令人震惊。抱抱榜现

榜首是脸模智谱最新开源的 GLM-5.2，作为老熟人，只服其 6 万+ 的抱抱榜现下载量虽高但属意料之中。

紧随其后的脸模是百度近期悄悄开源的 无限 OCR，凭借单次解析 40+ 页文档的只服强大能力，下载量也攀升至 7 万。抱抱榜现

然而，脸模视线向下，只服一个名为 yuxinlu1的抱抱榜现个人账号赫然出现：

嗯……嗯？！

更令人咋舌的脸模是，该账号一举占据了两个席位。只服

查看最新数据，下载量分别高达 20.7 万和 53.6 万。这究竟是何等“神仙”模型？

甚至在上周，这位个人开发者的模型一度霸占 Hugging Face 榜首，力压 GLM-5.2。连智谱负责人都在 X（原推特）上公开推荐：

在智谱、百度、Qwen、NVIDIA 等巨头名字之间，一个个人开发者账号硬生生挤进 TOP 行列，且下载量惊人。

不禁让人好奇：luyuxin 究竟是谁？为何能量如此巨大？

“素人模型”强势冲榜

此次 Hugging Face 热榜的前排，基本被大厂、明星团队及热门赛道占据。

例如智谱的 GLM-5.2（753B 超大参数，国产明星大模型）；百度 Unlimited-OCR（踩中 OCR 与文档理解热点）。

此外还有 Qwen 的 AgentWorld、英伟达的 LocateAnything、微软的 FastContext。

国产开源大模型熟面孔也悉数在列：MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro。

图像生成领域，新模型 Krea-2-Turbo和 Krea-2-Raw也在榜上。

然而，其中竟夹着两个 luyuxin 的 12B GGUF 模型。

不……luyuxin 你也太醒目了吧……

仔细研读，这两个新模型的核心逻辑是将 Fable 5的编程推理能力，“蒸馏”进一个可在本地运行的 Gemma4-12B小模型中。

极低门槛：仅需 4.5GB 显存即可运行。
完全本地化：支持离线、零 API 成本。
硬件友好：普通玩家的一张消费级显卡，甚至一台带统一内存的 Mac 即可轻松驾驭。

双版本分工明确

这两个模型在功能上各有侧重：

V1：Coder 版
主打代码编写、解题及生成可运行代码。

训练数据：基于“可验证”的代码推理。每条思维链对应的代码必须真实运行测试并通过。
数据来源：主要源自 Cursor 的 Composer 2.5 及 Fable 5。若 Composer 2.5 出错，则由 Fable 5 重新推理，生成新的推理链与正确代码。
表现：V1 发布后，曾连续多日霸占 Hugging Face Trending 榜首。

V2：Agentic 版
增加了多步工具调用能力，可作为本地 Agent 使用，具备自主阅读、推理、执行及验证的能力。

Benchmark 测试：在 tau2-bench 的 telecom 子集上，基座 Gemma-4-12B 得分 15%，而 V2 版得分高达 55%，性能提升约 3.5 倍。

注：作者坦言此为本地自测、单一领域、20 个任务的相对值，虽不及官方榜单，但与前沿大模型仍有差距。

数据重建与质量控制

作者透露，Fable 5 后来被下线，仅保留其个人数据集中的“原始”推理过程。对于社区贡献数据中缺失的 reasoning 部分，他改用 Claude Opus 4.8 (xhigh)重新生成并逐一补全。

他承认重建轨迹“可能与原版 Fable 5 有出入”，但这在当时是唯一可行的方案。

在 Discussion 中，作者透露微调数据仅约 1 万条 examples。他强调：数据量并非关键，真正核心的是数据质量、筛选与验证。

为何能爆火？“本地能跑”是硬道理

该模型在 Hugging Face 获得高热度，还有一个极其现实的原因：本地可运行。

这两个模型均为 GGUF 量化版。

GGUF 是 llama.cpp 生态中常见的本地模型格式，用户可使用 llama.cpp、Ollama、LM Studio、Jan 等工具直接加载。

这对编程场景极具吸引力：
1. 隐私安全：涉及私有项目和本地环境时，无需将代码上传至云端。
2. 成本为零：无需支付 API 调用费用。

硬件门槛极低

V1 模型卡显示，最小的 Q2_K版本仅约 4.5GB，拥有约 4.5GB 显存或统一内存即可运行私有、离线的编程助手。

推荐配置：Q4_K_M版本，大小约 6.87GB。
高质量版：Q8_0版本，约 11.8GB。

对于 V2（Agentic 版），由于压力测试未通过 Q2_K 版本，最小可靠版本从 Q3_K_M（约 5.7GB）开始，推荐版本仍为 Q4_K_M（约 6.87GB）。

未来计划：V3 与更大模型

作者已预告后续计划：
* V3：仍在开发中，将继续沿 12B 路线深耕 Coding + Agentic 方向。针对 V2 在 tau2-bench telecom 上出现的“过度尝试、反复 retry”问题，V3 将通过更多训练进行优化。
* 更大版本：正在开发 Qwen3.6-27B版本，将同一套 Coding + Agentic 配方应用于更大底座，服务于显存更宽裕的用户。

一个人，40 小时，杀进大厂中间

单枪匹马冲上热榜，累计下载量超 70 万，在一众大厂机构间杀出重围。

这位作者究竟是何方神圣？

量子位联系到作者后，得知了他的故事。

他叫 逯雨鑫，目前是美国一所高校在读的 AI 方向研究生。本科就读于数据与商业分析专业，期间还专门补充了全栈开发技能，涵盖前后端、软件开发及数据处理。

纯自费的个人项目

这两个爆火模型并非他的主业，而是纯自费的个人项目。

“开源这东西其实只是花钱，并不会让你有任何收入。”

他很清楚这一点，因此做 V1 的最初动机是“自我提升”：

学校教授的知识更新滞后（仍讲两三年前的内容），而 AI 领域日新月异。他干脆通过该项目逼迫自己追赶最新技术。

成本：烧掉整整一个 Claude Max 20× 套餐。仅 V2 的开发就耗时 40 多个小时。
流程：合成数据、手动清洗、训练、评测、再训练，几乎全由一人承担。
硬件：使用一张 RTX 5090（32GB VRAM），配合约 96GB 本地 SSD，实际可用资源约 128GB。

对个人开发者而言，这不算差，但与大厂和 AI Lab 的算力池完全不在一个量级。

数据处理比训练更耗时

逯雨鑫表示，最耗时的环节并非训练，而是数据处理。

Agentic 数据中，真实对话往往很长，一个任务可能包含十几步、数千甚至数万 token。但受限于显存，训练时一次最多只能输入 2048 token。

为此，他采用了类似“滑动窗口”的处理方式：在多轮会话中，以最近一次用户消息为锚点，围绕一次工具调用，将上下文裁剪至预算以内。

为何选择 Gemma 4-12B？

V1 和 V2 均以 Gemma 4-12B为底座。

选择它并非因为容易适配（相反，Gemma 4 格式特殊、工具协议复杂，客户端支持不完善），而是出于以下考量：

挑战自我。
普惠性：12B 尺寸极具吸引力。量化至 3bit 左右后，许多 8GB 统一内存的 Mac 用户也能运行，并留出上下文窗口。

“我知道很多人使用的电脑还是 8GB 左右的统一内存。所以我想在最大可能的参数量下，让更多人使用到。”

逯雨鑫将本地模型的价值总结为两个词：隐私、免费。

他认为，许多用户仅需 AI 帮助整理文件、处理数据、制作 PPT 或体验 Agent，并不愿每月为 Claude、GPT 付费。

“人可能就是想玩一玩，为什么非得要收费呢？”

社区互动与意外走红

V1 发布初期，他并未关注榜单，仅在模型卡中写道：若大家喜欢、下载量和点赞多，便继续做 V2。

没想到两三天后，模型排名从不知名跃升至第八；睡一觉醒来，竟冲到第一。

随后，评论和 Issue 大量涌入。他几乎每条必看，高峰期每天花费 3-4 小时在 Hugging Face 上回复问题、测试用户反馈并告知结果。

“社区有需求，我是真的在去做，这才是最关键的。”

意外发现：他还爱看网文？

在 Hugging Face 上，逯雨鑫共发布了 9 个公开模型。除了两个爆火模型，他还做过“直接蒸馏 Claude”的模型。

例如 gemma-4-12B-it-Claude-4.6-4.8-Opus-GGUF，这是一个通用版 Gemma4-12B 蒸馏模型。它不限定于编程，旨在将 Claude Opus 的回答风格、推理习惯及 Thinking 能力压缩进 12B 本地模型中。

另一个模型则基于 JetBrains 的编程模型 Mellum2，专注于推理蒸馏。

但继续往下看……

等等，怎么还有网文的微调模型？

好家伙，还分了四个题材，全是基于 Qwen3.6的中文网文 LoRA。

逯雨鑫透露，这其实是他涉足 Hugging Face 模型的入口。

因为他本身就喜欢看小说。追更未完结小说时，读者焦虑，作者日更辛苦。于是，他想做一套免费的小说生成 Pipeline，通过不同风格的中文小说 LoRA，让作者用 AI 提速，读者也能更快看到内容。

但由于中文小说 LoRA 在 HF 上并不热门，后来他发现用户更关注 Coding 和 Agentic，于是方向逐渐转向了现在的路线。

给其他开发者的建议：真诚与坚持

当被问及对其他个人开发者的建议时，逯雨鑫的回答朴实而深刻：

1. 真诚
不要夸大模型能力。哪里强、哪里弱，都要说清楚。

“你要如实告诉大家。我骗你说我这有多强，但真实使用下来出现很多问题，下次我一发东西，你就不相信我了。”

2. 坚持
开源作者必须接受：你一定会遇到不好的声音。

模型火了之后，逯雨鑫也遭遇过质疑，但他选择坚持。在他看来，开源之路本就艰难：
* 登顶 Hugging Face 热榜不会直接带来收入。
* 更多时候，是自己花钱买算力、花时间处理数据、回复评论、修 Bug，还要面对少数负面声音。

ADHD 带来的独特优势

支撑他一路做下来的，还有一种个人的工作节奏。

逯雨鑫提到，自己患有 ADHD（注意力缺陷多动障碍）。

过去，这可能意味着难以长期按部就班地推进一件事。但在 AI 这个变化极快的领域，快速切换兴趣、迅速进入 Hyperfocus（超聚焦状态），反而成了某种优势。

他甚至认为：“AI 时代是 ADHD 的天下。”因为当一个方向凉下来后，如果还一直钻在里面，等再转去学新的东西，可能已经晚了。

结语：个人开发者的机会

聊到最后，我们抛出了最初的问题：

作为个人开发者，凭什么能在大厂中间挤进前排？

逯雨鑫的回答很中肯：

他认为大厂当然能做得更好，拥有更多研究员和更强算力。但大厂发布开源小模型，往往承担品牌宣传、API 引流等商业目标；而个人开发者没有这些包袱，反而可以更专注地解决一个具体痛点。

“我很高兴，但不是说我真的全面打败了他们，只是可能更认真一些。”

在他看来，这正是个人开源作者的机会：不必做全能模型，而是把一个足够具体的问题做到极致好用。

如果你想体验这款本地模型，链接如下：

温馨提示：目前最适配的平台是 llama.cpp，优先推荐大家使用。

HF 地址：https://huggingface.co/yuxinlu1

上一篇：智元第15000台通用具身机器人正式量产下线

下一篇：空中客车携手中国伙伴亮相第四届链博会共筑全球航空强韧供应链