注册并分享邀请链接,可获得视频播放与邀请奖励。

Max For AI (@MaxForAI) “我发现中文圈没人提这个⬇️ 刚刚英伟达完成了一件很多人以为做不了的事。 他们用4bit精” — TopicDigg

Max For AI 的个人资料封面
Max For AI 的头像
Max For AI
@MaxForAI
没啥好看的,也就发点AI相关的内容👌 海本辍学创业,📖Prev Marswave CMO(0-300万ARR)、美元基金SR、某知名模型团队人才负责人、AI专业媒体运营、多个百万用户AI产品经理 小红书Max for AI(4万粉丝) 公众号01Founder(长文首发) 更多请访问网站⬇️(欢迎DM
加入 September 2023
1.8K 正在关注    11.5K 粉丝
我发现中文圈没人提这个⬇️ 刚刚英伟达完成了一件很多人以为做不了的事。 他们用4bit精度,在10万亿tokens上,预训练了一个12B参数的大语言模型。 其实预训练方向一直陷入停滞很久了,过去几年,预训练基本被16bit和8bit统治。 你可以在推理阶段做4bit量化,可以省显存,可以让模型跑得更便宜。 但真拿4bit去做预训练,就是另一回事。 训练不是把模型压小然后跑起来。 训练是每一步都要算梯度,每一步都要更新参数,每一步都可能被数值误差放大。 精度降太狠,loss会飘,梯度会偏,它会变得不稳定,自己“幻觉”出错误的计算,最终崩溃。 但英伟达证明了“不可能”只是一个数学问题。 他们使用了一种名为 NVFP4 的新格式,与标准结构不同,NVFP4 采用“微缩放”。 它不是粗暴地把所有数字砍成4bit,而是把数字切成很小的block,给每一小块单独配scale。 你可以理解成,以前是一把尺子量一整间屋子,现在是每一小格都有自己的尺子。 其结果是一次彻底的范式转变: 性能提升 2× 到 3× 内存使用减少 50% 最重要的是智能几乎无损 研究人员将该 4 位模型与庞大的 8 位基线进行了比较。曲线完全一致。 在 MMLU、GSM8K 和编程基准测试中,“微小”4 位版本的表现与更昂贵的模型相差不到 0.1%。 当然,它不是整个模型从头到尾全部纯4bit。 embedding、norm、attention相关部分、optimizer states这些地方,仍然有高精度保留。 但最重的那部分linear GEMM,已经可以被NVFP4接管,而且模型没有炸。 训练一个前沿模型过去需要数万块 GPU 和数月时间。NVIDIA 刚刚证明我们可以用一半的硬件和极少的电力得到相同的结果。 这对整个行业的意义很简单: 大模型训练不会因为算力贵就停下来。 英伟达正在把那张训练账单,一刀一刀往下切。 这会是一个非常颠覆的事情。 Paper:
显示更多