← 返回首页
MIT何恺明打破GPT垄断,新语言模型ELF:仅45B训练量碾压同级基线|elf|何恺明|向量|基线|语言模型_手机网易网 网易 网易号 0

MIT何恺明打破GPT垄断,新语言模型ELF:仅45B训练量碾压同级基线

知识圈
知识圈
2026-05-13 21:22 ·北京 ·网易号优质内容创作者
0

MIT何恺明团队发布了新语言模型 ELF(Embedded Language Flows)。他们绕开了目前的自回归架构,把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是:把整个生成过程塞进连续的向量空间,直到最后一步才把数据还原成离散 token。

打开网易新闻 查看精彩图片

图像像素能平滑变色,天生适合扩散模型去噪。但文字不行,词与词之间是断开的,「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟,以前的文本扩散模型做得很拧巴:要么在去噪时每一步都强行去查词表,要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠:中间全不管,让模型安安心心在连续空间里算去噪,只在最后一刻用同一套网络把向量转回文字。

这条路不仅走通了,而且极度省数据。在 OpenWebText 评测中,105M 参数的 ELF-B 仅用32步采样,困惑度(Gen. PPL)就压到了约24.1,优于多款基线模型。更重要的是,它只消耗了约45B 训练 token,而同级别对手通常需要500B 以上,训练量直接砍掉九成。这个结果证明,语言天生的离散性并没有堵死连续扩散这条路。

一旦这种思路成熟,未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页