苹果突破AI文本生成速度极限:新模型提速128倍

【CNMO科技消息】CNMO从外媒获悉,苹果与俄亥俄州立大学的研究团队近日发布了一项突破性研究,提出了一种名为“Few-Step Discrete Flow-Matching(FS-DFM)”的新型语言模型。该模型基于扩散模型(diffusion model)的改进架构,能够以极快的速度生成高质量长文本,速度最高可达传统自回归模型(如ChatGPT)的128倍。

苹果突破AI文本生成速度极限:新模型提速128倍

与传统自回归模型逐词生成文本的方式不同,FS-DFM通过并行生成多个词元(token)并在少量迭代步骤中逐步优化文本,最终实现完整输出。研究显示,FS-DFM仅需8轮迭代即可生成与需上千步迭代的扩散模型相媲美的长文本内容。

据悉,为实现这一目标,研究团队采用了三重技术策略:首先训练模型适应不同迭代步数的计算预算;其次引入“教师”模型引导迭代过程,确保每次更新更准确且避免过度修正;最后优化迭代机制,以更少、更稳定的步骤达成最终结果。

苹果突破AI文本生成速度极限:新模型提速128倍

在性能评估中,FS-DFM在困惑度(perplexity)和熵(entropy)两项关键指标上表现优异。与70亿参数的Dream扩散模型及80亿参数的LLaDA扩散模型相比,参数规模仅17亿、13亿甚至1.7亿的FS-DFM变体均实现了更低的困惑度(表明文本更自然准确)和更稳定的熵值(避免文本重复或混乱)。

苹果突破AI文本生成速度极限:新模型提速128倍

研究团队表示,由于该方法展现出显著潜力且目前缺乏类似公开模型,他们将发布代码和模型检查点以促进学术复现与进一步探索。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平