面壁智能公众号2月12日宣布,正式发布稀疏-线性注意力混合架构SALA,以及基于该架构的文本模型MiniCPM-SALA,模型仅有9B参数。
标签: sala训练
面壁智能发布基于稀疏-线性混合架构SALA训练9B模型
2月12日,面壁智能正式发布稀疏-线性注意力混合架构SALA,以及基于该架构的文本模型MiniCPM-SALA,模型仅有9B参数。据介绍,MiniCPM-SALA不使用投机采样等加速算法,在云端推理芯 … Continue reading 面壁智能发布基于稀疏-线性混合架构SALA训练9B模型
