中科院推出类脑大模型 SpikingBrain:以 2% 数据实现百倍速度突破

中国科学院自动化研究所的李国齐与徐波团队近日联合推出了全球首个大规模类脑脉冲大模型——spikingbrain1.0。该模型在处理超长文本方面表现极为突出,能够以超过主流 transformer 模型百余倍的速度完成400万 token 的文本处理任务,同时仅需其2%的数据量即可实现高效运行。

中科院推出类脑大模型 SpikingBrain:以 2% 数据实现百倍速度突破

中科院推出类脑大模型 SpikingBrain:以 2% 数据实现百倍速度突破

目前广泛应用的大语言模型,如 GPT 系列,大多基于 Transformer 架构构建。尽管其自注意力机制具备强大的语义捕捉能力,但随之而来的高计算复杂度成为显著瓶颈。当输入文本长度增加时,计算开销呈平方级增长,导致处理长文档时效率低下、能耗巨大。这一限制严重影响了 AI 在诸如法律合同分析、长篇文学解读等场景中的实际应用。

为突破这一困境,研究团队转向自然界最高效的智能原型——人脑。大脑拥有约千亿个神经元,日常功耗却仅有约20瓦。受此启发,团队提出“基于内生复杂性”的设计理念,致力于提升模型底层单元的智能化水平与运算效率。

SpikingBrain1.0 模拟了生物神经元的工作机制,推出两个版本:SpikingBrain-7B(70亿参数)和 SpikingBrain-76B(760亿参数)。首先,该模型摒弃了传统 Transformer 中计算代价高昂的自注意力结构,采用创新的“混合线性注意力架构”,将整体计算复杂度降低至线性级别 O(n),极大提升了对超长序列的处理速度。

其次,模型引入“自适应阈值脉冲神经元”机制,神经元是否激活取决于输入信号的累积强度,并通过动态调节激活阈值,确保系统始终处于最优工作状态。这种事件驱动的稀疏计算模式大幅减少了无效运算,实测计算稀疏度高达69.15%,显著降低了能耗。

值得一提的是,研究团队还开发了一套先进的模型转换方法,可将已有的 Transformer 模型无缝迁移至 SpikingBrain 架构,有效规避了从零训练的巨大成本。所有相关技术细节、代码及模型均已开源,发布于 GitHub 与魔搭平台,面向全球科研社区开放共享。

网友留言(0 条)

发表评论