BERT再升级
- 量子位
- 2024-12-27 02:28:20
BERT再升级最强纯编码器模型
盼星星盼月亮,BERT终于升级了。
基于Transformer的双向编码器——BERT(Bidirectional Encoder Representations from Transformers),在2018年由谷歌推出。
这个仅有编码器层,无解码器层的纯编码器,更适合分类、检索或特定任务微调。
就在刚刚,Hugging Face发布了BERT的升级版本——ModernBERT,进一步提升了模型效率、可扩展性和灵活性。
具体都有哪些提升呢?
此前,BERT有512的字符限制,ModernBERT直接把上限拉到8192字符。
而且ModernBERT还用上了闪存注意力技术(Flash Attention),在减少内存占用的同时,大幅提高了训练推理速度。
更让人惊喜的是,ModernBERT可以无缝替换BERT,无需改代码就能享受性能飞跃。
这次ModernBERT推出了两个版本,分别是1.39亿参数的基础版和3.95亿参数的增强版。
技术原理上,ModernBERT采用交替注意力(Alternating Attention),与全局注意力的不同之处如【图2】。
【图2】左侧是传统的“全局注意力”(global attention),每一层中的任一token都能关注输入序列的所有其他token。它就像一把大伞,单个token可向全局展开,看到全局的信息。
右侧则是“全局与局部交替注意力”(alternating global and local attention)。在这个结构中,有些层为全局注意力,有些层为局部注意力。
局部注意力层中的token只对相邻一小段范围内的token进行关注,像一把小伞,只覆盖附近区域,既能节省计算开销,又能保持一定的全局信息获取能力,使模型又快又精确。
实验结果方面,【图3】纵轴是GLUE基准成绩,横轴为运行时间,可以看到,ModernBERT-base和ModernBERT-large力压群雄,全面领先于传统的BERT、RoBERTa等模型。
感兴趣的小伙伴可以点击:
网页链接
盼星星盼月亮,BERT终于升级了。
基于Transformer的双向编码器——BERT(Bidirectional Encoder Representations from Transformers),在2018年由谷歌推出。
这个仅有编码器层,无解码器层的纯编码器,更适合分类、检索或特定任务微调。
就在刚刚,Hugging Face发布了BERT的升级版本——ModernBERT,进一步提升了模型效率、可扩展性和灵活性。
具体都有哪些提升呢?
此前,BERT有512的字符限制,ModernBERT直接把上限拉到8192字符。
而且ModernBERT还用上了闪存注意力技术(Flash Attention),在减少内存占用的同时,大幅提高了训练推理速度。
更让人惊喜的是,ModernBERT可以无缝替换BERT,无需改代码就能享受性能飞跃。
这次ModernBERT推出了两个版本,分别是1.39亿参数的基础版和3.95亿参数的增强版。
技术原理上,ModernBERT采用交替注意力(Alternating Attention),与全局注意力的不同之处如【图2】。
【图2】左侧是传统的“全局注意力”(global attention),每一层中的任一token都能关注输入序列的所有其他token。它就像一把大伞,单个token可向全局展开,看到全局的信息。
右侧则是“全局与局部交替注意力”(alternating global and local attention)。在这个结构中,有些层为全局注意力,有些层为局部注意力。
局部注意力层中的token只对相邻一小段范围内的token进行关注,像一把小伞,只覆盖附近区域,既能节省计算开销,又能保持一定的全局信息获取能力,使模型又快又精确。
实验结果方面,【图3】纵轴是GLUE基准成绩,横轴为运行时间,可以看到,ModernBERT-base和ModernBERT-large力压群雄,全面领先于传统的BERT、RoBERTa等模型。
感兴趣的小伙伴可以点击:
