宣告
也许最后的时刻到了
我没有留下遗嘱
只留下笔, 给我的母亲
我并不是英雄
在没有英雄的年代里,
我只想做一个人。宁静的地平线
分开了生者和死者的行列
我只能选择天空
绝不跪在地上
以显出刽子手的高大
好阻挡那自由的风从星星的弹孔里
将流出血红的黎明
北岛 『献给遇罗克 』
也许最后的时刻到了
我没有留下遗嘱
只留下笔, 给我的母亲
我并不是英雄
在没有英雄的年代里,
我只想做一个人。宁静的地平线
分开了生者和死者的行列
我只能选择天空
绝不跪在地上
以显出刽子手的高大
好阻挡那自由的风从星星的弹孔里
将流出血红的黎明
北岛 『献给遇罗克 』
BERT 是一种新的语言表征模型,它是一种双向编码器表征的Transformers模型(Bidirectional Encoder Representions from Transformers)
BERT 利用了无标签预训练文本数据的左右上下文信息,训练出一个深度双向表征模型。预训练后的模型可以通过一个额外的输出层并微调到多个下游任务,并取得 state-of-the-art 的结果。
本文中,BERT通过使用“掩码语言模型(Masked Language Model, MLM)”作为预训练目标函数,缓解了单向性约束,改进了基于微调的方法。MLM即随机地将输入中的一些token替换为掩码,并且目标是基于上下文预测被掩码位置token的原始词典id。这种目标函数使表征有能力融合左右上下文的信息,从而使训练一个深度双向Transformer成为可能。
BERT是第一个在大量句级和词级任务上取得最优结果的基于微调的表征模型,优于许多特定于任务的体系结构。
作者认为:现有的 parameter-efficient tuning 方法虽然有效,但是对这些方法中真正有效的设计以及它们之间的联系很少被研究和理解。
作者基于一种观点:结合多模态信息的语言表征与不结合多模态信息的语言表征在表征空间中的位置不同,因此,可以将多模态信息视为表征空间中的 移位向量,与不结合多模态信息的语言表征向量相加可以得到向量空间中的最终位置。
本文写于 2020 年 4 月 10 日,2022 年 3 月 20 日重新整理
本文写于 2020 年 4 月 2 日,2022 年 3 月 20 日重新整理