也许最后的时刻到了
我没有留下遗嘱
只留下笔, 给我的母亲
我并不是英雄
在没有英雄的年代里,
我只想做一个人。

宁静的地平线
分开了生者和死者的行列
我只能选择天空
绝不跪在地上
以显出刽子手的高大
好阻挡那自由的风

从星星的弹孔里
将流出血红的黎明

北岛 『献给遇罗克 』

Introduction

BERT 是一种新的语言表征模型,它是一种双向编码器表征的Transformers模型(Bidirectional Encoder Representions from Transformers)

BERT 利用了无标签预训练文本数据的左右上下文信息,训练出一个深度双向表征模型。预训练后的模型可以通过一个额外的输出层并微调到多个下游任务,并取得 state-of-the-art 的结果。

本文中,BERT通过使用“掩码语言模型(Masked Language Model, MLM)”作为预训练目标函数,缓解了单向性约束,改进了基于微调的方法。MLM即随机地将输入中的一些token替换为掩码,并且目标是基于上下文预测被掩码位置token的原始词典id。这种目标函数使表征有能力融合左右上下文的信息,从而使训练一个深度双向Transformer成为可能。

BERT是第一个在大量句级和词级任务上取得最优结果的基于微调的表征模型,优于许多特定于任务的体系结构。

阅读全文 »

Motivation

Transformer 模型中, FFN 层的参数占 3/2,但是其在网络中的作用还没有很好的被研究和理解

作者提出 FFN 层相当于神经记忆系统,以第一个矩阵为 key, 第二个矩阵为 value 记录了键值对信息。其中的 key 指人类可解释的文本特征(表层的文本结构特征和深层的文本语义特征), value 则可以诱导成在词典空间中的概率分布。

阅读全文 »

作者基于一种观点:结合多模态信息的语言表征与不结合多模态信息的语言表征在表征空间中的位置不同,因此,可以将多模态信息视为表征空间中的 移位向量,与不结合多模态信息的语言表征向量相加可以得到向量空间中的最终位置。

阅读全文 »

本文写于 2020 年 5 月 3 日,2022 年 3 月 20 日重新整理

阅读全文 »

本文写于 2020 年 4 月 1 日,2022 年 3 月 20 日重新整理

阅读全文 »
0%