Layer Normalization 是针对 Batch Normalization 提出的,两者都是深度神经网络中为解决训练困难而提出的归一化手段。

阅读全文 »

Motivation

预训练语言模型拥有很强的表征能力,可以利用预训练语言模型生成的语言表征高效捕捉文本的语法和语义特征。作者认为目前平凡的预训练目标不能明确建模relational facts,而relational facts对于理解整个文本十分重要。现有的关于建模实体及实体之间关系的研究主要关注于句内实体之间的孤立关系,忽略了在整个文档层面上实体之间的关系。

阅读全文 »

Motivation

一般的文本生成任务没有严格的格式限制,像宋词,十四行诗,歌词等文本由严格的格式或韵律控制,而关于受控格式的文本生成还未被充分研究过。

阅读全文 »

Motivation

本文主要针对在低维向量空间中嵌入多关系数据(Multi-relational data)的实体和关系信息的问题。

Multi-relational Data, 指节点形如 $(head, label, tail)$ 的有向图,节点中的三元组分别代表头实体(head entity), 尾实体(tail entity)和头尾实体之间的关系(label)。本文的工作主要就关注于如何建模 Multi-relation data 的问题。

Modeling multi-relational data

多关系数据建模过程可以归结为实体之间的局部或全局关系模式的抽取过程,并根据观察到的关系模式泛化到所有实体之间进行预测。单一关系的局部性可能是纯粹结构性的,但也与实体类型相关。一般的关系数据则更加复杂,同时涉及关系和实体的类型。因此关系数据是异构的,需要更加泛化性的方法建模。

现存的方法大多基于隐式属性学习的框架,即通过学习实体和关系数据的隐藏表征进行建模。这些工作集中于增加模型的表现力和通用性,一般采用贝叶斯聚类框架或者基于能量的框架在低维向量空间学习实体的表征。这些模型的表现力的提升是以模型复杂度的增加作为代价,这导致其建模假设难以解释,同时带来计算成本的提高。

阅读全文 »

Motivition

BERT 等在大规模语料库上训练的语言表征模型可以提取到丰富的语义信息,作者认为结合知识图谱中的实体信息可以引入额外知识来增强语言表征。

BERT 等语言表征模型虽然已经作为许多 NLP 任务的一部分取得了很好的结果,但是由于没有引入先验知识,在语言理解类任务中存在劣势。例如对于自然语言语句:$\text{Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.}$, 如果不知道 $\text{Blowin’ in the Wind}$ 和 $\text{Chronicles: Volume One}$ 是歌曲,在实体分类任务中就无法分辨 $\text{Bob Dylan}$ 究竟是作家还是歌手。同时也几乎无法提取细粒度关系。因此,引入引入额外的知识信息可以在许多基于知识的任务中受益,例如实体分类和关系识别任务。

阅读全文 »

Motivition

CGEC

中文语法纠错,旨在自动检测纠正中文语句中的语法错误。

中文语法纠错需要的操作种类:

  • 替换,中文中常常出现同音字(拼音输入法)和错别字的错误。可以通过替换对应的字纠正
  • 删除和插入,分别应对文字的冗余和遗漏问题
  • 本地释义,有时语法错误要求通过重新排列等方式重新释义序列中的部分词

其中插入删除本地释义是变长操作,替换是定长操作

阅读全文 »

Introduction

RoBERTa是一种新的BERT训练方法,超过了所有的post-BERT方法的性能。

本文通过重复BERT的研究过程,发现BERT是严重欠训练的。本文旨在仔细评估超参数和训练集的大小对模型性能的影响。

RoBERTa对BERT做出的修改如下:

总体上,本文的贡献为:

  1. 展示了一系列BERT设计和训练的选择和策略,介绍了可以提高下游任务性能的选择
  2. 使用了一个新的数据集:CC-NEWS,确认了使用更多数据进行预训练能够进一步提高下游任务上的表现
  3. 实验证明了MLM在正确的设计下优于最近新提出的所有方法
阅读全文 »

Introduction

BART是一种用于预训练seq2seq模型的降噪自动编码器。BART使用标准的Transformer架构,训练时使用任意噪声函数对文本加噪,然后试图重建受损的文本。

BART的一个关键优势在于它的预训练过程使用任意的噪声函数,包括打乱原始句子的顺序,对任意长度的文本片段进行掩码替换等。这迫使模型对句子的整体长度进行更多推理,并对输入进行更长范围的转换。

BART格外适合微调到生成任务,在阅读理解,抽象对话,问答和总结任务中也有很好的效果。本文还基于BART介绍了一种新的机器翻译的模式,即在BART之上添加一些额外的Transformer层来将外语转换为带有噪声的目标语言,从而使用BART作为目标端语言模型进行去噪。

阅读全文 »
0%