Layer Normalization
Layer Normalization 是针对 Batch Normalization 提出的,两者都是深度神经网络中为解决训练困难而提出的归一化手段。
Layer Normalization 是针对 Batch Normalization 提出的,两者都是深度神经网络中为解决训练困难而提出的归一化手段。
本文主要针对在低维向量空间中嵌入多关系数据(Multi-relational data)的实体和关系信息的问题。
Multi-relational Data, 指节点形如 $(head, label, tail)$ 的有向图,节点中的三元组分别代表头实体(head entity), 尾实体(tail entity)和头尾实体之间的关系(label)。本文的工作主要就关注于如何建模 Multi-relation data 的问题。
Modeling multi-relational data
多关系数据建模过程可以归结为实体之间的局部或全局关系模式的抽取过程,并根据观察到的关系模式泛化到所有实体之间进行预测。单一关系的局部性可能是纯粹结构性的,但也与实体类型相关。一般的关系数据则更加复杂,同时涉及关系和实体的类型。因此关系数据是异构的,需要更加泛化性的方法建模。
现存的方法大多基于隐式属性学习的框架,即通过学习实体和关系数据的隐藏表征进行建模。这些工作集中于增加模型的表现力和通用性,一般采用贝叶斯聚类框架或者基于能量的框架在低维向量空间学习实体的表征。这些模型的表现力的提升是以模型复杂度的增加作为代价,这导致其建模假设难以解释,同时带来计算成本的提高。
BERT 等在大规模语料库上训练的语言表征模型可以提取到丰富的语义信息,作者认为结合知识图谱中的实体信息可以引入额外知识来增强语言表征。
BERT 等语言表征模型虽然已经作为许多 NLP 任务的一部分取得了很好的结果,但是由于没有引入先验知识,在语言理解类任务中存在劣势。例如对于自然语言语句:$\text{Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.}$, 如果不知道 $\text{Blowin’ in the Wind}$ 和 $\text{Chronicles: Volume One}$ 是歌曲,在实体分类任务中就无法分辨 $\text{Bob Dylan}$ 究竟是作家还是歌手。同时也几乎无法提取细粒度关系。因此,引入引入额外的知识信息可以在许多基于知识的任务中受益,例如实体分类和关系识别任务。
百度 ERNIE, 与清华 ERNIE (ERNIE-Enhanced-Language-Representation-with-Informative-Entities) 同名
BART是一种用于预训练seq2seq模型的降噪自动编码器。BART使用标准的Transformer架构,训练时使用任意噪声函数对文本加噪,然后试图重建受损的文本。
BART的一个关键优势在于它的预训练过程使用任意的噪声函数,包括打乱原始句子的顺序,对任意长度的文本片段进行掩码替换等。这迫使模型对句子的整体长度进行更多推理,并对输入进行更长范围的转换。
BART格外适合微调到生成任务,在阅读理解,抽象对话,问答和总结任务中也有很好的效果。本文还基于BART介绍了一种新的机器翻译的模式,即在BART之上添加一些额外的Transformer层来将外语转换为带有噪声的目标语言,从而使用BART作为目标端语言模型进行去噪。