ChineseBert

date
Jan 12, 2022
slug
chinesebert
status
Published
tags
学习
论文
summary
融合字形和拼音的中文预训练模型
type
Post

摘要

近来涉及中文的预训练模型忽视了中文两个重要的层面:字形和拼音,这两个层面可以表示句法和语义信息。
字形嵌入的实现基于不同的中文字体,这能够在视觉层面上捕获语义特征。拼音嵌入表现中文的发音特征,这可以解决中文的同词不同意的现象。

引言

大规模的预训练模型已经成为各种自然语言处理任务的基础backbone.除了英文NLP任务,预训练模型也在各种中文NLP任务上展现了他们的高效性。
中文是一门逻辑学语言,字符的逻辑学编码了语义信息。举例来说,液、河、湖都包含水字旁,这表明他们在语义上都和水有关。所以直观来说,中文字形丰富的语义应该会增强中文NLP模型的表达。许多工作尝试将字形信息融入网络,但至今没有大规模的预训练。
拼音,是汉字发音的罗马化序列,对语义和句法的建模十分重要,但拼音不能够被上下文或字形嵌入捕获。在句法层面上,发音有助于帮助识别一个字符的语料部分。
对于一个汉字字符,字形嵌入、拼音嵌入和字符嵌入结合形成了一个融合嵌入,对字符的独特语义属性进行建模。

相关工作

NLP的大规模预训练
Li使用汉字字符作为基础单元而不是英文中的word或者sub-word
RENIE应用三种masking策略,字符、短语、实例级masking,来增强捕获多颗粒度语义的能力
Cui使用Whole Word Masking策略来预训练模型,其中一个汉字中的所有字符都被一起masked,这样一来,相对于预测单词的成分,这个模型实现的任务更具挑战性。
学习字形信息
受word embedding的启发,Yin使用索引后的激进嵌入来捕获字符的语义,在一系列的中文NLP任务上提升了模型的性能。
另一种融合字形信息的方式是以图片的形式对待字符,这样字形信息可以通过图像模型很自然地被学习。然而,学习视觉特征的早期工作并不顺利。
Cai使用CNNs来从字符图片中提取字形特征,但是并没有在所有任务中实现一致性的性能提升。
Tao在单词类比和单词相似性上取得了不错的成绩,但他们并没有进一步在更多任务上评估字形嵌入。
Meng设计了一个特殊的CNN结构来进行字符特征提取,并使用图像分类作为辅助目标来规范有限数量的图像的影响
Xuan将Meng的思想拓展到命名实体识别NER,相较于初始BERT模型有效提升了性能。

模型

ChineseBERT 模型中,对于每一个汉字,字符、字形、拼英嵌入首先被压缩,然后通过一个全连接层来映射到一个D维的融合嵌入。融合嵌入然后加入位置嵌入来作为BERT模型的输入。因为不使用NSP预训练任务,我们忽略了分割嵌入。我们使用Whole Word Masking和Char Masking来进行预训练。
输入
模型的输入是可学习的绝对位置嵌入和融合嵌入。字符嵌入的执行方式类似于BERT中使用的token嵌入,不过是在字符粒度上。
字形嵌入
我们像Meng一样使用三种汉字字体:仿宋、行楷和隶书,每个汉字被实例化为24*24的图片,图片的浮点像素范围是0-255。24*24*3的向量首先被压平为2352向量。被压平的向量通过一个全连接层来得到输出的字形向量。
拼音嵌入
omit
融合嵌入
将字符嵌入、字形嵌入和拼音嵌入结合成一个3D维度的向量,融合层通过一个全连接层将3D维度的向量映射到D维度的向量
输出
输出是每个输入汉字相应的语境化表示

预训练设置

数据
我们在CommonCrawl收集我们的预训练数据,在经过预处理(如移除有太多英文文本的数据,过滤掉html标签),大约10%高质量的数据被保留来进行预训练,总共包含4B汉字。我们使用LTP toolkit来识别汉字的边界,来进行whole word masking.
Masking 策略
我们使用两种masking策略:Whole Word Masking和Char Masking
Li认为以汉字为基本输入单位可以缓解汉语中词汇量不足的问题,因此我们采用在给定语境中随机掩盖字符的方法,用char masking来表示。另一方面,中文的大量词汇由多个字符组成,对于这些词汇,模型可能很容易预测到char masking策略。
所以,我们像Cui一样使用WWM,一种掩盖所选单词中所有字符的策略,减轻了char masking策略容易预测的缺点
WWM和CM的主要区别在于它们如何掩盖字符以及模型如何预测掩盖的字符
预训练细节
不同于Cui在官方预训练Chinese BERT模型上预训练他们的模型,我们从头开始预训练
为了加强模型学习长程和短程依赖,我们交替训练打包句子和单个句子,打包句子占90%,单个句子占10%,90%时间使用WWM,10%时间使用CM。
每一个字符被遮盖的概率为15%,如果这个字符被选中,则80%时间被遮盖,10%时间被替换为一个随机字符,10%的时间保留不变。我们使用动态遮盖策略来避免重复的训练实例

实验

将ChineseBERT和RENIE、BERTwwm、MacBERT进行比较
 

© Dino 2021 - 2022