知识库包括哪些模块(知识库方面包括哪些)这样也行?
欢迎收听并讨论,如有疑问或提出建议,届时论文作者将为您答疑,敬请关注!
精彩推荐题目:汉语述语块知识库构建及内部边界识别作者:王诚文,刘祥,饶高琦,荀恩东时间:2021年5月16日10:20-12:00会场:语言资源建设与应用第3会场腾讯会议ID:239 309 152b站直播链接:
https://live.bilibili.com/3236159
汉语述语块知识库构建及内部边界识别王诚文,刘祥,饶高琦,荀恩东北京语言大学摘 要:目前汉语研究中,组快划分都是平面的,没有层次信息而在现实语料中,述语块及前后的主客体成分块是句子表示事件的骨架成分,述语块内部的子块分别从不同侧面修饰核心谓词,承载事件的关联成分。
因此,有必要将述语块与述语块内部子块看为不同层级的组块成分这种主次区分便于提纲挈领明确句子主体语义,便于事件推理及计算因此,本文首先界定了谓词为核心的述语块,并在述语块内部进行进一步子块的确定以百科语料为标注语料,对谓词为核心的述语块进行了标注。
同时根据本文定义的子块类型,对述语块内部的成分进行划分目前该知识库包括36360个述语块基于该知识库,该文提出了述语块内部边界识别任务,并采用序列标注模型进行了试验,为后续研究提供了基线关键词:述语块,边界识别,组块
0 引言本文认为在汉语深度句法语义分析层面,已有的组块体系未能有效将组块成分的主次体现出来,即将事件的构成成分述语块与述语块内部承载事件关联信息的子块区分在不同层级,不能够有效体现核心谓词与从属组块的依存关联。
因此,本文采用一条“自大到小”的知识库构建策略,首先标注出以核心谓词为中心的附带前后连续性修饰成分的述语块,其次对于述语块内部核心谓词前的状语成分进行子块的切分,明确的谓词和子块边界划分为谓词与被支配组块的依存关联构建提供了基本单元,为进一步语义关系分析(论元关系和情态关系)提供数据支撑。
同时,基于知识库,采用序列标注模型进行述语块内部的子块边界识别1 述语块界定及子块类型确立1.1述语块界定根据前后修饰成分的有无,其形式化定义为:述语块=修饰成分(前)+核心谓词述语块=核心谓词+修饰成分(后)
述语块=修饰成分(前)+核心谓词+修饰成分(后)具体例子如下:eg1: 这种程序包(一般都(有))6个程序模块eg2:专家系统((嵌入)到CACSD软件包中)eg3: 这类仪表(通过杠杆或钢丝绳等机构将浮标位移
(传递)出去)在上述例子中,以外层括号表示整个述语块,同时内部以括号表示核心谓词成分,前后修饰成分加下划线表示 1.2子块类型确定在本文中对前置修饰成分进行分析观察的基础上,确立了以典型标记词为特征的不同子块类型,同时融入了表示固定语义的子块类型,比如表时间和处所的成分组块。
述语块内部子块类型见表2.
针对核心谓词前置修饰成分复杂,需要进一步进行切分及修饰成分内部成块的特征,本文以典型的形式标记(小词)为主,同时融合表义特征制定了8种组块类型后文将根据8种类型对核心谓词的前置修饰成分进行块边界标注2 知识库构建
2.1语料选取本知识库构建主要选取了百科语料作为标注对象,本文选取的百科语料有43727句2.2标注过程标注过程主要分为两个步骤,首先对于输入句子,以“()”标识出述语块,进而再以“()”标出其核心谓词。
其次,在述语块标识基础上,对于核心谓词前修饰成分,根据上述8种子块类型,以“[]”标识出其具体的边界例如:句子=“穆藕初逐渐转向政界活动,1943年9月16日在重庆病故”述语块={(逐渐(转向)), (1943年9月16日在重庆(病故))}。
述语块内部块标注={[逐渐] (转向), [1943年9月16日][在重庆](病故)}在具体的工作开展时,两位语言学硕士生进行两两标注,首先进行述语块标注,其次进行述语块内部子块的标注,最后对于标注结果一致的保存,不一致的直接予以舍弃。
具体的数据加工的示意图如图1所示
图1 标注流程2.3统计分析截至目前,从43727个百科句子中,标注出符合本文研究对象的述语块36360个在统计述语块长度时,只统计核心谓词及核心谓词之前的修饰成分的长度表1显示了述语块的长度分布情况表1 述语块长度分布
对述语块内部核心谓词前的修饰成分进行子块切分后,可以形成组块的序列(将核心谓词也认定为谓词组块)。表2显示了内含不同子块数量的述语块分布情况。表2述语块(内含不同数量子块)分布
从表2看出,述语块的内部构成大部分为2层,同时3/4层的块数也占有相当的比例单从层次上来看,述语块的层级相对简单,但是对层次为2的述语块做了统计分析,发现其长度自2到102不等分布,许多层次为2的述语长度为4-14不等,主要是因为介词组块及框式表达高频出现。
这样的数据也从另一侧面证明对百科语体述语块内部进行进一步块边界的划分与识别是至关重要的3 述语块内部边界自动识别3.1任务建模与数据给定一个长度为为n的述语块X={x1,x2,…,xn},从所有可能的标记序列中挑出最可能的标记序列Y={y
1,y2,…,yn},最终从获得的标记序列中还原述语块内部边界的位置。一个述语块的内部结构边界识别的序列标注示例如表3所示。表3序列标注示例
知识库目前包含36360条数据,。我们根据“BMES”的标注体系,将知识库中的述语块导出为序列标注格式文件,按照7:3的比例随机划分训练集和测试集,具体的数据集统计结果如表4所示:表4实验数据划分
3.2实验模型模型1:CRF条件随机场(CRF)特征选取见下表。
模型2:BERT+CRFBERT具有强大的双向编码能力,我们在实验中使用了基于深度学习的BERT+CRF作为对比试验,模型上实验采用的是预训练语言模型BERT-Base (Jacob,2019),其包括了
12层Transformer Encoder Block,输出维度为768维其输入是token embedding、position embedding和segment embedding三者之和通过。
BERT输出后,我们通过Dense 将维度转换成可用于CRF的发散矩阵。最后通过CRF来进行求得最优路径。具体模型如图3所示。
图3 述语块内部边界识别的BERT+CRF模型3.3实验结果本研究采用以块为单位的精确率、召回率和F值作为实验结果的评价指标。其具体的实验结果见表5:表5实验结果
从表5可以看出相较于依靠字符模板特征的CRF模型,依靠深度学习方法的BERT+CRF模型在各项指标上有2到3个点的提升这样的对比结果一定程度上说明,BERT能够对述语块内部的上下文知识进行有效的表示,从而为标签预测提供支撑。
在结果统计中,发现述语块的内含子块个数是不均匀的,进而对内含不同子块数量的述语块分别进行内部边界识别,其具体结果如表6所示。表6不同子块实验结果
从表6中看出,随着子块数量的增加,无论是CRF模型还是BERT+CRF模型在该任务上的性能都有一定的下降但同时,BERT+CRF相对于CRF模型有着更好的表现3.4实验展望一方面,由于内含子块数多的述语块在语料中相对稀疏,造成评测结果较差,很难真正反映模型处理多层次组块时的能力,在今后的工作中会针对多层次组块进行数据标注,待至一定规模时重新测试模型性能。
另外一方面,通过对错例的分析,模型对于介词嵌套现象处理不好,例如“对跟该场景不契合的案例无效”。在处理该类现象时边界往往出错,后期需要加以改善。
关闭观看更多更多正在加载正在加载退出全屏视频加载失败,请刷新页面再试
刷新
视频详情 欢迎收听并讨论,如有疑问或提出建议,届时论文作者将为您答疑,敬请关注!
今日责编:喜欢三毛的小卷毛
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186