水产科技情报

面向少量标注数据的命名实体识别研究 

来源:水产科技情报 【在线投稿】 栏目:期刊导读 时间:2021-03-03

引言

新时期,情报工程化是创新科技情报工作的有效途径,如何从海量无结构数据中抽取出语义信息成为情报工程化亟待解决的问题[1]。其中,命名实体识别(Named Entity Recognition,NER)是解决这一问题的基本手段,特别是近些年来,以知识驱动的人工智能应用不断发展,带来了对精炼和专业知识的更多需求,领域NER成为文本挖掘技术的重要发展趋势,面向特定领域的NER也对下游知识库和知识图谱构建起到举足轻重的作用。

与大多数自然语言处理(Natural Language Processing,NLP)任务一样,命名实体的准确识别依赖足量标注样本,当有大量标注数据集可用时,NER任务可以得到高质量地解决。但在现实世界里,标准数据集非常稀缺,例如在生物医药等专业领域,往往缺乏可直接用于模型训练的数据集[2],特定领域由于专业性强,数据标注依赖领域专家,这种劳动密集的缺陷制约了NER的快速发展。因此,对少量标注数据情况下的NER进行深入研究极为必要。

目前,面向少量标注数据的NER研究还处于发展阶段,相关工作主要集中于传统机器学习、深度学习方法。近些年,一些研究对少量标注数据NER进行了探索,但是缺乏系统性归纳和总结。鉴于此,本文基于文献调研和统计分析方法,全面综述了相关文献并进行相关分析,以期为学者深入研究提供参考。本文按时间跨度1995-2019年,以Web of Science(Wos)核心合集、万方数据库为数据源,制定检索式分别为:“TS=(“named entit* recog*” or ner)AND TS=(“transf* learning” or tl or “few*shot” or “zero* shot” or “small sample*” or“small set*” or “small data*” or “few sample*” or “few set*” or “few data*” or “little sample*” or “little set*” or “little data*” or“unannotated data*” or “spars* labeled data*”or “semi-supervised” or “distant supervised”or unsupervised or “weakly supervise”)”、“题名或关键词:(命名实体识别、NER、少量标注数据、少样本、零样本)”,共遴选出124篇文献,本文的研究内容、分析比较主要据此展开。

1 研究内容

1.1 研究领域、语种统计分析

NER指识别出文中具有唯一标识的专有名词,一个命名实体通常是在给定数据集中具有相似属性的词语或概念[3]。如图1所示,自从1995年MUC-6会议首次提出以来,NER的相关文献逐渐上升,特别是2013年以来,随着深度学习的兴起,NER等NLP任务在更多领域得到广泛应用。

图1 发文数量随时间变化

如图2,从标注数据来看,由于通用领域标注资源丰富,机构、人名和时间等实体结构相对简单,在少量标注数据实验中性能更为优异而成为人们研究的主要对象。但不容忽视的是,在生物医药等专业领域,实体资源稀缺也更为关键,相关的研究占比也很大。

如图3,在NER任务中,英语是研究的主体,其次是汉语,而窄域语种资源相对匮乏,但语种之间互相借鉴对目标语种的NER具有启发性意义。例如东亚-太平洋语系较为相近,而印欧语系可互相参考。

图2 NER任务领域占比

图3 NER任务数量排名前10语言

1.2 NER基础方法

NER基础方法可分为三类:基于规则、机器学习和深度学习方法,它们的评测指标通常基于准确率(Precision,P)、召回率(Recall,P)和F1值(F1 score,F1)。如图4所示,早期的研究使用规则和机器学习方法,其中,基于规则的方法利用信息列表以及句法-词法模式等规则来分类命名实体,但是这些方法依赖于限定语言、领域和文本风格,可移植性、鲁棒性较差的缺陷让研究者寻求新的思路,逐渐将兴趣转向机器学习方法。基于机器学习的方法能自动学习复杂模式或序列标记,这种方式能进行自适应特征学习。但如何定义包含丰富信息的特征是一项困难的工作,而深度学习非线性拟合的能力自动构建语义特征,结合分布式词表示(Distributed Representation)技术有效克制高维空间数据稀疏的特性,为NER任务提供新的思路[4]。

图4 面向少量标注数据的NER基本方法

解决NER任务通常基于以上三种方法,其中,传统机器学习和深度学习方法占据主流地位,两者呈上升趋势。特别地,深度学习方法在近几年增长趋势明显,在面向少量标注数据的NER研究中,人们倾向于使用具有丰富表征能力的深度学习方法。

1.3 少量标注数据的NER

基于规则、统计机器学习和深度学习的方法在通用语料上能取得良好的效果,但在特定领域、小语种等缺乏标注资源情况下,NER任务往往得不到有效解决。迁移学习(Transfer Learning)NER[5]为此提供契机,迁移学习利用领域相似性,在领域之间进行数据共享和模型共建,为少量标注数据相关任务提供理论基础。本文从迁移的方法出发,按照知识的表示形式不同,将少量标注数据NER方法分为基于数据增强、基于模型迁移、基于特征变换、基于知识链接的方法。如图5所示,在这20多年间,四种方法的发文数量基本呈上升趋势,整体而言,当前的研究以数据增强、模型迁移为主,而其他的方法通常配合前两种方法使用,在研究中也值得关注。

上一篇:图书资料整理盒设计情报分析
下一篇:没有了