首页> 关注此文用户还关注:

战“疫”记忆库构建关键技术研究

产出机构: 国家图书馆;北京大学;中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2022-05-23   
发布日期: 2022-06-14   
作者: 季士妍;曾月清;刘雅珺;刘耀;

 

摘要: 研究战“疫”记忆库构建的关键技术,不仅能为针对性解析各类战“疫”记忆资源提供技术手段与方法, 还能将各类资源的知识结构关联起来,从而将零散的信息和知识组织起来,为自动化构建记忆库提供一整套技术与方 法。针对人物与事件两类资源,提出战疫记忆人物专题构建流程与方法、事件与事件关系判定方法,实现自动生成战 疫记忆人物专题、战疫事件因果与顺承关系的判定,并设计构建战“疫”记忆库展示平台,对各类资源进行统计、关联 与多角度的可视化,验证研究技术和方法的可行性。通过对各部门和机构的相关信息进行收集和分析,将较为独立与 分散的各部分资源形成关联化的资源体系,为专题记忆库的构建提供方法和技术方面的参考。
关键字: 新冠肺炎疫情;构建记忆库;命名实体识别;事件提取;事件判定词表

在新冠疫情流行的背景下,本文提出一种战“疫”记忆库构建方法,构建了战“疫”新闻、事件、人物、机构、成果的资源描述模型,实现资源结构化入库以及元数据集与外部数据之间的关联。针对人物与事件两类资源,提出战疫记忆人物专题构建流程与方法、事件与事件关系判定方法,实现了自动生成战疫记忆人物专题、战疫事件因果与顺承关系的判定。最后,本研究设计并实现了战“疫”记忆库展示平台,对各类资源进行统计、关联与多角度的可视化,验证了本文研究技术和方法的可行性。本研究通过对各部门和机构的相关信息进行收集和分析,将较为独立与分散的各部分资源形成关联化的资源体系,能够为专题记忆库的构建提供方法和技术上的参考。

本文对构建战“疫”记忆库模型进行了理论和关键技术的研究,根据结构化元数据集提供的信息构建了人物概念模型和事件概念模型,将获取的原始资源数据规范化、结构化入库。通过BERT-BiLSTM-CRF深度学习模型实现命名实体识别以及应用事件抽取技术,实现了实体的自动发现和关系识别。通过分析战“疫”记忆资源的特点,对包含了各种资源实体内容和结构以及相互关联关系的战“疫”记忆库模型进行了构建。对各种来源的战“疫”资源进行描述,构建了资源描述框架,界定了记忆库模型涉及的信息字段以及各资源实体间的关系。本文采用一系列关键技术和方法,包括实体识别和判定、人物关系的识别和判定、事件以及事件关系的识别与判定等技术与方法,优化了记忆库内容与结构的构建,验证了构建技术与方法的可行性。

战“疫”记忆库中展示了抗疫新闻、抗疫人物、抗疫机构、学术成果和抗疫事件五个功能模块,对整个战“疫”记忆库的人物板块功能和事件板块功能进行抽检测试,并对出现的错误和问题进行了分析。在对人物板块功能测试后,通过分析抽检结果可知,存在识别出不相关人物比如编辑、摄影记者等的问题,另外还存在误将其他事物的名称识别成人名的情况,因此需要后续总结添加不相关人名的列表进行过滤。由于有些人物关系描述不存在显性关系标志词,如“妻子”“儿子”等词语,在进行人物识别时也会出现错误,造成误差。对事件板块功能测试,分析抽检结果可知,并不是所有的疫情新闻文本都带有时间关键词,因此存在对于时间发生时间识别不准确的问题。另外,由于子事件领域词表和事件触发词表数量有限,并且有可能部分词汇存在于多个事件类,导致一个事件被识别为多个事件类并且错误判定事件类型。由于施事者和受事者词汇包含嵌套实体和多个定语,导致两者之间识别不准确。通过分析抽检结果,总结出现的问题,并已经在关键技术和方法当中对出现的问题进行了相应的优化处理。

本文通过构建战“疫”记忆库,将分布在各机构的零散的数据和信息整合在一起,并且对各类资源进行解析和关联,形成知识建设体系,为实现以上功能提供了关键技术及方法,并且为自动化构建整体战“疫”记忆库提供相关技术。具体意义如下:

(1)建立各类资源的描述模型和记忆库构建模型,通过收集、整理和存储各机构和部门对新冠疫情的相关报道以及收集各文献信息等方式获取原始的数据资源,对原始资源进行解析,并统一对元数据规范化处理,这一过程解决了当前简单存储资源,未对数据进行规范化处理的问题,并且为后续能够将各类资源关联起来奠定了良好的基础,并且针对各类资源能够建立描述模型和战“疫”记忆库模型,统一了数据规范,具有重要的意义。

(2)提供了战“疫”记忆库构建的关键技术和方法,目前利用自然语言处理技术解析战“疫”记忆资源的研究并不多,因此资源内容语义和资源结构语义分析不够深入,资源相对分散和独立。而本文将通过使用关键技术和方法从内容和结构两方面出发,针对战“疫”记忆库中涉及的数据、概念、关联关系、结构等资源进行提取和加工提供技术和方法,为实现战“疫”记忆库的自动构建奠定技术基础。

(3)战“疫”记忆库的构建,本文将对战“疫”记忆库进行构建和功能实现,提供战“疫”知识库知识服务,为用户提供了有关新冠疫情各方面知识和资源,将人物与事件相互关联,使得用户更加全面清晰的了解到抗击新冠疫情的记忆知识。

但在解析战“疫”记忆资源的过程中,使用自然语言处理技术与深度学习技术挖掘资源的信息,大部分都是根据命名实体任务及事件抽取任务各自使用不同的方法进行的。此外,由于新冠肺炎疫情属于新近的突发公共卫生事件,此领域未有充足的标注语料,故未能训练与此领域内容相关的深度学习模型。今后的研究可以继续进一步探讨生成战“疫”记忆库的一体化算法,直接从各种战“疫”资源中生成战“疫”记忆库。

本文为《中国科技资源导刊》2022年第3期《 战“疫”记忆库构建关键技术研究 》缩略版,全文见附件。