CCL 2020,北大方正集团数字出版技术国家重点实验室展示新成果
原标题:CCL 2020,北大方正集团数字出版技术国家重点实验室展示新成果
近日,方正集团旗下数字出版技术国家重点实验室参加了第十九届中国计算语言学大会(The Nineteenth China National Conference on Computational Linguistics, CCL 2020),并在大会上展示了实验室在中文多轮对话问答、中文智能审校、中文媒体事件抽取等领域的多项创新性研究成果,为后续成果的开放共享、技术转化及产业化落地发挥前沿性支撑作用。
中文多轮对话问答研究成果展示多轮对话问答是机器阅读理解方向近几年来一个新的研究任务。鉴于目前基于机器阅读理解的多轮对话问答研究中采用的数据集大多为英文数据集(如SQuAD, CoQA, QuAC等),且数据规模不大,非常缺乏中文的问答数据。为了开展相关研究,实验室课题组设计并搭建了向社会开放的多轮对话问答数据采集平台。
在实验室的最新研究中,提出一种印象特征,用于提升多轮对话问答性能。从不同的维度学习对话历史,同时做特征选择,并将有用信息集成于当前问题和文章中。
多轮对话问答数据采集平台
为了提升图书期刊等出版物的出版效率,实验室将机器学习和自然语言处理技术引入出版物的审校环节,对"待出版"文本中的语法、语义和知识类等各种错误进行自动检查和纠正,实现了数字出版领域的技术创新和产业化应用。智能审校平台目前集成的功能包括单位符号检查,错别字检查,标点符号检查,以及属于语法检查任务的叠字叠词检查和搭配不当检查。
在实验室的最新研究论文中,提出了一种基于数据增强和语言学特征多任务训练方法来提升中文语法错误检测的效果。该方法在NLPTEA CGED评测任务数据集进行测试,性能优于其他中文语法检测模型。
智能审校系统的错别字纠错示例
作为信息抽取领域一个重要的研究方向,事件抽取旨在从非结构化的文本中抽取出事件信息,并以结构化的形式呈现出来。实验室的最新研究提出了一种基于预训练语言模型,通过定义事件三元组(触发词,事件要素角色,事件要素)构建的事件抽取联合模型以解决事件要素重叠问题,且该方法在国际评测任务ACE2005中文事件抽取数据集上进行测试,有效提高了中文事件抽取的效果。
中文事件抽取联合模型框架图
"第十九届中国计算语言学大会"(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)由中国中文信息学会主办。CCL是中国中文信息学会(CIPSC)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过二十多年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。
责任编辑:
相关知识
CCL 2020,北大方正集团数字出版技术国家重点实验室展示新成果
北大方正集团 “方正2020字体设计大会”高能来袭
广州文交会开幕,文旅新业态成果亮眼
开启感官新时代!马栏山四个世界级5G+VR前沿技术研发实验室挂牌
乞丐在街上写字,因太好看引起方正集团注意,50万收购后现状如何
数字技术助力全球科技抗疫
数博成果 云上分享
数博成果 云上分享
聚焦AI在学术出版和图书馆服务中应用
全国科技周在武汉设分会场 集中展示抗疫科技成果
网址: CCL 2020,北大方正集团数字出版技术国家重点实验室展示新成果 https://www.alq5.com/newsview46997.html
推荐资讯
- 1李清照“两处相思同淋雪,此生 21150
- 2中华民国双旗开国纪念币一枚能 16059
- 3佟丽娅现状如何佟丽娅与陈思诚 15472
- 4马库斯世界和平艺术展圆满落幕 15420
- 5第十届中国花卉博览会,其中复 13292
- 6张家界____是张家界市永定 11809
- 7《交换的乐趣》林媚阿强苏小婉 11132
- 8《绝叫》-叶真中显 (pdf 10925
- 9《稻盛和夫给年轻人的忠告》电 9754
- 10《三嫁惹君心》中的美女,董馨 9549
