NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述,数据准备, 绩效指标和评估结果

news/2024/12/26 4:46:04 标签: java

拼写纠正系列

NLP 中文拼写检测实现思路

NLP 中文拼写检测纠正算法整理

NLP 英文拼写算法,如果提升 100W 倍的性能?

NLP 中文拼写检测纠正 Paper

java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

一个提升英文单词拼写检测性能 1000 倍的算法?

单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离

NLP 开源项目

nlp-hanzi-similar 汉字相似度

word-checker 中英文拼写检测

pinyin 汉字转拼音

opencc4j 繁简体转换

sensitive-word 敏感词

论文地址

可以参考:https://paperswithcode.com/task/chinese-spell-checking

摘要

本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务描述,数据准备, 绩效指标和评估结果。

比赛揭示了当前处理中文拼写检查的最新NLP技术。

所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。

介绍

中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包含单个字符或多个字符。

此外,还有超过13,000个汉字,而不是英文的26个字母,每个字母都有自己的上下文构成一个有意义的中文单词。

所有这些使中文拼写检查成为一项艰巨的任务。

一项实证分析表明,中文拼写错误通常是由多个字符单词之间的混淆引起的,这些单词在语音和视觉上相似,但在语义上却截然不同(Liu等,2011)。

自动拼写检查器应具有以下两项功能:

识别拼写错误,并建议错误用法的正确字符。

SIGHAN 2013年中国拼写检查竞赛是第一个提供数据集作为中国拼写检查员绩效评估基准的活动(Wu等人,2013)。

SIGHAN 2013中的数据来自中国母语人士撰写的论文。

根据第一次评估的经验,在CIPS-SIGHAN CLP-2014联合会议上举行了第二次评估,会议重点是汉语作为外语(CFL)的学习者撰写的论文(Yu等,2014)。 。

由于在CFL leaners书面论文中检测和纠正拼写错误方面面临的更大挑战,SIGHAN 2015 Bake-off再次具有中文拼写检查任务,为自动中文拼写检查器的开发和实施提供评估平台。

给定由几句话组成的段落,检查人员应识别所有可能的拼写错误,突出显示其位置并提出可能的更正

本文的其余部分安排如下。

第2部分概述了SIGHAN 2015年中文拼写检查的流程。

第三部分介绍了开发的数据集。

第4节提出了评估指标。

第5节比较了各个参赛者的结果。

最后,我们在结论中总结了本文,并在第6节中提供了未来的研究方向。

任务描述

这项任务的目的是评估中文拼写检查器的功能。

输入的段落包含几个有/没有拼写错误的句子。

检查器应返回错误字符的位置并建议正确的字符。

每个字符或标点符号占用1个点进行计数 位置。

输入实例具有唯一的通道编号pid。

如果句子中没有拼写错误,则检查器应返回“ pid,0”。

如果输入段落中至少包含一个拼写错误,则输出格式为 “pid [, location, correction]+” ,其中符号“ +”表示存在一个或多个预测元素的实例 “ [,位置,更正]”。

“位置”和“更正”分别表示不正确字符的位置及其正确版本。

例子如下。

  • Example 1
Input: (pid=A2-0047-1) 我真的洗碗我可以去看你
Output: A2-0047-1, 4, 希, 5, 望

这里实际是音近字。

xiwan

xiwang

所以中文纠错真的更难了--

  • Example 2
Input: (pid=B2-1670-2) 在日本,大學生打工的情況是相當普偏的。
Output: B2-1670-2, 17, 遍

偏 遍

这个是形近字

  • Example 3
Input: (pid=B2-1903-7) 我也是你的朋友,我會永遠在你身邊。
Output: B2-1903-7, 0

Ex中有2个错误的字符。

1,正确的字符“希”和“望”应分别在位置4和5中使用。

在Ex。 2,第17个字符“偏”是错误的,应为“遍”。

位置“ 0”表示Ex。中没有拼写错误。 3

资料准备

用于我们任务的学习者语料库是从在台湾管理的基于计算机的汉语作为外语考试(TOCFL)的论文部分中收集的。

拼写错误是由受过训练的中文母语者手动注释的,他们还会提供与每个错误对应的更正。

然后将论文分为以下三组

(1)训练集:该训练集包括970篇精选论文,总共3,143个拼写错误。

每篇文章以SGML格式表示,如图1所示。

title属性用于描述文章主题。

每个段落由几个句子组成,每个段落至少包含一个拼写错误,并且数据既指示错误的位置,又指示相应的更正。

这套文章中的所有文章都用于训练已开发的拼写检查器

(2)Dryrun SET

共有39篇文章提供给参与者,使他们熟悉最终的测试过程。

每个参与者可以提交使用不同模型生成的多个运行,并使用其检查器的不同参数设置。

除了确保可以正确评估提交的结果之外,参与者还可以在试运行阶段微调其开发的模型。

空运行的目的是仅验证提交的输出格式,官方评估中未考虑空运行结果

(3)测试集

这套包含1100条测试段落。

这些段落中有一半没有拼写错误,而另一半则至少包含一个拼写错误。

评估以公开测试的形式进行。

除了提供的数据集外,还允许注册的参与者团队使用任何语言和计算资源来检测和纠正拼写错误。

此外,由CFL学习者撰写的文章可能会产生语法错误,单词遗漏或多余,单词选择不正确或单词顺序问题。

所讨论的任务仅专注于拼写错误纠正。

<ESSAY title="學中文的第一天">
<TEXT>
<PASSAGE id="A2-0521-1"> 這位小姐說:你應
該一直走到十只路口,再右磚一直走經過一家銀
行就到了。</PASSAGE>
<PASSAGE id="A2-0521-2">應為今天是第一天,
老師先請學生自己給介紹。</PASSAGE>
</TEXT>
<MISTAKE id="A2-0521-1" location="15">
<WRONG>十只路口</WRONG>
<CORRECTION>十字路口</CORRECTION>
</MISTAKE>
<MISTAKE id="A2-0521-1" location="21">
<WRONG>右磚</WRONG>
<CORRECTION>右轉</CORRECTION>
</MISTAKE>
<MISTAKE id="A2-0521-2" location="1">
<WRONG>應為</WRONG>
<CORRECTION>因為</CORRECTION>
</MISTAKE>
</ESSAY>

结论与未来工作

本文概述了SIGHAN 2015年中文拼写检查的概况,包括任务设计,数据准备,评估指标,性能评估结果以及参与团队使用的方法。

无论实际表现如何,所有提交的内容都有助于寻找有效的中文拼写检查程序的知识,并且Bake-off程序中的各个报告提供了对中文处理的有用见解。

我们希望为此Bakeoff收集的数据集可以促进并加快有效的中文拼写检查程序的未来开发。

因此,所有具有黄金标准和评估工具的数据集均可在 http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html 上公开获得。

未来的方向集中在中文语法错误纠正的发展上。

我们计划建立新的语言资源,以帮助改进现有的计算机辅助中文学习技术。

此外,将从CFL学习者那里获得的新数据集将进行调查,以进一步丰富该研究主题。

个人感受

这篇 paper 虽然没有说具体的实现方式,但是整体的评估思路是提供了的。

而且也说了大概的实现方式,基于 HMM 或者 CRF 的方式。


http://www.niftyadmin.cn/n/5799818.html

相关文章

docker 释放磁盘空间--常用清理命令

1. 清理未使用的镜像、容器、网络和数据卷 使用 docker system prune 命令可以清理未使用的镜像、容器、网络和数据卷&#xff1a; # docker system prune 如果你想更彻底地清理&#xff0c;包括停止的容器和所有未使用的数据卷&#xff0c;可以使用 --volumes 选项&#xf…

如何编写 Prompt

如何编写 Prompt Prompt 示例参考 对于特定的任务来说&#xff0c;没有万能的Prompt&#xff0c;只有一些通用的模式&#xff0c;要完成这个任务还需要这个任务特定的 Example&#xff0c;大部分优秀的 Prompt 都需要 Example&#xff0c;这其实应用了模型的短期学习能力。另外…

python学opencv读取图像(十四)BGR图像和HSV图像通道拆分

【1】引言 前序已经对BGR图像和HSV图像的转换进行了基本讨论&#xff0c;相关文章链接为&#xff1a; python学opencv|读取图像&#xff08;十二&#xff09;BGR图像转HSV图像-CSDN博客 python学opencv|读取图像&#xff08;十三&#xff09;BGR图像和HSV图像互相转换深入-C…

Java面试题,数据结构,图的最短路径算法应用于社交网络分析

图的最短路径算法应用于社交网络分析 在一个大型社交网络中&#xff0c;用户想要找到连接两个特定用户的最短路径。假设你已经有了这个社交网络的数据模型&#xff0c;其中节点代表用户&#xff0c;边代表用户之间的关系。请设计一个解决方案&#xff0c;以找出两个用户之间的…

ThinkPHP接入PayPal支付

ThinkPHP 5接入PayPal 支付&#xff0c;PayPal的流程是服务器请求Paypal的接口下单&#xff08;需要传订单id/支付成功的重定向地址/支付失败的重定向地址&#xff09;&#xff0c;接会返回一个支付地址&#xff0c;项目服务器把地址返给用户&#xff0c;用户打开链接登录Paypa…

项目练习:element-ui的valid表单验证功能用法

文章目录 一、情景说明二、代码实现 一、情景说明 一般表单提交的时候&#xff0c;都要对表单数据进行前段验证。 比如登陆表单提交。 二、代码实现 package.json "element-ui": "2.15.14",main.js 引用ElementUI import ElementUI from element-ui; i…

如何让Tplink路由器自身的IP网段 与交换机和电脑的IP网段 保持一致?

问题分析&#xff1a; 正常情况下&#xff0c;我的需求是&#xff1a;电脑又能上网&#xff0c;又需要与路由器处于同一局域网下&#xff08;串流Pico4 VR眼镜&#xff09;&#xff0c;所以&#xff0c;我是这么连接 交换机、路由器、电脑 的&#xff1a; 此时&#xff0c;登录…

4种使用带有阶段的前后控制图来衡量改进的方法

每个人都有自己喜欢的图形类型或可视化工具。我喜欢的是带有阶段的控制图&#xff0c;有时也被称为前后控制图&#xff08;我们之前写过前后控制图的文章&#xff09;。 简而言之&#xff0c;它们是帮助分析改进前后过程的控制图&#xff0c;不仅监视变化&#xff0c;而且监视…