文本纠错 中文文本错别字检测上线

2021-11-25 admin 极智公告 834
正文 A

中文文本纠错任务,常见错误类型包括:

  • 谐音字词,如 配副眼睛-配副眼镜

  • 混淆音字词,如 流浪织女-牛郎织女

  • 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪

  • 字词补全,如 爱有天意-假如爱有天意

  • 形似字错误,如 高梁-高粱

  • 中文拼音全拼,如 xingfu-幸福

  • 中文拼音缩写,如 sz-深圳

  • 语法错误,如 想象难以-难以想象

目前来看,纠错算法分为两个方向:基于规则、深度模型规则的解决思路

中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;

错误检测部分先通过中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误, 整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;

错误纠正部分,是遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。


标签:
分享: