跳至正文

实战“厦大简繁文本智能转换系统”

2014年11月,我写了一篇有关由厦门大学牵头完成的《汉字简繁文本智能转换系统》的简评博文。那时只是简单地测评了一下,并没有严格意义上的实战。尽管如此,还是发现了诸多问题。这两天,借助我写就的一篇繁体字论文来实际操作了一把。初步检查了一遍,发现问题不少。以下为论文中实际出現的文本:

1. 遣使徃答其意

2. 五月去舟纔還

3. 他卻在其論著中

4. 扵是日本王良懷禮遇載䓁

5. 趙孟頫

6. 衣綿繻布

7. 海上峯峦红日近

8. 録

9. 幾夜吟窓月影西

以下为(1)使用简繁体智能转换word插件转换的结果;(2)MS Word自带工具的转换结果;(3)正确的转换结果。

image

亮色文字标示出来的都是错误的转换文字。从表中可以看出,厦大智能转换有9个错字,MS Word转换有7个错字。我这篇论文共29529字,其中正文是19819字,而这些转换出错的字全部来自正文,所以其错误率大致在4.5/10000,而官方宣称是1/10000。因为我研究是中国历史,文中引用了一些不太常见的繁体字,照理来说,这个错误率还算可以接受,但是问题是:这个智能转换系统可能比MS Word自身所带的免费工具错误率还高,而且实际操作中还出现了两个奇葩错误:

(1)转换“趙孟頫”和“繻布”两词时,系统无法识别,结果弹出了这样的结果。然后,这两个词后面所有的文本都不能再转换了。要想继续进行,只能绕过这两个词,从后面的部分再重新操作进行转换。

image

(2)不能转换也就罢了,竟然出现了自动删除注释的情况,而且没有任何的提示。删除注释的情况是发生在上述识别错误之时,也就是说,智能系统若遇到不能识别的情况时,它还会自动改变文档内容。删除注释的情况极其隐秘,幸亏我整篇文章重新核对了一下,不然损失太大了。

以上是今天实际操作中所出现的具体问题。俺只阐述实情,不抒发感情。。。

《实战“厦大简繁文本智能转换系统”》有19个想法

    1. 遇到不能处理的情况,就莫名把后面的一个文字或注释给直接干掉,太恐怖了。不能处理,你就放那不管就行了,何必再动其它文字呢……

    1. 这篇文章,我是使用了智能转换系统和word自带转换,然后将转换后的文档做了详细对比。就我这篇文章而言,Word在转换速度方面秒杀前者,准确度方面略胜几个字,误删率为零。从这三方面来讲,对比结果明显。

    1. 提供简繁体转换的网站非常多,准确率基本雷同。若想提高准备率,唯一的途径就是建立大量的语料库和映射库,这个非语言学家不能做,比较消耗精力。

    1. 我这边的操作上应该不存在什么问题的。下载安装插件,然后点击按钮操作就行了,很简单,不涉及复杂的设置。
      这也不是什么抄袭不抄袭的,主要是语料库的建设问题。如果语料库收集的不完整,映射转换时就很容易出现错误。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注