4月 062015
 

2014年11月,我写了一篇有关由厦门大学牵头完成的《汉字简繁文本智能转换系统》的简评博文。那时只是简单地测评了一下,并没有严格意义上的实战。尽管如此,还是发现了诸多问题。这两天,借助我写就的一篇繁体字论文来实际操作了一把。初步检查了一遍,发现问题不少。以下为论文中实际出現的文本:

1. 遣使徃答其意

2. 五月去舟纔還

3. 他卻在其論著中

4. 扵是日本王良懷禮遇載䓁

5. 趙孟頫

6. 衣綿繻布

7. 海上峯峦红日近

8. 録

9. 幾夜吟窓月影西

以下为(1)使用简繁体智能转换word插件转换的结果;(2)MS Word自带工具的转换结果;(3)正确的转换结果。

image

亮色文字标示出来的都是错误的转换文字。从表中可以看出,厦大智能转换有9个错字,MS Word转换有7个错字。我这篇论文共29529字,其中正文是19819字,而这些转换出错的字全部来自正文,所以其错误率大致在4.5/10000,而官方宣称是1/10000。因为我研究是中国历史,文中引用了一些不太常见的繁体字,照理来说,这个错误率还算可以接受,但是问题是:这个智能转换系统可能比MS Word自身所带的免费工具错误率还高,而且实际操作中还出现了两个奇葩错误:

(1)转换“趙孟頫”和“繻布”两词时,系统无法识别,结果弹出了这样的结果。然后,这两个词后面所有的文本都不能再转换了。要想继续进行,只能绕过这两个词,从后面的部分再重新操作进行转换。

image

(2)不能转换也就罢了,竟然出现了自动删除注释的情况,而且没有任何的提示。删除注释的情况是发生在上述识别错误之时,也就是说,智能系统若遇到不能识别的情况时,它还会自动改变文档内容。删除注释的情况极其隐秘,幸亏我整篇文章重新核对了一下,不然损失太大了。

以上是今天实际操作中所出现的具体问题。俺只阐述实情,不抒发感情。。。

  19 Responses to “实战“厦大简繁文本智能转换系统””

  1. 如果你不事前知道谁开发的,用了之后也该知道了。

  2. 自动改变文档内容——这个真的接受不了,操作前还是先备份比较好。

    • 遇到不能处理的情况,就莫名把后面的一个文字或注释给直接干掉,太恐怖了。不能处理,你就放那不管就行了,何必再动其它文字呢……

  3. 所以说这个系统还没有Word好用?

  4. 第二个错误简直无法容忍.
    微软的不能叫免费工具.

  5. 我记得简繁文本转换好像用 javasript也是可以的,以前网页上可以直接转换,速度也挺快的。

    • 提供简繁体转换的网站非常多,准确率基本雷同。若想提高准备率,唯一的途径就是建立大量的语料库和映射库,这个非语言学家不能做,比较消耗精力。

  6. 软件用户体验不行啊,还需大大的改进

  7. 马光兄有没有想过是不是自己的使用方法不对?
    从对比中看出,厦大智能转换有抄袭MS Word转换的嫌疑,怎么错都错得一样?

    • 我这边的操作上应该不存在什么问题的。下载安装插件,然后点击按钮操作就行了,很简单,不涉及复杂的设置。
      这也不是什么抄袭不抄袭的,主要是语料库的建设问题。如果语料库收集的不完整,映射转换时就很容易出现错误。

  8. 现在繁简转换不是很多吗

  9. 我感觉我国在很多方面就像个晚点的列车,追也追不上,有时候还不得不给后面的快车让路。

Leave a Reply to 蔺覆 Cancel reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)