实战“厦大简繁文本智能转换系统”

由马光
2015年4月6日
19 评论

2014年11月，我写了一篇有关由厦门大学牵头完成的《汉字简繁文本智能转换系统》的简评博文。那时只是简单地测评了一下，并没有严格意义上的实战。尽管如此，还是发现了诸多问题。这两天，借助我写就的一篇繁体字论文来实际操作了一把。初步检查了一遍，发现问题不少。以下为论文中实际出現的文本：

1. 遣使徃答其意

2. 五月去舟纔還

3. 他卻在其論著中

4. 扵是日本王良懷禮遇載䓁

5. 趙孟頫

6. 衣綿繻布

7. 海上峯峦红日近

8. 録

9. 幾夜吟窓月影西

以下为（1）使用简繁体智能转换word插件转换的结果；（2）MS Word自带工具的转换结果；（3）正确的转换结果。

亮色文字标示出来的都是错误的转换文字。从表中可以看出，厦大智能转换有9个错字，MS Word转换有7个错字。我这篇论文共29529字，其中正文是19819字，而这些转换出错的字全部来自正文，所以其错误率大致在4.5/10000，而官方宣称是1/10000。因为我研究是中国历史，文中引用了一些不太常见的繁体字，照理来说，这个错误率还算可以接受，但是问题是：这个智能转换系统可能比MS Word自身所带的免费工具错误率还高，而且实际操作中还出现了两个奇葩错误：

（1）转换“趙孟頫”和“繻布”两词时，系统无法识别，结果弹出了这样的结果。然后，这两个词后面所有的文本都不能再转换了。要想继续进行，只能绕过这两个词，从后面的部分再重新操作进行转换。

（2）不能转换也就罢了，竟然出现了自动删除注释的情况，而且没有任何的提示。删除注释的情况是发生在上述识别错误之时，也就是说，智能系统若遇到不能识别的情况时，它还会自动改变文档内容。删除注释的情况极其隐秘，幸亏我整篇文章重新核对了一下，不然损失太大了。

以上是今天实际操作中所出现的具体问题。俺只阐述实情，不抒发感情。。。

标签:厦门大学汉字简繁文本智能转换系统测评错误率

《实战“厦大简繁文本智能转换系统”》有19个想法

方室网志 2015年4月7日上午12:56

回复

如果你不事前知道谁开发的，用了之后也该知道了。
1. 马光 2015年4月7日上午8:08
  
  回复
  
  具体还是不知道是谁开发的，只知道官方介绍说是厦大牵头搞的。
大肥羊 2015年4月7日上午3:27

回复

自动改变文档内容——这个真的接受不了，操作前还是先备份比较好。
1. 马光 2015年4月7日上午8:09
  
  回复
  
  遇到不能处理的情况，就莫名把后面的一个文字或注释给直接干掉，太恐怖了。不能处理，你就放那不管就行了，何必再动其它文字呢……
兔二爷 | 理性的感性生活 2015年4月7日上午4:32

回复

所以说这个系统还没有Word好用？
1. 马光 2015年4月7日上午8:13
  
  回复
  
  这篇文章，我是使用了智能转换系统和word自带转换，然后将转换后的文档做了详细对比。就我这篇文章而言，Word在转换速度方面秒杀前者，准确度方面略胜几个字，误删率为零。从这三方面来讲，对比结果明显。
2. 1. 随望淡思 2015年4月9日上午9:17
    
    回复
    
    微软的实力果真是不可小觑！！
  2. 1. 马光 2015年4月9日下午12:17
      
      回复
      
      全球的网络字体标准，是微软而非各国政府来制定的。。。
大致 2015年4月7日上午4:39

回复

第二个错误简直无法容忍.
微软的不能叫免费工具.
1. 马光 2015年4月7日上午8:14
  
  回复
  
  “免费”是你拥有了Word之后，启用这个插件是免费的。。。
  金山wps文档应该是彻底免费的，而且转换成功率也挺高。
忘想 2015年4月7日下午1:01

回复

我记得简繁文本转换好像用 javasript也是可以的，以前网页上可以直接转换，速度也挺快的。
1. 马光 2015年4月7日下午1:51
  
  回复
  
  提供简繁体转换的网站非常多，准确率基本雷同。若想提高准备率，唯一的途径就是建立大量的语料库和映射库，这个非语言学家不能做，比较消耗精力。
蔺覆 2015年4月7日下午1:47

回复

软件用户体验不行啊，还需大大的改进
1. 马光 2015年4月7日下午1:51
  
  回复
  
  网页版基本上没法用，插件版速度太慢，准确率没有明显的提高。
兰花叔叔 2015年4月7日下午3:46

回复

马光兄有没有想过是不是自己的使用方法不对？
从对比中看出，厦大智能转换有抄袭MS Word转换的嫌疑，怎么错都错得一样？
1. 马光 2015年4月7日下午4:47
  
  回复
  
  我这边的操作上应该不存在什么问题的。下载安装插件，然后点击按钮操作就行了，很简单，不涉及复杂的设置。
  这也不是什么抄袭不抄袭的，主要是语料库的建设问题。如果语料库收集的不完整，映射转换时就很容易出现错误。
动漫资讯 2015年4月8日下午4:45

回复

现在繁简转换不是很多吗
1. 马光 2015年4月8日下午10:02
  
  回复
  
  是的……
大鹏 2015年4月21日上午11:34

回复

我感觉我国在很多方面就像个晚点的列车，追也追不上，有时候还不得不给后面的快车让路。

实战“厦大简繁文本智能转换系统”

《实战“厦大简繁文本智能转换系统”》有19个想法

回复 蔺覆 取消回复

回复蔺覆取消回复