做好百度中文分词的方法

  中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

  1、歧义识别

  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为表面和面的都是词,那么这个短语就可以分成表面的和表.面的。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的韩国电视剧的例子,其实就是因为交叉歧义引起的错。韩国电视剧可以分成韩国 和电视剧或者韩国电视 剧。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子这个门把手坏了中,把手是个词,但在句子请把手拿开中,把手就不是一个词;在句子将军任命了一名中将中,中将是个词,但在句子产量三年中将增长两倍中,中将就不再是词。这些词计算机又如何去识别?

  如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。

  2、新词识别

  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子王军虎去广州了中,王军虎是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把王军虎做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子王军虎头虎脑的中,王军虎还能不能算词?

  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。有兴趣的朋友可以用百度搜索引擎做个尝试,输入不同的关键字,查看百度的返回结果,从中理解百度的分词方法,这样的学习效率是才最高的。