在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。据语言文字工作委员会曾做的一个保守统计,自改革开放的20年来平均每年产生800多个新词语。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的率。近的研究还显示,60%的分词错误是由新词导致的。因此,地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所出现的具有新词形、新词义或者新用法的词汇。
新词发现技术存在着以下难点:
(1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一
种通用的的方法;
(2) 新词尤其是非命名实体,在构成方面没有普遍的规律;
(3) 对于频新词由于数据稀疏,识别难度很大;
(4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。
九九信用金融中文分词新词发现系统,大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。用过滤规则对新词语候选进行过滤,得到终的新词语结果。新词发现率50%以上,召回率95%以上。本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后出现的不限领域和长度的任意新词语。
联系我时,请说是在找找去看到的,谢谢!