金融中文分词新词发现系统
金融中文分词新词发现系统
  • 供应商

    大象金服(北京)科技有限公司

  • 报价面议
  • 最小起订大量
  • 发货期限自付款之日起0日内发货
  • 供应能力件/每月
  • 样品不提供
  • 所在地北京海淀区苏州街49-3号盈智大厦五层
  • 联系电话010-62648216
  • 联系人梅先生
  • 信息详情

 

  在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。据语言文字工作委员会曾做的一个保守统计,自改革开放的20年来平均每年产生800多个新词语。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的率。近的研究还显示,60%的分词错误是由新词导致的。因此,地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。

  新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所出现的具有新词形、新词义或者新用法的词汇。

  新词发现技术存在着以下难点:

  (1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一

  种通用的的方法;

  (2) 新词尤其是非命名实体,在构成方面没有普遍的规律;

  (3) 对于频新词由于数据稀疏,识别难度很大;

  (4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。

  九九信用金融中文分词新词发现系统,大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。用过滤规则对新词语候选进行过滤,得到终的新词语结果。新词发现率50%以上,召回率95%以上。本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后出现的不限领域和长度的任意新词语。


联系我时,请说是在找找去看到的,谢谢!
  • 您可能感兴趣
查看更多
    小贴士:本页信息由用户及第三方发布,真实性、合法性由发布人负责,请仔细甄别。

客服QQ:387759492 投诉与建议:387759492@qq.com
©2016-2024  找找去  zhaozhaoqu.com 版权所有:南京兆芮荣网络科技有限公司 苏ICP备16046726号   苏公网安备 32010402000227号