Abstract:
随着全球化趋势和国际交流的日益频繁,语言之间的渗透与融合日渐增加,不同语种夹杂的表达方式在生活中也相当普遍,特别是在使用双语或多语的地区.作为一个多民族融合的国家,我国各地的方言与普通话夹杂的表达方式也不在少数.这种语言混用的现象造成了分词识别上的困难.本文收集了各种多语夹杂的相关语料,分析了多语夹杂的语言特征,在此基础上提出了以互信息(mutual information)和熵(entropy)过滤为基础的新词识别算法,有效提高了从混合语料中识别新词的精度.
Keyword:
Reprint 's Address:
Email:
Version:
Source :
福建电脑
ISSN: 1673-2782
Year: 2021
Issue: 4
Volume: 37
Page: 1-5
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: