Abstract:
随着全球化趋势和国际交流的日益频繁,语言之间的渗透与融合日渐增加,不同语种夹杂的表达方式在生活中也相当普遍,特别是在使用双语或多语的地区。作为一个多民族融合的国家,我国各地的方言与普通话夹杂的表达方式也不在少数。这种语言混用的现象造成了分词识别上的困难。本文收集了各种多语夹杂的相关语料,分析了多语夹杂的语言特征,在此基础上提出了以互信息(mutual information)和熵(entropy)过滤为基础的新词识别算法,有效提高了从混合语料中识别新词的精度。
Keyword:
Reprint 's Address:
Email:
Source :
福建电脑
Year: 2021
Issue: 04
Volume: 37
Page: 1-5
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: