• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

王嘉宝 (王嘉宝.) [1] | 陈宏辉 (陈宏辉.) [2] | 陈平平 (陈平平.) [3]

Abstract:

随着计算机视觉广泛渗透到生产和生活中的各个领域,场景文本识别面临着愈发复杂的考验。纯视觉的场景文本识别模型侧重于构建有效的视觉特征提取网络,而缺乏对文本语义的理解,因此在处理遮挡或模糊文本图像时常遇到瓶颈。针对该问题,提出了一种利用语义信息辅助识别任务的场景文本识别算法。首先通过Transformer视觉编码器ViT提取特征,其次利用双分支结构的特征交互模块增强视觉特征,接着联合动态排列语言模型实现自回归解码。所提出的算法充分利用视觉特征和语义特征,有效地减少了遮挡等复杂文本的识别难度,实现了对场景文本的鲁棒性识别。实验结果表明,所提出的算法在6个基准数据集上实现了96.65%的平均识别精度,展现了显著的竞争力。

Keyword:

动态排列语言模型 场景文本识别 深度学习 自回归

Community:

  • [ 1 ] 福州大学物理与信息工程学院

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

信息技术与信息化

Year: 2024

Issue: 05

Volume: PageCount-页数: 5

Page: 5-9

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 2

Affiliated Colleges:

Online/Total:488/10925904
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1