基于动态排列自回归的场景文本识别网络 - Details

初始密码提示：姓名拼音首字母【第一个汉字的首字母大写，其他首字母小写】+身份证号（或护照）后六位【包含字母的，字母大写】

手机验证码登录找回密码

author：

王嘉宝 (王嘉宝.) ^[1] | 陈宏辉 (陈宏辉.) ^[2] | 陈平平 (陈平平.) ^[3]

Abstract：

随着计算机视觉广泛渗透到生产和生活中的各个领域，场景文本识别面临着愈发复杂的考验。纯视觉的场景文本识别模型侧重于构建有效的视觉特征提取网络，而缺乏对文本语义的理解，因此在处理遮挡或模糊文本图像时常遇到瓶颈。针对该问题，提出了一种利用语义信息辅助识别任务的场景文本识别算法。首先通过Transformer视觉编码器ViT提取特征，其次利用双分支结构的特征交互模块增强视觉特征，接着联合动态排列语言模型实现自回归解码。所提出的算法充分利用视觉特征和语义特征，有效地减少了遮挡等复杂文本的识别难度，实现了对场景文本的鲁棒性识别。实验结果表明，所提出的算法在6个基准数据集上实现了96.65%的平均识别精度，展现了显著的竞争力。

Keyword：

动态排列语言模型场景文本识别深度学习自回归

Community：

[ 1 ] 福州大学物理与信息工程学院

Reprint 's Address：

Email：

Show more details

Related Keywords：

Source ：

信息技术与信息化

Year： 2024

Issue： 05

Volume： PageCount-页数: 5

Page： 5-9

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search CNKI CNKI CNKI CNKI

Type
Departments

All Years Choose Year From to