Indexed by:
Abstract:
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息.本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法.实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%.
Keyword:
Reprint 's Address:
Email:
Version:
Source :
计算机与现代化
ISSN: 1006-2475
CN: 36-1137/TP
Year: 2011
Issue: 9
Page: 1-4
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: