• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

魏晶晶 (魏晶晶.) [1] | 杨定达 (杨定达.) [2] | 廖祥文 (廖祥文.) [3]

Abstract:

主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。

Keyword:

HTML标签 主题网络爬虫 向量空间模型 搜索引擎 相似度

Community:

  • [ 1 ] 福建江夏学院电子信息科学系
  • [ 2 ] 福州大学数学与计算机科学学院

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

计算机与现代化

Year: 2011

Issue: 09

Page: 1-4

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 4

Affiliated Colleges:

Online/Total:25/10106816
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1