• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

魏晶晶 (魏晶晶.) [1] | 杨定达 (杨定达.) [2] | 廖祥文 (廖祥文.) [3] (Scholars:廖祥文)

Indexed by:

CQVIP

Abstract:

主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息.本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法.实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%.

Keyword:

HTML标签 主题网络爬虫 向量空间模型 搜索引擎 相似度

Community:

  • [ 1 ] [魏晶晶]福建江夏学院
  • [ 2 ] [杨定达]福州大学
  • [ 3 ] [廖祥文]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

计算机与现代化

ISSN: 1006-2475

CN: 36-1137/TP

Year: 2011

Issue: 9

Page: 1-4

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 1

Online/Total:179/10112687
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1