• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

张佳俊 (张佳俊.) [1] | 王一洲 (王一洲.) [2] | 陈星 (陈星.) [3] (Scholars:陈星) | 张颖 (张颖.) [4]

Indexed by:

CQVIP PKU CSCD

Abstract:

传统的包装器都由人工定义,要为不同类型的页面制作不同的包装器,因此包装器维护的开销很大,一旦原来的页面风格变了,原来的包装器也就需要重新定义。针对现有方法需要人工定义和维护包装器,并且准确率还有待提升的问题,提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要由两个部分组成:目标类型网页的DOM树抽象和目标节点的定位及包装器生成。运用该技术可以对多种类型的网页实现包装器的自动生成。该技术针对主流的购物网站(京东、亚马逊、苏宁、当当)及主流书籍信息网站(豆瓣读书)进行了实验,实验结果表明该方法的平均精确率和召回率能够达到96%和99%。

Keyword:

DOM 信息抽取 包装器 抽象 自动生成

Community:

  • [ 1 ] 福州大学数学与计算机科学学院
  • [ 2 ] 福建省网络计算与智能信息处理重点实验室
  • [ 3 ] 北京大学软件工程国家工程研究中心

Reprint 's Address:

Email:

Show more details

Version:

Related Keywords:

Source :

计算机应用

ISSN: 1001-9081

CN: 51-1307/TP

Year: 2018

Issue: S1

Volume: 38

Page: 150-154,182

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 4

Online/Total:118/10038616
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1