浏览量:0

面向深层网页面数据自动抽取方法

专利类型:发明专利 

语 言:中文 

申 请 号:CN201210086024.4 

申 请 日:20120328 

发 明 人:冯永王慧娟钟将周尚波李季 

申 请 人:重庆大学 

申请人地址:400045 重庆市沙坪坝区沙正街174号 

公 开 日:20140101 

公 开 号:CN102663041B 

代 理 人:郭云 

代理机构:重庆市前沿专利事务所(普通合伙) 50211 

摘  要:本发明公开了一种面向深层网页面数据自动抽取方法,属于计算机数据挖掘领域,首先获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTMLTidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;然后对页面一和页面二进行清噪处理;将页面一和页面二进行重复模式消除处理后生成网页数据抽取包装器;提取页面时先将待抽取数据的页面进行清噪处理;然后用网页数据抽取包装器先对经过清噪后的页面进行标记,最后抽取标记后的页面,本发明提高了重复模式消除算法和匹配算法的效率,降低了抽取复杂度,该方法中针对重复模式消除算法的特征而设计的匹配算法和抽取算法过程简单快速,同时提高了数据抽取的准确率。 

主 权 项:一种面向深层网页面数据自动抽取方法,其特征在于包括以下步骤:S1、获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTML?TIDY转换工具将页面一和页面二的HTML文档转换为XHTML文档;?S2、对页面一和页面二进行清噪处理;S3、将页面一和页面二进行重复模式消除处理;S4、生成网页数据抽取包装器;S5、将待抽取数据的页面????????????????????????????????????????????????进行清噪处理;S6、网页数据抽取包装器先对步骤S5中经过清噪后的页面进行标记,然后抽取标记后的页面;步骤S3中所述进行重复模式消除处理按照以下步骤进行:A1、在VS平台中使用XMLDOCUMENT加载清噪处理后的页面;A2、从根节点开始依次判断各节点是否有子节点,当有子节点时执行步骤A3,直到所有节点均被判断;A3、判断所述节点内的各相邻子节点是否类型相同;当所述节点内相邻的子节点类型相同时,转至步骤A4;当所述节点内相邻的子节点类型不同时,转至步骤A5;A4、当所述节点内相邻的子节点类型相同时,认为该相邻子节点都是元素节点;比较所述相邻的元素节点的内部子标签是否相同;当所述相邻的元素节点的内部子标签相同时,则这两个元素节点为相同的重复模式;为第一个元素节点添加ITERATION属性,为第二个元素节点添加DEL属性;当所述相邻的元素节点的内部子标签不同时,转至步骤A3递归判断第一个元素节点的子节点,完成后转至步骤A3继续将第二个元素节点与其后面相邻节点进行比较;A5、当所述节点内相邻的子节点类型不同时,认为该相邻子节点一个是元素节点,一个是文本节点;如果第一个子节点是元素节点,则转至步骤A3递归处理所述元素节点的子节点,完成后转至步骤A3继续将第二个子节点与其后面相邻子节点进行比较,直到所述节点内所有的相邻子节点均被比较;如果第二个子节点是元素节点,转至步骤A3将第二个节点与其后面相邻节点进行比较,直到该节点内所有的相邻子节点均被比较;A6、当比较的最后一个节点是元素节点且没有DEL属性时,则转至步骤A3递归处理其子节点;A7、删除具有DEL属性的节点,重复模式消除算法结束。718036DEST_PATH_IMAGE001.JPG 

关 键 词: 

法律状态:生效 

IPC专利分类号:G06F17/30