专利类型:发明专利
语 言:中文
申 请 号:CN201410311727.1
申 请 日:20140702
申 请 人:重庆大学
申请人地址:400044 重庆市沙坪坝区沙正街174号
公 开 日:20140910
公 开 号:CN201410311727.1
代 理 人:郭云
代理机构:重庆市前沿专利事务所(普通合伙) 50211
摘 要:本发明公开了一种基于属性共现模式的Deep?Web查询接口模式匹配方法,Deep?Web查询接口作为获得Web数据库信息的唯一途径,集成问题的首要任务是完成查询接口间的模式匹配。本发明抓住某特定领域属性在各个Deep?Web数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点,为保证算法的灵活性,算法并未设置该阈值。最后,本文利用一种贪心策略,识别出当前具有更高匹配得分和更丰富语义的匹配关系,并采用特定的消除匹配冲突的策略,从而找到某特定领域存在的多分支复杂匹配集。
主 权 项:一种基于属性共现模式的Deep?Web查询接口模式匹配方法,其特征在于,包括如下步骤:步骤1,从每个数据源的查询接口抽取的模式集合S,找到所述模式集合S出现模式频率大于等于阈值Tc的属性集合A;根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数,通过组关系度量公式计算出组得分;组得分大于组关系阈值Tg的两个属性为一个属性组,所有这样的属性组构成一个集合Gp;步骤2,根据步骤1得到的的集合Gp,根据向下闭包性质,找到具有属性个数更多的组关系的集合G;步骤3,发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中;步骤4,对于集合A中的所有属性组,根据匹配关系度量计算公式,计算出每两个属性组的匹配得分,匹配得分大于零的所有的匹配,构成一个匹配集合Mp;步骤5,根据步骤4得到匹配集合Mp,根据向下闭包性质,找到具有属性组个数更多的复杂匹配关系的集合M;步骤6,从复杂匹配关系的集合M中识别出所有真正的复杂匹配是一个不断迭代的过程,每一次迭代,从复杂匹配关系的集合M中,选取一个真正的复杂匹配Mt后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,迭代过程继续,直至经过冲突处理的复杂匹配关系的集合M为空;步骤7,输出多分支复杂匹配集合。
关 键 词:
法律状态:公开
IPC专利分类号:G06F17/30;G06F17/00;G;G06;G06F;G06F17;G06F17/30;G06F17/00