浏览量:0
专利类型:发明专利
语 言:中文
申 请 号:CN201610394392.3
申 请 日:20160603
申 请 人:重庆大学
申请人地址:400045 重庆市沙坪坝区沙正街174号
公 开 日:20160921
公 开 号:CN105956187A
代 理 人:蔡智
代理机构:北京康盛知识产权代理有限公司 11331
摘 要:本发明公开了一种少数类用户网络访问特征的选取方法,涉及大数据分析领域,包括如下步骤:首先,从网关服务器下载日志,统计真实用户的网络访问数据,并组成初始数据集;其次,创建N名少数类的虚拟用户,构建虚拟数据集;再次,对虚拟数据集进行相关性分析,选取出与少数类用户显著相关的访问特征;最后,进行因子分析,进一步降低特征维数。本发明通过创建虚拟用户,自动平衡少数类用户的比例,使得在目标用户人数占比很小时,依然可以提取的网络访问特征。
主 权 项:一种少数类用户网络访问特征的选取方法,其特征在于,包括如下步骤:步骤一、从网关服务器下载日志,统计真实用户的网络访问数据,并组成初始数据集;其中,所述初始数据集的维数是m×d,m是总人数,d是特征数目,所述初始数据集的数据包含有符合指数分布的数据;步骤二、创建N名少数类的虚拟用户,构建虚拟数据集;其中,所述虚拟数据集的维度为(m+N)×d,所述虚拟数据集与初始数据集的数据满足概率同分布;步骤三、对虚拟数据集进行相关性分析,选取出与少数类用户显著相关的访问特征。
关 键 词:
法律状态:公开
IPC专利分类号:G06F17/30(2006.01)I