专利类型:发明专利
语 言:中文
申 请 号:CN201710351669.9
申 请 日:20170518
发 明 人:周庆尹春梅胡月全文君牟超廖凤露温亚梅王卫芳肖逸枫陈尧
申 请 人:重庆大学
申请人地址:400044重庆市沙坪坝区沙正街174号
公 开 日:20170929
公 开 号:CN107220318A
代 理 人:陶俊洁
代理机构:北京康盛知识产权代理有限公司11331
摘 要:本发明公开了一种确定特殊学生群体上网特征的方法,属于信息技术领域,本发明对访问记录进行下抽样;然后统计网站类别的访问频次;对网站类别进行过滤后,去除高偶然性的网站。本发明通过将具体网站映射成网站类别解决了网络数目过大的问题,采用信息统计准则过滤不重要的学生特征,通过对样本进行下抽样解决了特征学生群体比例较小的问题,通过去除偶然性高的网站类别提高了上网特征的代表性。??全部
主 权 项:一种确定特殊学生群体上网特征的方法,其特征在于包括以下步骤:步骤一、对访问记录进行下抽样;指定特殊学生群体为正样本,正常学生为负样本;从负样本中随机抽取和正样本数目相同的样本,使得正负样本数目相同;步骤二、统计网站类别的访问频次;首先创建一个目录表,该目录表给出所有网站对应的网站类别;然后根据该目录表统计出每个学生在不同网站类别的网站访问频次;步骤三、对网站类别进行过滤;将网站类别的频次作为特征,进行特征选择;根据具体选用的信息统计准则,将步骤二所生成的每个学生在不同类别的网站访问频次信息与学生的分类信息进行计算,然后选择与学生的分类信息之间相关性好的若干个特征;步骤四、去除高偶然性的网站;所述步骤三按以下步骤进行:步骤301:从候选特征子集中取出一个特征x,并计算f(x,y);所述n为样本量,所述xi表示特征的实际值,所述
表示该特征的均值,所述Sx为x的标准差,所述Y相应的代表学生分类信息的情况;步骤302:判断f(x,y)与T1的关系;若f(x,y)>T1,则将该特征加入已选特征子集;否则,去除该特征;步骤303:判断候选特征子集是否为空;若不为空,则转到步骤301;否则,输出已选特征子集。
关 键 词:
法律状态:公开
IPC专利分类号:G06F17/30(2006.01)I;G06Q50/20(2012.01)I