浏览量:0

一种领域化词向量的优化方法及基于其的融合排序方法

专利类型:发明专利 

语 言:中文 

申 请 号:CN201811257850.4 

申 请 日:20181026 

发 明 人:刘慧君李傲曾一乔猛周明强邬小燕 

申 请 人:重庆大学 

申请人地址:400000 重庆市沙坪坝区正街174号 

公 开 日:20190219 

公 开 号:CN201811257850.4 

代 理 人:黄玲 

代理机构:重庆知辉环宇专利代理有限公司 50242 

摘  要:本发明提供了一种领域化词向量的优化方法及基于其的融合排序方法,其中,领域化词向量的优化方法包括如下步骤:S11、进行无领域词向量的训练并获得需求词向量;S12、进行领域词向量的训练并得到需求词向量后使用RWMD算法进行相似度的计算;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF值,IDF值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值。领域化词向量的优化方法及基于其的融合排序方法解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。 

主 权 项:1.一种领域化词向量的优化方法,其特征在于,包括如下步骤:S11、进行无领域词向量的训练;S12、进行领域词向量的训练并得到需求词向量;S11具体步骤如下:S111、对无领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对无领域语料库本身进行分词处理;S112、使用Word2Vec模型对整体的语料库进行训练,得到初始词向量Vold(w);S113、根据每个词在无领域语料库中的频率p(w)为其设置权重,并根据下列公式计算无领域语料库中无领域词向量:Vundomain(w)=exp(p(w))×Vold(w)式中,Vundomain(w)表示无领域词向量,p(w)为每个词在语料库中的频率;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF(w)值,IDF(w)值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值,设所有词语在领域语料库中出现的频率的中间值为IDFmo,所有词语在在领域语料库中出现的频率的平均值为S123、进行领域语料库词向量的训练,采用Skip?gram与cBOW进行对比,使用负采样优化,数量设置依据具体场景和测试结果而定,在进行模型训练时采用下采样,窗口大小依据具体场景而定,得领域词向量Vold(w)';S124、根据每个词在领域语料库内出现的频率p(w)'进行空间映射得到计算公式如下:S125、将领域语料库内领域词向量与无领域词向量进行融合,得到需求词向量Vnew(w)。 

关 键 词: 

法律状态:公开 

IPC专利分类号:G06F17/27;G06F17/00;G06F16/38;G06F16/00;G06F16/332;G06F16/00;G06N3/04;G06N3/00;G;G06;G06F;G06N;G06F17;G06F16;G06N3;G06F17/27;G06F17/00;G06F16/38;G06F16/00;G06F16/332;G06F16/00;G06N3/04;G06N3/00