一种人物关系图谱构建方法与流程
本申请涉及人工智能技术领域,特别涉及一种人物关系图谱构建方法。
背景技术:
随着科技的迅速发展,互联网的文本爆炸式增长,在网络的文本中含有大量的人物关系。一般的采用人工的方式对文本进行分析,得到各个人物之间的关系,造成建立的各个人物关系效率低、准确率低的缺点。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
技术实现要素:
本申请的目的是提供一种人物关系图谱构建方法,能够提高建立人物关系的效率和准确率。其具体方案如下:
本申请提供一种人物关系图谱构建方法,包括:
爬取电子文本,得到初始语料,其中,所述初始语料包括多个章节;
对所述初始语料进行处理,得到人物名称实体词和关系词构成的人物关系实体,并利用所有的所述人物关系实体构成多个章节人物关系集合;
将所有的所述章节人物关系集合输入文档主题生成模型,获取各个章节中的各个人物关系概率;
利用大于第一预设阈值的所述人物关系概率的章节人物关系集合,建立人物关系图谱。
可选的,所述利用大于第一预设阈值的所述人物关系概率的章节人物关系集合,建立人物关系图谱,包括:
根据大于所述第一预设阈值的所述人物关系概率的章节人物关系集合,利用word2vec模型将所述人物名称实体词和所述关系词转化成向量,得到章节的人物关系向量;
将所述人物关系向量作为输入量输入长短期记忆网络,输出评价指标,所述评价指标包括准确率、召回率和平均值;
若所述评价指标大于第二预设阈值,则利用大于所述第一预设阈值的所述人物关系概率的章节人物关系集合,建立所述人物关系图谱。
可选的,所述建立所述人物关系图谱,包括:
建立初始人物关系图谱,并依次进行知识融合处理,以便消歧,得到所述人物关系图谱。
可选的,所述得到所述人物关系图谱之后,还包括:
基于所述人物关系图谱,按照预设顺序检测是否存在相似度达到第三预设阈值的人物关系实体;
若存在相似度达到第三预设阈值的人物关系实体,则执行人物的所述关系词补全、人物名称实体词补全的操作。
可选的,所述建立人物关系图谱,包括:
按照预设关系建立所述人物关系图谱,所述预设关系包括:上下级关系、家庭关系、社会关系。
可选的,所述对所述初始语料进行处理,得到人物名称实体词和关系词构成的人物关系实体,并利用所有的所述人物关系实体构成多个章节人物关系集合,包括:
利用分词工具将所述初始语料中的可忽略词汇去除,并将所述初始语料中的剩余词进行标注信息,得到各个章节语料集合;
基于所有标注信息,对各个所述章节语料集合进行人物关系抽取,得到所述人物名称实体词和所述关系词;
利用所述人物名称实体词和所述关系词构成所述人物关系实体,并利用所有的所述人物关系实体构成多个所述章节人物关系集合。
可选的,所述基于所有标注信息,对各个所述章节语料集合进行人物关系抽取,得到所述人物名称实体词和所述关系词,包括:
基于所有所述标注信息,利用隐马尔可夫模型对各个所述章节语料集合进行人物关系抽取,得到所述人物名称实体词和所述关系词。
可选的,所述建立人物关系图谱之后,还包括:
在显示界面显示所述人物关系图谱。
可选的,所述爬取电子文本,包括:
利用python中的urllib2爬取所述电子文本。
可选的,得到人物名称实体词和关系词构成的人物关系实体之后,还包括:
确定目标人物名称实体词,利用与所述目标人物名称实体词对应的人物关系实体构建多个所述章节人物关系集合。
本申请提供一种人物关系图谱构建方法,包括:爬取电子文本,得到初始语料,其中,所述初始语料包括多个章节;对所述初始语料进行处理,得到人物名称实体词和关系词构成的人物关系实体,并利用所有的所述人物关系实体构成多个章节人物关系集合;将所有的所述章节人物关系集合输入文档主题生成模型,获取各个章节中的各个人物关系概率;利用大于第一预设阈值的所述人物关系概率的章节人物关系集合,建立人物关系图谱。
可见,本申请通过利用文档主题生成模型,构建知识图谱,其中,将多个章节人物关系集合输入文档主题生成模型,得到各个章节中的人物关系概率,可以更加直观的显示各个章节所对应的人物关系的关键词,然后,利用大于第一预设阈值的所述人物关系概率的章节人物关系集合,建立人物关系图谱,人物关系图谱的构建方法简单,自动的生成图谱,效率高、准确率高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种人物关系图谱构建方法的流程图;
图2为本申请实施例所提供的步骤s2的流程图;
图3为本申请实施例提供的一种人物关系图谱的显示界面示意图;
图4为本申请实施例提供的另一种人物关系图谱的显示界面示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着科技的迅速发展,互联网的文本爆炸式增长,在网络的文本中含有大量的人物关系。一般的采用人工的方式对文本进行分析,得到各个人物之间的关系,造成建立的各个人物关系效率低、准确率低的缺点。基于上述技术问题,本实施例提供一种人物关系图谱构建方法,能够提高建立人物关系的效率和准确率,具体请参考图1,图1为本申请实施例所提供的一种人物关系图谱构建方法的流程图,具体包括:
s1、爬取电子文本,得到初始语料,其中,初始语料包括多个章节。
本实施例不对电子文本进行限定,可以是针对一本书的电子文本,也可以是针对多个文章组成的文本,将多个文章设置章节的标签,以便能够得到初始语料。电子文本可以是水浒传文本、三国演义文本、西游记文本等多种文本中的任意一个,针对电子文本来说,初始语料包括多个章节,每个章节对应电子文本的章节。文章的来源可以是基于具有一个人物或者多个人物的一篇或者多篇网络文章,针对网络文章来说,每一篇网络文章最为一章节,具体的用户可自定义设置,只要是能够实现本实施例的目的即可。
在一种可以实现的实施例中,利用python中的urllib2爬取电子文本,得到初始语料。
s2、对初始语料进行处理,得到人物名称实体词和关系词构成的人物关系实体,并利用所有的人物关系实体构成多个章节人物关系集合。
其中,人物关系实体指的是人物名称实体词-关系词-人物名称实体词。初始语料包括多个章节,因此,每一个章节中会得到很多人物关系实体,将每一章节中的人物关系实体构成一个章节人物关系集合,初始预料中的章节,与章节人物关系集合一一对应。人物名称实体词指的是人物的名称词,例如刘备、曹操、马超,关系词是两个人物名称实体词之间的关系,如父亲、儿子、兄弟。以三国演义为例,在目标章节中,得到人物关系实体有曹操-父亲-曹植、曹操-妻子-刘氏、曹操-主公-杨修、刘备-兄弟-刘婵、刘备-下臣-马超…,此时所有的人物关系实体构成了章节人物关系集合。
在一种可实现的实施例中,具体请参考图2,图2为本申请实施例提供的步骤s2的流程图,包括:
s21、利用分词工具将初始语料中的可忽略词汇去除,并将初始语料中的剩余词进行标注信息,得到各个章节语料集合。
利用分词工具去除初始语料中的可忽略词汇,可忽略词汇包括分词、停用词、地名,此时得到各个章节语料集合。其中,分词工具可以是利用结巴分词工具去除可忽略词汇。并且自动对过滤后得到的词进行标注。
s22、基于所有标注信息,对各个章节语料集合进行人物关系抽取,得到人物名称实体词和关系词。
基于所有标注信息对各个章节语料集合抽取人物名称实体词、人物之间的关系词。此时,人物名称实体词中包括有人物名称实体词和其相近的实体词。人物之间的关系词包括与关系词和其相近的关系词。
在一种可实现的实施例中,可以用隐马尔可夫模型对各个章节语料集合进行人物关系抽取,得到人物名称实体词和关系词。
s23、利用人物名称实体词和关系词构成人物关系实体,并利用所有的人物关系实体构成多个章节人物关系集合。
此时人物关系实体是人物名称实体-关系词-人物名称实体、人物名称实体-相似关系词-人物名称实体、相似人物名称实体-相似关系词-相似人物名称实体等的三元组结构。此时,每个章节会形成有所有的人物关系实体构成的章节人物关系集合。
在一种可实现的实施例中,得到人物名称实体词和关系词构成的人物关系实体之后,还可以包括:确定目标人物名称实体词,利用与目标人物名称实体词对应的人物关系实体构建多个章节人物关系集合。
其中,目标人物名称实体词可以是一个也可以是多个。以三国演义为例,当目标人物名称实体词是刘备时,则构建的章节人物关系集合是关于刘备的集合,最终得到的人物关系图谱是关于刘备的图谱;当目标人物名称实体词是刘备和关羽时,则构建的章节人物关系集合是关于刘备、关羽的集合,最终得到的人物关系图谱是关于刘备和关羽的图谱。
s3、将所有的章节人物关系集合输入文档主题生成模型,获取各个章节中的各个人物关系概率。
将所有的章节人物关系集合输入文档主题生成模型,文档主题生成模型即lda是三层贝叶斯概率模型,可以更直观的显示每章每节所对应的人物关系主题词,该主题词就是人物关键词如人物名称实体词。
文档主题生成模型是一种主题生成模型,每篇文章按照概率分布的形式所显示出。本实施例以步骤s2得到的多个章节人物关系集合为输入,得到每章的概率分布。从狄利克雷分布α中取样生成人物关系文本的主题多项分布θi,从主题多项分布θi中取样生成人物关系i第j个词的主题zi,j,从狄利克雷分布β中取样生成主题zi,j的词语的多项式分布从词语的多项式分布中采样生成词语wi,j,其中主要的连个分布p(wi,zi,α,φ|α,β)得到的公式是:
其中,p(θi|α)表示从狄利克雷样本α抽取主题θi的概率;
p(zi,j|θi)表示从主题多项式θi取样生成文档i第j个词的主题zi,j的概率;
p(φ|β)表示从分布β中抽取词语多项式φ的概率;
表示主题中采样生成词语wi,j的概率;
表示主题,从分布中抽取的主题分布,下标就表示在这个主题θ中取样生成人物关系i第j词的主题zi,j;n表示从主题中人物关系的第n词;
对应的,zi表示在主题θi中取样生成人物关系i的主题;
p(wi,zi,α,φ|α,β)表示所有变量的联合概率分布。
人物关系文本的单词最大似然估计可通过上式的θi以及φ进行积分和对zi进行求和得到:
根据p(wi|α,β)的最大似然估计,可以通过吉布斯采样的方法求出人物关系的章节的概率分布。具体请参考现有技术,本实施例不再进行赘述。
s4、利用大于第一预设阈值的人物关系概率的章节人物关系集合,建立人物关系图谱。
利用大于第一预设阈值的人物关系概率的章节人物关系集合,将该关系集合导入neo4j图形数据库,并可视化,生成人物关系图谱。
其中,neo4j图形数据库是通过键值对的双向列表来保存节点和关系的属性值,所以neo4j图形数据库仅适用于存储实体关系和实体简单的属性,适合人物之间的关系的存储。更直观凸显出人物之间的关系,使人物关系可视化,将实体词—关系词—实体词,实体词—相近关系词—实体词存放在neo4j图形数据库中,通过访问其图形数据库,把人物关系知识和信息可视化。
进一步的,在显示界面显示人物关系图谱。以三国演义中的为例,得到的人物关系图谱如图3、图4所示,图3为本申请实施例提供的一种人物关系图谱的显示界面示意图,图4为本申请实施例提供的另一种人物关系图谱的显示界面示意图。可以理解的是,可以根据用户的需求进行人物关系图谱的显示,例如当用户需要人物a的人物关系图谱时,显示的是单独的关于a的人物关系图谱;当用户需要人物a与b的人物关系图谱时,显示的是a与b两者的人物关系图谱,若两者存在交叉关系,则得到的图谱是两者交叉的人物关系图谱,当然,还可以有是人物a、人物b、人物c的人物关系图谱。
本申请不对显示界面进行限定,可以是oled显示界面,可以是lcd显示界面,当然可以是平面显示界面,也可以是曲面显示界面,只要是能够清晰的显示人物关系图谱即可。
基于上述技术方案,本实施例通过利用文档主题生成模型,构建知识图谱,其中,将多个章节人物关系集合输入文档主题生成模型,得到各个章节中的人物关系概率,可以更加直观的显示各个章节所对应的人物关系的关键词,然后,利用大于第一预设阈值的人物关系概率的章节人物关系集合,建立人物关系图谱,人物关系图谱的构建方法简单,自动的生成图谱,效率高、准确率高。
在可实现的一种实施方式中,利用大于第一预设阈值的人物关系概率的章节人物关系集合,建立人物关系图谱,包括:根据大于第一预设阈值的人物关系概率的章节人物关系集合,利用word2vec模型将人物名称实体词和关系词转化成向量,得到章节的人物关系向量;将人物关系向量作为输入量输入长短期记忆网络,输出评价指标,评价指标包括准确率、召回率和平均值;若评价指标大于第二预设阈值,则利用大于第一预设阈值的人物关系概率的章节人物关系集合,建立人物关系图谱。
其中,利用word2vec模型可以使人物关系的词转换为向量,例如:刘备可以表示为向量=[1,0,0,0,0,...,0],曹操可以表示为=[0,0,1,0,0,...,0],word2vec模型也可以学习两个实体之间的关系,例如:孙小妹和刘备经常出现在一起,丈夫和妻子出现在一起,可以用word2vec模型,用丈夫代表刘备,妻子代表孙小妹,通过词转换为向量,进行模型的评估,得到评价指标。
输入实体关系向量,利用注意力机制的双向长短期记忆网络(lstm网络),以sigmoid为激活函数,文本的输入表示为s=[x1,x2...xt],xt表示文本第t个人物词,遗忘门ft决定记忆信息的通通过量,其计算公式为:
ft=σ(wf[ht-1,xt]+bf)
其中σ为sigmoid函数,wf是遗忘门的权重,bf为遗忘门偏置,ht-1是t-1时刻的输出。为了增加文本逆向语义的学习,本实验采用双向的lstm,连接正反两个方向的lstm模型输出向量,其公式表示为:
连接正反两个输出向量作为t时刻双向lstm的输出bt,ct为被添加到记忆单元的候选值。c是不同时刻的单元值,以ct为标准,ct是介于ct+1和ct-1之间,ct-1是上一个时刻记忆的单元值,ct+1是下一个时刻记忆的单元值。代表着正反在t时刻输出的向量,将word2vec模型生成的章节的人物关系向量,作为人物关系词的输入,通过双向的lstm模型,对每个人物的关系都有一个特定的向量,通过双向lstm可以得到输出向量,可以判断出人物向量的正确与否,准确率p,和召回率r,以及f1值都会得到相应的指标计算,其中,利用准确率p,召回率r,平均值即f1来衡量为模型性能评价指标,其指标计算公式如下:
对于测试数据,tp表示预测为正,实际为正;fp表示预测为正,实际为负;fn表示预测为负,实际为正。例如,当曹操的向量是[1,0,0,0]时,一共有20个人物关系向量,抽取出来10人物关系向量,只有4个是抽取出曹操人物关系向量是对的,那么准确率p=4/10=0.4,召回率r=4/20=0.2,f1=(0.4*0.2*2)/(0.4+0.2)=0.27。
当评价指标大于第二预设阈值时,则证明利用第二大于第一预设阈值的人物关系概率的章节人物关系集合建立关系图谱的模型性能优异。
在一种可实现的实施方式中,若评价指标大于第二预设阈值,则利用大于第一预设阈值的人物关系概率的章节人物关系集合,建立人物关系图谱包括:当准确率大于准确率阈值且召回率大于召回率阈值时,利用大于第一预设阈值的所有人物关系概率的章节人物关系集合,建立人物关系图谱。本实施例不对准确率阈值、召回率阈值进行限定,用户可自定义设置,召回率阈值可以是70%、71%或者69%,准确率阈值可以是70%、71%或者69%。
在可实现的一种实施方式中,建立人物关系图谱,包括:建立初始人物关系图谱,并依次进行知识融合处理,以便消歧,得到人物关系图谱。
具体的,由于人物之间的关系错综复杂,关系不一,同一个人物信息可能包含多种关系,一对多、多对一等关系,相同的人物名称实体表达不同信息,使得人物关系出现混乱。为解决以上情况,需采用知识融合方法,来对人物关系进行消歧,除去冗余。通过知识融合,对关联相同人物名称实体的不同表达形式,还可以去掉重复的人物名称实体、关系词以及人物关系实体,包括以下:一个人物名称实体对应不同的关系词,多个人物名称实体对一个人有不同的关系词,通过知识推理技术进行人物关系知识的补全,知识补全包括人物名称实体-关系词-人物名称实体、缺少人物名称实的人物关系实体,对补全知识推理结果,对置信度较低或者为100的进行筛选。
进一步的,得到人物关系图谱之后,还包括:基于人物关系图谱,按照预设顺序检测是否存在相似度达到第三预设阈值的人物关系实体;若存在相似度达到第三预设阈值的人物关系实体,则执行人物的所述关系词补全、人物名称实体词补全的操作。其中,预设顺序可以是根据章节的顺序,可以是根据人物名称的顺序,还可以是根据关系词的顺序,用户可自定义设置,只要是能够实现本实施例的目的即可。本实施例不对第三预设阈值进行限定。其中,检测相似的的方式可以是利用关键词(包括人物名称实体词和关系词)进行检测。当相似度达到第三预设阈值后,进行人物的关系词补全、人物名称实体词补全的操作。具体的补全操作请参考相关技术,本实施例不再进行赘述。
在可实现的一种实施方式中,建立人物关系图谱,包括:按照预设关系建立人物关系图谱述预设关系包括:上下级关系、家庭关系、社会关系。
其中,上下级关系可以包括但不限于主上、下臣;家庭关系可以包括但不限于父亲、母亲、儿子、女儿、爷爷、奶奶;社会关系包括但不限于老师、学生、竞争者。
在一种可实现的实时方式中,本实施例提供一种人物关系图谱构建方法,包括:
利用python中的urllib2爬取电子文本,得到初始语料,其中,初始语料包括多个章节;
利用分词工具将初始语料中的可忽略词汇去除,并将初始语料中的剩余词进行标注信息,得到各个章节语料集合;
基于所有标注信息,利用隐马尔可夫模型对各个章节语料集合进行人物关系抽取,得到人物名称实体词和关系词;
利用人物名称实体词和关系词构成人物关系实体,并利用所有的人物关系实体构成多个章节人物关系集合;
将所有的章节人物关系集合输入文档主题生成模型,获取各个章节中的各个人物关系概率;
根据大于第一预设阈值的人物关系概率的章节人物关系集合,利用word2vec模型将人物名称实体词和关系词转化成向量,得到章节的人物关系向量;
将人物关系向量作为输入量输入长短期记忆网络,输出评价指标与特征,评价指标包括准确率、召回率和平均值;
若评价指标大于第二预设阈值,则利用大于第一预设阈值的人物关系概率的章节人物关系集合,按照预设关系建立人物关系图谱述预设关系包括:上下级关系、家庭关系、社会关系,并依次进行知识融合处理,以便消歧,得到人物关系图谱;
基于人物关系图谱,按照预设顺序检测是否存在相似度达到第三预设阈值的人物关系实体;
若存在相似度达到第三预设阈值的人物关系实体,则执行人物的所述关系词补全、人物名称实体词补全的操作;
在显示界面显示人物关系图谱。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种人物关系图谱构建方法进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
网址:一种人物关系图谱构建方法与流程 https://mxgxt.com/news/view/1685525
相关内容
一种结合ECharts创建关系图谱的方法与流程华为云专家讲述知识图谱构建流程及方法
知识图谱构建射雕三部曲人物关系
知识图谱的核心概念、应用场景与构建方法解析
[关系图谱] 一.Gephi通过共线矩阵构建知网作者关系图谱
一种客户关系管理数据库建立方法及系统与流程
Neo4j实战应用构建明星关系图谱
小麦族植物种质资源的谱系框架构建
基于知识图谱的视频标签提取方法与流程
探讨构建十亿用户的Web3 社交图谱两种方法:链上图和链式图
随便看看
- 养生堂:出现这些可怕症状,可能已经中招糖尿病并发症! 大爷讲述自己10年前就确诊了糖尿病,6年前感觉到自己的脚趾、脚背、脚底,还有小腿外侧有点疼痛、麻木,跟针扎一样,还有时候发凉发木,有蚂蚁爬的感觉。 手没有腿严重,指尖有些麻,做不了精细活。主要是脚,疼的时候会影响走路,走的时候脚底不敢着地,一着地就疼。特别是上楼就觉得这么劳累、腿酸。 大爷脚背有一个小溃疡,大概指甲盖大小,是夏天蚊子咬的...
- 《名医话养生》国产综艺20240702在线观看
- 养生堂:养生堂节目现场来了一对名医夫妇,一位76岁国家级名老中医高荣林高老,一位中国中医科学院望京医院徐凌云主任医师,谈起养生,二老都很重视脾胃的调养。 二老也为我们带来了不吃药的脾胃养生法: 1、畅其情志。脾胃与肝密切相关,如果不高兴了,我们就不想吃饭了,而肝气一舒畅,脾胃病就好了。 2、一日三餐辩证施养。二老准备了三份食物,好消化荤素搭配的包子,很适合哑口不好的老年人吃;每天保证要吃一盘绿叶...
- 北京卫视《养生堂》栏目御品膏方专场:调气血,化血瘀的养生常识
- 《临医养生堂》第100期特别直播圆满落幕,华数携手全国名中医陈意教授共创百期里程碑