浙江大学6项专利拟许可,现将相关信息予以公示。
[1]专利名称:一种结合稀疏编码和结构感知机的文本事件抽取方法
专利号:ZL201610955220.9
专利简介:本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤:1)将文本数据依照ACE或RichERE规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1后输入结构感知机分类器,抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达,强化了文本特征,另一方面使用结构感知机模型同时来学习事件触发词和事件参与者的识别,据此获得了更好的事件抽取效果。
[2]专利名称:一种可直接度量不同模态数据间相似性的跨模态检索方法
专利号:ZL201310410553.X
专利简介:本发明公开了一种可直接度量不同模态数据间相似性的跨模态检索方法。它包括如下步骤:1)特征提取;2)模型建立和学习;3)跨媒体数据检索;4)结果评价。本发明可以直接在不同模态数据之间进行相似度比较,对于跨模态检索任务,用户可以提交任意模态的文本、图像、声音等,去检索他们需求的对应模态结果。本发明与传统跨媒体检索方法的区别在于可以直接进行不同模态数据之间的相似性比较,满足了跨媒体检索的需求,更加直接地实现了用户的检索意图,与其它可以直接度量不同模态相似性的跨媒体检索算法相比,本方法具有较强抗噪音干扰能力和对松散关联的跨模态数据的表达能力,使得检索效果更好。
[3]专利名称:基于隐结构学习的图像摘要生成方法
专利号:ZL201310410623.1
专利简介:本发明公开了一种基于隐结构学习的图像摘要生成方法。它包括如下步骤:1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。本发明具有更高的信息覆盖率和更低的冗余度可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好,比传统的方法取得更好效果。
[4]专利名称:一种基于概率单词选择和监督主题模型的文本分类方法
专利号:ZL201310410657.0
专利简介:本发明公开了一种基于概率单词选择和监督主题模型的文本分类方法。包括如下步骤:1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;3)根据训练文本的单词列表及其类别迭代更新主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵;4)对于测试文本,统计词频信息,然后利用主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵进行分类。本发明能够最大程度地减轻文本分类时繁杂的预处理过程,可以更加准确地对测试文本进行分类。本发明还能挖掘出主题中单词的鉴别度,以形象化展示文本中单词的重要性。
[5]专利名称:基于多源实体融合的知识图谱构建方法
专利号:ZL201610583823.0
专利简介:本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科:百度百科、互动百科,维基百科,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。
[6]专利名称:基于深度学习的实体链接方法
专利号:ZL201610592067.8
专利简介:本发明公开了一种基于深度学习的实体链接方法。设计了一种神经网络来计算实体指称与所有候选实体概念之间的相似度,把文本构建成有向图,利用随机游走算法计算文本中每一实体指称到其对应的候选实体的相似度排序,选择相似度最高的实体作为实体指称链接的目标。本发明通过对实体指称的上下文分词结果、候选实体分类标签做词向量表达,对实体指称上下文、候选实体的百科文档做文档向量表达,来作为神经网络的特征输入。利用双向长短时记忆递归神经网络结合上下文文档向量来表达实体指称,卷积神经网络结合候选实体文档向量来表达候选实体,并用三元组损失函数来训练。本发明实现了文本中的实体指称链接,消除实体歧义,帮助理解文本和构建知识库。
转化方式:普通许可
定价方式:协议定价
转化价格: 60万元
公示期自2020年11月3日至2020年11月17日。如有异议,请在公示期内向科学技术研究院提交异议书及有关证据。
电话:88981082,邮箱:kyc1@zju.edu.cn。
科学技术研究院
2020年11月3日