科学知识图谱【实用14篇】

好文 分享 时间:

科学知识图谱通过节点和边展示科学领域的关系,促进知识整合与发现,推动科研合作与创新,如何更有效应用?以下是网友为大家整理分享的“科学知识图谱”相关范文,供您参考学习!

科学知识图谱

科学知识图谱 篇1

科学知识图谱的应用领域

目前,国内外应用较多的是用科学知识图谱方法来帮助科技人员从科技文献发展新趋势和突变中获得科技新发现和重大突破点;从引文(共引)及聚类分析中了解研究前沿分布;从高词频统计或关键节点计算分析中得到关键或转折性研究领域;从引文(共引)随时空变化分析中观测科技发展与演变;从高被引文献分析中探测科技发展趋势。利用CiteSpaceII系统的突变探测、中间中心性算法对科技文献进行突变探测和关键节点分析,进而发现纳米科技研究热点与新兴领域、脑科学研究前沿技术等:用CiteSpaceII系统对科技文献进行共词(共引文献)——时区图分析,以揭示纳米药物研究国际发展态势和纳米等离子领域研究前沿及演变、辐射加工技术研究进展概况等.

可视化专利分析工具利用专利计量分析以及3D专利地图等技术、方法帮助企业技术研发和管理人员宏观了解行业技术发展趋势和竞争对手专利布局,发现核心技术、合作伙伴和竞争对手;利用技术矩阵图直观了解技术方案分布,发现技术雷区和空白点,以利专利分析决策和战略规划等。通过对专利申请人、同族专利量等指标统计分析,把握专利技术分布状况及其发展态势;通过对分类号、专利技术焦点等组配统计分析,以共现矩阵和曲线图形式揭示专利信息内含的技术知识;通过技术分类聚类分析明了竞争对手的专利分布;通过专利引证分析衡量技术发明的价值和扩散程度,从形成的引证表、引证

树和引证地图中获得不同技术的专利网络、特定技术领域的生命周期,以及竞争对手间技术依赖关系等。如:对专利文献进行UC共现强度聚类等分析,可揭示新兴产业发展态势和关键技术领域等,图4表明在技术交叉背景下中、美、日、欧四方核心专利在节能环保、新一代信息技术、生物、高端设备制造、新能源、新材料、新能源汽车七大新兴产业领域的分布情况;战略新兴产业/子产业及其技术;国家优先发展产业及其技术;国家产业控制实力以及我国战略性新兴产业发展态势与核心技术储备概况。

科学知识图谱方法可为科技管理决策和战略规划提供量化、直观、有效的参考依据。目前,国内外管理界较成熟地采用科学知识图谱对学科结构布局、科研成果、科学家及科研团队、合作关系、学术水平等科技竞争力方面进行分析研究,用科学结构地图可视化技术对科学引文文献进行分析,可绘制出国际科学研究的宏观结构、热点研究领域、四个时期科学研究领域演变以及中国在世界热点前沿中的覆盖和引领程度等;用定量和引文分析方法对科技论文引文文献进行分析,从而得到全球科技强国与新兴科技国家的基础竞争力和学科结构竞争力分布;用CiteSpaceII系统的国家(机构、作者)——词频分析网对科技文献进行分析,可揭示某领域世界各国(机构、作者)研究成果数量及其排行、学科带头人及其团队以及合作关系。同理,这两种分析方法还可用来衡量和评价国家、机构、研究者的学术水平和学术位置等。

在科学文献数据剧增、爆炸时代,科学知识图谱方法还可用来识别和判断核心文献和重点出版物,如:用CiteSpaceII系统的共词(共引)分析网—中间中心性算法对科技文献进行关键文献分析,可找到研究领域的关键文献和核心出版物。

科学知识图谱 篇2

为贯彻落实党中央、国务院关于加强基础研究的重要战略部署,进一步强化原始创新,推动学科交叉,积极应对科学研究范式变革,国家自然科学基金委员会(以下简称“自然科学基金委”)地球科学部拟资助“深时地球科学知识图谱与知识演化研究”原创探索计划项目(以下简称“原创项目”),旨在通过地球科学与信息科学、数学等多学科的深度交叉融合,在数据革命快速发展的时代背景下,探索深时地球科学知识图谱与知识演化的理论与方法,推动数据驱动的深时地球科学发现的变革性发展。

一、总体科学目标

本项目聚焦深时地球领域,探索内容体系庞杂、关联关系复杂的深时地球科学知识体系的内在逻辑关系,创建适合多时空尺度、多层次结构、多学科领域知识图谱构建的关键理论与方法,原创性突破全球高精度数字地质年代表、岩相古地理智能分析与编图等深时地球基础科学问题,为建设计算机可理解、可推理、可计算、可呈现的全域深时地球知识图谱奠定科学基础,为构建“数据-知识-模式”协同的地球科学研究新范式开展先导性研究,促进地球科学研究的变革性发展。

二、核心科学问题

从学科知识体系到知识图谱是地球科学知识研究的一次革命性跃迁,其中既包括一系列原创性科学研究,也包含体系化的知识图谱建设工作。本项目以融合时间与空间维度的多模态地球科学知识图谱创建的关键理论与方法为核心科学问题,具体包括以下三方面:

1)融合跨时空维度的地球科学知识图谱表示的图模式是什么?如何实现在统一的时空维度下地球科学多学科知识的内在逻辑关联与结构化表达?

2)统计表征与地球科学表征融合的动态知识图谱是什么?如何实现以地球科学专家认知为核心的地球科学知识与大数据挖掘知识的集成、融合和关联?

3)如何挖掘深时地球知识谱系演化的序列特征?全维度地球科学知识是否存在协同演化特征?

三、主要资助方向和研究内容

以深时地球大数据和大知识驱动的深时地球科学研究为出发点,注重地球科学与信息科学、数学等学科的深度交叉融合,创建全域地球科学知识图谱的关键理论方法,并开展验证检验。主要从以下六个方向开展研究:

1)地球科学知识图谱表示模式与群智协同构建:研究融合时间、空间特性及复杂知识结构的地学知识表示框架和通用模式以及领域权威知识、文献抽取知识、世界知识等多源异构地学知识的融合方法,研发群体地学家协同知识获取关键技术与群智人机交互平台。

2)全球高精度数字深时时间轴谱:研究具有等时对比意义的物理、化学、生物标志层协同的地质时间轴谱表示模式与精确限定的深时地质记录时空知识谱系、知识驱动下的全球深时地质大数据全方位比对方法,构建全球统一的高精度数字地质时间轴谱。

3)沉积物知识图谱及其知识演化:研究集“时-空-物”特征于一体的沉积物知识表达模式谱,发展沉积学、地层学、沉积地球化学等多学科融合的沉积物演化知识图谱,分析计算基于IODP大数据的中新生代大洋沉积物质演化,挖掘中新生代大洋沉积物时空演化规律和控制因素。

4)矿产资源知识图谱与智能预测:研究“地球系统-成矿系统-勘查系统-预测评价系统”关联知识图谱体系,发展基于深度学习、知识图谱和推理引擎的地球系统-资源预测精准人工智能方法,研发复杂系统数字化表达、定量化关联、数值模拟和预测的地质矿产大数据自动化建模与数据分析处理引擎。

5)含油气盆地岩相古地理解析与智能编图:研究岩相古地理知识规则厘定与盆地尺度岩相古地理图标准化理论、岩相古地理知识图谱构建与沉积环境认知的智能判识、知识规则与数据库驱动下的岩相古地理图智能编制方法等,研制多维古地理记录大数据挖掘与智能岩相古地理编图平台。

6)面向地学大数据的“图-文-数”动态知识图谱:研究地学知识时空实体与对象动态关联、多视角地学知识交互与呈现、精准地学知识发现与推理等理论与方法,研制“图-文-数”一体化地学知识引擎与地学动态知识发现平台。

七、注意事项

(一)资助项目信息公布。

自然科学基金委将在官方网站公布资助原创项目基本信息。

(二)项目实施保障。

原创项目负责人应将主要精力投入原创项目的研究中;依托单位应加强对原创项目实施的监督、管理和服务,减轻项目负责人不必要的负担,为项目研究提供必要的制度和条件保障。

(三)其他。

原创项目申请与资助不设复审环节。

自然科学基金委将把相关项目负责人项目执行情况和评审专家的评审情况计入信誉档案。

(四)咨询方式。

国家自然科学基金委员会地球科学部综合与战略规划处

科学知识图谱 篇3

 应用研究现状

从20世纪50年代开始兴起的各种文献计量方法为科学知识图谱的出现奠定了坚实的理论基础,是科学知识图谱理论与方法的“根”。如今,知识图谱已经成为计量学领域的一个新兴分支,活跃在各个领域的研究中。笔者将从应用领域、研究机构和软件方面阐述科学知识图谱的应用研究状况。

应用领域方面

科学知识图谱的应用领域很广,从科研到教学到社会问题的解决等,无不渗透。

应用于科研领域

笔者认为,知识图谱最早是在科研领域活跃起来的。在知识图谱中,学科前沿之间的交互关系是以空间的形式展现出来的。研究发现,科学引文与被引文之间往往有着学科内容上的联系。通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体,分析推测学科间的交叉、渗透和衍生趋势,还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。这里仅列举近些年知识图谱的一些应用研究情况。White,McCain,Garfield,Boyack,Huang等对知识图谱的用途进行了不断的扩充,得出知识图谱的主要应用有:文献、专利的结构分析;学科动态、社会网络、领域发展分析等;Shiffrin等认为,涉及到展开的学科间科学区域的知识图谱旨在绘制图形、挖掘、分析、分类、导航以及显现知识等等。

将知识图谱方法应用于构建学科知识图谱的研究人员也有一些:等将沃德方法和K一值算法,用文本挖掘和文献计量方法分析了选中的五种期刊,得出科学计量学的学科结构图谱,并分析了两者结果的特点,认为将两种方法结合起来分析会得到更好的结果;等用PFNet方法和卡分类方法产生了软件工程领域作者地图;等绘制了恐怖主义研究领域的知识图谱,用引文分析、文献计量、社会网络分析方法对科学产出进行了基本的分析,对大量文献集进行内容地图分析,用共引分析来分析成对的研究人员间的联系,用领域可视化技术,如内容地图分析方法,座模型和共引分析方法来研究1965~2003年间文献和作者引用数据;—Casado等用文献计量方法,基于朊病毒在1973~2002年间的相关文献,用知识图谱的形式研究了该领域的现状以及发展趋势。

将共词应用于绘制各个领域的概念图的研究也有很多,如de Looze和Lemarie用于植物生物学领域,Bhattacharya和Basu用于浓缩物质物理学领域,Peters和van Raan用于化学工程领域,DingChowdhury和Foo用于信息检索领域,0nyancha和Ocholla用于医学领域。引文分析方法应用于知识图谱的绘制中的实例,可以以美国科学情报研究所(ISI)名誉所长加菲尔德()为首的科学团体创建了一系列关于知识域资料数据库为例。Garfield认为“引文数据的使用在书写科学的历史”,由此利用他们开发的HistCite软件包,通过ISI光盘引文索引(SCI,SSCI或AHCI)形成某一学科发展的历时的图谱。

应用于教育领域

将图形和文字结合起来进行教学有比较久远的历史,特别是互联网和多媒体技术出现之后,这种教学方式更是得到推广。有研究表明,通过概念图等形式可以获得比传统教学更好的效果。这方面的研究有:研究了知识图谱在教学中的作用,通过实验,证明知识图谱有助于提高学生的学习效率;等将知识图谱用于网络环境下的教学中;等将知识图谱应用于教学中,让学生绘制自己的知识图谱,以了解其对内容的理解程度和解决问题的能力。所以,知识图谱可真正实现教与学的连接,可对教学有比较好的反馈。

应用于社会问题的解决方面

从笔者掌握的资料来看,将知识图谱用于解决社会问题,是知识图谱应用的一个拓展。该应用在21世纪初才开始兴起,和。将知识图谱应用于政治中,用于政府的决策制定。他们通过绘制印度议会的两个机构的S&T问题图谱,可以了解哪些是大家都关心的问题,了解民向,还可以在一个具体问题上了解大家的看法,便于政府的决策制定。在“Knowledge Mapping for Complex Social Messes”中将知识图谱应用于解决现实存在的问题,分析、认识复杂的社会信息间的关系,帮助决策者快速做出决策。该作者认为,知识图谱可以应用于很多方面:基于一个争论的焦点可以绘制一个知识图谱,清楚地将各方的理解放上去,有助于直观的认识事物,展示各方的相关细节,便于对比分析;可以显示逻辑和视觉结构,有助于从细节上了解主题;可以将不同的观点集合在一起,便于增加对话题的正确评价;可以是彩色的、一体化的有用的隐喻和图像,压缩了价值和看法,使得参与者可更详细地看到别人的观点,并增进相互沟通,更快地达成一致,使得参与者们跨越地理限制一起工作。

知识图谱的研究网站、机构方面

如今,国内外已经有专门的知识图谱研究机构,如CWTS,致力于科学知识图谱的研究。

(1)在CWTS的网站上有专门的Mapping板块。

该网站上刊载了CWTS工程的作者、完成情况等内容。该工程的主要责任人是和,他们从20世纪90年代末至今,已经对文献计量方法绘制知识图谱进行了一系列的研究,如l998年通过对一个领域进行多层次绘图,首先产生一个领域的整体图,然后对强关联的主题聚类进行多维尺度分析,绘制低一级的图谱,产生每个区域的详细的结构图。文章使用的主要是共现方法,但是该方法绘制的图谱经常滞后于真实的发展。因为那些词基本都是清理过的、统一的和明确的。通过他们的受控特征,当编索引的人同意他们的领域相关性时,他们只能被输入数据库,所以该文引用了一种新工具Nptool。另外他们还尝试开放了绘制科学图谱时使用的共词库,即以“开源”的形式,将自己绘图时的词库(词库中的词是在机选的条件下进行了人工筛选)公布出来,让读者和相关专家根据自己的认识添加或删除某些词,对词库进行修正、补充,从而使绘制的图谱具有可拓展性、动态性,同时也解决图谱的可读性问题,提高图谱的效率。这样构建的图谱具有极强的动态更新能力,也具有非常好的可读性。2001年CWTS针对图谱没有发挥它的最大效用,写了1篇改进文献计量图谱功能的文章“Improving the Functionality of Interactive Bibliometric ScienceMaps”。为了改善这个问题,文章结合了自顶向下和自底向上的过程,试图通过标出用户知道的点、熟悉的元素,让用户在一个熟悉的环境内理解图中的其他含义。从而让用户充分地认识图谱表达的含义,发挥它的最大效用。该网站上公布该机构目前正在研究R&D的新一代交互图谱。

(2)这是建立的人类知识图,其中对人类知识进行归类,总共十大类,包括知识基础、超自然物、物质和能量、空间和地球、非人类生物体、肉体和智力、社会、思想和艺术、技术和历史。每个分支下又有很多小的二级、三级分支。该网站主要的特色是图文并茂,其中的知识主要是以传统的主题目录方式组织在一起,辅以图片。该网站上的东西很全,其中的学术论坛是专业人员间的论坛,主要是反馈意见的平台。

有大量绘制图谱方面的研究经验,这从他发表的相关论文量中就可以看出来,从其网站上可以看到1999年以来他至少发表了15篇知识图谱方面的论文。

(3)网站上简要介绍了知识图谱的几种应用,并提供深入学习的链接,是一个知识图谱相关知识的培训网站。

(4)网上商业与共享的知识图(尤其概念图)软件极多,且大多能支持中文,例如Inspiration(国外学界极流行的知识图软件)或MindMapper(脑图创始人Buzan所开创公司的产品),十分好用,但是都要收费。这个网站上提供了很多免费且支持中文,而又能作教与学用途的知识图软件的链接。还介绍了一些用于商业的收费绘制知识图的软件链接,是笔者认为比较全面的教学软件的网站。

(5)这个网站是陈超美的个人网站,上面提供了陈超美自己设计的绘制知识图谱的免费软件及其下载链接,还提供了陈超美个人取得的有关科学知识图谱方面的成果。可以发现,陈超美在知识图谱方面的研究还是具有一定的深度。

知识图谱的软件工具的增加方面

⑴最初的一些软件简述。Garfield利用他们开发的HistCite软件包,通过ISI光盘引文索引形成某一学科发展的历时的图谱。HistCite系统是一个很好的引文历史分析工具,当在WoS上显示出一个有标记的列表时,对每一个源文件都生成包括所有被引文献的专家文件,这些引文收集被存储成由HistCite处理生成的ASCⅡ文件,用以产生历时代和其他类型表格,以及显示出在本收集之内和之外被引用最多的文献的编年图表。Small等人首先开发了基于共引理论的单机系统SCI—Map来描绘科学文献间的结构;通过连续时间内共引聚类图的历时比较,反映科学结构的变化;从不同学科问的共引关系中寻找某一学科到另一学科的可通路径,从而描述知识结构;基于ISI数据将共引聚类用于科学研究前沿分析。

⑵SPSS。SPSS(Statistical Package for Social Science)是由美国SPSS公司自20世纪80年代初开发的大型社会科学统计软件包,是目前世界上流行的三大统计分析软件之一,具有完整的数据输入、编辑、统计分析、报表、图形制作等功能,除了适合于社会科学之外,还适用于自然科学各领域的统计分析。近年来,SPSS为各领域的科研工作者所广泛使用。

SPSS内嵌的相关距离分析、因子分析(主成分分析)、多维尺度分析和聚类分析功能是进行科学知识图谱绘制常用的多元统计分析工具。

⑶Thomson Data Analyzer。是Thomson科技集团基于VantagePoint技术开发的一种数据挖掘软件,可用于跟踪竞争对手,俯瞰整个技术背景,发现新的趋势,从不同角度考察某一主题等。Thomson Data Analyzer对于分析科学文献数据具有强大优势,不仅可载入ISI中多种数据库的数据,还能对大量数据进行清理合并等,其强大的数据处理功能是其他软件所不能比拟的。

在绘制知识图谱过程中,该软件常用于绘制基础的图谱,常用的功能有:数据清理、列表功能、矩阵功能、图功能。其中,Thomson Data Analyzer的生成矩阵功能可对各种字段进行矩阵分析,可产生共现聚类、自动相关矩阵、交叉关联矩阵和因子矩阵,其中使用的相关系数是Pearson相关、余弦或最大比例相关。该功能减少了传统手工统计频次的工作量,节省了时间;Thomson Data Analyzer的生成图功能可依据导入的数据产生交叉关联图、自动相关图和因子图。

⑷Bibexcel。是由瑞典科学计量学家Persson开发的一个计量软件。目前该软件为仅用于科学研究的免费软件。Bibexcel可帮助用户分析文献计量数据以及任何以相似模式存储的数据。其思想是:为进一步处理产生能导入到Excel的数据文件或其他获得标记数据记录的项目。Bibexcel的功能包括:文献计量学分析、引文分析、共引分析、引文耦合分析,聚类分析,科学知识图谱的绘制等,它可以和Pajek,Netdraw结合起来使用。它可以使用的数据包括ISI的SC,SSCI,A&HCl的记录,也可对其他类型数据进行分析。

⑸Word smithTools。Oxford Word smithTools是牛津大学开发的商业性词频分析软件。其主要功能包括Wordlist和Concord Tool两种。Wordlist Tool可以将一个文本中的所有单词按使用频次进行排序,而Concord Tool可以帮助我们找到与任意一个单词搭配的词组。该软件被牛津大学的语言教师和学生用于辞典编辑工作,研究语言模式的学者们也借助它对世界上多种语言模式进行比较研究。

⑹Pajek。Pajek是一个基于Windows的用于将大型网络可视化的社会网络分析软件。在斯洛文尼亚语中,Pajek的意思是蜘蛛。Pajek的设计是基于图论、网络分析以及可视化软件等发展而来的。其主要功能是将一个大型网络分解为一些小型的子网络,并展示这些子网络的关系。

⑺CiteSpace。CiteSpace是陈超美个人网站上提供的分析和可视化科学文献的一个免费的Java应用程序。CiteSpace扩展了它的范围,包括了其他额外的数据来源,例如NSF奖总结。它面向的用户主要是科研人员、医学界、科学政策研究者和医学图书馆员,将信息可视化方法、文献计量方法和数据挖掘算法集成起来,是一个在引文数据中提取模式的交互式的可视化工具,其绘制图谱、建立节点之间关联的依据是“共引”与“引文”。

还有很多其他的绘图工具,这里就不一一列举。

科学知识图谱 篇4

知识图谱的表示

假设我们用知识图谱来描述一个事实(Fact) – “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。

另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的。

科学知识图谱 篇5

发展的历史

科学知识图谱最早起源于英国科学学奠基人贝尔纳(Bernal)1939年发表的《科学的社会功能》一文以及手工制作的科学技术史图(historiographs)。同期,英国人类学研究提出了“社会网络分析图谱(Social Network Analysis map)”。到了50年代,尤金?加菲尔德(Eugene Garfield)等人提出引文分析概念,创建科学引文数据库(SCI),并用SCI手工绘制了DNA研究领域的历史发展图谱。之后,普赖斯(Price) 进行了科学知识图谱绘制的开创性工作:知识领域可视化、信息可视化和传统的科学计量学知识图谱(简单的二、三维图,如:线性、柱形、扇形、散点图)。但这个时期的知识图谱,用科学计量学图谱(二、三维图)表征的物理现象科学可视化图像交互性不强,而通过非物理空间的抽象信息,如文献数据集、网络通道模式等数据计算形成的可视化图谱直观易解。

因而,进入80年代后美国科学基金会(NSF)发表了研究报告《科学计算中的可视化》,并开始长期资助科学可视化(scientific visualization )领域的研究工作;德国科学计量学赫尔德若-克里奇默(Hildrun Kretschmer)提出了科学合作的三维空间模型;卡尔提出“自组织映射图谱(Self-organizing map)”;费里曼(Freeman)研究出用以表示潜在的科学演变关键点的中间中性测度等,从而进一步推进了科学知识图谱研究。随着网络和可视化技术的迅猛发展,90年代,一些著名的学者研究提出了很多网络环境下的文献计量学、知识图谱方法与技术系统,如:美国心理学家斯克沃兹恩巴克提出的“寻径网络图谱PFNET”;格林伯格()设计出的识别新兴研究前沿的突变检测算法;陈超美教授研制出的基于三维虚拟技术的多元、分时、动态复杂网络可视化知识分析工具;Thelwall开展的网络环境下文献计量学方法的拓展工作;波朗克()等提出的基于多层映射扩展Multi-SOM法的自动划分图像逻辑区域串命名法的图像概括机制等。

进入大数据时代,印第安纳大学Ketan K Mane和伯尔纳用格林伯格跳变算法、共生词分析法和图示技术研制出主要主题和复杂趋势的发现地图–PNAS主题爆炸图谱;尤维斯用地理信息系统的可视化信息、地理地图的自然组织框架,构建成隐含大量信息的可视化主题地图等。计量学和信息技术的发展进一步推进了科学知识图谱理论与方法的创建和更新,如:诺恩斯(E. )等提出的特殊文献计量图谱数学方法和科学领域的自组织结构方法论;贝尔纳(Borner)提出的《mapping knowledge domain》定量研究、理论模式、政策与管理研究三大科学分析模式;莫顿()开拓的可视化计量分析等。近年来,科学知识图谱从数据、信息可视化进一步向知识可视化研究发展,并已迅速成为最为先进的用于揭示科学技术能力、科学前沿发展趋势、科学活动的机构、人才和成果评估的分析研究理论、方法与技术。

科学知识图谱 篇6

知识图谱的构建

1.知识图谱的规模

据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。与此不同的是,百度和搜狗主要针对中文搜索推出知识图谱,其知识库中的知识也主要以中文来描述,其规模略小于Google的。

2.知识图谱的数据来源

为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。这些数据普遍质量较高,更新比较慢。而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。

a)百科类数据

维基百科,通过协同编辑,已经成为最大的在线百科全书,其质量与大英百科媲美。可以通过以下方式来从维基百科中获取所需的内容:通过文章页面(Article Page)抽取各种实体;通过重定向页面(Redirect Page)获得这些实体的同义词(又称Synonym);通过去歧义页面(Disambiguation Page)和内链锚文本(Internal Link Anchor Text)获得它们的同音异义词(又称Homonym);通过概念页面(Category Page)获得各种概念以及其上下位(subclass)关系;通过文章页面关联的开放分类抽取实体所对应的类别;通过信息框(Infobox)抽取实体所对应的属性-值对和关系-实体对。类似地,从百度百科和互动百科抽取各种中文知识来弥补维基百科中文数据不足的缺陷。此外,Freebase是另一个重要的百科类的数据源,其包含超过3900万个实体(其称为Topics)和18亿条事实,规模远大于维基百科。对比之前提及的知识图谱的规模,我们发现仅Freebase一个数据源就构成了Google知识图谱的半壁江山。更为重要的是,维基百科所编辑的是各种词条,这些词条以文章的形式来展现,包含各种半结构化信息,需要通过事先制定的规则来抽取知识;而Freebase则直接编辑知识,包括实体及其包含的属性和关系,以及实体所属的类型等结构化信息。因此,不需要通过任何抽取规则即可获得高质量的知识。虽然开发Freebase的母公司MetaWeb于2010年被Google收购,Freebase还是作为开放的知识管理平台独立运行。所以百度和搜狗也将Freebase加入到其知识图谱中。

b)结构化数据

除了百科类的数据,各大搜索引擎公司在构建知识图谱时,还考虑其他结构化数据。其中,LOD项目在发布各种语义数据的同时,通过owl:sameAs将新发布的语义数据中涉及的实体和LOD中已有数据源所包含的潜在同一实体进行关联,从而实现了手工的实体对齐(entity alignment)。LOD不仅包括如DBpedia和YAGO等通用语义数据集,还包括如MusicBrainz和DrugBank等特定领域的知识库。因此,Google等通过整合LOD中的(部分)语义数据提高知识的覆盖率,尤其是垂直领域的各种知识。此外,Web上存在大量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称为Deep Web。它们通过动态网页技术将保存在数据库中的各种领域相关的结构化数据以HTML表格的形式展现给用户。各大搜索引擎公司通过收购这些站点或购买其数据来进一步扩充其知识图谱在特定领域的知识。这样做出于三方面原因:其一、大量爬取这些站点的数据会占据大量带宽,导致这些站点无法被正常访问;其二、爬取全站点数据可能会涉及知识产权纠纷;最后,相比静态网页的爬取,Deep Web爬虫需要通过表单填充(Form Filling)技术来获取相关内容,且解析这些页面中包含的结构化信息需要额外的自动化抽取算法,具体细节在下一节描述。

c)半结构化数据挖掘AVP

虽然从Deep Web爬取数据并解析其中所包含的结构化信息面临很大的挑战,各大搜索引擎公司仍在这方面投入了大量精力。一方面,Web上存在大量长尾的结构化站点,这些站点提供的数据与最主流的相关领域站点所提供的内容具有很强的互补性,因此对这些长尾站点进行大规模的信息抽取(尤其是实体相关的属性-值对的抽取)对于知识图谱所含内容的扩展是非常有价值的。另一方面,中文百科类的站点(如百度百科等)的结构化程度远不如维基百科,能通过信息框获得AVP的实体非常稀少,大量属性-值对隐含在一些列表或表格中。一个切实可行的做法是构建面向站点的包装器(Site-specific Wrapper)。其背后的基本思想是:一个Deep Web站点中的各种页面由统一的程序动态生成,具有类似的布局和结构。利用这一点,我们仅需从当前待抽取站点采样并标注几个典型详细页面(Detailed Pages),利用这些页面通过模式学习算法(Pattern Learning)自动构建出一个或多个以类Xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化的AVP抽取。对于百科类站点,我们可以将具有相同类别的页面作为某个“虚拟”站点,并使用类似的方法进行实体AVP的抽取。自动学习获得的模式并非完美,可能会遗漏部分重要的属性,也可能产生错误的抽取结果。为了应对这个问题,搜索引擎公司往往通过构建工具来可视化这些模式,并人工调整或新增合适的模式用于抽取。此外,通过人工评估抽取的结果,将那些抽取结果不令人满意的典型页面进行再标注来更新训练样本,从而达到主动学习(Active Learning)的目的。

d)通过搜索日志进行实体和实体属性等挖掘

搜索日志是搜索引擎公司积累的宝贵财富。一条搜索日志形如<查询,点击的页面链接,时间戳>。通过挖掘搜索日志,我们往往可以发现最新出现的各种实体及其属性,从而保证知识图谱的实时性。这里侧重于从查询的关键词短语和点击的页面所对应的标题中抽取实体及其属性。选择查询作为抽取目标的意义在于其反映了用户最新最广泛的需求,从中能挖掘出用户感兴趣的实体以及实体对应的属性。而选择页面的标题作为抽取目标的意义在于标题往往是对整个页面的摘要,包含最重要的信息。据百度研究者的统计,90%以上的实体可以在网页标题中被找到。为了完成上述抽取任务,一个常用的做法是:针对每个类别,挑选出若干属于该类的实体(及相关属性)作为种子(Seeds),找到包含这些种子的查询和页面标题,形成正则表达式或文法模式。这些模式将被用于抽取查询和页面标题中出现的其他实体及其属性。如果当前抽取所得的实体未被包含在知识图谱中,则该实体成为一个新的候选实体。类似地,如果当前被抽取的属性未出现在知识图谱中,则此属性成为一个新的候选属性。这里,我们仅保留置信度高的实体及其属性,新增的实体和属性将被作为新的种子发现新的模式。此过程不断迭代直到没有新的种子可以加入或所有的模式都已经找到且无法泛化。在决定模式的好坏时,常用的基本原则是尽量多地发现属于当前类别的实体和对应属性,尽量少地抽取出属于其他类别的实体及属性。上述方法被称为基于Bootstrapping的多类别协同模式学习。

3.从抽取图谱到知识图谱

上述所介绍的方法仅仅是从各种类型的数据源抽取构建知识图谱所需的各种候选实体(概念)及其属性关联,形成了一个个孤立的抽取图谱(Extraction Graphs)。为了形成一个真正的知识图谱,我们需要将这些信息孤岛集成在一起。下面我对知识图谱挖掘所涉及的重要技术点逐一进行介绍。

a)实体对齐

实体对齐(Object Alignment)旨在发现具有不同ID但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试。各大搜索引擎公司普遍采用的方法是聚类。聚类的关键在于定义合适的相似度度量。这些相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性-值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。在此基础上,为了解决大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被提出将实体分成一个个子集,在这些子集上使用基于更复杂的相似度计算的聚类并行地发现潜在相同的对象。另外,利用来自如LOD中已有的对齐标注数据(使用owl:sameAs关联两个实体)作为训练数据,然后结合相似度计算使用如标签传递(Label Propagation)等基于图的半监督学习算法发现更多相同的实体对。无论何种自动化方法都无法保证100%的准确率,所以这些方法的产出结果将作为候选供人工进一步审核和过滤。

b)知识图谱schema构建

在之前的技术点介绍中,大部分篇幅均在介绍知识图谱中数据层(Data Level)的构建,而没有过多涉及模式层(Schema Level)。事实上,模式是对知识的提炼,而且遵循预先给定的schema有助于知识的标准化,更利于查询等后续处理。为知识图谱构建schema相当于为其建立本体(Ontology)。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。在此基础上,我们可以额外添加规则(Rules)或公理(Axioms)来表示模式层更复杂的约束关系。面对如此庞大且领域无关的知识库,即使是构建最基本的本体,也是非常有挑战的。Google等公司普遍采用的方法是自顶向下(Top-Down)和自底向上(Bottom-Up)相结合的方式。这里,自顶向下的方式是指通过本体编辑器(Ontology Editor)预先构建本体。当然这里的本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。更值得一提的是,Google知识图谱的Schema是在其收购的Freebase的schema基础上修改而得。Freebase的模式定义了Domain(领域),Type(类别)和Topic(主题,即实体)。每个Domain有若干Types,每个Type包含多个Topics且和多个Properties关联,这些Properties规定了属于当前Type的那些Topics需要包含的属性和关系。定义好的模式可被用于抽取属于某个Type或满足某个Property的新实体(或实体对)。另一方面,自底向上的方式则通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。合并过程将使用类似实体对齐的对齐算法。对于未能匹配原有知识图谱中模式的类别、属性和关系作为新的模式加入知识图谱供人工过滤。自顶向下的方法有利于抽取新的实例,保证抽取质量,而自底向上的方法则能发现新的模式。两者是互补的。

c)不一致性的解决

当融合来自不同数据源的信息构成知识图谱时,有一些实体会同时属于两个互斥的类别(如男女)或某个实体所对应的一个Property(如性别)对应多个值。这样就会出现不一致性。这些互斥的类别对以及Functional Properties可以看作是模式层的知识,通常规模不是很大,可以通过手工指定规则来定义。而由于不一致性的检测要面对大规模的实体及相关事实,纯手工的方法将不再可行。一个简单有效的方法充分考虑数据源的可靠性以及不同信息在各个数据源中出现的频度等因素来决定最终选用哪个类别或哪个属性值。也就是说,我们优先采用那些可靠性高的数据源(如百科类或结构化数据)抽取得到的事实。另外,如果一个实体在多个数据源中都被识别为某个类别的实例,或实体某个functional property在多个数据源中都对应相同的值,那么我们倾向于最终选择该类别和该值。注:在统计某个类别在数据源中出现的频率前需要完成类别对齐计算。类似地,对于数值型的属性值我们还需要额外统一它们所使用的单位。

4.知识图谱上的挖掘

通过各种信息抽取和数据集成技术已经可以构建Web规模的知识图谱。为了进一步增加图谱的知识覆盖率,需要进一步在知识图谱上进行挖掘。下面将介绍几项重要的基于知识图谱的挖掘技术。

a)推理

推理(Reasoning或Inference)被广泛用于发现隐含知识。推理功能一般通过可扩展的规则引擎来完成。知识图谱上的规则一般涉及两大类。一类是针对属性的,即通过数值计算来获取其属性值。例如:知识图谱中包含某人的出生年月,我们可以通过当前日期减去其出生年月获取其年龄。这类规则对于那些属性值随时间或其他因素发生改变的情况特别有用。另一类是针对关系的,即通过(链式)规则发现实体间的隐含关系。例如,我们可以定义规定:岳父是妻子的父亲。利用这条规则,当已知姚明的妻子(叶莉)和叶莉的父亲(叶发)时,可以推出姚明的岳父是叶发。

b)实体重要性排序

搜索引擎识别用户查询中提到的实体,并通过知识卡片展现该实体的结构化摘要。当查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算。搜索引擎公司将PageRank算法应用在知识图谱上来计算实体的重要性。和传统的Web Graph相比,知识图谱中的节点从单一的网页变成了各种类型的实体,而图中的边也由连接网页的超链接(Hyperlink)变成丰富的各种语义关系。由于不同的实体和语义关系的流行程度以及抽取的置信度均不同,而这些因素将影响实体重要性的最终计算结果,因此,各大搜索引擎公司嵌入这些因素来刻画实体和语义关系的初始重要性,从而使用带偏的PageRank算法(Biased PageRank)。

c)相关实体挖掘

在相同查询中共现的实体,或在同一个查询会话(Session)中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看作是虚拟文档,将其中出现的实体看作是文档中的词条,使用主题模型(如LDA)发现虚拟文档集中的主题分布。其中每个主题包含1个或多个实体,这些在同一个主题中的实体互为相关实体。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。同时,搜索引擎将给出该主题中与知识卡片所展现的实体最相关的那些实体作为“其他人还搜了”的推荐结果。

5.知识图谱的更新和维护

a)Type和Collection的关系

知识图谱的schema为了保证其质量,由专业团队审核和维护。以Google知识图谱为例,目前定义的Type数在103-104的数量级。为了提高知识图谱的覆盖率,搜索引擎公司还通过自动化算法从各种数据源抽取新的类型信息(也包含关联的Property信息),这些类型信息通过一个称为Collection的数据结构保存。它们不是马上被加入到知识图谱schema中。有些今天生成后第二天就被删除了,有些则能长期的保留在Collection中,如果Collection中的某一种类型能够长期的保留,发展到一定程度后,由专业的人员进行决策和命名并最终成为一种新的Type。

b)结构化站点包装器的维护

站点的更新常常会导致原有模式失效。搜索引擎会定期检查站点是否存在更新。当检测到现有页面(原先已爬取)发生了变化,搜索引擎会检查这些页面的变化量,同时使用最新的站点包装器进行AVP抽取。如果变化量超过事先设定的阈值且抽取结果与原先标注的答案差别较大,则表明现有的站点包装器失效了。在这种情况下,需要对最新的页面进行重新标注并学习新的模式,从而构建更新的包装器。

c)知识图谱的更新频率

加入到知识图谱中的数据不是一成不变的。Type对应的实例往往是动态变化的。例如,美国总统,随着时间的推移,可能对应不同的人。由于数据层的规模和更新频度都远超schema层,搜索引擎公司利用其强大的计算保证图谱每天的更新都能在3个小时内完成,而实时的热点也能保证在事件发生6个小时内在搜索结果中反映出来。

d)众包(Crowdsourcing)反馈机制

除了搜索引擎公司内部的专业团队对构建的知识图谱进行审核和维护,它们还依赖用户来帮助改善图谱。具体来说,用户可以对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错。当很多用户都指出某个错误时,搜索引擎将采纳并修正。这种利用群体智慧的协同式知识编辑是对专业团队集中式管理的互补。

科学知识图谱 篇7

什么是知识图谱?

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

科学知识图谱 篇8

知识图谱的存储

知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。

当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

随着人工智能和大数据技术的不断进步,科学知识图谱的应用前景也越来越广阔。未来,科学知识图谱将会成为科学领域中一个非常重要的研究方向,为人们认识和探索科学世界提供更加便捷和高效的方式。

科学知识图谱 篇9

科学知识图谱的基本研究方法和工具

科学知识图谱的基本研究方法主要包括:引文分析理论与方法、共被引分析理论与方法、多元统计分析方法、词频分析方法、社会网络分析方法、共词分析方法、聚类分析方法和专利计量分析方法。“引文分析法”是一种用各种数学及统计学方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、作者等各种分析对象的引用与被引用现象进行分析,以揭示数量特征和内在规律的文献计量方法。可用于测定学科的影响和重要性、学科结构分布、核心期刊、科学交流和情报传递规律、文献老化和情报利用规律、情报用户需求特点,学术水平和人才评价等;“共被引分析法”定义两篇文献同时被引用的频率(强度)。分为文献共被引分析、期刊共被引分析、作者共被引分析、学科共被引分析。“多元统计法”是对若干相关的随机变量观测值的分析。采用维度降低技术将高维空间中的目标投影到低维空间(二维),主要用于关系矩阵运算,包括:因子分析、多维尺度分析和聚类分析;“词频分析法”是文献计量学传统分析方法,依据齐普夫定律(Zipf’s Law)对文献中主题词或关键词出现的频率及其规律进行统计分析;“社会网络分析法”是一个广义的研究社会结构战略,主要研究社会中行为者间的关系、个体属性和网络结构如何影响行为者行为。已成功地用于研究科学合作网和互联网中的可视化网络,展示科学计量学的合作网络结构与发展。“共词分析法”通过文献关键词的词频、聚类、关联、突现词统计分析,以研究文献内在联系、科学结构、研究热点和新兴领域等。“聚类分析法”借助数据挖掘中的聚类方法,对共词、共被引关系网络中的词间距离或专业术语词频进行数学运算分析,将距离较近的或词频高的主题词聚集起来,形成学术概念类群,用以表示研究主题、专业领域、学科结构等。“专利计量法”采用专利计量学研究框架:专利量(率)、引用及关联分析、国家表现,即:技术研发生产力、影响力以及关联分析。

科学知识图谱软件工具主要有:Bibexce科学计量学研究软件、SPSS统计软件、Pajek大型复杂网络分析工具、Origin数据分析与绘图工具、UCINET矩阵网络分析软件、HistCite绘制学科发展以及定位重要文献软件、VOSviewer大规模数据处理及共引-共现关系图绘制软件、 CiteSpaceII第二代信息可视化分析系统和exCITEr、TDA、Aureka等专利数据处理和分析工具等。

科学知识图谱分析采用的数据来源主要有:中外文科技文献、引用(被引)文献、专利、基金项目、天文观测等类型文献信息数据。

科学知识图谱 篇10

科学知识图谱发展由来

具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。

科学知识图谱 篇11

科学知识图谱的概念

科学知识图谱是一种先进的集文献计量学、数学、统计学、计算机科学以及现代数据挖掘、复杂网络和可视化技术为一体的科学发展及其研究前沿知识发现与分析方法与技术。它利用引文分析和图谱技术把抽象数据映射到2D或3D图形中,从宏观、中观、微观等层面揭示学科领域及其结构、研究主题及其热点、学科进展及其发展趋势、研究团队及其合作关系等。使研究者能概貌与深入了解和发现科技发展概况、研究前沿及其新兴、热点领域、重大转变关键节点、科技合作与竞争、学术水平和核心资源等重要信息。由于知识图谱图形直观、绚丽等特点更符合人的认知习惯和更利于人脑处理,因此科学知识图谱分析方法越来越为各领域研究者关注和使用。借助科学知识图谱,人们可以透视庞大的人类各个领域中的知识体系结构、关联与演变,理顺当代知识大爆炸形成的复杂知识网络,探测科学技术知识前沿与发展、活动分布与竞争的最新态势与趋势。

科学知识图谱以科学知识为计量研究对象,在用数学方程式表达科学发展规律、结构、前沿、关系的基础上,以曲线形式将其绘制成多维知识图形。科学知识图谱的基本原理是对研究分析单位(科技文献、科学家、关键词等)的相似性进行分析与测度。其中,CiteSpace II可视化分析系统采用共引、三维图景、进化时间模式,用科学文献的引文和共被引轨迹标识研究前沿及其知识基础,用突变探测算法(burst detection)判断新兴研究前沿,用中间中心性测度表示科技发展演变过程中的关键或转折点,用聚类视图(cluster views)和时区视图(timezone views)标识科学前沿和发展演进及其关键、转折节点,以色带表征引文年代、以时间线显现聚类的动态科学知识的发展演变,实现了“一图展春秋”的最高意境。

用不同技术、方法可绘制出不同的科学知识图谱,目前主要有:(1)传统的科学计量图谱(Two Dimensional Scientometric Map,2DSM),以简单的二维、三维图形直观表达科学统计结果,如:二维柱形图、线性图、点布图、扇形图、平面图等;(2)三维构型图谱(Three Dimension Configuration Map, 3DCM),利用新的数学方法和梅茦格()心理学“构型(Configuration)”理论以及非线性函数形象地描述科学家合著网络构型以及人际关系结构的三维图形;(3)社会网络分析图谱(Social Network Analysis Map, SNAM),利用社会行为者与其他行为者关系的模型,描述群体关系结构及其对群体功能或群体内部个体影响社会网络分析图谱;(4)自组织映射图谱(Self-Organizing Map, SOM),一种用自学分类方法将任意维输入信号变换到一维或二维离散网络上,并保持拓扑有序性结构的人造神经中枢网络对信息可视化自组织映射模型;(5)寻径网络图谱(Pathfinder Network Scaling Map, PFNET),根据经验数据评估不同概念或实体间关联相似或差异性,应用图论生成特殊的网状模型,以表达不同概念或实体间的语义网络。

科学知识图谱 篇12

网络环境下的信息分析与情报研究是个快速发展的前沿领域。当今,由先进的哲学、科学学、计量学、计算科学和可视化技术等理论、方法与技术构成的科学知识图谱大大促进了信息分析和情报研究定量、模型、实时、自动、智能化的发展,提高了情报研究工作的深度和效率。

科学知识图谱作为多学科、方法和先进技术融合的前沿研究领域,就其研究内容的丰富性、研究方法的广博性、应用的广泛性和分析效果的强大性,将有更多更新的发展、突破和繁荣。在知识图谱理论方法方面,鉴于科学学、计量学、应用数学和计算机等科学以及信息、网络、数据挖掘、智能化、可视化等技术日益融合与集成,科学知识图谱将逐渐形成和建立本学科的理论基础及其内容范围。同时,进一步研究发展或引入更多更新的专业理论,如:信息计量学、知识计量学、知识数学量化表达方式、认知学习理论、本体知识地图等。在技术工具完善与开发方面,多种知识图谱分析工具及其分析方法的综合和参照使用是未来的研究重点之一。在实际应用方面,除科技前沿与发展应用研究外,还可探索应用于企业发展与管理,如:行业战略设计、前沿(共性、关键)工程技术、技术评估与技术预见等分析研究。用于知识管理前景宽广,如:科学传播研究、区域创新系统研究、卓越机构与人才资源研究、金融市场、经济生态环境研究等。在文献情报领域可用以深入地开展全球竞争情报研究、文献分析等。

鉴于目前的科学知识图谱新兴不久,尚未形成完整、系统的本学科理论体系,其研究方法尚存局限性,其分析技术与工具尚在提升与完善,其分析数据有待类型扩展和规范等,所以在使用科学知识图谱方法时须采用多种信息分析方法和技术,同时结合相关专家论证等综合措施来提高其预期精度以及参考使用价值。

科学知识图谱 篇13

 国内知识图谱应用研究现状

总体来讲,无论是企业还是科研领域,我国对知识图谱的关注滞后于国外。

相比国外知识图谱的研究状况,我国起步稍晚,但是也取得了一些成绩。从20世纪90年代至今,我国的专业人员也开始了科学知识图谱的研究,并有专门的研究机构(如大连理工大学的科学学与科学技术管理研究所)一直在关注科学知识图谱的研究和发展。不过,追溯起来可以发现,“知识图谱”、“知识地图”这些术语在我国学术界出现也就是这几年的事情,之前的研究并不系统,而且大多是对绘制方法进行研究。有关知识图谱方面的零零散散的研究成果也有很多,如中国科学院的耿海英毕业论文最后的实证部分,是用共引分析方法等绘制了情报学作者间知识图谱,并和White的结果进行对照,分析异同。涉及到具体构建知识图谱系统的专家有我国社会科学院的李思经老师,他在知识图谱方面研究比较深入,也有了一些成果,他的学生康永兴在2006年的毕业论文中构建了学科知识图谱系统,是将知识图谱系统应用于科学的一个探索。大连理工大学科学学与科学技术管理研究所的刘则渊老师等是纯科学知识图谱绘制方面研究的专家,该研究所的一系列研究人员是我国系统研究科学知识图谱的领头人。中国科学院国家科学图书馆刚刚建成了一个基于SCI和ESI数据库绘制各领域科学图谱的系统。2008年5月17日在中国科学院国家科学图书馆举办了一次科学地图展览等。以上实例说明,越来越多的人开始关注知识图谱的研究和应用。不过,有关知识图谱本身的系统研究几乎没有。

总体来讲,国内在知识图谱的应用方面缺少理论上的实证分析,主要是将知识图谱作为一个工具,应用于各个领域,而且相对于国外,应用研究还比较薄弱。但是由于知识图谱是科学计量学领域的一个新的活跃分支,其历史还比较短,所以,国内外在知识图谱的应用研究方面,差距并不大。

如今,科学知识图谱已经成为一种理论与方法得到了很多科研人员的肯定,其应用领域也在不断的拓展,已经成为科学计量学领域的一个热点研究方向。我们有理由相信,在不久的将来,我国将会加入到科学知识图谱方向的研究及应用的世界前沿之列,其理论与应用将会得到进一步的发展。

科学知识图谱 篇14

知识图谱本质上是一种大型的语义网络,它旨在描述客观世界的概念实体事件以及及其之间的关系。以实体概念为节点,以关系为边,提供一种从关系的视角来看世界。

语义网络已经不是什么新鲜事,早在上个世纪就已经出现了,但为什么重新又提到知识图谱?

知识图谱本质上是一种语义网络,但是它最主要的特点是一个非常大规模的语义网络,之前的语义网络受限于我们处理的方法,更多是依赖于专家的经验规则去构建,在规模方面受限于特定领域的数据。大规模网络,谷歌在2012年首先提出知识图谱的概念,在freebase的基础上扩展了大量来自互联网的实体数据和关系数据。据说目前实体的数据已经达到数十亿级,有达到千亿级的实例关系,规模是非常巨大的。

虽说三大搜索引擎在知识卡片的排版和内容展现上略有不同,但是它们都列出了姚明的身高、体重、民族等属性信息。此外,它们均包含“用户还搜索了”或“其他人还搜”的功能来展现相关的人物。该功能允许用户去浏览其他与姚明相关的人物的详细信息。细心的读者也发现Google在其知识卡片中也展示了很多与姚明相关的图片,以图文并茂的方式来展示姚明的方方面面。百度则结合了百度风云榜的信息,列出了姚明的类别(体坛人物)及其百度指数(今日排名和今日搜索热度等信息)。在搜索结果页面的左上角(在图中未给出),百度还展示了其特有的专题搜索,包含了与姚明相关的百科、图片、微博、新闻、音乐、贴吧和视频等七大类的结果,基本涵盖了用户最基本的需求。搜狗在列出与姚明相关的百科、图片,电影和最新相关消息等专题的同时,其知识卡片额外显示了诸如“主持电视节目”、“效力篮球队”、“人物关系”等各种细粒度的语义关系。当遇到含有歧义的用户查询时,知识卡片还会列出其他可能的查询目标对象。在上面的例子中,搜狗还列出了一项“您是否要找”的功能,列出一位也叫姚明的一级作曲家。该功能用于去歧义,在显示最相关实体的同时也给出其他可能的对象,达到去歧义的作用。当搜索“李娜”或“长城”时,Google和百度也在其知识卡片下方展现了类似的功能。除了给出著名网球运动员李娜和万里长城之外,它们还列出歌手李娜和长城汽车供用户选择和浏览。更值得一提的是,当在搜狗知立方中输入“姚明的老婆的女儿的身高”如此复杂的查询时,其会直接返回其女儿的姓名(姚沁蕾)以及其身高(110cm),并给出推理说明“叶莉的女儿是姚沁蕾”。如此详实的说明不仅为返回的答案提供了很好的解释,从另一个侧面也展示了知识图谱的强大,其不仅能识别出运动员姚明,也能抽取出关系“老婆”和“女儿”和属性“身高”等信息。当我们将查询修改为“姚明的妻子的女儿的身高”时,依然返回相同的结果,这也意味着知识图谱知道“妻子”和“老婆”代表相同的含义。

    通过上述的介绍,大家应该对知识图谱的表示以及其在搜索中的展现形式有了更深的了解。接着,我将介绍知识图谱的构建以及如何在搜索中应用知识图谱返回相应的知识卡片以及答案。

48 4002394
");