Grammarly 和 Wordvice AI 英语语法检查软件评比公开
什么是知识图谱?
知识图谱是图数据结构的扩展,它允许数据存储在相互关联(上下文链接)的实体中,以及新知识的自动推理。知识图谱可以是特定领域的,也可以是通用的,并且来自专有或公共数据。
特定领域的知识图谱通常是在领域专家和机器学习算法的帮助下编译的。为了扩展知识图谱,数据收集、解析和实体解析通常必须是自动化的。有用规模的知识图谱通常主要或完全由人工智能创建(如Diffbot的公共网络数据源知识图谱)。
什么是图表?
要理解知识图谱,了解称为“图谱”的底层数据结构是有帮助的。图形是组织以节点和边缘为中心的数据的方法。您可以将节点视为单个实体、个人、组织、文章或几乎任何类型的名词。Edge 显示节点的连接方式。例如,您可以说“Ringo Starr<一个节点>是<一条边>披头士乐队<另一个节点>的成员。
将图形置于上下文中的一种方法是查看它们的表亲关系数据库。关系数据库的结构是为了保持各个条目的一致性。每个条目都可以进行结构化,以包含有关关系的数据。
在图表的情况下,关系本身是“一等居民”。通过维护基于实体之间关系的数据结构,可以更有效地计算复杂关系。此外,图表可以更容易地描述对人类来说对世界上的物体有意义的内容。也就是说,实体如何相互关联以及这种相互关系中的模式。图形通常比关系数据库更灵活,这使得它们在遇到新形式的信息时能够增长。
知识图谱和图谱有什么区别?
与所有数据结构一样,图形本质上是“愚蠢的”。就其本身而言,它们只是一种组织数据的模式。它们的有用性在于以下几点:
与图表相反,知识图谱是上述所有内容的顶峰。即,强大的数据源、实体解析、验证、本体创建和编辑,以及数据探索和发现工具。知识图谱还有助于通过自动推理或推理来创建新知识。
虽然知识图谱通常存储在底层图结构中,但它们的作用远不止于数据管道本身的数据,类似于数据管道不仅仅是管道的数据。
知识图谱的历史
从一开始,知识图谱就是语义化的。在1980年代中后期,特温特大学和格罗宁根大学开始联合开展一个名为“知识图谱”的项目。该项目涉及创建一组以图形形式构建的语义网络。节点被限制为相对较少的边数(关系类型)。但是,在某种形式的语义网出现之前的几十年里,语义查询的基础工作就已经奠定了。
Cyc是另一个长期研究项目,始于1984年。他们努力建立人工智能知识库,最终收集了2100万个领域。这是在互联网出现之前,因此数据源包括多种形式的非结构化数据。这个集合的目的是收集所有必要的事实,以推断所有的“常识知识”。人们认为这可以用来帮助人工智能更好地处理新情况,减少“脆弱”。
在随后的几年里,特别是 90 年代末和 2000 年代初,内容的加速和在线花费的时间改变了知识图谱创建的范式。维基百科的诞生,由于其众包的性质,每事实的成本呈指数级下降。2006 年,Metaweb 开始开发 Freebase。与许多随之而来的一般知识图谱一样,Freebase在一定程度上是通过利用维基百科中的结构和事实来获得一个开始而创建的。基于 wiki 风格的数据,Freebase 能够获得超过 1.9B 的字段,这是对 Cyc 的巨大改进。虽然Metaweb被Google收购并最终关闭,但他们的大部分“世界知识共享数据库”被转移到了维基数据。
与许多计算学科一样,在处理需求或周围生态系统实现飞跃之前,解决方案的概念基础已经奠定了一段时间。对于知识图谱来说,这种飞跃是通过当代自然语言处理、计算机视觉、网络数据提取和存储的应用来实现的。简而言之,人工智能开始阅读和过滤网络。
这就是 Diffbot 进入知识图谱历史的地方。世界上最大的知识图谱的基础来自一系列产品,包括我们支持人工智能的自动提取API,可以从任何页面类型中提取结构化数据,以及我们的网络爬虫。
这些工具协同工作,几乎可以抓取和处理整个公共网络。凭借尖端的自然语言处理、实体解析以及从不断增长的站点集合中衡量事实有效性的能力,Diffbot 能够在 2018 年宣布创建世界上最大的知识图谱。
自 2018 年以来,Diffbot 的知识图谱已经能够积累超过 100 亿个实体,其中包含超过 1 万亿个事实。平均而言,该实体由来自公共网络数据的 20 多个事实组成。每个事实都来自网络上平均六个加权位置。
需要注意的是,许多企业知识图谱并非来自公共 Web 数据。而且,许多事实还由手动策划的事实组成(未启用 AI)。虽然这些知识图谱很重要,但并非供公众使用,而且与少数公共数据源和人工智能支持的知识图谱相比,其规模相形见绌。
知识图谱中有哪些类型的实体?
知识图谱中的实体取决于输入数据和感兴趣的领域。尽管通常实体往往是具体名词(即组织、人员、位置等)。
在 Diffbot 知识图谱中,我们有一组不断增长的实体,其中包括以下内容:
- 组织
- 人
- 地方
- 无形资产(技能、教育专业、角色、就业)
- 文章
- 讨论
- 图像
- 职位
- 产品
- 和视频
每种实体类型都包含与现实世界中该类型的实体相关的事实。例如,一个组织可能有一个资金回合字段。一篇文章不太可能需要这样的字段。相反,一篇文章可能有一个发布日期,这个字段对于组织来说不是必需的。每个实体类型可用的字段由本体确定。
知识图谱本体
本体是一组公理,用于确定给定实体类型可以包含的属性。正如我们在上一节中提到的,文章实体可能不需要一轮融资。物理位置不需要员工。但公司实体可能包括两者。
本体在不断增长的知识图谱中起着重要作用,因为与实体类型相关的事实可能会随着时间的推移而改变。或者,新的数据源可能会浮出水面。在 Diffbot 的知识图谱中,还收集了一组关于实体的非标准字段。我们称这些为“非规范事实”。虽然目前在重要性或准确性方面还没有达到等同于更主流的事实类型的阈值,但非规范事实可以帮助知识图谱随着时间的推移而增长,因为它们变得更加可信,数据变得更加可用,或者它们变得越来越重要。
如需详细了解 Diffbot 的知识图谱本体,请点击链接访问。
自然语言处理和知识图谱
自然语言处理 (NLP) 是 AI 衍生知识图谱的核心,因为一定规模的知识图谱远远超出了人类团队可以编译的范围。Diffbot的 NL API 产品可帮助个人利用 Diffbot 知识图谱背后的一些底层技术,根据您自己的语料库创建知识图谱。
需要注意的是,知识图谱有各种形状和大小。并且在主题上差异很大。我们的 NL API 可以帮助您从您选择的自然语言语料库中建立有关实体的节点、边缘和事实。
原文链接:https://blog.diffbot.com/knowledge-graph-glossary/knowledge-graph/