作为下一代知识图谱,事理图谱有哪些创业投资机会?

2019-11-07 18:31:42 

照片来源@未播放

文|钛资本研究所

随着阿尔法围棋击败人类职业围棋世界冠军李世石,关于人工智能将取代人类的讨论层出不穷。然而,从实践者或研究人员的角度来看,要实现一个能够在当前技术水平上取代人类的人工智能系统仍然非常困难。

在这方面,美国军方的做法颇具启发性。他们的想法不是希望这个系统将取代人,而是利用人工智能来增强人的感知和认知能力,实现人机合作。最终的判断和决定由人做出,机器完成相关细节的收集和整理工作。

在第27期钛金新一代企业级科技投资者投资研究院中,中国科学院软件研究所研究员、数据地平线(广州)科技有限公司首席科学家薛云志博士分享了知识地图的风险和投资机会,以及逻辑地图从实体关联到事件逻辑关系跨越后的价值和风险投资机会。

薛云志,中国科学院软件研究所博士,清华大学工商管理硕士,iso/iec sc42(国际人工智能标准化)专家,国家人工智能重大项目专家组成员,某专家组首席科学家。他的主要研究集中在自然语言处理和知识映射上。

所谓合理地图集是一个特殊类别的知识地图集。知识地图的创业机会可以分为四个层次:

创业机会的第一层是关键技术,涉及数据清理、etl和其他操作,以及非结构化文本提取、ocr(特别是某些复杂文档的ocr)、实体链接、地图数据库和其他关键技术。

在这一层次创业对创业者来说很容易,因为相关的关键技术过去已经在各种学术和研究机构完成很多,这非常适合有技术背景的创业者。此外,大部分相关知识数据现在以非结构化文档的形式存在,相关需求非常大。

但是也有缺点:第一,以客户为导向的技术部门是大多数企业的成本中心,所以投资不会特别高;其次,以目前人工智能技术的发展水平,很难在关键技术上达到很高的精度。第三,在关键技术层面,无论是非结构化提取还是文档处理,每个场景、客户的数据以及后续对数据的处理要求都是不同的,因此特别容易陷入定制化的泥沼。

创业机会的第二个层面是数据,除了基本数据之外,还包括市场数据、替代数据、公众意见数据等。

这一层面对创业精神的需求相对广泛和持续。如果今年购买的技术满足需求,明年一定会按照这个需求购买。此外,标准化相对容易。第三,通常是业务部门使用数据,因此还有一个额外的优势,即用户的粘性相对较高。

然而,也有缺点:一是收集数据时边际成本不容易降低,因为每次数据收集都需要基本相同的输入。例如,在处理几乎所有新类型的数据或新数据源时,替代数据中的典型电子商务数据处理需要相对较高的成本。然而,数据收集的技术门槛相对较低,竞争对手相对容易进入。

第三层次的创业机会是知识地图产品,包括工商知识地图、产业链知识地图等。,现在市场上有许多供应商提供这种产品和服务。

它的优点是相当多的知识地图可以标准化。工商数据类似于目测,是一个非常标准化的知识地图,门槛相当高。如果你想建造一个新的高度,要达到现在的高度并不容易。另一个是它可以嵌入到用户的工作流中。一旦用户采用,更换成本相对较高。

第一个缺点是,这不是一个特别直接的业务场景,通常需要由应用程序产品来反映。其次,在目前的技术发展水平下,为了保证高覆盖率和高准确性,成本将迅速上升。

第四层创业机会是应用场景产品或服务,包括两种类型:由知识地图支持的旧场景和新场景的优化。

就价值而言,这四个层次的创业机会自下而上逐渐增加:虽然关键技术很重要,但它们的价值溢价最低;应用程序场景类相对困难,但是如果能够找到新的场景,它的价值溢价应该是最高的。

当然,从合适玩家的角度来看,技术越低,越适合大型玩家平台,比如阿里云和滕循云,它们部署了许多类似的服务来提取非结构化文本,并且已经成功应用。当然,初创企业也可以做这样的应用,但它们往往更困难。

对于小企业和小玩家来说,最合适的切入点应该是场景类。场景一般直接面向业务,因此技术价值可以得到充分体现。此外,这些场景的业务替换成本相对较高,用户的粘性也较高。为了找到合适的场景,你需要对业务有更深的了解。

从以上分析来看,数据和应用场景是最容易创业的。当然,创业或投资关键技术和知识地图产品并不是一个糟糕的选择。就场景而言,可以做什么?

上图列出了17种情景,涵盖了知识地图在泛金融领域的大部分应用。其中,旧场景的优化包括传统数据终端、知识库、搜索、问答和许多信用操作的增强。优化旧场景的原因是关系数据库在过去已经被用来做相关工作,但是没有知识地图的大规模数据具有很强的关联能力。

自2015年以来,新场景才逐渐发展起来,甚至绝大多数场景都还处于相对早期的阶段。目前,许多公司正在进行自动化审查和合规性审查,但财务文档的复杂性仍处于初级阶段。

此外,金融文件,包括发电、监管和风力控制,还有很多探索性的工作,远远没有出现垄断产品或一系列产品。但正是在这些新的场景中,泛金融应用领域有着相对核心的业务,所以如果这些场景中的需求能够得到有效解决,应用场景的价值就会相对较高。

将知识映射技术应用于金融场景时,应该考虑什么?

一是许多人会使用知识地图的“地图”来讲述故事,但用户不需要知道知识地图本身,也不会在实际使用中查找、拖动和查看“地图”。他们需要的是知识地图能够带来的能力。因此,在设计场景或产品时,没有必要显示知识地图本身,而是要看知识地图能给产品带来什么功能。

二是在当前技术发展水平下,知识地图的准确率达不到100%,即知识地图数据提取、实体链接和推理的准确率达不到100%。如果场景对精度有很高的要求,可能很难向前推进。因此,应用场景或产品的设计需要能够容忍知识地图的准确性。

近年来,知识地图又开始变得炙手可热。大多数人认为知识地图是解决从感性智能到认知智能问题的基本工具。最终能否实施取决于研究进展。

那么什么是知识地图呢?

知识地图是以本体为模式层的结构化数据集,与rdf数据模型兼容。一个简单的理解是把所有知识点连接在一起的图表。知识地图不是新概念。自20世纪70年代以来,谷歌在2012年5月通过语义网和网络等一系列概念引入了这一概念。它的主要目标是解决搜索相关性问题。

基于Rdf的知识图谱(邹磊,北京大学)

上图是一个典型的基于rdf的知识地图表示,描述了关于美国建国的知识点,例如美国首都在哪里,总统在哪里,总统有什么特点。这张地图有一个非常明显的特点,即每个节点都是一个名词,名词和名词之间的关系都写在网上。这是迄今为止所有主流知识地图的一个非常明显的特征。

国防高级研究计划局(DARPA)划分了普遍理解的数据、智囊团等。从下到上分为五个层次:

从学术观点或数据理解观点来看,知识地图解决了所有信息问题,即事实问题。另外,知识点和名词之间的关联可以解决一些组合和关联的问题,例如,林肯和霍金维尔之间的关系可以从图表中推导出来。

过去,可能有些知识没有直接表达出来,但可以通过一些网络之间的推理关系和连接关系来推断。因此,从信息的角度来看,知识地图是所有信息加上一部分知识。

知识地图的主要应用体现在几个方面:第一,推荐任务,如常用的搜索引擎和类似今天标题的内容搜索,是推荐任务;第二,风力控制任务,包括金融信用模型、反恐和情报领域的风险识别,如美国公司palantir利用知识地图识别奥萨马·本·拉登的线索,都属于风力控制任务。第三,知识管理任务,如问答、客户服务等。第四,知识发现任务。

事实上,与逻辑相关的问题可以在许多领域看到,例如在金融投资领域需要推理、推断和预测事件的逻辑关系,以及在军事、反恐、情报和舆论领域的相关需求。

也就是说,从darpa的五个层次来看,知识和理解的问题还没有解决。

当人们思考问题时,他们会看到各种各样的“如果”和“因为”。当他们研究问题或表达想法时,他们也使用各种逻辑。这些基于名词的逻辑知识地图很难表达。回到17个场景,有大量的“如果...”和“如果...”,也就是说,大量的逻辑被用来表达知识库。例如,金融产品、精确营销、自动化审计、审查、审计、风力控制、监管和新场景中的投资研究都与逻辑密切相关。

逻辑图试图描述原始知识图无法解决的逻辑。从技术的角度来看,我希望能够从实体的相关性跳跃到事件的逻辑关系。上面图片的左边是知识地图,右边是完全不同的图片,即逻辑地图。两者之间非常显著的区别表现在两点上:首先,每个节点不再是名词,而是事件;第二,每一方的事件之间都有逻辑关系。

例如,上图左侧是降级事件的因果子图,右侧是行驶事件序列的子图。所谓的事件序列是从旅行开始时可能采取的行动序列。每个动作的以下动作将完全由地图描述。这两张地图是使用自然语言处理技术从文本中自动提取出来的。

理性的图表表达了事件和事件之间的关系。首先定义事件是什么。这里采用ace的定义。事件是在特定时间点或时间段或特定地理范围内发生的事件或状态变化,由一个或多个角色参与的一个或多个动作组成。

根据事件之间的关系,事物可以分为几类。一种是因果逻辑,约占描述逻辑的80%,形式是从A到b,此外,它还包括条件、倒置、继承、上下位等东西,这些都是人们经常使用的逻辑模式。

如何构建案例图?从整个过程可以分为两类:一类是人工施工,优点相对准确,但缺点明显;另一个是自动建造的。

上图是一个示意流程图。语料库是从各种研究报告、财务报告、公告和新闻信息中提取的。经过一定量的数据清理和预处理后,进行事件识别,然后进行相关性的属性提取。还需要做融合和对齐,也就是说,不同的人会对一个事件有不同的表达,找出这些不同的表达,然后融合成同一个表达。

结果应该被概括并分层存储。分层主要是指一层一层地抽象事件。例如,范冰冰的阴阳契约事件,如果直接存储,以后将很难使用。然而,泛化分层可以对相关的主体、对象和相关的主要元素进行分层。范冰冰可以概括为明星和名人,而阴阳契约可以一层一层地概括为逃税、负面事件等。最后,可以制作更完整的图表。

上图展示了整个过程。左上角是起点,这是范冰冰阴阳契约事件发生时的新闻。首先识别主句,然后通过一系列的技术过程,主句逐渐转化为右上角的一系列结构化数据。这是事件提取的过程。当然,在事件被提取之后,一个大的网络将会形成。

在以前的工作中,已经为二级市场绘制了财务图表。现在事故数量接近1000万起,而且每天都在增加。它被认为是中国最大的财务图表结构。

在启用应用场景的基础上,逻辑图从技术上为检索、推理、演绎和预测提供了事件上下文。在过去,当没有事件上下文进行推理时,会引入许多预想的处理,这很难扩展,也不能自动化。因此,逻辑图可以为要表达的逻辑提供基础,从而使许多依赖于逻辑的事件能够自动化和智能化。

例如,银行的降级因果图和下游旅行图可以自然地形成事件之间的逻辑关系。例如,如果银行降级可能会有什么后果,只需直接从降级图中找出。对投机事件的影响将比基于知识地图的影响更加直接和自然。

根据这一数字,也有可能找出原因,例如贴现率下降的可能原因。还可以尝试确定这两个事件之间是否有关系,例如票价下调和公共汽车票价上调之间的关系。从直观的角度来看,逻辑图可以为逻辑推理提供框架和基础,这是其他技术在过去没有的能力。

首先,研究逻辑的智能管理。它主要是指分析逻辑在研究者和分析师头脑中的表达。它解决了研究机构的一个主要难题,即研究人员和分析师离开后形成的研究逻辑将被拿走。因此,主要需求之一是积累研究人员和分析师的知识。

对于研究人员来说,这还包括用他们自己的分析逻辑进行验证和更新。同时,他们还将从自己的角度智能地组织和分析大量的数据和信息,将每天观看各种研究报告或数据的现状转变为行为自动化。

研究逻辑智能管理工具是根据财务图表开发的。上图是基本形式。它主要以人为本,而不是试图从数千万份研究报告、公告或新闻信息中完全构建一个准确的逻辑。其设计目标是在研究人员验证或更新分析逻辑的过程中自动提供各种帮助。

当研究人员指定一个事件或逻辑时,他可以在整个地图集中搜索指定的前因后果,同时,他还可以对整个历史数据进行实证和验证。当然,他会将相关信息和数据联系在一起,为研究人员提供早期预警和实时监控功能。

二是对财务文件进行深度智能验证和智能审计。目前,许多证券公司和投资银行已经在进行全面的智能检查。例如,在ipo招股说明书中,证券公司和初创公司正在这样做。然而,整个检查的逻辑相对肤浅。如果这种逻辑需要更深入和相对更深入,这些逻辑如何表达给机器?

程序员逐个编写代码是不现实的。如果负责验证和审计的人能够表达自己的验证逻辑,如研究逻辑的智能管理,并将其实现为自动化验证和审计工具,他们将拥有非常好的深入验证和审计能力。

第三,企业债券风险的自动分类。如果能够根据这些逻辑和风险的表现,自动对公司债券的风险进行分类,就可以进一步组织公司债券的风险控制。

第四,行业内业务风险点的自动排序。每个行业的运营风险各不相同。只有在该行业工作多年的有经验的从业者才能理解风险,但他们可能并不全面。因此,当行业风险没有完整的表现时,评估行业的经营状况和控制风险就更加麻烦。它不能自动化,只能依靠人。因此,如果相关风险可以通过逻辑图进行分类,它还将为这些应用程序提供基本的数据能力。

第五,企业风险智能监控。现在也有风力控制产品,只有在实际的导致风险的事件发生后才能对其进行监控。如果你能借助风险逻辑图进行推理,你可以在风险的直接原因发生之前或发生之时观察它,更早更快地发现风险,并深入挖掘,这是与现有风力控制产品最大的区别。

第六,事件演化的跟踪与分析。例如,四川煤炭债券的默认事件可以通过逻辑图技术在流程前后进行排序,所有相关事件都可以进行排序,而人们在关注的时候只能关注有限的层面。

第七,智能问答。这是一个相对常见的场景,但是基于逻辑图可以获得更直接、更高效和更高质量的答案。例如,我们应该注意环境保护监督,因为环境保护监督等事情已经被彻底地分析过了。我们可以根据事物的图表整理逻辑并建立适当的关系,以便为更广泛的用户区域提供服务。

第八,服务或产品的预测性推荐与精确营销相关。迄今为止,建议基本上是基于相关性。例如,搜索引擎或电子商务提供商看到的推荐在购买产品后被推至类似的产品。今天的头条新闻因信息茧室而受到批评,信息茧室看到信息被推至同一类型的信息。当用户做出一个动作时,有可能预测将来会采取什么动作吗?

相应地提供预测性建议。例如,用户说,“丽江是个好地方,我想去看看”。如果推荐是基于相关性的,那么它必须与丽江本身相关。但是,根据逻辑图,我们可以从丽江的事件节点开始,看看可能的操作,比如买一张去丽江的卧铺票和提供一个去昆明的旅游指南。这句话可以推荐许多类似的东西。许多相关的金融服务和产品可以基于逻辑图提出预测性建议,以进一步实现更准确的营销。

总之,当前金融业的逻辑地图是所有逻辑应用场景都可以落地的场景。知识地图所描述的知识是一个必不可少的外围实体,研究对象是彼此之间的属性关系,逻辑地图描述得更像一个逻辑社会,而研究对象更多的是这些事件和内外联系。

简而言之,知识地图可以回答一些常识性的问题,比如什么时候,谁,什么,在哪里,等等。在应用中,而知识地图可以回答动态问题,如为什么、如何等。

逻辑图可以承载很多东西:首先,它可以承载金融产品或服务的内部逻辑表达,不仅是名词的列表,而且内部逻辑关系也可以用逻辑图来表达;

第二,金融机构的内部运作知识可以提炼和存储,类似于研究人员和分析师的研究逻辑或审计与合规逻辑,可以提炼和存储。

三,对金融事件的抽取和影响进行自动化监测分析,像利润的增长有哪些原因构成等微观经济规

山西11选5开奖结果 湖北快3 安徽十一选五投注 1分钟极速赛车 快乐赛车pk10

随机推荐