www.teandq.com
晓安科普

什么是知识库(知识库用什么来形容)难以置信

2023-12-02Aix XinLe

这篇论文提出一种将高层次的概念与CNN-RNN成功结合的方法,并且实验表明这种方法在图像语义生成和视觉问答方面都取得了显着的进步。通过设计一个视觉问答模型,将图像内容的内部表示与从知识库中提取的信息相结合,以回答广泛的基于图像的问题

什么是知识库(知识库用什么来形容)难以置信

 

【导读】这篇论文提出一种将高层次的概念与CNN-RNN成功结合的方法,并且实验表明这种方法在图像语义生成和视觉问答方面都取得了显着的进步通过设计一个视觉问答模型,将图像内容的内部表示与从知识库中提取的信息相结合,以回答广泛的基于图像的问。

题,最终的模型在几个主要的基准数据集上实现了图像语义生成和视觉问答的最佳结果论文:Image Captioning and Visual Question Answering Based on Attributes and External Knowledge。

▌摘要视觉问答问题最近取得的许多进展是通过卷积神经网络(CNN)和递归神经网络(RNN)的组合来实现的这种方法没有明确表示高层次的语义概念,而是试图直接建立图像特征和文本特征之间的关系本文首先提出一种将高。

层次的概念与CNN-RNN成功结合的方法,并且表明它在图像语义生成和视觉问答方面都取得了显着的进步进一步研究表明,同样的机制可以用来结合外部的知识,这对于回答高层次的视觉问题是至关重要的具体而言,这篇文章。

设计了一个视觉问答模型,将图像内容的内部表示与从知识库中提取的信息相结合,以回答广泛的基于图像的问题它特别允许询问在图像本身不包含选择适当答案所需的信息的地方最终的模型在几个主要的基准数据集上实现了图像语义生成和视觉问答的最佳结果。

▌简介视觉问答(VQA)在计算机视觉方面提出了新的挑战,因为它们需要在两种不同形式的信息之间进行翻译从这个意义上来说,这个问题类似于语言之间机器翻译的问题在机器语言翻译方面,有一系列的结果表明,即使不开发更。

高层次的世界状态模型,也可以获得良好的性能自然语言是专门设计的,以便在人类之间传递信息,而图像则是复杂的鉴于这两种信息形式之间的差异,受机器语言翻译启发的方法如此成功似乎令人惊讶这些基于RNN的方法可直接从图像特征转换为文本,而无需设计高层。

语义特征,代表了关键的视觉语言(V2L)问题的当前研究状态,例如图像语义生成和视觉问答视觉问答(VQA)是比图像语义生成更具有挑战性它与计算机视觉中的许多问题截然不同,因为在训练的时候无法预知要回答的问题是什么。

然而,视觉问题回答是比图像语义生成更为复杂的问题,不仅仅是因为它需要访问图像中不存在的信息这可能是常识,或关于图像主题的具体知识例如,如下图所示,“一群人在沙滩上享受阳光灿烂的日子”,如果有人问“为什么有雨伞?”,为了回答这个问题,机器不仅要检测现场的“沙滩”,还必须知道“在晴。

朗的海滩上常常使用遮阳伞”。QA是一个更“完整的”任务,因为它需要超越单一子域的多模态知识

本文的贡献是两方面的首先,提出了一个基于属性的CNN + RNN架构神经网络,可以应用于多个V2L问题通过插入对人类有意义的场景属性的明确表示来实现这一点每个语义属性对应于从训练图像描述中挖掘出的单词,并且表示关于图像内容的更高级的知识。

针对每个属性对基于CNN的分类器进行训练,并且图像的属性可能性集合形成图像内容的高级表示然后训练RNN,根据可能性生成图像的语义,或者回答问题提出的基于属性的模型在图像语义生成的任务中产生比当前最先进的方法更好的性能。

基于提出的基于属性的V2L模型,本文的第二个贡献是引入一种将图像外部的知识(包括常识)合并到VQA过程中的方法在这项工作中,本文将自动生成的图像描述与从外部知识库(KB)提取的信息融合,以提供有关图像的一。

般问题的答案图像描述采用一组语义标注的形式,外部知识是从知识库中挖掘的基于文本的信息▌模型介绍模型完成两方面工作,一是基于属性的图像语义生成,二是在生成的语义的基础上,引入额外的知识库,进行视觉问答基于属性的图像语义生成

1. 图像属性的生成从标注的数据集中提取,256个被使用最多的词,除去15个在几乎所有标注中都有出现的词("a","on","of"等),相同语义的不管时态和单复数都看成是一个词根据属性集,从每幅图像的标注中,提取出训练图像的属性

测试集图像的属性的生成:可以看成是一个多标签分类问题,建立每个属性与图像的区域的对应关系 如一张图片上有“草地”“狗”“球”等,哪些地方是草地,哪些地方是狗等等图像属性的训练过程:可以由下面的结构图表示,它是一个VGGNet结构的CNN网络,先在。

ImageNet上预训练,得到单标签下的参数初值然后,在MSCOCO数据集上,做一个多标签分类,分类数为属性集的大小,训练得到优化后的参数在得到测试图像的属性时,先将测试图像分为不同的部分,然后经过得到该图片的属性。

图像语义标注的生成使用上一步生成的属性作为输入,用一个LSTM网络,最大化给定图片的正确描述的概率,训练得到语义标注的模型,结构图如下所示。

和知识库联系在一起的VQA从文本知识库(DBpedia)中查出与图像的属性相关的信息进一步的,可以选择从问题相关的属性进行查询使用Doc2Vec将从知识库中检索到的信息转换成等长特征表示将“属性”、“标注”、“知识库提供的信息”使用LSTM训练。

加入VQA之后的整体架构如下图所示

▌实验结果下图展示了在视觉问答中本文提出的方法和现有最好方法的一部分比较结果。

▌结论在本文中,首先研究了将中间属性预测层引入主要的CNN-LSTM框架的重要性,而这一点在以前的几乎所有工作中都被忽略了本文实现了一个可以应用于图像语义生成任务的基于属性的模型本文已经表明,在所有情况。

下,图像内容的明确表示都会提高V2L的性能事实上,在提交本文时,提出的图像语义生成模型比几个语义生成数据集上的最新技术要好 其次,在本文中,已经表明,可以扩展先进的基于RNN的VQA方法,以便包含回答关于图像的一般的开放式问题所需的大量信息。

目前可用的知识库并不包含很多有利于这一过程的信息,但仍然可以用来显着提高需要外部知识(如“为什么”的问题)的性能然而,提出的方法是非常普遍的,并且如果可用的话,它们将适用于更多的信息知识库本文会进一步实施反映问题内容和图像内容的知识选择方案,以便更具体。

地提取相关信息目前,提出的系统是三个VQA数据集的最新技术,并在VQA评估服务器上获得最佳结果 进一步的工作包括产生反映问题和图像内容的知识库查询,以便提取更具体的相关信息知识库本身也可以改进例如,Open-IE提供了更多的常识性常识,比如“猫吃鱼”。

这些知识将有助于回答高层次的问题参考链接:https://arxiv.org/abs/1603.02814-END-专 · 知人工智能领域主题知识资料查看获取:【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击:【诚邀】专知诚挚邀请各位专业者加入AI创作者计划!了解使用专知!请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!点击“阅读原文”,使用专知!

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识什么是知识库(知识库用什么来形容)难以置信

2023-12-02Aix XinLe163

什么是知识库(知识库用什么来形容)难以置信这篇论文提出一种将高层次的概念与CNN-RNN成功结合的方法,并且实验表明这种方法在图像语义生成和视觉问答方面都取得了显着的进步。通过设计一个视觉问答模型,将图像内容的内部表示与从知识库中提取的信息相结合,以回答广泛的基于图像的问题…

艺术描写立春的唯美句子(立春寄语唯美句子)墙裂推荐

2023-12-02Aix XinLe86

描写立春的唯美句子(立春寄语唯美句子)墙裂推荐多喝水,少减衣,吃瓜果,防感冒。保重身体是关键,想你念你最重要,微信传情问候到,立春给力一年好。立春养生谈,防病来保健,开窗长换气,空气保新鲜,…

知识什么是知识库(知识库用什么来形容)原创

2023-12-02Aix XinLe107

什么是知识库(知识库用什么来形容)原创知识库的定义在互联网的整个历史中多次发生变化。起初,它是一个术语,用于描述比通用关系“数据库”更先进的任何复杂数据存储系统。现在,随着SaaS的…

知识什么是知识库(知识库有什么用)干货分享

2023-12-02Aix XinLe106

什么是知识库(知识库有什么用)干货分享什么是知识库?知识库的价值是什么?如何使用知识库来优化客户体验?今天我们来聊聊~…

历史历史学排名2023(历史学排名500)学到了

2023-12-02Aix XinLe31

历史学排名2023(历史学排名500)学到了历史学是记载和解释作为一系列人类进程历史事件的一门学科。专业主要培养具有一定的马克思主义基本理论素养和系统的…