知识库查询不方便(查询知识库文档1081)难以置信
本次复旦DISC小编将介绍 ICLR 2022 的三篇论文,其中前两篇分别展示了将外部知识注入语言模型的两种新方式;第三篇则提出了一种新的知识学习任务——连续知识学习。
引言
预训练语言模型是目前自然语言处理领域最成功的模型族,在各种任务中都有出色的表现近年来,为了进一步增强预训练语言模型的推理、表达能力,在原始的纯文本语言模型中引入知识体系已经成为新的研究潮流本次分享我们将向读者介绍 ICLR 2022 的三篇论文,其中前两篇分别展示了将外部知识注入语言模型的两种新方式,并在不同的任务上实现了突破;第三篇则提出了一种新的知识学习任务——连续知识学习,设计了相应的评价规则并用主流模型进行了基准实验,为帮助语言模型掌握不断变化的知识(无论是从语料本身还是从外部的知识库)提供了一些指导。
文章概览
GreaseLM: Graph REASoning Enhanced Language Models 论文地址:https://arxiv.org/pdf/2201.08860.pdf本文作者提出了一种新的选择问答(MCQA)模型架构,将应用于文本的语言模型模块与应用于知识图谱的图神经网络模块有机地联系并堆叠起来,从而有效地将文本信息与外部知识结合起来学习,获得复杂文本上的推断能力。
实验结果显示,对不同类型的语言模型模块与选择问答(MCQA)任务,特别是涉及逻辑推理的任务,该架构的性能显著优于同等参数量的其它主流模型,甚至超越了一些更庞大的模型,同时展现出很强的设计与领域适应性Knowledge Infused Decoding
论文地址:https://openreview.net/pdf?id=upnDJ7itech预训练语言模型在执行知识密集型生成任务时,经常会出现反事实或虚构事实的问题,这与模型无法掌握真实的知识体系密切相关。
与其它面向预训练任务或精调目标的知识注入手段相比,本文提出了一种在解码阶段融入外部知识的算法 KID,可以借助动态的外部知识字典树,维护上下文有关的局域知识记忆,并通过强化学习引导语言模型的解码方向在 KID 的帮助下,语言模型生成知识密集文本的质量有了显著提高,并能更稳定地生成长文本。
Towards Continual Knowledge Learning of Language Models 论文地址:https://arxiv.org/pdf/2110.03215.pdf俗语有云:活到老学到老——这不仅对人成立,对从外部知识学习文本表示的语言模型也成立。
为了让语言模型适应不断变化的知识,本文作者首次提出了连续知识学习(CKL)的概念,为不变知识的保留、过时知识的更新与全新知识的获取这三类任务分别设计了测试基准与评价标准,并采用主流模型给出了三类任务的性能基线。
通过各类模型的实验结果,作者总结了 CKL 任务在传统连续学习(CL)任务基础上附加的新要求与新挑战
论文细节
1
论文动机近年来,大型预训练语言模型在问答任务上表现出色,它们可以在预训练阶段从大量文本数据中学习一些浅层的文本间关系,并加以利用但是,基于文本的预训练语言模型仍然不能很好地理解文本背后深层概念之间的关系,因此外部知识常常会作为补充数据,以图谱的方式输入模型中。
许多实验已经显示,大型知识图谱能够在问答任务中发挥显著作用然而,只有更高效地将图谱表示的推理知识与语言模型相结合,才能帮助混合模型更准确地完成各种推理任务于是,本文作者在早期浅层连接方式的基础上,提出了在更深层次上连接文本嵌入与图谱嵌入的 GreaseLM 层,并设计了针对 MCQA 任务的 GreaseLM 模型。
模型GreaseLM 的输入包括查询文本和关联知识子图,其中查询文本包含上下文描述、询问与候选项,关联的知识子图则遵循 Yasunaga 等(2021)的方法,通过选取与查询相关的子节点,从原知识图谱中抽取出来。
特别地,为了实现文本嵌入与图谱嵌入之间的交互,模型需要在输入的单词序列中添加一个额外的交互标志词,同时在子图中也加入一个额外的交互节点模型的目标是计算候选项是询问正确答案的概率,而一个 MCQA 问题的答案就是所有候选项中概率最大的那一个。
模型主要分三个阶段处理文本内容与知识图谱:文本预编码、文本-图谱联合学习和最后的概率计算,如下图所示。
在第一个阶段,文本(即单词序列和交互标志词)会通过 层单模态语言模型层(LM 层),获得文本序列的一个嵌入表示,完成初步的文本预编码这一过程的具体实现细节与 Vaswani 等(2017)基本一致,通过预训练任务初始化各层参数。
接下来,文本嵌入将与知识子图一起通过 层 GreaseLM 层,使文本信息与图谱信息充分融合具体而言,一个 GreaseLM 层包括一个 LM 层、一个图神经网络层(GNN 层)和一个模态交互(Mint)模块。
LM 层的实现与预编码阶段一致,而 GNN 层则是 Yasunaga 等(2021)中图注意力网络的一个简化版本,通过子图中的边传递信息,并输入两层的多层感知机(MLP)此后,为了实现交互,LM 层的交互标志词输出与 GNN 层的交互节点输出会输入 Mint 模块——又一个两层的 MLP。
Mint 模块输出交互之后的标志词与节点,它们又会被分别添加到 LM 层与 GNN 层的输出中,并作为下一个 GreaseLM 层的输入最后,模型从 GreaseLM 层中获取经过充分交互编码的文本嵌入序列与图谱嵌入。
为了计算最终的概率,模型将文本序列中的交互标志词编码、知识子图中的交互节点编码,以及子图其它节点的注意力池化结果拼接起来,输入模型末尾的 MLP 中,从而得到最终结果整个模型可以通过交叉熵损失实现端到端的训练。
实验设计本文作者在三个 MCQA 任务集上进行了模型的训练与测试,包括 Commonsense QA、Openbook QA 两个常识问答集以及临床问答集 MedQa/USMLE各个任务集的问题示例如下表所示。
为了展示 GreaseLM 模型框架对不同子模块具体实现的适应性,本文作者采用 RoBERTa/Large 作为 Commonsense QA 任务的 LM 层,AristoRoBERTa 作为 Openbook QA 的 LM 层,SapBERT 作为 MedQa/USMLE 的 LM 层。
另外,模型针对两个常识问答集采用 ConceptNet 作为外部知识来源,而对于 MedQa/USMLE 则额外构造了一个基于 UMLS 和 DrugBank 的知识图谱作为对比,本文作者又测试了两类模型在这三个数据集上的性能,包括传统的精调语言模型(即不含外部知识的上述三类 LM 层)以及目前已经发布的若干知识图谱语言模型。
结果分析在 CommonsenseQA 和 OpenbookQA 两个常识问答集上的实验结果如下表所示,可以看到 GreaseLM 模型在前者已经取得了明显的优势,在后者则超越了所有同一级别参数量的模型,甚至优于有
倍参数量的 T5* 模型(无知识版本,与有知识版本相比则 GreaseLM 模型稍差一些)。
GreaseLM 模型超越其它模型的关键因素可以从下表中体现出来——随着介词短语、否定词与限定词的加入,询问文本变得越来越复杂,此时 GreaseLM 的正确率优势明显增大由此可见,这一模型更能适应需要复杂推理才能正确理解的询问与上下文环境。
下图直观地解释了为什么 GreaseLM 能够更好地处理复杂的文本逻辑由于 Mint 模块实现了文本信息与图谱信息的交互,询问中的否定词“unlikely”抑制了其关联的“bug”节点的注意力权重;于是模型得以更加关注“windshield”节点并有意避开“bug”节点,从而联想到正确的答案“airplane”。
相比之下,其它知识图谱语言模型则会受到文本中两次出现的“bug”的干扰,被错误引导到“vehicle”这个方向上。
最后,下表展示了模型在 MedQa/USMLE 上的实验结果,可见 GreaseLM 模型依然实现了对 SOTA 结果的超越,显示出这一架构对不同领域也具有很强的适应性。
2
论文动机预训练语言模型的一个重要应用是文本生成,然而目前的模型生成的文本往往容易犯常识性错误——语句是通顺的,但内容明显与事实不符因此,许多研究注重于在处理文本生成任务时为语言模型提供外部知识作为参考,其中一些通过设计知识相关的目标函数调整模型参数,另一些则通过增加知识编码结构提前记忆外部知识。
但是,上述方法一方面需要高昂的计算(更多的精调或更复杂的模型),另一方面难以修改和调试隐藏在参数中的知识最近的研究考虑将与任务相关的知识作为输入的一部分,但是这类静态的知识并不能适应动态生成的文本,尤其是长篇或对话文本,而且模型利用这些知识的程度也很有限。
为了解决这些问题,本文转而在语言模型的每个解码阶段引入外部知识,即知识融合解码(KID)算法当模型准备解码出下一段文本时,KID 会动态地搜索最贴合当前文本的知识信息,从而引导模型输出更加符合常理的文本。
这个算法一方面能随着文本流的不断推进筛选当前最适合语句的知识,另一方面不需要昂贵的模型内参数计算,对知识密集型任务有突出的效果算法步骤KID 算法的主要步骤如下图所示,分为知识抽取、知识存储与引导解码三步。
KID 算法的基础是一个牢靠的知识库,算法需要根据上下文在知识库中选取合适的知识为此,本文作者选择了维基百科文本块数据集(Lewis 等,2020)作为底层的知识库,并通过预训练好的 DPR 模型(Karpukhin 等,2020)将当前的上下文与知识库内的文本映射到 。
维向量查找知识时,算法利用 GPU 加速的最大内积搜索(MIPS)(Johnson 等,2019)定位与当前上下文嵌入内积最大的知识库文本嵌入,并以此确定目前需要引用的维基百科文本块下一步,算法需要将所有知识文本压缩并转化为知识记忆,从而快速找到真实需要的概念并减小内存开销。
首先,维基百科文本需要通过指代消解和开放信息抽取(OpenIE)转化为若干三元组(Stanovsky 等,2018),然后所有的三元组会用一个前缀树 记录起来,方便识别三元组之间重复出现的概念 的本质是一棵字典树,只是其节点是单词而不是一般的字符;树结构的优势在于减少无意义的重复并高效处理查询。
与此同时,当前上下文中出现的实体会用一个队列 存储,并实时在 上查询最后,语言模型需要根据上下文以及知识查询结果,解码出合适的后续文本传统的语言生成模型采用 MLE 计算接下来是某个语句的概率;然而研究表明,对于知识密集型生成任务,这种训练目标无法显式对外部知识建模,导致语言模型生成反事实的语句,同时还面临曝光偏差等一系列问题。
因此,本文作者提出用强化学习的方式,利用策略梯度算法让模型学习在特定上下文中生成下一段语句的最优策略,既能考虑文本的正确与否,也能有效缓解曝光偏差问题具体而言,模型输入的状态是目前已经生成的语句段,动作是接下来生成的单词,而策略则是在单词表内的所有单词中选择模型 softmax 输出最高的那个。
与传统的束搜索算法相比,KID 算法会利用在 中查询到的算法对原有的输出概率作出调整,这里查询是通过以 为起点扩展若干步得到的接下来算法将开始进行策略梯度迭代,其中每一步的知识收益是查询结果中的所有单词在当前策略下的输出概率之和,该步的总收益则是知识收益的带权期望减去一个信赖域惩罚项。
与 BLEU 等代理度量方式相比,上述收益能够更高效地通过梯度下降优化,并且避免了代理带来的潜在偏差具体的算法执行流程与配置可以参考本文第三节实验设计本文考虑了三种不同的知识密集型任务:抽象问答: 抽象问答要求语言模型针对问题输出无约束的答案文本。
本文选取 ELI5 和 MSMARCO 两个长文本问答数据集,以及 PIQA 和 PubMedQA 两个专有领域问答数据集进行测试,通过计算 BLEU-1 与 ROUGE-L 与其它模型比较逻辑写作: 逻辑写作并不显式要求针对某个问题作答,而是从一些语句出发撰写一篇相关的议论文。
本文在 ROC 故事结尾生成和 NLG 两个任务集上计算了模型的 BLEU-1 与 ROUGE-L 指标对话生成: 顾名思义,对话生成要求模型生成两方之间的对话文本本文研究了模型在 Wizard of Wikipedia(WoW)和 MuTual 两个任务集上的表现,分别计算了模型的 F-1/ROUGE-L 和 MRR/ROUGE-L 分数。
本文研究的语言模型包括目前的主流模型 GPT2-medium 以及 BART-large,它们分别代表了自回归与文本到文本两大类模型结果分析下表给出了两个语言模型在采用不同的解码方式时,于六个文本生成任务中的实验结果,可见 KID 在所有任务上都超越了传统的束搜索和采样法,并且在自回归模型上有更明显的性能提升,可能是由于强化学习的目标收益与 GPT-2 的 MLE 目标函数近似。
在 ELI5、ROC 和 Wow 三个任务上,KID 语言模型能达到甚至超过目前的 SOTA 结果。
KID 模型与其它知识融合模型在抽象问答任务中的对比结果如下表所示,可以看到无论采用全部训练数据还是 的训练数据(模拟小样本学习),KID 模型又一次在所有任务中达到最优或次优的水平。
除了上述结果以外,本文作者还对整个算法的若干细节进行了比较实验下左表展示了用 RAG 代替 KID,和用其它算法代替 DPR 编码文本进行文本筛选时,模型在两个任务上的实验结果结果显示,采用 RAG 时随机抽取和使用 DPR 在 ROUGE-L 和知识覆盖率上相差不大,表明此时知识并不重要;。
但采用 KID 时 DPR 在这两个指标上明显优于其它文本筛选算法下右表则显示了不同规模的语言模型对结果的影响,其中 KID 在各种规模的 GPT-2 模型上都优于束搜索和采样法,而且未经精调的大模型甚至超越了精调后的中等模型。
下图展示了不同的知识量对模型性能的影响,包括提取的文档数量、在 扩展的步数,以及人类对不同模型生成的不同长度文本的 Likert 评分显而易见,知识并非越多越好,存在一个最佳的知识量——在提取 份文档、扩展 。
步时达到。同时,采用 KID 引导解码的模型的生成质量基本不随生成文本的长度增加而下降,在生成长篇语句时表现出明显的优势。
最后,下表给出了人类对于不同模型在不同任务下输出文本的相关性、事实性与流畅性评分,可见采用 KID 算法解码的模型生成的语句在各项指标上都与由人类撰写的语句相当接近。
3
论文动机目前的预训练语言模型已经有足够的能力从庞大的文本语料库中广泛学习文本表示的知识,并在各种知识密集型任务(KILT)(Petroni 等,2021)中发挥出色尤其是在一些零次学习的任务中,经过语言模型分析(LAMA)任务(Petroni 等,2019)精调的模型就如同预先储备了一个知识库一样。
然而,模型的容量是有限的,新知识的产生与旧知识的淘汰却是无穷尽的——2020 年训练的模型与 2022 年训练的模型在回答诸如“梅西效力于哪只球队”的问题时应该给出不同的答案;但与此同时,两个模型却应当对像“阿森纳是哪个联赛的球队”这样的问题作出相同的回答。
本文作者指出,目前的语言模型领域对这方面的研究仅仅局限于几类特定情景,并不能适应实际生活中无处不在的知识更迭,同时也缺乏相关能力的评价方式与标准因此,本文提出了一种新的连续学习范式——连续知识学习(CKL),如下图所示。
模型在不同的预训练阶段需要在三种 LAMA 任务——不变 LAMA、更新 LAMA 与全新 LAMA——上,达到保留不变知识、更新旧知识并吸收新知识的要求本文作者正是基于此,提出了一系列相关的任务与评价标准。
任务与数据集构建从连续知识学习的框架图可以看到,模型的整个训练过程可以分为前置任务与当前任务两个阶段性任务,它们分别使用不同的语料库(下面分别记作 和 ),并且需要分别或联合实现一些目标任务本文作者认为 。
应当明显比 小,因为 的目标是更新知识而不是从零开始训练模型;本文中实际使用的 是利用从 CC-RecentNews 获取的最新文章构建的预训练的任务继承了在 KILT 任务上表现优秀的 LAMA 任务——基于知识文本的完形填空,因此 。
采用了既有的 LAMA 数据集;同时额外补充了与句子相关的问答对,以提供在闭卷问答(CBQA)任务上预训练的可能理想的连续知识学习模型应当在两阶段的学习中实现以下任务,包括:不变知识的保留: 不变知识指可以从 。
中获取,且不会与 中的内容产生冲突的知识,以代表那些在实际生活中不随时间变化的知识,例如“阿森纳是英超球队”语言模型在训练的过程中应当在前置任务中学习这些知识,之后在使用当前任务训练的过程中保证这些知识不受影响。
为了测量模型在连续学习的过程中损失了多少不变知识,本文在原有 LAMA 数据集的基础上构建了只包含不变知识相关内容的 InvariantLAMA(不变 LAMA)数据集过时知识的更新: 过时知识指在 与
中产生冲突的知识,以代表那些随时间产生变化的知识,例如“梅西效力于巴萨”(可能在 中)与“梅西效力于巴黎”(可能在 中)语言模型应当在训练的过程中首先学习前者,然后逐渐更新为后者;但由于 远大于 。
,如果模型同时在 和 上训练,就难以保证习得最新的知识——本文作者认为这是 CKL 与传统 CL 的最大区别之一为了测量模型在连续学习的过程中更新了多少过时知识,本文类比 InvariantLAMA 构建了只包含在 。
与 之间有冲突的内容的 UpdatedLAMA(更新 LAMA)数据集全新知识的获取: 全新知识指无法从 中获取,但可以从 中获取的知识,以代表那些新产生的知识,例如“意大利无缘 2022 年卡塔尔世界杯”。
为了测量模型在连续学习的过程中获取了多少全新知识,本文又构建了只包含需要 知识才能正确回答的问题的 NewLAMA(全新 LAMA)数据集,这个数据集中的问题满足无法从 中获取答案的要求同时,作者又额外构建了 NewLAMA-Easy 数据集,去掉了后一个要求(因此更容易学习),用于大致估计模型获取新知识的范围。
上述所有数据集都是在 Amazon Mechanical Turk(mTurk)上人工标注的,各个数据集的统计信息如下表所示。
评价标准为了综合评价模型在三种任务上的表现,本文作者提出了一种新的度量标准——遗忘-更新比(Forgotten / (Updated + Acquired) Ratio,FUAR),用于测量模型需要丢失多少不变知识才能更新或获取一定的知识。
如上所示, 是任意任务, 是各个阶段的预训练语料库,其中 就是前文所述的前置任务语料库 表示在 或 上预训练后模型任务得分的差异 是 当中用于测量不变知识损失的一系列任务(如果有,否则 未定义);类似地,。
和 是 中用于测量新知识更新与获取的任务实际的 、 与 可以随实验设置的不同灵活选择 表示更新或获取一定量的知识需要以丢失同等的不变知识为代价,因此 FUAR 小于 的模型才能称得上适应连续知识学习,并且越小越好;分母为 。
(即 FUAR 无穷大)则属于最差的情况——模型完全无法接收新知识实验设计本文用于实验的主力模型是 T5 ,其预训练语料库之一 C4 恰好是本文构建 所用 CC-RecentNews 的超集,而另一个维基百科语料库恰好是本文的 。
作者在以下模型配置上进行了实验:初始模型(Initial)不参与任何连续训练,其性能在 InvariantLAMA 上可达到上界,而在其它两个数据集上可视作下界原版模型(Vanilla)增加了面向新知识的额外预训练过程,但不采用任何其它训练技巧。
RecAdam 属于正则化模型,增加了随训练进程逐渐减弱的正则化项,并且在连续训练的过程中不使用初始语料库Mix-Review 属于排练模型,允许在连续训练时访问初始语料库,但原始数据的混合比例会不断降低至 。
LoRA 属于参数扩展模型,在连续训练期间不改变语言模型的参数,而是在更新每一层时添加可训练的秩分解矩阵K-Adapter 与 LoRA 类似,但采用额外的 层网络(称为适配器)记录连续训练时的更新Modular 是新提出的一个模型,与前两者类似,但采用 T5-small 作为每一层的更新编码器(外部是 T5-large)。
详细的预训练、连续训练与测试配置和超参数可以参考附录结果分析下表展示了各个模型在 上初始化预训练,又在 上进行 4 代连续训练后的实验结果除了 Mix-Review 以外,其它模型吸收新知识的代价都小于原版模型——排练模型虽然对传统 CL 任务有效,但面对 CKL 任务时其获取新知识的效率急剧降低,因此表现是最差的。
另一方面,参数扩展模型的性能总体而言是最好的,其中 Modular 达到了最小的 FUAR 值,而 K-Adapter 在各个子任务上的性能最稳健
下图显示了 K-Adapter 模型连续训练期间在四个数据集上的表现。与初始模型相比,该模型有效保留了不变知识,同时更新过时知识并获取全新知识的效果也更好一些。
为了检验 CKL 的潜力,本文作者从 CC-RecentNews 中随机抽取了 组成 Small 数据集,并进一步根据文章的发表日期划分为 Small-P1 和 Small-P2 两个时间不重叠的子集;对 NLE 也用类似的方式划分出 NLE-P1 和 NLE-P2。
实验分别在 Small(无 CKL 阶段)、Small-P1 到 Small-P2(一个 CKL 阶段)以及维基百科到 Small-P1 再到 Small-P2(两个 CKL 阶段)三种设置下进行,结果如下表所示。
尽管总的训练迭代数一样,但设置三与设置一相比,随着 CKL 阶段则增加,语言模型更容易遗忘过去学习的不变知识,同时 FUAR 与原版模型之间的差距也在缩小另一方面,在设置三中,参数扩展模型的参数量在训练前后显著增加,因为它们必须在每一阶段的更新学习中增加新的参数,这会对更多阶段的 CKL 产生一定的困扰。
当模型在原数据集与 Small 数据集(设置一与设置三)上训练时,模型在不变知识数据集上的性能变化如下图所示,可见模型保留不变知识的能力均有明显下降,同时 K-Adapter 下降的幅度明显小于原版模型。
由于模型在 Small 数据集上重复学习数据集的次数更多(数据集更小),这一现象可能提示了为什么在训练语言模型时应当避免多次学习重复的语料(Lee 等,2021)。
参考文献[1] Jeff Johnson, Matthijs Douze, and Hervé Jégou. Billion-scale similarity search with gpus. IEEE Transactions on Big Data, 2019.
[2] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 6769–6781, Online, 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020. emnlp-main.550.
[3] Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison- Burch, and Nicholas Carlini. Deduplicating training data makes language models better. arXiv preprint arXiv:2107.06499, 2021.
[4] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. BART: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 7871–7880, Online, 2020a. Association for Computational Linguistics. doi: 10.18653/v1/2020.acl-main.703.
[5] Fabio Petroni, Tim Rockt¨aschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H Miller, and Sebastian Riedel. Language models as knowledge bases? In EMNLP, 2019.
[6] Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vladimir Karpukhin, Jean Maillard, et al. Kilt: a benchmark for knowledge intensive language tasks. In NAACL, 2021.
[7] Gabriel Stanovsky, Julian Michael, Luke Zettlemoyer, and Ido Dagan. Supervised open information extraction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pp. 885– 895, New Orleans, Louisiana, 2018. Association for Computational Linguistics. doi: 10.18653/v1/ N18-1081.
[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pp. 5998–6008, 2017.
[9] Michihiro Yasunaga, Hongyu Ren, Antoine Bosselut, Percy Liang, and Jure Leskovec. QAGNN: Reasoning with language models and knowledge graphs for question answering. ArXiv, abs/2104.06378, 2021.
供稿丨梁敬聪编辑丨石霭青责编丨石霭青供稿人:梁敬聪丨本科生4年级丨研究方向:计算论辩丨邮箱:18307110286@fudan.edu.cn
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186