www.teandq.com
晓安科普

知识库构建流程(知识库构建技术)硬核推荐

2023-10-25Aix XinLe

问答知识库快速构建与闭环运营“双擎”驱动对话式AI高速发展

知识库构建流程(知识库构建技术)硬核推荐

 

对话式AI方兴未艾,问答知识库快速构建与闭环运营成关键对话式AI类产品,已经在各行各业中实现规模化的应用随着科技创新支撑下的高质量行业发展,人工智能已成为数字经济时代的核心生产力其中对话式AI,作为人工智能技术的一个分支,随着深度学习、预训练模型等技术的突破,逐渐在各行各业中实现了从产品测试到规模化应用的落地。

比如:智能客服、外呼机器人、语音助手等产品应用据艾瑞咨询2022年《中国对话式AI行业发展白皮书》所示,预计到2026年,对话式AI的核心产品规模将达到108亿元,带动相关产业规模超385亿元,2021~2026年的年均复合增长率(CAGR)分别为18.9%和25%;对话式AI作为“替代与辅助人工”的核心应用,为市场最原始直观的“降本增效”价值诉求提供了先行落地的有效解决方案。

众多企业将引入“对话式AI”作为智能化转型的首要试验田

艾瑞咨询:2019-2026年中国对话式AI产品及带动相关产业规模企业在应用对话式AI产品中,通常会遇到以下两个痛点:1、部署阶段-问答知识库构建周期长,用户冷启动门槛高主要表现在:1、企业数据分散在会话日志、网页等多种文档中,需要人工收集。

2、企业数据积累较少,需要业务专家介入梳理3、人工标注成本居高不下,易受个人主观意识左右,影响模型训练效果2、运营阶段-AI服务效果不稳定,且缺乏有效的监控手段,不能及时进行模型调优主要表现在:1、系统中人工构建知识库质量不可控,导致AI服务效果不稳定。

2、系统对未覆盖知识无法做到及时发现,导致无法回答,用户体验差3、系统无法对错误案例(BadCase)及时分析,模型无法及时更新上述两个痛点说明,对话式AI产品若要实际满足用户需求,仅拥有对话能力是不够的,更需要完善的问答知识库作为底层支撑。

换句话说,问答知识库的规模和质量直接决定了对话式AI产品的整体服务效果然而仅靠人力堆积的模式来构建和运营知识库,不仅服务质量得不到保证,而且项目运营成本也存在失控的风险,早已无法适应市场的要求和增速问答知识库的快速构建及闭环运营能力,是解决上述两个痛点的关键。

问答知识库快速构建及闭环运营的核心技术介绍问答知识库的构建和运营是一项系统工程,冷启动阶段运用系统工具辅助人工快速构建知识体系,推进对话式AI落地;运营阶段运用大数据挖掘技术,实现价值数据自动回流,知识库持续更新。

两套体系搭建完成后将形成数据闭环,并相辅相成,逐步形成“双飞轮”的自运营体系其整体运行逻辑如下图:

知识构建及闭环运营工具流程图如图所示:冷启动阶段运用知识挖掘、智能标注、智能荐句、质量检查等工具辅助人工快速构建知识体系;运营阶段运用新知识发现、BadCase分析、质量检查等工具保持模型持续迭代其中用到的核心技术主要有文本聚类、样本增广、知识质量检查等。

下面就针对这些核心技术做下介绍1、文本聚类技术,可以为知识库持续挖掘和发现新的知识:文本聚类技术在知识构建及闭环运营工具中,主要用于新知识的发现(无法聚到现有的任何一个意图类别中)和拒识问题的归纳(可以聚到现有意图体系中,但是现在无法应答,需要人工处理)。

当前的主流算法为无监督句向量表示+聚类算法,聚类算法常采用K-means、DBSCAN等,目前常用的无监督句向量表示方法有:

表1.目前常用的无监督句向量表示方法随着深度学习的发展,预训练模型目前是向量表示的主流方法最简单的方式是使用BERT的[CLS]token对应的embedding作为整句话的句向量表示但是该向量存在向量坍塌的问题,即使差异性非常大的两个句子,相似度得分也可能会比较高。

因此引入了对比学习,对比学习主要思想是让相似的文本对应的向量表示尽可能接近,不相似的文本对应的向量尽可能远离,目前预训练+对比学习是获取无监督句向量的主流方法经过调研,研究院团队将句向量的获取方式由无监督升级为了半监督,将少量带标注的先验知识融入模型,使模型能够学习到更具区分性的向量表示,从而进一步提升了文本聚类的效果。

下图为某电商场景半监督聚类和无监督聚类效果对比,可以明显看出半监督聚类结果更加内聚(半监督对于相似的文本只聚出了3类,而无监督聚出了7类)

表2.某电商场景半监督聚类和无监督聚类效果对比我们也在公开数据集上对比了各种聚类算法的效果,半监督模型+对比学习的效果提升明显。

表3.公开数据集上各聚类算法的效果对比聚类效果评价指标:NMI(Normalized Mutual Information, 标准化互信息)AMI(Adjusted Mutual Information, 调整互信息)

AR(Adjusted Rand, 调整兰德指数)文本聚类在实践中发现的新知识和重新归纳的拒识问题经人工审核,采用率可达87%大大降低了运营人员人力投入为提升聚类速度,我们使用batch K-means替换K-means算法,在聚类效果不变的情况下,速度提升了近3倍。

2、样本增广技术,可以解决知识库语料稀少和不平衡的问题:样本增广技术,主要应用在智能荐句工具中解决知识库语料稀少和不平衡问题。当前主流样本增广算法如下:

表4.当前主流样本增广算法中关村科金人工智能研究院结合一线运营人员与客户的实际应用反馈,系统分析了上述各方案的优缺点之后,创造性地提出了一种融合了文本检索和生成式样本增广的技术,作为最终的样本增广方案其中文本检索是利用研究院积累的大量真实行业知识语料(已脱敏)作为检索底库,基于文本语义向量匹配技术从底库中获取语义相似样本,可以同时兼顾增广样本的多样性、准确性和真实性。

我们采用融合了对比学习的半监督预训练模型获取文本语义向量,用余弦相似度作为度量指标,为提升检索速度,使用了milvus向量索引生成式样本增广我们采用了Prefix_LM结构模型,然后在生成结果基础上做了进一步的数据后处理。

大致流程为:当用户输入待增广样本,系统先从历史积累的语料库中检索相似样本,当检索数量能达到用户需求时,直接返回检索结果;如果数量不足,再通过生成式样本增广算法进行扩充考虑到生成式样本增广的不可控问题,我们做了两个数据后处理操作,进一步提升生成样本的质量。

一是通过计算生成样本与原始样本的相似度,如果相似度太低则不采纳该生成结果;二是通过语言模型对生成样本进行打分,如果分数太低也不采纳最终增广样本的人工采用率近70%,大大降低了运营人员人力投入成本下面以“怎么提现呢”为例,样本增广效果对比如下:。

表5.样本增广效果对比3、知识质量检查技术,可以检测数据标注质量并对潜在错误样本进行矫正:知识质量检查技术主要用于评估数据标注质量并挑选出潜在的标注错误样本我们采用了Cleanlab工具,对标注样本进行了1~5的噪音指数评分,值越高说明人工标注结果越有可能存在错误,需要对标注进行复核纠正。

经过质量检查和标注矫正后,意图识别准确率平均可提升6%~15%以保险领域的一部分知识为例,质量检查结果如下:

表6.某保险场景部分知识质量检查结果问答知识库构建技术助力多行业快速落地对话式AI中关村科金人工智能研究院自主研发的问答知识库快速构建工具,目前已在保险、电商、银行、零售等多个行业,永安保险、步步高等多个头部企业中,实现落地应用。

在上述场景中,基于文本聚类技术进行新知识发现,可发现占对话日志总量2%~3%的无法应答的新知识,经人工审核,采用率可达87%;智能荐句工具通过样本增广技术为每条知识平均增广10条相似样本,经过人工审核,采用率近70%;知识质量检查工具可以在减少85%人工审核工作量下提升10%的意图识别准确率;BadCase分析及回流工具平均每周可以自动回流一次知识库并重新训练一次模型。

实践证明,问答知识库快速构建及闭环运营工具可至少节省2/3的知识库运营和维护人力,使冷启动和知识库更新时间缩短近70%总结与展望现阶段对话式AI技术应用的业界难题,主要是新场景中对话机器人的冷启动问题上面介绍了我们在快速构建问答知识库上的工作,在一定程度上解决了冷启动问题,使冷启动和知识库更新时间缩短近70%,但是仍然需要一定的人力在工具的辅助下进行知识库审核和构建。

目前流行的基于提示学习prompt的小样本学习,可充分利用预训练模型在大量无监督数据集上学习到的丰富知识,进一步减少冷启动所需要的数据量和人力投入未来,中关村科金将利用现有的知识库快速构建技术,结合最新的小样本学习方法,进一步缩短对话式AI的部署周期,为企业的智能化转型和对话式AI的大规模快速落地提供有力的支持。

作者:李宽 中关村科金人工智能研究院高级算法研究员精彩内容回顾01实力参编!受邀参加信通院视频客服标准研讨会02携手物美,AI助力实现高效精准营销03客户关系营销三步曲:推动私域营销模式升级

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库构建流程(知识库构建技术)硬核推荐

2023-10-25Aix XinLe54

知识库构建流程(知识库构建技术)硬核推荐问答知识库快速构建与闭环运营“双擎”驱动对话式AI高速发展…

科学科技政务服务平台(国家政务服务平台客户端下载)墙裂推荐

2023-10-25Aix XinLe96

科技政务服务平台(国家政务服务平台客户端下载)墙裂推荐围绕“数字化”从投资、服务、治理等方面落实“复工复产”的相关工作。…

百科四年级历史人物故事200字(四年级历史人物故事200字左右)太疯狂了

2023-10-25Aix XinLe162

四年级历史人物故事200字(四年级历史人物故事200字左右)太疯狂了关羽在万军之中轻易取下颜良首级。关羽在官渡之战中轻松取走了颜良的首级。在公元200年的官渡之战中,袁绍派遣大将颜良攻打曹操的重要据点白马城。尽管…

科学清明节不能做的事情(清明节不能干的事情)这样也行?

2023-10-25Aix XinLe57

清明节不能做的事情(清明节不能干的事情)这样也行?今早,一通老姨的电话让我很诧异。虽然已经到了清明插青的季节,但思索着近日气温的忽冷忽热,我打算在三月底祭拜祖先。然而,老姨却提前告知我,今年的插…

科学科技政务服务平台(国家政务服务平台客户端下载)干货分享

2023-10-25Aix XinLe193

科技政务服务平台(国家政务服务平台客户端下载)干货分享随着信息技术的迅猛发展,政府部门也逐渐意识到数字化转型的重要性。智慧政务协同办公平台应运而生,成为政府机构提高工作效率、提升服务质量的利器。本文…