知识库搭建的规范(个人知识库搭建)怎么可以错过

2023-10-19Aix XinLe

一篇文章讲清楚~~~

本篇内容来自于七鱼AI公开课第一期分享内容实录，如需获取回放链接和PPT课件，可扫描文末二维码哦~~~ 目录：1.如何确定知识库范围2. 如何提升语义解析能力3. 如何构建知识库4. 如何进行机器人运营

首先，知识库搭建应该分为四个部分：一：确定知识库的问题范围二：提升机器人语义解析能力三：知识库构建&测试调优四：机器人灰度发布、正式上线下面我们就进入正题吧~~~01确定知识库范围确定知识库范围包含：素材整理、问题提炼、知识形态判断、答案编辑、问题分配

素材整理语料源来自于哪里？如果我们想要搭建一个知识库，前提是我们要明确知道这个知识库是干什么用的比如电商场景我们想要机器人去回答一些高重复性的问题，例如什么时候发货，怎么退货，怎么换货，那我们就需要把这些问题维护到知识库里。

再比如说，员工咨询场景如果我们希望机器人能够回答一些例如公积金以及加班调休之类的问题，我们就要把这些知识点整理出来放到知识库里面放什么样的知识取决于我们的业务场景以及我们的需求一般情况下，常见的素材整理的方式有三个：。

1、客服的经验总结因为客服一直是和用户直接接触的，每天都会面对很多的问题，所以对于大家在关注什么，哪些是高频问题会有一个很明确的认知，这样整理出的知识库问题带来的价值也是相对较高的2、历史会话积累可以尝试用最近三个月的历史会话去做聚类，然后提炼出一些高频问题放到知识库中。

不管是和机器人还是人工进行对话，这种聚类方式的会话数据都是真实访客的具体聊天记录所以通过这个方式提炼出的高频问题肯定是贴合实际的，也是用户关注的问题其次，问题聚类的方式里会有很多真实的问法，能够帮助我们提升机器人匹配率，也就是写问法的时候会更得心应手。

3、行业知识云七鱼的行业知识云中包含了大量的常见问题积累，购买知识云也可以帮助企业完善知识库原始语料处理怎么做？原始语料处理分三个阶段：1、历史语料的获取，也就是上面提到的“素材整理”的三种方式2、数据清洗。

3、问法聚类2和3这两点需要算法的同学协助，我们要做的是在得到处理后结果之后对问句进行分类和标记，提炼问法，看看高频的问题是什么样的，根据这些高频问题分析它适合什么样的方式去解决和配置才能达到很好的效果。

确定以后，我们就需要根据这些问题去写答案，这里有一个建议，我们写答案的时候可以按照它的问候语+问题名称+问题答案，这样的方式去写问题提炼【全量用户问句分类】关于问题，我们建议每一个问题都做一个分类，比如七鱼最多是可以支持到 5 级的分类。

这个分类一方面可以让我们很直观知道这个问题库里有哪些知识，以及知识架构是怎么样的另一方面，如果我们想要去修改某类知识的话，能够更快地更精准地找到它如果我们想要通过会话聚类的方式去提炼高频问题，聚类出来后会有一个数据的格式，我们可以根据这些相似问以及标准问判断它是否有效，做对应的数据标记。

在处理方式上，比如有效的问句，它本身占比是很大的，基本上是可以不做处理的，因此它肯定是要保留的一些意图不清的，本身就没有什么含义的一些问句，我们可以标个0，后续就批量处理掉再比如，如果有的问句是有效的，但是这个问句里是含有多个意图的，那么就需要把它处理成一对一的关系，这是一个全量问句分类的方式。

【标准问句提炼+频次统计】在我们对所有问法都进行标记后，就可以进行标准问题的提取因为相似问都是来源于访客的真实问法，所以它的表述项的规范性有一些欠缺，我们就需要用一定的标准让它规范化地展示比如“修了几次没有修好” ，我们可以通过 6w3h 的法则将它的表述优化修改为：。

修理不好怎么办？当我们将问句都进行标准问句修改以后，就可以进行最后一步了，也就是进行问题的排序以及问句频次的统计可以看到每个相似问是对应一个标准问句的，标准问句就是按我刚才说的那个方式一条一条去提炼出来的。

其次是问句频次， Excel 上面有一个函数可以一键统计，这是非常快捷简单的方式之所以通过这样的方式去提炼高频问题，是因为这些数据是线上的直接反馈，所以它的知识性以及问法的集中程度是能够确保的第二，我们做知识库的搭建需要语料数据，。

比如一个标准问题，它需要很多问法来支撑，才能让机器人能够理解这个问法所以这些相似问的原始语料都是很好的语料数据在我们进行频次统计以后以及我们会优先处理哪些标准问题都清楚了之后，就可以去写它的答案了

6w3h ，是什么意思？比如我们从历史会话中抽取的一些句子，宝宝体重不增？这是一个反馈的原始问法，我们怎么让这个问法根据 6w3h 的法则把它规范化的写出来呢？可以提炼为：为什么宝宝的体重没有增长？这就是比较规范化的一个表述。

那我们为什么要这样去提炼呢？一来标准问题的意图明确以后，我们做后续知识库上线运营维护的时候就能很直观地知道这个问题它是什么意思二来是我们所有的标准问题它都可能作为推荐问题去展现给我们的用户，用户是可以能够直接看到问题范围的。

如果我们描述的很不规范性就会给用户造成一定的困扰，他会看不懂这个标准问题具体是什么意思，或者觉得我们维护得太不专业了确定知识形态在确定标准问题以后就需要判断标准问法的知识形态现在的知识库里基本上有 80% 左右的知识形态都可以通过一问一答， FAQ 的形式去处理。

而那些多轮的会话，也就是访客进线后他说的话，我们是没办法去判断他的精准意图的举个例子，比如修改密码，密码有登录密码，有支付密码，那么机器人就需要去进行意图确认比如“您现在想要修改登录密码还是要修改支付密码？”然后根据访客的回答，我们推出对应的答案。

这种情况就属于多轮会话，因为他不是一问一答就结束话题了，而是需要我们用一触即达的方式去处理除了这种方式以外，还有二维结构这样的知识形态举个例子，比如二维可以把它理解为 X 轴和 Y 轴，两个轴交汇就是具体的一个答案了。

拿具体例子来看，比如售前咨询，比如针对不同型号的产品属性信息，如果它的型号有非常的多，那么答案也就很具体那么，我们就可以用二维的方式，用表格知识图谱的方式把它做出来如果有的问题它本身就超级复杂，可能机器人没办法处理必须要人工客服去处理，针对这部分的问题我们就需要剔除或者提炼出关键词可以让机器人识别的时候直接转到人工客服那边。

如果有专门处理的方式，比如投诉方面，我们可以指定一个专门的客服组或者具体到某个客服，让他去解决这个问题，接待访客的投诉所以知识形态不同，处理方式也是不一样的。

答案编写规范我们建议答案用问候语+问题名称+问题答案的方式去展示。举个例子，我咨询了一个问题：睡眠面膜是多少钱？机器人回答了一个答案，还写了面膜的使用方法。大家觉得有没有问题呢？

首先，问题的意图是，客户想知道面膜是多少钱，那这个答案是包含的其次，还说了一下使用方法像这种情况，我建议我们可以针对反馈意图去做回答，尽量保证答案的简洁性如果在价格的基础上，你觉得用户还可能会问面膜是怎么使用的以及适用哪些肤质等等这类的问题，我们可以把这些问题做成单纯的 FAQ 然后。

通过关联问的形式，在答案的下方一条一条地展示出来，如果访客他感兴趣就会点击答案下面的标准问题，就可以直接获得答案了另一个例子，针对这个问题：可以去门店退货吗？机器人的回答是可以，但是我们要考虑一点就是机器人很难做到 100% 的正确回复的。

再换一个问题，如果机器人误匹配了，比如产品保修，如果本身我们产品不保修，但是我们匹配到这个知识的时候，机器人回答的是可以，就可能造成用户的误解，所以我们的回答还需要具备完善性怎么完善呢？就按刚才这个逻辑，我们可以回答，“您好，可以去门店退货的”，这样回答就可以避免出现错误匹配误导访客的情况，尽量降低访客投诉的风险。

第三个问题是如何退货？机器人是有很多功能，比如你可以在回答里插入链接，插入短视频，配置图片或者做一个跳转的按钮等等，像这样的答案其实就是一个操作的步骤，本身是没有问题的，但是如果实际用户真的问到了如何退货的这种问题，

需要用户按照机器人的回答一步一步去操作，他可能会反复来回查看答案，然后再一步一步跟着走，这对用户而言其实是很麻烦的一件事情。

那我们怎么优化呢？比如我们可以做一个按钮，让访客一键点选就可以直接退货了，也就是我们相应的推出他的订单信息，点一下就可以直接退货了这种方式是非常快捷方便的，这是它的一个易读性02提升语义解析能力知识库匹配逻辑。

每一个用户进来以后，都会跟知识库里的所有问题进行相似度的计算，如果我们想要机器人直接回答，就需要它的置信度在 0.935 以上。

怎么才能够达到这样高的一个置信度呢？取决于我们写的相似问题如果我们想要机器人在访客咨询问题的时候能够直接推答案，就需要去提升我们的匹配率匹配率提升的方法就是我们需要尽量多写相似问题，把那些常见的问法尽量都写上去，当有访客来询问的时候机器人就能够直接回答他。

然后这边有一些相似问法，我也有做一些例子，大家可以看一下相似问题的编写规范相似问题我们编写的时候要注意哪些点呢？一是意图要明确比如标准问题的意图是”优惠券如何使用？“下图中，相似问法则写的五花八门，和标准问题的意图不相干，就是一个错误案例演示。

我们写相似问题的时候，它的意图一定要和优惠券如何使用是一个意图其次意图是必须一致的，不要去维护各种五花八门的和意图本身没有关系的问题如果这样维护，我们推出去的答案也解决不了问题第二，相似问法的维护，要尽量清晰简洁。

第三，思考一下这个问法有没有必要第四，有一定丰富性问法丰富了以后，它覆盖的面也就越广，机器人的理解识别能力自然也会越强在我们知识都准备好之后，就可以去做知识的配置了03知识库构建&测试调优知识库构建分为：FAQ类目搭建及问题导入、基础功能配置、词库配置、一触即达配置、表格知识图谱配置。

FAQ类目搭建及问题导入FAQ里的标准问题、相似问题、答案、关联问题以及它的五级分类，都是必须有的关联问题看需求，如果有的问题不需要关联，可以直接不做关联但是你的问题、相似问题、答案以及分类，建议都不要少，像。

标准问题、相似问题以及答案，这三个是必要的要素，如果缺了它们， FAQ 肯定就没办法搭建起来基础功能配置其次是七鱼这边有很多的基础功能，比如欢迎语、导航菜单，以及它的转人工按钮，或者访客询问多次以后，我们就可以让机器人转到人工客服那边去接待，或者访客连续问了两个问题或者三个问题，机器人都没有能够理解，这种情况下，我们可以判断出用户的问题可能是在库里没有对应的知识点，需要人工客服去接待。

我们就可以无感知地将用户转到人工客服那边，这也是我们七鱼的一个功能

词库配置相似词就是用来提升机器人的理解能力的，比如在某些业务场景下，苹果是指iPhone手机，两种说法是一个意思如果我们把它去作为一个相似词做一下关联，写相似问法的时候就可以少写很多当访客去咨询的时候，不管他说的是 iPhone 还是苹果，机器人都能直接 get 到他说的意思。

停止词是用来提升机器人的抗干扰的能力，比如客户咨询的时候说了很长一串话，其实他里面有一些文字和意图本身是没有关系的比如说“您好，我想问一下什么什么”，像前面这几个字，“您好，我想问一下”本身是没有意图的，那我们就可以把这部分内容放到我们的停止词库里，当访客咨询的时候，机器人就会把这些过滤掉，再去看看剩余的内容里具体问的是什么意思。

拦截词是针对的类似于投诉的场景，有的客户如果表达了投诉的意思，他会希望有专门的客服组去接待的，那我们就可以把投诉这两个字作为拦截词添加进去当访客说的话中包含投诉这两个字的时候，机器人就会直接转到人工客服那边。

（一触即达和表格知识图谱会通过单独的文章来讲解哦~~）知识库测试调优当我们的知识库都搭建好了以后，就可以看测试效果了如果遇到了什么问题，就点对点地去解决比如它的匹配率不高，我们就看具体是哪个问题没有匹配或者哪个问题的答案不合适等等，然后去做对应的调优，这就是对应的处理方式。

比如测试样例本身就不合适，可能这个测试样例本身就是无效的，那我们可以考虑，要么把这个样例改成一个有效的问法再去测一遍，要么直接把这个测试的问法删除或者比如输入一个问句，然后这个机器人回答了这个问题的答案，但我们希望它给出的是另一个答案，但是这个答案好像也行。

那我们就要考虑一下是不是这两个知识点之间是存在覆盖的如果存在，我们建议把它整合成一个知识点如果我们测试了一个问法，但是它的回答是有些不太合适的，针对这种情况，我们就需要修改答案了。

04机器人上线&运营机器人上线上线是有两个阶段的一是灰度发布，这个是指我们可以采用不同的方式，比如根据渠道或者根据区域或者根据访客的属性，选择少量的用户让机器人去接待，看一下它的线上效果然后我们根据这个上线后的效果去判断要不要全量上线。

也就是当我们处于灰度的时候，如果能发现问题的话，我们就能够控制它的影响范围并快速的解决问题如果机器人表现挺好的，我们就可以直接全量上线了，但需要控制风险比如渠道方面的微信小程序，假设我们有很多的微信小程序，那我们在灰度阶段就可以选择让其中一个小程序接入机器人，让机器人去接待访客。

如果接待的效果好，我们将进行全量上线

机器人运营当机器人上线以后，就进入到了机器人运营的阶段七鱼的运营主要是围绕两个指标和三个元素两个指标，一是匹配率，也就是用户问的问题，机器人能不能够正确理解？二是解决率，也就是当访客咨询的时候，机器人给出的答案有解决访客的问题吗？是否有访客看完答案还是解决不了问题？面对这种情况，我们就需要针对具体的案例分析是为什么没有解决，要怎么去提升。

其次是关于三个元素，标准问题，相似问题和答案相似问题和标准问题是强相关的，相似问题是用来提升机器人的理解能力，也就是它的匹配率答案和解决率是强相关的，答案本身是否有效，是否能够解决用户的问题，直接决定了机器人的解决率。

解决率低的常见原因解决率低是主要有常见的四点1、知识缺失知识库里是没有知识点，所以机器人是没办法回答用户的问题2、匹配错误知识库里有知识点，但是我们没有类似的用户问法，导致机器人没能理解，也就没办法回答用户的问题。

库里的知识点很庞杂，相互交叠，可能一个知识点，维护了三条甚至更多。这样就会导致当用户问问题的时候，机器人推荐的精准匹配性会比较弱3、答案设置的不合理。4、人工入口策略设置不合理。

解决率提升策略我们大致分为四种情况：一、正确匹配了，但是访客就是给了一个差评我们可以有三点分析：一是答案本身能否解决问题，二是如果我们开启了差评，支持用户做备注，那我们可以看一下用户备注的情况，是为什么差评了？分析他差评的原因，然后根据客户的意见完善我们的答案内容。

第三是去提升一下答案的展示效果，比如有一些单个问题的答案，可能一下子放了 3000 甚至更多的字，用户在看到这样的一个答案的时候，第一眼肯定感觉压力是有点大的，这可能会让用户有一个很暴躁的情绪二、针对问法未匹配，但是知识库里存在这个知识点的答案。

我们需要去提升匹配准确率，也就是把这个问法添加到我们的库里三、问法未匹配上，但是库里也没有这个知识点需要判断一下，这个问题属于高频问题吗？有没有维护的价值？如果说这个问题它本身很少见，可能两三个月都没有人能会问一次，那我们可以考虑放弃就忽略掉这个问题。

如果这个问题它确实被问到的次数很多，那它就是很具有价值的问题，我们就可以把它作为一个标准问题添加到我们的知识库里四、匹配上了，但是这个知识点是错的那我们就可以看它为什么会匹配错，是不是被匹配错的这个标准问题里面，它的问法和它的相似问法是不是有什么不对的地方。

其次可以考虑一下，如果知识库里已经存在这个问题了，那我们把这个问法加到对应的标准问题的下方作为相似问法维护进去，这样是不是访客下次咨询的时候，我们的机器人就能够正确回答了？如果库里匹配错了，是因为库里没有这个知识点，我们就要考虑这个知识点我们要不要提炼出来做一个标准问题维护进去，这就是解决率提升的大概思路。

在这节课程之后，我们也整理了评论区所有的问题答案，欢迎大家阅读～～

精华回顾 | 机器人知识库搭建的16个问答（内附课件获取）2022-07-19

同时，扫描下方二维码，即可获取AI公开课全系列课程的回放链接及PPT课件哦～～

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186