知识检索_知识检索是什么意思
说起 AI 搜索,大家第一想起来的肯定是 Perplexity,国内就是秘塔搜索。后面就慢慢的,生产式大模型也加上了搜索。早期的大模型,由于预训练的缘故,它们的知识信息都会有一个截止时间(训练数据的最新时间)。比如当前 Claude 3.
说起 AI 搜索,大家第一想起来的肯定是 Perplexity,国内就是秘塔搜索后面就慢慢的,生产式大模型也加上了搜索早期的大模型,由于预训练的缘故,它们的知识信息都会有一个截止时间(训练数据的最新时间)。
比如当前 Claude 3.5 Sonnet 的信息最新截止时间是 2024 年 4 年这就导致我们问大模型,问过去的事情都很准确,但是问当前发生的事情就很难获得一个准确的答案比如问今天上海的天气情况

那怎么办呢?走传统搜索呗所以AI 搜索 = 传统搜索 + AI 总结整理你看,ChatGPT 出来后大家说的,已经抢占了传统搜索市场半壁江山的背后,其实还是用了传统搜索的 API先用传统搜索 API 暴力搜索(谷歌或 Bing),获取到结果后使用大模型进行知识归纳总结,然后按照一定的格式进行输出(就是我们看到的,信息以总结 1,2,3 的方式罗列,同时嵌入了链接让用户可以溯源)。
但是对于过去的知识搜索,其实是可以不用传统搜索的,因为已经内化在模型参数里了但是知识最大的特点是会更新,如果不使用传统搜索 API 先查一下,那么很有可能就会给出过时的答案所以对于目前诸如 ChatGPT 推出来的 searchGPT,严格意义上只是替换了谷歌搜索等传统搜索的一张皮(搜索框页面),内里还是用了传统搜索 API,这个谷歌等搜索公司十来年构建的搜索引擎,短期内还是颇具护城河的。
只有类似 perplexity 这样的公司,能有办法获得精准的内容,把使用传统搜索 API 这一依赖给替换掉,那才是真正革了谷歌百度的命如果预训练好的大模型,加上可以实时更新的数据集来 fine tune,技术上是不是可以做的?有点类似大模型就是索引,不断的喂给它新数据而已。
AI 搜索遇到的一大问题是,版权问题但是从上面原理来看,只要搜索引擎搜出来的内容没有版权问题,那么 AI 搜索也应该没有版权问题,因为 AI 搜索只不过把搜索出来的内容总结整理了一下这个是 perplexity CEO 采访时说的,但从上面的分析来看,的确如此。
不然从预训练大模型开始的数据集就已经有版权问题了但是版权问题 Perplexity CEO 也在给方案方案就是抄 SpotifySpotify 的分账模式是每赚 100 块钱,就分 15 块给创作者,55 块给唱片公司,剩下 30 块给自己。
然后歌手呢,按照合同跟唱片公司再分账,Spotify 不管了所以 Perplexity 提出了一样的模式,对于内容出版商,可以提供内容给它搜索,然后照着搜索次数的比例进行分账这对于私域的内容也是一个很好的方式,不用卖断的方式,共享荣辱。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186