oz知识库下载(机器人知识库下载)学到了
开源模型 + 开源框架 + 自己的文档 = 随时在线的智能知识助理,这不操作一波吗?
背景:自从有了各种大模型,各种基于他们做的应用层出不穷,之前我们测试了当红炸子鸡Auto-GPT,参考这篇:https://www.yuque.com/sidiwen-ik7yn/tyw3xn/ih35dtrfhp5h6fgr
这次,咱们来试试另一个热门应用——个人知识库 AKA ask with document这里有个国外老哥做的另一个项目画的数据链路图,虽然不是一个项目但是结构差不多,可以参考一下
前期准备:(必须)电脑(可选)云厂商的ECS/remote vs code有任意一步卡住了都可以求助我,实在搞不定就请我喝咖啡吧 :D
测试步骤项目主页:https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui(可选)购买云主机这里我选择的是[揽睿](https://www.lanrui-ai.com/index/compute
),使用其他家的也一样,只是作为参考具体步骤略,参考这一篇https://www.yuque.com/sidiwen-ik7yn/tyw3xn/wcpoh9p0uva7oz2w/edit选择他们家主要看中两点
他们自己有一些大模型,不需要自己下载,可以直接挂载使用gpu机器可以做到2块钱一小时还是挺便宜的(相对其他几家云厂商)(必须)部署项目进入云主机环境,一般情况买回来的节点都是root权限,可以直接进行各种东西的安装
我买的节点是ubuntu的所以以他为例,centos等其他操作系统可能会有些许不同按照他的操作步骤,下载项目 `git clone https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui.git
`安装依赖`pip install -r requirements.txt`这里注意,可能会有detectron2安装失败,可以考虑先把它下载下来单独安装安装detectron2需要预先安装pytorch
所以完整的顺序是:`git clone https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui.git``git clone https://github.com/facebookresearch/detectron2.git
`pip install torchcd $PATH_TO_detectron2 && pip install .cd $PATH_TO_LangChain-ChatGLM-Webui && pip install -r requirements.txt
然后运行 python app.py 启动项目当命令行里出现这些东西时,代表启动成功
(必须)项目使用加载模型
在 1 和 2框出来的地方分别可以选择需要的模型,现在的状态是最大的,整个跑起来大概要烧8~10G左右内存,加载了数据另算,每次选好之后都需要重新加载模型才行1是用来做语义理解的语言模型,2是用来做文本嵌入的模型
这个也是我选揽睿考虑的点,因为他们可以在实例启动的时候就把ChatGLM-6B挂载进来挂载目录
使用方式:把app.py里模型路径指向挂载地址就好
模型参数最开始可以不调整
这些参数主要用来做文档内容(答案)的向量召回用的上传文件在 7
不上传直接问的话大概率报错右边对话框 8 输入问题,就跟普通聊天机器人聊天一样
答案会出现在 9里面Q&A可以用pdf吗?可以的,理论上支持包括 txtpdfmarkdowndoc的格式为什么我用pdfdoc报错?可能是unstructured[local-inference]依赖的东西没装
参考这篇:https://github.com/Unstructured-IO/unstructured/blob/main/docs/source/installing.rst为啥上传了文件没反应?
数据是懒加载的,对话框里输入点东西它才会开始处理(下载对应的模型之类的)多少数据占多少资源有测试过吗?这个可能得看具体文档内容,大致是200k左右的markdown会占掉14G左右的GPU可以进一步fine-tuning吗?
必须可以,我下一篇可能会写这个topic,敬请期待吧参考原理说明:https://chatwithdata.teachable.com/p/aichatbotdata相关项目:核心项目:https://github.com/hwchase17/langchain
核心项目的js版:https://github.com/hwchase17/langchainjs架构图作者的项目:https://github.com/mayooear/gpt4-pdf-chatbot-langchain
跟示例类似的项目,也是用langchain + ChatGLM的:https://github.com/imClumsyPanda/langchain-ChatGLM
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186