中医知识库下载(机器人知识库下载)不要告诉别人
本项目开源了经过中文医学指令精调/指令微调(Instruct-tuning)的LLaMA-7B模型。
出品 | OSC开源社区(ID:oschina2013)先划重点:中文医学知识,不是「中医」自从 Meta(原 Facebook)的 LLaMA 大语言模型发布以来,相信大家看到了许多以“驼类动物”命名的 LLM。
比如斯坦福用了 Alpaca,伯克利用了 Vicuna,Joseph Cheung 等开发者团队用了 Guanaco
据说南美洲的无峰驼类动物一共就是上图列出的 4 种 —— 已经被各家的大模型命名使用不得不承认这些以“驼类动物”命名的 LLM 都很厉害,但如果,我是说如果,我拿出下面这个 LLM,阁下又当如何应对?
没错,正是「华驼」见名知意,华驼肯定跟医学有关——这是一个基于中文医学知识的LLaMA 微调模型说到这,这个 LLM 的命名很难不让人拍案叫绝,将神医华佗与基于“羊驼”的大语言模型巧妙地结合在一起此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。
通过医学知识图谱和 GPT 3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果据介绍,医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。
知识库示例如下:{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"],
"所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}然后利用 GPT3.5 接口围绕医学知识库构建问答数据,并设置了多种 Prompt 形式来充分利用知识指令微调的训练集数据示例如下:。
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。
此外需要及时停用可卡因等药物,以防止病情加重"该项目提供模型的训练数据集共计八千余条,需要注意的是,虽然训练集的构建融入了知识,但是仍存在错误和不完善的地方基于相同的数据,项目团队还训练了医疗版本的 ChatGLM 模型:ChatGLM-6B-Med。
这些模型在医疗领域的问答效果得到了显著提升,下面是不同模型的效果对比:
由此可见,指令微调在医疗领域具有很大的应用潜力同时,该项目还尝试将医学文献的【结论】融入多轮对话,在此基础上对 LLaMA 进行指令微调,以进一步提高模型的实用性目前,项目团队只开放针对"肝癌"单个疾病训练的模型参数。
未来计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关 16 种疾病训练模型这将有助于广泛应用于更多疾病的诊断和治疗建议下面是训练样本的示例:
华驼项目团队称下一个发布的新模型会被命名为扁鹊 (PienChueh)↓↓ 点击"阅读原文" 【加入云技术社区】相关阅读:比尔盖茨:人工智能时代已经开始关于ChatGPT,科技部发声!一文谈清楚ChatGPT工作原理。
ChatGPT发展历程、原理、技术架构详解和产业未来ChatGPT只是开始:企业生成式AI的未来Gartner:为什么ChatGPT会掀起人工智能市场的轩然大波?迎战ChatGPT,这20种“金饭碗”工作最能打!
ChatGPT引发失业恐慌?这20种工作要避开!ChatGPT爆火,人工智能到底是怎样“练成”的?ChatGPT研究框架(2023)2023十大技术趋势:高性能计算、泛在操作系统、云计算、数字人、时空人工智能、能源互联网、Web3、机器人、数字办公、产业安全
Gartner 2023年十大战略技术趋势:元宇宙、行业云平台、应用可观测性、数字免疫系统、自适应AI等最新最全 2020 云状态报告「69页PDF下载」RightScale 2019年云状况调查报告:35% 的云支出被浪费「附50页PDF下载」
更多文章请关注
文章好看点这里[在看]
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186