行业大模型与评测基准概览

一、医疗领域大模型

1. DoctorGLM

基于ChatGLM-6B的卓越中文问诊模型，它融合了海量的中文医疗对话数据集进行精准微调，采用lora、p-tuningv2等前沿技术实现高效部署。项目地址：https://github.com/xionghonglin/DoctorGLM论文地址：https://arxiv.org/abs/2304.010972

2. BenTsao (本草）

该项目集大成者，开源了多款经过中文医学指令微调的大语言模型，涵盖LLaMA、Alpaca-Chinese、Bloom等，皆以医学知识图谱和医学文献为基础，结合ChatGPT API精心打造，实现了中文医学指令微调数据集的精准训练，极大提升了医疗领域问答的准确性与实用性。项目地址：https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese论文地址：https://arxiv.org/abs/2304.069753

3. Med-ChatGLM

该项目同样基于中文医学指令微调，对ChatGLM-6B模型进行了深度优化，微调数据与BenTsao项目一脉相承，确保了模型在医疗领域的卓越表现。项目地址：https://github.com/SCIR-HI/Med-ChatGLM

4. BianQue (扁鹊）

该项目开创性地推出了生活空间健康大模型，深度整合了当前开源的中文医疗问答数据集，结合自建的生活空间健康对话大数据，构建了千万级别的扁鹊健康大数据BianQueCorpus，基于此精心打造了ChatGLM-6B为初始化的BianQue模型，全面提升了模型在医疗与健康领域的应用价值。项目地址：https://github.com/scutcyr/BianQue

5. HuatuoGPT (华佗）

该项目鼎力推出医疗大模型HuatuoGPT，其中包括了基于Baichuan-7B训练的HuatuoGPT-7B与基于Ziya-LLaMA-13B-Pretrain-v1的HuatuoGPT-13B，旨在提供全方位、高标准的医疗智能服务。项目地址：https://github.com/FreedomIntelligence/HuatuoGPT论文地址：https://arxiv.org/abs/2305.150756

6. QiZhenGPT

该项目通过启真医学知识库的精妙运用，构建了独具匠心的中文医学指令数据集，进一步在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B等尖端模型上精心调整指令，显著提升了模型在中文医疗环境中的实用效果。项目地址：https://github.com/CMKRG/QiZhenGPT

7. ChatMed

该项目创新性地发布了中文医疗大模型ChatMed-Consult，以ChatMed_Consult_Dataset中超过50万的中文医疗在线问诊数据及ChatGPT的精准回复作为训练基石，基于LlaMA-7b并通过LoRA技术进行了细致微调。项目地址：https://github.com/michael-wzhu/ChatMed

8. ShenNong-TCM-LLM（神农）

该项目推出了中文中医药领域的杰出模型ShenNong-TCM-LLM，以中医药知识图谱为基础，运用实体为核心的自指令方法，通过ChatGPT生成了丰富的2.6万+中医药指令数据集ChatMed_TCM_Dataset，再基于LlaMA底座，借助LoRA技术进行了精准微调。项目地址：https://github.com/michael-wzhu/ShenNong-TCM-LLM

9. XrayGLM

该项目开创了中文多模态医学数据集与模型的先河，尤其在医学影像诊断与多轮交互对话中展现出卓越的潜能。项目地址：https://github.com/WangRongsheng/XrayGLM

10. MedicalGPT

该项目隆重推出了医疗大模型MedicalGPT，集成了增量预训练、有监督微调、RLHF（奖励建模、强化学习训练）和DPO（直接偏好优化）等前沿技术。项目地址：https://github.com/shibing624/MedicalGPT

11. Sunsimiao（孙思邈）

该项目推出了中文医疗大模型Sunsimiao，该模型以baichuan-7B和ChatGLM-6B为坚实底座，在数十万条高质量的中文医疗数据中进行了精心微调。项目地址：https://github.com/thomas-yanxin/Sunsimiao

12. CareLlama（关怀羊驼）

项目地址：https://github.com/itsharex/CareLlama该项目推出了医疗大模型CareLlama，并汇集了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型，旨在为医疗LLM的快速发展注入强劲动力。

13. DISC-MedLLM

该项目由复旦大学发布，针对医疗健康对话式场景精心设计了医疗领域大模型与数据集。模型通过DISC-Med-SFT数据集在Baichuan-13B-Base基础上进行指令微调，有效匹配了医疗场景下的人类偏好，缩小了通用语言模型输出与真实世界医疗对话之间的差距。项目地址：https://github.com/FudanDISC/DISC-MedLLM论文地址：https://arxiv.org/abs/2308.1434614

14. PMC-LLaMA

本项目公开了前沿的医疗大模型PMC-LLaMA，其中包含MedLLaMA_13B预训练版本与PMC_LLaMA_13B指令微调版本，为医疗领域带来了革新的技术突破。项目地址：https://github.com/chaoyi-wu/PMC-LLaMA论文地址：https://arxiv.org/abs/2304.14454

15. ChatDoctor

ChatDoctor，一款基于LLaMA训练的医疗大模型，其开源特性让更多人能够领略医疗科技的魅力。项目地址：https://github.com/Kent0n-Li/ChatDoctor论文地址：https://arxiv.org/abs/2303.14070

16. MING (明医）

项目地址：https://github.com/189569400/MedicalGPT-zhMING，一个基于bloomz-7b指令微调而成的医疗大模型，其卓越的性能在医疗问答、智能问诊等方面得到了充分体现。

17. IvyGPT

IvyGPT，一款医疗大模型，经过高质量的医学问答数据监督微调和人类反馈强化学习训练，展现了出色的智能医疗处理能力。项目地址：https://github.com/WangRongsheng/IvyGPT

18. PULSE

本项目开源了中文医疗大模型PULSE，该模型采用约4,000,000个中文医学与通用领域指令微调数据进行优化，支持广泛的医疗领域自然语言处理任务，包括健康教育、医师考试问题解答、报告解读、医疗记录结构化以及模拟诊断和治疗等。项目地址：https://github.com/openmedlab/PULSE

19. HuangDI (皇帝）

HuangDI，一款中医大模型，其独特之处在于融合了中医教材、网站数据与Ziya-LLaMA-13B-V1基座模型，打造出具有深厚中医知识理解力的预训练模型，并通过海量中医古籍指令对话数据与通用指令数据进行微调，实现中医古籍知识问答的精准能力。项目地址：https://github.com/Zlasejd/HuangDI

20. ZhongJing (仲景）

ZhongJing，一个旨在传承中医精髓与现代技术相结合的中医大模型。该项目不仅弘扬了中医的博大精深，还通过现代技术创新，为医学领域提供了可信赖和专业的工具，是中医与AI融合的杰出代表。项目地址：https://github.com/pariskang/CMLM-ZhongJing

21. TCMLLM

该项目旨在通过大型模型技术，实现中医临床辅助诊疗（包括病证诊断、处方推荐等）以及中医药知识问答等多项任务，引领中医知识问答与临床辅助诊疗等领域的飞跃性进步。当前，我们已针对中医临床智能诊疗中的处方推荐问题，发布了TCMLLM-PR这一中医处方推荐大模型。该模型通过整合真实世界的临床病历、医学典籍与中医教科书等海量数据，精心构建了包含68k数据条目的处方推荐指令微调数据集，并在ChatGLM大模型上进行深度优化与微调。项目地址：https://github.com/2020MEAI/TCMLLM

22. OpenBioMed

该项目致力于开源多模态生物医学大模型，涵盖了BioMedGPT这一多模态生物医药大模型、DrugFM和MolFM等多模态小分子基础模型，以及CellLM等细胞表示学习模型。项目地址：https://github.com/PharMolix/OpenBioMed论文地址：https://arxiv.org/abs/2308.09442

附：大模型数据集&评测基准汇总

C-Eval

[paper]

C-Eval是一个由上海交通大学发布的中文基础模型评测基准，包含了13948个多项选择题，涵盖了人文，社科，理工，其他专业四个大方向，52个学科，从中学到大学研究生以及职业考试。

AGIEval

[paper]

AGIEval是一个由微软发布的评测基准，用于评估大模型在人类认知任务中的表现，包含了20个面向普通考生的官方、公开、高标准入学和资格考试，包括普通大学入学考试 (中国高考和美国SAT考试)、法学院入学考试、数学竞赛和律师资格考试、国家公务员考试等。

Xiezhi (獬豸)

[paper]

Xiezhi是一个由复旦大学发布的综合的、多学科的、能够自动更新的领域知识评测基准，包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类，516个具体学科，249587道题目。

CMMLU

[paper]

CMMLU是一个综合性的中文评测基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

MMCU

[paper]

MMCU是一个综合性的中文评测基准，包括来自医学、法律、心理学和教育等四大领域的测试。

CG-Eval

[paper]

CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统：对于非计算题，每一道名词解释题和简答题都有标准参考答案，采用多个标准打分然后加权求和；对于计算题目，会提取最终计算结果和解题过程，然后综合打分。

CBLUE

[paper]

CBLUE是一个中文医学语言理解评测基准，包含8个中文医疗语言理解任务。

PromptCBLUE

[paper]

PromptCBLUE是一个面向中文医疗场景的评测基准，通过对CBLUE基准进行二次开发，将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。

LAiW

[paper]

LAiW 是一个中文法律大模型评测基准，针对3大能力设计13个基础任务：1）法律 NLP 基础能力：评测法律基础任务、 NLP 基础任务和法律信息抽取的能力，包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别 5 个基础任务；2）法律基础应用能力：评测大模型对法律领域知识的基础应用能力，包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答 5 个基础任务；3）法律复杂应用能力：评测大模型对法律领域知识的复杂应用能力，包括司法说理生成、案情理解和法律咨询 3 个基础任务。

LawBench

[paper]

LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度，并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比，LawBench 包含了更多与现实世界应用密切相关的任务类型，如法律实体识别、阅读理解、犯罪金额计算和咨询等。

LegalBench

[paper]

LegalBench 是一个面向美国法律体系的法律评测基准，包含162个法律推理任务。

LEXTREME

[paper]

LEXTREME是一个多语言的法律评测基准，包含了24种语言11个评测数据集。

LexGLUE

[paper]

LexGLUE是一个英文法律评测基准。

CFBenchmark

[paper]

CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务，从金融识别、金融分类、金融生成三个方面进行组织。

FinanceBench

[paper]

FinanceBench是一个用于评估开放式金融问题问答的评测基准，包含 10,231 个有关上市公司的问题，以及相应的答案。

FinEval

[paper]

FinEval是一个金融知识评测基准，包含了4,661个高质量的多项选择题，涵盖金融、经济、会计和证书等领域，34个不同的学术科目。

FLARE

[paper]

FLARE是一个金融评测基准，包含了金融知识理解和预测等任务。

CFLEB

[paper]

CFLEB是一个中文金融评测基准，包含两项语言生成任务和四项语言理解任务。

FLUE

[paper]

FLUE是一个金融评测基准，包含5个金融领域数据集。

GeoGLUE [paper]

GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准，旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景：地图搜索、电商物流、政府登记、金融交通，并设计了六个核心任务：门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。

OWL-Bench

[paper]

OWL-Bench 是一个面向运维领域的双语评测基准。它包含 317 个问答题和 1000 个多选题，涵盖了该领域的众多现实工业场景，包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保 OWL-Bench 能够展现出多样性。

DevOps-Eval

DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。

总结本文全面概述了当前垂直领域模型与评测基准，涵盖了12个领域，57个领域微调模型，并配备了丰富的评测数据集，以供各界参考与借鉴。

参考文献 1、https://github.com/luban-agi/Awesome-Domain-LLM

原文转载自：https://mp.weixin.qq.com/s/dTcOYY09CgDFvpCviiDnQw

太强了！各个行业的AI大模型！金融、教育、医疗、法律

行业大模型与评测基准概览

一、医疗领域大模型

1. DoctorGLM

2. BenTsao (本草）

3. Med-ChatGLM

4. BianQue (扁鹊）

5. HuatuoGPT (华佗）

6. QiZhenGPT

7. ChatMed

8. ShenNong-TCM-LLM（神农）

9. XrayGLM

10. MedicalGPT

11. Sunsimiao（孙思邈）

12. CareLlama（关怀羊驼）

13. DISC-MedLLM

14. PMC-LLaMA

15. ChatDoctor

16. MING (明医）

17. IvyGPT

18. PULSE

19. HuangDI (皇帝）

20. ZhongJing (仲景）

21. TCMLLM

22. OpenBioMed

附：大模型数据集&评测基准汇总

C-Eval

AGIEval

Xiezhi (獬豸)

CMMLU

MMCU

CG-Eval

CBLUE

PromptCBLUE

LAiW

LawBench

LegalBench

LEXTREME

LexGLUE

CFBenchmark

FinanceBench

FinEval

FLARE

CFLEB

FLUE

GeoGLUE [paper]

OWL-Bench

DevOps-Eval

最新文章