@misc{lawgpt,
title={LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model},
author={Zhi Zhou and Jiang-Xin Shi and Peng-Xiao Song and Xiao-Wen Yang and Yi-Xuan Jin and Lan-Zhe Guo and Yu-Feng Li},
year={2024},
eprint={2406.04614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
LaWGPT:基于中文法律知识的大语言模型
LaWGPT 是一系列基于中文法律知识的开源大语言模型。
该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
详细内容请参考技术报告。
本项目持续开展,法律领域数据集及系列模型后续相继开源,敬请关注。
更新
🌟 2023/05/30:公开发布
📣 2023/05/26:开放 Discussions 讨论区,欢迎朋友们交流探讨、提出意见、分享观点!
🛠️ 2023/05/22:项目主分支结构调整,详见项目结构;支持命令行批量推理
🪴 2023/05/15:发布 中文法律数据源汇总(Awesome Chinese Legal Resources) 和 法律领域词表
🌟 2023/05/13:公开发布
Legal-Base-7B:法律基座模型,使用 50w 中文裁判文书数据二次预训练
LaWGPT-7B-beta1.0:法律对话模型,构造 30w 高质量法律问答数据集基于 Legal-Base-7B 指令精调
🌟 2023/04/12:内部测试
快速开始
准备代码,创建环境
启动 web ui(可选,易于调节参数)
首先,执行服务启动脚本:
bash scripts/webui.sh
其次,访问 http://127.0.0.1:7860 :
命令行推理(可选,支持批量测试)
首先,参考
resources/example_infer_data.json
文件内容构造测试样本集;其次,执行推理脚本:
bash scripts/infer.sh
。其中--infer_data_path
参数为测试样本集路径,如果为空或者路径出错,则以交互模式运行。注意,以上步骤的默认模型为 LaWGPT-7B-alpha ,如果您想使用 LaWGPT-7B-beta1.0 模型:
由于 LLaMA 和 Chinese-LLaMA 均未开源模型权重。根据相应开源许可,本项目只能发布 LoRA 权重,无法发布完整的模型权重,请各位谅解。
本项目给出合并方式,请各位获取原版权重后自行重构模型。
项目结构
数据构建
本项目基于中文裁判文书网公开法律文书数据、司法考试数据等数据集展开,详情参考中文法律数据源汇总(Awesome Chinese Legal Resources)。
模型训练
LawGPT 系列模型的训练过程分为两个阶段:
二次训练流程
resources/example_instruction_train.json
构造二次训练数据集scripts/train_clm.sh
指令精调步骤
resources/example_instruction_tune.json
构造指令微调数据集scripts/finetune.sh
计算资源
8 张 Tesla V100-SXM2-32GB :二次训练阶段耗时约 24h / epoch,微调阶段耗时约 12h / epoch
模型评估
输出示例
问题:酒驾撞人怎么判刑?
问题:请给出判决意见。
问题:请介绍赌博罪的定义。
问题:请问加班工资怎么算?
问题:民间借贷受国家保护的合法利息是多少?
问题:欠了信用卡的钱还不上要坐牢吗?
问题:你能否写一段抢劫罪罪名的案情描述?
局限性
由于计算资源、数据规模等因素限制,当前阶段 LawGPT 存在诸多局限性:
请诸君在使用前了解上述问题,以免造成误解和不必要的麻烦。
协作者
如下各位合作开展(按字母序排列):@cainiao、@njuyxw、@pengxiao-song、@WNJXYK
指导老师:李宇峰、郭兰哲、涂威威(),由南京大学机器学习与数据挖掘研究组( )支持
免责声明
请各位严格遵守如下约定:
问题反馈
如有问题,请在 GitHub Issue 中提交。
协作者科研之余推进项目进展,由于人力有限难以实时反馈,给诸君带来不便,敬请谅解!
致谢
本项目基于如下开源项目展开,在此对相关项目和开发人员表示诚挚的感谢:
此外,本项目基于开放数据资源,详见 Awesome Chinese Legal Resources,一并表示感谢。
引用
如果您觉得我们的工作对您有所帮助,请考虑引用该项目。