项目简介

 

OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点:

  • 多领域。我们目前训练出了基于法律文本和百度百科的预训练模型,以提供多样化的可选择模型。
  • 能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构,并支持最大 512 长度的文本输入来适配更加多样的任务需求。
  • 持续更新。我们将在近期加入更多的预训练模型,如增加更多样的训练语料,使用最新的全词覆盖(Whole Word Masking)训练策略等。

  • 如有任何问题请使用Github与我们联系。

    模型概览

     

    以下是我们目前公开发布的模型概览:

    名称 基础模型 数据来源 训练数据大小 词表大小 模型大小 下载地址
    民事文书BERT bert-base 全部民事文书 2654万篇文书 22554 370MB 点我下载
    刑事文书BERT bert-base 全部刑事文书 663万篇文书 22554 370MB 点我下载
    百度百科BERT bert-base 百度百科 903万篇词条 22166 367MB 点我下载

    民事文书BERT

     

    民事文书BERT是在超过两千万篇法律民事文书上进行训练,训练的时候去掉了文书之中对语言理解帮助不大的首部和尾部的无用信息进行训练。同时,通过在下游任务上的测试,相比于Google中文BERT,民事文书BERT有如下几个特征:

  • 在民事文书相关任务上能够更快地学到东西。我们在下游的要素抽取的任务上进行了测试,在训练数据上民事文书BERT在训练集上的学习速度明显快于Google中文BERT,参考下图。
  • 在民事文书相关任务上民事BERT能够有更好的表现,参考下表:
  • 任务 Google中文BERT效果 民事文书BERT效果
    民事文书要素提取(宏平均F1) 51.36 57.95

    刑事文书BERT

     

    我们也同样在刑事文书上训练了专有的BERT模型,同时也在下游任务上对比了Google中文BERT和刑事文书BERT的效果,见下表:

    任务 Google中文BERT效果 刑事文书BERT效果 其他模型
    刑事文书罪名预测(宏平均F1) 97.05 99.03
    刑事文书刑期预测(宏平均F1) 不收敛 40.62 TopJudge:32.1

    未来计划

     

    由于百度百科的数据规模较大,我们目前公布的版本已迭代20万步,还未完全收敛,在近期(两周内)我们会对其持续更新,并汇报一些任务上的实验结果。

    于此同时,我们还会在更多的中文语料上进行BERT的预训练(如SogouT、全量法律文书等)。除了BERT模型以外,我们也尝试更多的预训练模型(如XLNet)以及更多的预训练任务。

    作者与致谢

     

    Haoxi Zhong(钟皓曦,硕士生), Zhengyan Zhang(张正彦,博士生), Zhiyuan Liu(刘知远,副教授), Maosong Sun(孙茂松,教授).

    感谢幂律智能对本项目的大力支持与帮助。