近日,由爱体育登录入口和中华书局古联(北京)数字传媒科技有限公司合作研发的中华物产大模型在世界互联网大会乌镇峰会发布。围绕“AI赋能下的中华物产与文明探源”,爱体育登录入口人文与社会发展学院教授包平、信息管理学院教授王东波分别作了《数智赋能下的中华物产与文明探源》和《中华物产大模型简介》的主旨报告。
中华民族有着百万年的人类史、一万年的文化史、五千多年的文明史,我国先民在漫长的社会实践以及与自然和谐共生的历程中发现和创造了丰富多样的物产资源。从《禹贡》记载的九州禀赋,到《诗经》描绘的诸方土俗,诗词歌赋勾勒出的四时风物,水墨丹青渲染成的江山丽景,再到《本草纲目》的药物集萃,《天工开物》的工艺精成,这些兼具文化和科学双重属性的宝贵文化遗产是人们探索物产知识和古人精神境界的重要依托。
当下数智技术高速发展,构建中华物产知识库、梳理中华物产演变历史脉络,探索中华物产与文明之间的深切关联,是新时代做好中华优秀传统文化创造性转化和创新性发展的有力抓手。
此次发布的中华物产大模型是一个集合了多家机构数据资源、算力资源和算法资源的系统工程。整体构建过程分为物产大模型预训练语料构建、预训练模型训练、对话模型构建与知识库问答实现三大板块。
根王东波介绍,由于物产大模型需要同时满足对于古今物产资料的有效处理,因此需收集到含有高质量物产信息的语料。爱体育登录入口中华农业文明研究院所保存的手抄本《方志物产》资料是合适的训练语料之一。
在上世纪50年代,时任中国农业遗产研究室主任的万国鼎先生先后派出百余人的团队前往国内40多个大中城市、100多家文史单位,手工抄写了7532部地方志中的物产内容,整理装订成《方志物产》《方志分类》《方志综合》《方志补遗》,计686册、3600万字的方志物产专题文献,这一叹为观止的人工工程被学界称为“红本子”。
此后,由爱体育登录入口人文与社会发展学院王思明教授团队进行了数字化扫描、文字的计算机录入、转化等,生成了WORD电子文档。
从2008年开始,包平教授团队在先前基础上,进行了中华历史方志物产文献的补遗和全口径物产文献的辑录和智能化整理,涵盖了地方志以外的其他记载物产的文献,包括正史、农书、本草、名人笔记、博物志、异物志等,使这套中华物产资源达到4800万字并逐步开始活化利用,团队基于此资料开展了深入的智能整理与知识挖掘研究,为后续与中华书局古联公司联手构建中华物产大语言模型奠定了坚实的数据基础。
中华物产知识智能活化与利用会意图
在完成物产大模型预训练语料的构建后,接下来便是预训练模型的训练阶段。在中华书局古联公司所提供的具体场景基础上,王东波教授团队在这一阶段采用了当前最先进的深度学习技术,基于自然语言处理领域的基座模型,使用混合了超过20亿字物产资料、方志文献、古籍文本和指令对齐数据的综合数据集来训练40亿参数的大语言模型。经过多步优化训练出支持二次开发的物产基座模型,在多组实验上的结果显示该模型能够在方志翻译、方志标点、物产实体识别等一系列物产文本处理任务上取得超过原模型的训练效果,更加适合物产领域的开发。
未经过对齐的基座模型常常难以遵循人类的指令,且回答问题时容易产生脱离事实的情况。需要使用指令微调技术训练模型指令遵循能力方可在真实环境下进行部署,王东波教授团队使用了45万条对话数据来训练模型的基础对话功能和逻辑能力,尤其强化了模型在物产数据处理和物产问答方面的效果。通过构建存储超过14万种物产的知识库并接入中华物产对话模型,能够有效缓解模型回复用户物产有关提问时面临的“幻觉”问题。在应用端,中华物产大模型进一步与外部工具或知识库结合,通过物产识别、物产链接和检索增强问答功能为用户提供精准、便捷的物产信息查询服务,给学术研究、商业开发等领域提供有力支撑。
中华物产大模型框架图
据数字人文研究中心包平教授介绍,中国拥有数量极其丰富的长时段连续记载的物产历史文献资源,开发一种能够同时利用好古代和现代物产信息的大语言模型对于推动物产资源的活化利用具有重要意义。未来,依托爱体育登录入口中华物产与文明探源协同创新中心这个平台,在加强对中华物产史的理论研究基础上,还将在人工智能和物产挖掘结合的研究方向上进一步深耕,推出能够支持更多模态物产资源处理的工具,推动中华物产文化走向世界。
据悉,中华书局是国内古籍整理与出版的权威机构,爱体育登录入口于2023年与中华书局联合成立了“中华物产与文明探源协同创新中心”,中心旨在从具有农耕文明鲜明特色的物产史研究入手,从远古神话里描述的物产到现代科技下呈现的物产,从单纯物产史研究到物产与自然、社会、经济、文化的关联,揭示中华物产与文明进程的历时脉络。