国内首个高质量AI治理科技语料发布

人民日报客户端上海频道沈文敏2025-07-28 21:48

7月28日，在2025世界人工智能大会“大模型治理和有序发展生态论坛”上，东壁科技数据联合上海财经大学数字经济学院共同构建的全国首个高质量人工智能治理科技语料与首个人工智能多元共治决策支持大模型正式发布。

据介绍，东壁科技数据依托其拥有中国自主知识产权的科技文献数据库平台，聚焦人工智能治理的核心挑战，围绕后门攻击、数据投毒、逆向攻击、黑箱问题、过拟合或欠拟合、鲁棒性风险、对抗样本攻击、就业替代、误用滥用、隐私泄露、责任问题、偏见歧视、决策权让渡、信息茧房14类人工智能治理风险，构建了国内首个高质量人工智能治理科技语料库。

这个科技语料库，共采集了人工智能治理领域500余篇英文期刊论文、1500余篇核心中文期刊论文，整合了来自国务院所属18个部委及16个地级市政府部门发布的人工智能治理相关法律法规、政策文件、技术标准、典型案例等规范性文本1000余份。经过严格的人工精细标注、深度结构化处理以及多重质量筛选，最终沉淀出一批高度结构化、主题明确、内容权威的标注语料。

同时，全国首个人工智能多元共治决策支持大模型，专注于人工智能治理领域知识问答、案例查询与分析、技术方案咨询、治理方案生成、资源查找五大核心任务，在国产开源大语言模型基础上，利用构建的2000多条高质量人工智能治理领域问答对语料进行精细化的微调，使其回答能够严格遵循人工智能治理领域回答范式。该模型还接入了基于前述人工智能治理科技语料库构建的可持续动态更新数据库，通过检索增强生成（RAG）技术，模型能够有效引用权威语料库内容，大幅提升了专业回答的准确性和可靠性，显著缓解了通用模型在此领域易产生“幻觉”的风险。在构建的1000条人工智能治理领域测试集中，模型回答准确率达到91.4%，幻觉产生率仅1.5%，这一性能表现表明该模型在人工智能治理专业领域已达到较高实用水平。

责任编辑：沈文敏

打开客户端发表评论