“数据集质量评估与数据论文评价” 学术沙龙成功举办
发布时间:2025-08-032025年7月31日上午,由中国人民大学索传军教授召集、国家治理大数据和人工智能创新平台·数据资产评估子实验室主办的“数据集质量评估与数据论文评价”专题学术沙龙成功举办!
会议邀请中国科学技术信息研究所潘云涛研究员、中国科学院文献情报中心刘筱敏研究馆员、顾立平研究员、马峥研究员,清华大学深圳研究院林镇阳研究员,中国人民大学安小米教授等专家出席,实验室的索传军、贾君枝、傅予、加小双老师和相关师生30余人参加了本次会议。
专家发言
第一环节由实验室负责人索传军教授主持。
他指出,一方面随着数据成为生产要素,成为重要的资产,数据市场急需高质量数据产品的供给;另一方面人工智能和大语言模型的发展,高质量数据集成为提升大语言模型的性能的关键因素,然而什么样的数据集是高质量的,如何判断和评估?
另外,数据论文作为一种新型的论文表现形态,越来越受到学界和业界的重视,但是数据论文与其描述的数据集是何种关系,数据论文评价的维度有哪些?因此,亟需厘清数据集质量评估与数据论文评价的基本框架与差异等问题。
马峥研究员在报告中强调,数据论文是对具有逻辑关系的数据集按学术规范进行的描述,兼具一般论文要素与数据集特有的内容、技术及关联属性。评价工作须先明确对象与场景,避免概念混淆。
潘云涛研究员提出,人工智能时代的数据研究已从“数据拥有”转向“数据互操作”,学界需在垂直场景与通用质量框架之间寻求平衡,并关注欧盟ISO 8000系列与国内新版标准动态。
刘筱敏研究员系统回顾了中科院十余年来在科学数据共享领域的实践:建设“科学数据银行”镜像与汇缴平台、创办《中国科学数据》期刊、发布“高影响力数据论文榜单”等。她指出,数据论文的评价应兼顾论文影响力与数据集FAIR原则,数据集本身质量由学科共同体判定。
顾立平研究员通过“七维评分矩阵”展示了数据论文的量化评价方法:可获取性、描述完整性、技术规范、复用重现、合规伦理、科学价值、格式可读性。他建议将评分体系嵌入期刊审稿流程,并强调开放获取是数据论文的基本前提。
林镇阳研究员从产业角度分析了高质量数据集在大模型训练与行业知识库建设中的双重需求,介绍了湖北省试点经验:通过合规、内容、规模、价值四维指标及AI辅助标注,将人工投入降低42%,并计划构建城市级“数-算-模-用”一体化运营平台。
讨论环节
讨论环节由中国人民大学加小双副教授主持。专家和师生们围绕着数据论文评价和数据集质量评估等问题展开了热烈讨论。
安小米教授就数据论文等相关研究和标准等问题,回答了学生们的问题。她指出,应厘清“数据—数据集—数据论文”概念层级,充分借鉴ISO/IEC 5259、ITU-T等现有标准。傅予副教授结合书报资料中心数据集建设等工作与与会专家进行了交流和探讨。
索传军教授就数据论文与数据集的关系问题,数据论文评价的维度等问题与刘筱敏研究馆员、顾立平研究员等进行了深入探讨。刘筱敏研究馆员指出,现阶段数据评价应以论文规范性与共享成效为主,数据集质量评估应由学科共同体把关,合规冲突可通过分级开放与脱敏机制解决。顾立平研究员结合其研究,并通过实例,讲述了数据论文评价中应注意的问题。
会议总结
贾君枝教授代表子实验室做了会议总结。她向参加会议的各位专家表示感谢!感谢各位专家和师生的精彩发言与热烈讨论。
她指出,本次会议取得两项共识:其一,厘清了数据集、数据论文及论文关联数据三者的概念边界与逻辑关联;其二,确立评价框架需统筹把握共性规律与学科特性,并深度适配多元应用场景。
最后,她要求子实验室的师生应该继续围绕数据论文评价和数据集质量评估相关问题,结合今天专家指出的方向,积极开展研究和调研。
会议在热烈的学术氛围中圆满落幕!