应用交流 场景案例 工业元宇宙 金融元宇宙 文旅元宇宙 商贸元宇宙 政务元宇宙 城乡元宇宙 教育元宇宙 大健康元宇宙 消费动态
元宇宙启蒙小星星 元宇宙小队长 元宇宙小院士 元宇宙青少年等级考试(1-12级) 元宇宙青少年科普导师(初级) 元宇宙青少年科训导师(中级) 元宇宙青少科创导师(高级)
元宇宙“数据要素”大赛 元宇宙数据要素大赛2024 元宇宙数据要素大赛2025 元宇宙共识大会 元宇宙共创大会 元宇宙共享大会 元宇宙共治大会 元宇宙共赢大会 全球元宇宙大会 链改2.0六方会谈 第1期六方会谈
今年8月,国务院印发《关于深入实施“人工智能+”行动的意见》,其中提出“支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业”。
何为数据标注?简单来说,就是给文本、语音、图片、视频等各式数据“打标签”。在人工智能的快速发展中,数据被誉为“新石油”,而数据标注则是将数据“原油”炼成“汽油”的关键工艺。
“数据标注通过对数据特征提取、分类、注释、标签化等操作,将人类的知识和思维逻辑转化为计算机可识别的语言,可为数据注入新价值,还可有效激活数据潜能,是人工智能高质量数据集建设的关键环节。”国家数据局数字科技和基础设施建设司副司长李建国告诉记者,经过标注的高质量数据能有效提升垂类大模型的专业领域性能,加速人工智能赋能千行百业。
2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据标注产业高质量发展的实施意见》,提出“到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%”。据了解,国家数据局已指导安徽合肥、四川成都等7个城市建设数据标注基地,先行先试、探索经验。截至今年上半年,7个数据标注基地建设数据集524个,服务大模型163个,带动数据标注行业相关产值超过83亿元。
在分子和药物智能研发场景,对原子、电荷、化学键、靶点、活性等关键信息进行标记,人工智能才能更好赋能新药研发;在工业质检场景,对产品缺陷尺寸、位置、类型等信息进行标记,人工智能才能精准捕捉产品缺陷或异常……在人工智能大模型和相关政策驱动下,数据标注需求爆发式增长,相关企业也茁壮成长。“我们的主要业务是为人工智能场景化落地提供数据采集和标注服务。在人工智能产业带动下,仅过去一年公司就承接了2000多项数据标注项目需求,预计今年业务量将增长超过30%。”标贝科技政企中心总经理栾永乐表示。
“数据标注产业链覆盖上游数据提供方、中游平台公司、下游服务商。目前,我国已经初步形成产业链闭环,各地也在加速培育数据标注产业,产业集聚带动作用日益凸显。”李建国说,数据标注产业正呈现出新的发展趋势。
技术迭代。智能化标注技术不断取得突破,人机协同标注模式日益成熟。“企业通过人工智能对未标注的数据进行预标注,数据标注员更多承担关键决策角色,通过实时纠正模型错误,并将改进反馈给算法,促进其自我优化。”栾永乐表示,这种模式不仅提高了标注效率,还保证了标注的准确性。
要求提升。随着大模型的发展,高质量数据集的评判标准变得更加复杂。“比如医疗影像标注需要专业知识以识别病灶,自动驾驶领域离不开对道路场景的高精度标注。”中国信息通信研究院副院长魏亮说,数据标注产业逐渐从劳动密集型产业转变为知识密集型产业,对从业者的专业要求越来越高。
对象拓展。被标注的数据从文本、图像等单模态向多模态标注转变,其领域也从通识领域逐渐扩展到医疗、工业制造等专识领域。
目前,数据标注产业还处于初期阶段,需要各方群策群力,共同培育壮大数据标注产业生态。李建国表示,各地要加强政策落实和引导,与产业各界深度合作,搭建常态化供需对接服务平台;应用企业要以实际需求驱动数据标注能力体系建设,模型厂商等数据应用企业要结合自身技术路线与业务场景,与标注企业共同开展标注工具研发、流程优化工作,推动行业标准规范建设。
《 人民日报 》( 2025年10月15日 18 版)
(完)本文转载自人民日报,版权归属原作者所有。
好文章需要您的支持
根据《中华人民共和国著作权法》及《最高人民法院关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》的规定,本网站声明:凡本网转载作品,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,转载信息版权属于原媒体及作者。我们力所能及地注明初始来源和原创作者,如果您觉得侵犯了您的权益,请通知我们,我们会立即删除改正。如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。随着DeepSeek R1系列模型的发布,国内掀起新一轮人工智能的热潮,通信、互联网、汽车、能源、金融、医疗、科技等龙头企业纷纷宣布接入DeepSeek,人工智能大模型加速向各行各业渗透。人工智能大模型的发展需要“数据粮食”,特别是经过标注的高质量数据集。



随着数字经济时代的到来,数据已成为推动经济社会发展的核心要素之一。然而,如何高效、安全地共享和流通数据,成为制约数字经济发展的关键瓶颈。数据空间作为一种创新的数据共享与流通机制,正逐步成为解决这一问题的有效方案。本文将深入剖析数据空间的内涵、发展现状与实践路径,以期为推动数据有序流通提供参考。 一、数据空间的内涵 数据空间是一个由治理框架定义的分布式系统,旨在创建一个安全可信的数据流通环境。这一概念最早由美国计算机科学与技术领域的专家迈克尔·富兰克林等人提出,随后不断发展和完善。数据空间通过数据集成、虚拟化、语义建模和元数据管理等技术,实现对多源异构数据的统一组织管理,支持数据的编目、浏览、搜索、查询、更新和监控等功能。其核心特征包括: 数据主权保障:数据空间在促进数据流通的同时,确保数据持有者的主权,保护其隐私和数据控制权。

本报记者 邱海峰 宋博制图 (新华社发) 可信数据空间将迎来一份全新报告——《可信数据空间标准化研究报告》(以下简称《报告》)。近日,由全国数标委秘书处组织的《报告》研讨会在北京召开,明确将有序推进各章节编制工作,加快形成结构严谨、衔接密切、切实可行的可信数据空间标准体系,为可信数据空间标准化工作提供系统性指引。 什么是可信数据空间?为何如此受关注? 据国家数据局介绍,可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。