导航更多
当前您所在的位置:首页 » 数据要素 » 数据治理

数据标注:人工智能时代的“基石工程”

2025-05-27 6658
分享

习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。随着DeepSeek R1系列模型的发布,国内掀起新一轮人工智能的热潮,通信、互联网、汽车、能源、金融、医疗、科技等龙头企业纷纷宣布接入DeepSeek,人工智能大模型加速向各行各业渗透。人工智能大模型的发展需要“数据粮食”,特别是经过标注的高质量数据集。

一、何谓“数据标注”


数据标注,即对原始数据,如图像、文本、语音、视频等,进行人工或半自动的标记、分类和注释等加工处理,使其成为机器学习或人工智能算法能够理解和学习的形式。例如,在进行图像识别时,为了让计算机能够准确识别猫和狗的图片,数据标注员需要在大量的猫和狗的图片上框选出动物轮廓,并标注类别,从而让算法可以学习到猫和狗的特征。

二、开展数据标注的重要意义


数据标注对于形成高质量数据集,推进人工智能模型落地应用,促进行业高质量发展具有重大意义。一方面数据标注有利于提升模型的准确性和可靠性。在进行模型训练时,经过标注的高质量的训练数据是模型性能的关键,未经过标注的原始数据往往是无序的、非结构化的,无法直接被算法利用。而经过精心标注的数据,就如同为模型提供了清晰的指令,帮助模型更好地理解数据中的模式和规律,从而提高模型的准确性和可靠性。另一方面数据标注可以保障数据安全与合规。《网络数据安全管理条例》中指出“提供生成式人工智能服务的网络数据处理者应当加强对训练数据和训练数据处理活动的安全管理”,开展数据标注可以有效记录数据的来源用途,且对个人隐私、医疗、金融等敏感数据进行脱敏处理,确保应用于模型的数据安全合规。

三、怎么样开展数据标注


数据标注是一项复杂而关键的工作,为高效、高质量开展数据标注,赋能民政领域行业模型建设应用,可从如下三个方面推进数据标注。

一是以场景化应用带动数据标注工作开展。随着人工智能应用持续走深走实,在医疗、教育、金融等领域实现了初步应用。民政领域开展数据标注构建高质量数据集不能盲目跟风,应以终为始,优先突破人工智能应用最迫切、最容易产生效果、最影响行业高质量发展的数据标注。

二是推进民政领域数据标注工作的规范化和标准化建设。随着人工智能应用场景的不断扩展,建立科学、统一的数据标注管理体系至关重要,应制定标注规范文档,不断明确标注规则,设计科学的数据标注流程,建立数据溯源机制,探索合成数据应用,不断提升数据标注效率与数据价值,为民政领域各类人工智能应用场景提供坚实支撑。

三是加强复合型专业人才培养。在推进人工智能应用场景探索落地时,常常遇到技术人员不懂业务,标注的数据同实际情况出现偏差,直接影响了模型的训练结果,而业务人员不了解技术,无法高效的开展高质量的数据标注工作,因此需要加强复合型人才培养,尤其是加强在职人员在数据处理和人工智能领域的能力提升,以适应快速发展的技术需求。

0

好文章需要您的支持

声明:

根据《中华人民共和国著作权法》及《最高人民法院关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》的规定,本网站声明:凡本网转载作品,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,转载信息版权属于原媒体及作者。我们力所能及地注明初始来源和原创作者,如果您觉得侵犯了您的权益,请通知我们,我们会立即删除改正。如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

收藏
分享
发表评论:
评论:
相关文章:
热点文章: