上午九点,在河北保定数据标注基地,中国移动数据标注员李晨点开工作台,屏幕上出现一帧街景图片,一辆快递三轮车斜停在路口,远处有行人横穿斑马线。这辆三轮车是否属于占道违停?行人是否在信号灯允许时段通行?这便是他的任务——为这条数据赋予判断逻辑,逐条打标、备注情境,再提交审核。
这份看似普通的工作,正是人工智能从“识字”走向“理解”的关键一步。AI并不天生认得红绿灯、看得懂病历、听得懂地方话,它需要先被人类“教会”。数据标注,就是把现实世界的图像、语音、文本,转化为AI可学习的“标准答案”,是大模型训练的“教科书编撰工程”。
2026年5月,国家数据局正式印发《2026年数字经济发展工作要点》,将“强化数据赋能人工智能发展”列为八大重点任务之一,明确提出实施包括标注攻坚在内的六大专项行动,要求集中力量破解高质量数据供给不足等行业难题,加快培育AI就绪(AI-Ready)标杆性数据集。
作为数字基础设施“国家队”,中国移动积极响应国家“标注攻坚”号召,以梧桐大数据平台为核心底座,从数据汇聚到价值释放全链条发力,让AI的“教科书”编得更准、更快、更安全。
从“矿石”到“精钢”:一座数据精炼厂如何炼成AI原料
李晨每天面对的海量街景图片、语音片段、医疗影像,并不是从天上掉下来的。这些数据首先需要从数据中心汇聚到数据标注中心,然后再由梧桐大数据平台进行一道“精加工”。
中国移动搭建了“1+N”集省架构,把散落在全国各地的数据汇聚到一起,就像把深山里的矿石统一运进精炼厂。在这座“数据精炼厂”里,梧桐大数据平台集成数百项数据处理工具,能够自动清洗、分类、脱敏——文本里的错别字被纠正,图像中的噪点被抹去,音频里的杂音被过滤。这套“流水线”已经实现了百万量级的数据自动化处理能力,全面支持文本、图像、音频、视频以及结构化和多模态等全品类数据加工,让复杂数据“变干净、变有用”。
但有些“矿藏”太稀缺了,比如政务审批中罕见的驳回案例、工业质检中极少出现的瑕疵品图片、数据中心设备的异常状态日志——真实样本少到根本不够AI学。怎么办?中国移动利用数据合成能力突破稀缺场景瓶颈,自己“冶炼”数据。截至目前,平台累计生成合成数据超过千万条,覆盖政务、办公、财务、供应链等核心行业场景,这些高仿真的“人造精矿”,有效解决了行业数据短缺难题,为大模型训练补足了最稀缺的“原材料”。
给AI装上“思维引擎”:数据标注的进化之路
矿石炼成了精钢,接下来就是“锻造”——也就是李晨正在做的事——数据标注。
在人们的固有印象中,数据标注仍停留在“手动框选目标物体”的阶段。然而,随着大模型时代的到来,中国移动正在重新定义这一工种的内涵与外延。
中国移动自主搭建了大模型专用标注平台,上线了数十项标准化标注工具。最核心的变化是落地了思维链标注,不再是简单地给一张图片打标签,而是要求标注员像老师批改讲解作业一样,一步步写出推理过程:“这辆车为什么被判定为违停?因为它停在禁停区,且驾驶员不在车内。”AI学到的就不再是一个孤立的结论,而是一整套思考路径。
为了提高效率,平台还采用了AI预标注+人工复核精修的模式:系统先用算法自动圈出大概范围,标注员只需要纠错和细化。这样一来,智能标注实施率超过80%,效率比纯人工提升了3倍。
目前,中国移动已累计承接标注需求数百万条,赋能保定、长沙两个国家级标注基地及山东自建标注基地,形成了全国协同的标注网络。这支数百人的专业团队,标注的内容涵盖政务文书理解、供应链单据识别、低空目标分类、智能客服意图判别等各个领域。
每一批标注完成的“毕业作品”,都要经过一道严苛的数据质量评测把关。当前,中国移动已建成成熟的数据质量评测体系,涵盖200余项评测指标,从源头保障数据“可信、可用、可靠”。最终,这些高质量数据集通过一站式供给平台上架——目前已沉淀高质量数据集超过一千个,直接服务于中国移动九天大模型及各行业模型的训练。
筑一座“安全桥”:让数据敢流通、愿流通、畅流通
数据标注出来了,但新的问题随之而来:很多高质量数据掌握在特定机构手里,涉及个人隐私或商业秘密,企业“不敢放、不愿给”,成为整个行业最普遍的堵点。
中国移动给出的解法,是一座名为梧桐·模数共振空间的“安全桥”。它的核心机制可以概括为四句话:数据不出域、模型代训练、全程可审计、按价值分账。
这一机制如何运作?以一家大型物流企业为例:该企业拥有海量的配送路线、仓储调度和客户签收数据,涉及大量商业机密,无法直接交给第三方企业用于训练智能调度模型。此前,这类高价值数据往往因安全顾虑而被封存。如今,通过模数共振空间,数据可留存在企业本地服务器上,由平台远程调度算力完成模型训练——原始数据全程不出域,仅传输模型梯度参数。供需双方的每一次调用行为均由区块链如实记录,并据此按贡献比例自动完成收益分配。
当前,这座“安全桥”已初步建成并投入运营,整合了网络、算力、数据等核心资源,并正在持续迭代升级,全力打通数据加密、计量统计、计费结算等全链路运行闭环。它的存在为数据要素的合规流通提供了一套可复制的“移动方案”,也让更多沉睡的数据资产被唤醒。
立一把“行业标尺”:从各自为战到有章可循
能力体系的构建与流通模式的打通,为行业规范化发展奠定了基础,下一步的关键在于确立统一标准。
过去数年,合成数据行业长期处于粗放发展阶段:各参与主体依据自身标准合成数据,质量参差不齐,安全风险难以有效管控。下游AI企业在采购数据集时,时常面临数据偏差甚至错误频出的困境,严重制约了模型训练的可靠性。
在此背景下,中国移动率先破局,牵头申报了《高质量数据集数据合成技术要求》国家标准,获国家标准化管理委员会批准立项。该标准系统界定了多模态合成数据在特征定义、生成方法、质量评估、实施流程及安全合规等方面的统一标准,为行业提供了一套具有权威性的技术标尺。
在保定数据标注基地的那块大屏幕前,李晨刚刚完成一组低空无人机巡检图像的语义分割标注,那些像素级的标记,将帮助AI学会识别河道漂浮物、违规下水游泳等风险,守护一方水域安全。千里之外,政务大模型正用中国移动提供的高质量数据集学习理解百姓诉求,方便为百姓提供更高效、更精准、更智慧的服务。
从一座精炼厂到一套标注体系,从一座安全桥到一把行业标尺,中国移动用全链条的数据能力,为千行百业标注着精准的数字坐标。