靓丽橙
天空蓝
忧郁紫
玛瑙红
炫酷黑
深卡色
黎明
收起
下载APP
首页> 股市消息>

正文

Surge AI估值超千亿元 数据标注产业走向台前

2025-08-01 02:00:00来源:中国经营报
责任编辑:第一黄金网
摘要
以数据标注为核心业务的Surge AI,仅用五年的时间便一跃成为AI领域炙手可热的“独角兽”企业,整个AI行业都为之侧目

以数据标注为核心业务的Surge AI,仅用五年的时间便一跃成为AI领域炙手可热的“独角兽”企业,整个AI行业都为之侧目。近日,该公司正在进行10亿美元的首轮融资。据路透社消息,Surge AI的估值已上升至150亿美元(约合1000亿元人民币)。

实际上,Surge AI是当下数据标准行业的一个缩影。数据标注是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理。人工智能发展离不开高质量数据集,而高质量数据集建设离不开数据标注工作。目前,数据标注在促进数据资源的整合、提高数据质量,以及激活数据要素价值方面发挥着至关重要的作用,正逐渐成为人工智能发展的关键基础产业之一。

多位业内人士在接受《中国经营报》记者采访时表示,当前数据标注技术正处于“手工作业转向人机协同”的转型期,多数企业依赖人工,但AI辅助工具的渗透率正不断提升。

从默默无闻到行业新星

Surge AI由曾任职于Google和Meta的工程师Edwin Chen(埃德温·陈)于2020年创立。在“大厂”的工作经历,让埃德温·陈察觉到传统数据标注行业存在效率与质量双低的问题。

Edwin Chen在接受采访时表示:“我们创办Surge AI的根本原因,就是为了解决我在大公司工作时反复遇到的一个巨大障碍,即几乎无法获取训练模型所需要的数据。我们想做的事情还有很多,但即使是做一些最基础的事情,在获取数据上都困难重重。”

Surge AI创办之后很快就展现出强劲的竞争力,在不到12个月的时间里,营收就达到了八位数。Surge AI真正的崛起是大语言模型的兴起。

斯坦福AI指数的最新报告显示,全球AI数据需求正以每年230%的指数级速度迅猛增长。与此同时,大模型的参数量规模每12个月就扩大10倍。OpenAI的内部测算显示,GPT-4的训练过程中消耗了10万亿个token,而其中超过60%需要经过人工标注处理。这表明,前沿大模型的训练背后离不开海量的人工标注资源作为支撑。如果没有持续供应的高质量数据,再先进的算法也难以施展其威力,无法实现预期的效能。

在发展过程中,与OpenAI、Anthropic等大模型企业的合作成为Surge AI重要的突破。通过对AI大模型的输出内容进行细致的质量分级和校验,Surge AI帮助大模型不断提升性能,也借此证明了自身的技术实力,赢得了行业的认可。Anthropic联合创始人曾评价道:“Surge AI团队对大语言模型训练有着深刻的理解。”

如今,Surge AI的客户已经涵盖OpenAI、谷歌、微软、Meta、Anthropic等全球顶级科技公司和研究机构,2024年营收突破10亿美元。

天使投资人、人工智能专家郭涛对记者表示,Surge AI成功的核心在于技术、规模、资本的协同驱动。技术上,Surge AI构建了智能化标注平台,集成计算机视觉与自然语言处理技术,高效处理图像和文本数据,实现结构化;同时,通过动态任务调度系统优化全球众包资源,大幅提升了标注效率。规模方面,Surge AI借助资本杠杆快速收购区域性标注服务商,形成了覆盖多语种、多场景的服务网络,既抢占了市场份额,又摊薄了边际成本。在资本助力下,Surge AI形成飞轮效应,高质量标注数据反哺 AI 模型训练,吸引头部科技企业持续采购,形成“数据-算法-商业价值”的正向循环。

不过,工信部人工智能标准化技术委员会委员、中国人工智能产业发展联盟工作组专家高泽龙认为,Surge AI的发展模式具有一定借鉴价值,但并非完全普遍适用。其成功依赖于特定的市场环境、行业趋势以及自身资源优势。不同地区、不同规模的数据标注企业面临的市场条件、客户群体、资源禀赋等存在差异,不能简单照搬其模式。

赛道火热

在国内,数据标注同样炙手可热。据中商产业研究院发布的《2025—2030年中国数据标注产业调研及发展趋势预测报告》显示,2020年,我国数据标注市场规模约为30亿元,到2024年增长至约80亿元,年复合增长率超过25%。另据中研网预计,今年中国数据标注产业市场规模将达105亿元,到2029年市场规模将攀升至204.3亿元。

国内广阔的市场前景也催生出一系列专注于数据标注的创新企业,并且随着技术的不断进步和应用场景的持续拓展,数据标注企业的业务领域也在不断延伸,从传统的图像、文本标注逐渐扩展到语音、视频、三维点云等多元化数据类型。

例如,中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。

从政策层面来看,数据标注产业正迎来政策红利期。国内出台了一系列政策支持人工智能产业链各环节的发展,数据标注作为人工智能发展的基础环节。国家数据局正在指导合肥、成都等7个城市建设数据标注基地,探索产业发展的最佳路径。有关数据显示,截至今年上半年,7个数据标注基地已建设数据集524个,规模超过29PB,服务大模型163个。

对此,高泽龙表示,目前数据标注技术处于快速发展但尚未完全成熟的阶段。一方面,自动化标注技术取得了一定进展,能够处理部分简单、规律性强的标注任务,提高了标注效率;另一方面,对于复杂、模糊、具有主观性的数据标注,仍高度依赖人工,自动化程度有待进一步提高。同时,数据标注的质量评估标准和方法也在不断完善中。

北京社科院副研究员王鹏指出,当前,数据标注行业正从劳动密集型向技术驱动型转变,需求增长、质量要求提升,但存在数据存量、质量、利用效率等问题,自动化标注也在改变行业格局。

郭涛认为,我国的数据标注产业未来有三大突破方向:一是主动学习框架,基于少量种子标签自动推断同类数据特征,减少人工干预;二是跨模态联合标注,同步处理文本、图像、视频等多维数据,提升时空一致性;三是隐私计算集成,在联邦学习框架下,实现敏感数据脱敏标注,满足金融、政务等领域的合规需求。企业需紧跟技术趋势,提前布局,以在竞争中占据优势。

“未来突破方向是智能化标注,利用深度学习、强化学习等人工智能技术,开发更加智能的标注算法和工具,实现自动、精准的数据标注,减少人工干预。”高泽龙补充道,“例如,通过预训练模型对数据进行初步标注,再由人工进行审核和修正,提高标注效率和质量。此外,随着AI应用场景的不断拓展,对多模态数据(如图像、语音、文本、视频等的组合)的标注需求日益增加。”

更多资讯可关注第一黄金网微信公众号
更多精彩财经资讯,点击这里下载第一黄金网APP
31 收藏


    相关阅读

    导航

    本站郑重声明:第一黄金网中的操作建议仅代表第三方观点与本平台无关,投资有风险,入市需谨慎。据此交易,风险自担。