okx

ChatGPT背后的数据标注产业链

  中国小康网 独家专稿

  文|《小康》·中国小康网 孙媛媛

  数据决定了AI落地程度,基础数据服务是商业化过程中重要的一环。

  图源/hellorf

  制作于公元前196年的罗塞塔石碑(Rosetta Stone),刻有古埃及国王托勒密五世登基的诏书。

  石碑上用古希腊文、古埃及象形文以及当时埃及平民使用的通俗体文字刻了同样的内容,这让考古学家解读出失传千余年的埃及象形文的意义与结构,找到读懂古埃及的密码。在AI领域,为了让机器读懂人类世界,同样有一块“罗塞塔石碑”——数据标注,它的存在让大规模训练数据的机器学习成为可能。

  人工智能在变得更聪明更有人情味的过程中,离不开数据标注这个产业链。ChatGPT的火爆,会带动数据标注行业的高增长吗?我国数据标注产业目前的发展状况如何?为此,《小康》杂志、中国小康网采访了业内资深从业者一探究竟。

  数字经济的发展底座

  所谓数据标注,指的是对未经处理的语音、图片、文本、视频等原始数据进行加工处理, 使其成为结构化数据让机器可识别的过程。

  算力、算法和数据被称为是人工智能的“三驾马车”。过去的十多年时间里,数据、算力、算法等技术的创新和迭代,可以说是“大爆炸”式的发展。这里的数据,更精确地表述为数据集,用于人工智能算法模型训练,被公认为人工智能算法的“燃料”,是实现人工智能技术与产业结合能力的必要条件。

  近年来,人工智能产业的发展带动了数据标注行业的快速发展。数据标注作为人工智能的基础层,也为人工智能产业高速发展打下坚实的基础,催生了一批围绕人工智能产业链、大数据产业的新模式、新业态,成为数字经济发展的“数据”底座。

  数据在AI发展过程中极为重要,业内甚至将数据称为“新的石油”来体现它作为将人类智能转化为机器智能原材料的重要性。但放眼整个AI行业,数据的受关注度远没有AI三元素的另外两个元素——算法和算力高。

  造成这个结果的最主要原因就是数据标注行业是一个劳动密集型的产业,“足够廉价的劳动力”是数据标注公司的一大标签。

  整数智能信息技术(杭州)有限责任公司致力于为AI领域企业提供数据服务。其联合创始人赵子健接受《小康》杂志、中国小康网采访时表示:“目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度。AI的发展离不开海量的数据去做训练和喂养。如果说人工智能是一片矿,不管哪一块需要挖矿,都需要有矿工和挖矿的机器,而数据就可以理解为是挖矿的机器。作为底层的基础设施,每一波的人工智能发展,作为提供数据服务的公司都能从中获益,同时也面临着更多的挑战、机遇、发展前景和更大的市场。”

  《小康》杂志、中国小康网了解到数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散户”,比如兼职学生。一单生意几经转手,就造成了行业众包中介层叠越来越严重,利润所剩无几。然而,实际情况是怎样的呢?

  赵子健说:“不同公司定位不一样。有些公司没有产品技术研发的实力,能做的事情类似倒卖。一些小的城市,可能薪资较低,他们就适合做人力型团队,提供数据标注员。”

  《小康》杂志、中国小康网进一步了解到,做标注和外包审核这部分业务的公司人员流动性很大,因为这个业务比较枯燥,做的是纯一线的重复性劳动,加之其他一些不稳定因素,一般公司会优先保证重要项目不出现人员断档。

  国内做数据标注业务的公司很少有单业务链,比如内容审核集中在二三线甚至更小的城市,给的薪资相对会低。而做内容审核、内容标注等这类业务的公司集中在天津、成都、重庆、西安……相对消费水准低,投入成本也低。

  一位不愿具名的业内资深从业人士告诉《小康》杂志、中国小康网,ChatGPT国产化有个非常大的风险,通过大量的数据训练机器人,跟所有的人对话,这个过程中其接触到的数据有很多可能是有问题的。有很多信息需要进行拦截,比如一些非法的信息。没有经过拦截的信息一经流出,就有可能变成变相的宣传渠道。如果没有专门的人力对这方面的内容加以把控的话,就会成为被利用的渠道。

  为了方便管理,比如担心内容外泄,较大的互联网公司都早早开始自建基地或者子公司,在安全和管理上更好把控,但成本会更高。字节跳动很早就自己建设基地,全国各地大概有六七个城市都有基地。以子公司来做数据标注,更多是基于安全的考虑,比如涉及黄赌毒的内容,有很多是不能流出的。必须承认外包业务泄露的风险要比自己公司泄露的风险大。然而,从成本上考量一定是外包公司更好。

  中国数据标注产业崛起中

  数据标注是计算机感知世界的起点,全球数据标注行业是伴随全球人工智能产业发展而生的。最早可以追溯到上世纪90年代,深蓝战胜国际象棋世界冠军加里·卡斯帕罗夫,全球人工智能产业发展进入新的探索期,1996年澳鹏(Appen)诞生并开始布局数据服务领域业务。2007年数据标注行业正式拉开序幕,始于斯坦福大学教授李飞飞等人的ImageNet项目,该项目要通过亚马逊的劳务众包平台Mechanical Turk(AMT)来完成图片的标注和处理,得到的数据集供机器算法训练和学习。此后,全球开始涌现出众多的数据标注企业,全球数据标注行业也进入成长期。

  从行业供给情况来看,全球数据标注行业企业主要分布在美国、中国、澳大利亚和非洲等国家和地区,但具有一定规模的企业数量相对较少。在美国,数据标注企业较多,突出的特点是技术驱动导向,数据标注服务供给能力和质量较高,代表性企业有Scale AI、Mighty AI、Mturk、Supervise.ly等;欧洲地区代表性企业有塞浦路斯的Mindy Support等。

  数据标注行业不被关注由来已久,直到美国数据标注企业Scale AI,用5年时间(2016—2021)实现超73亿美元的估值,才为国内数据标注行业注入了一针强心剂。

  此后,随着特斯拉在2022 AI DAY上推出Auto Labelling标注平台,并推出4D标注技术,让更多人知道了自动化标注的存在,也让更多专业的数据标注企业走到台前。

  当前,全球数据量仍在飞速增长的阶段。根据IDC发布的《数据时代2025》测算,到2025年,全球的数据生产量将达到175ZB。目前市场上90%以上的数据是非结构化数据,得到有效利用的不足10%,对于这些非结构化的数据只有经过标注处理才能激活其价值,这就产生了源源不断的数据标注处理需求,可以将数据标注处理理解为结构化数据的生产处理,而这些标注企业就是数字经济时代下的新型生产制造企业,生产出来的是“数据集”属性的产品。

  在全球数据量指数级的增长过程中,从非结构化到结构化的数据生产,需要大量的数据标注服务,数据标注将大大激活数据价值,提高数据质量和发挥数据要素的作用。

  “目前相对来说,人力成本比较便宜,国内数据标注业发展的时间节点会比美国机器替代人力的时间晚一些,业内已经开始有公司用自动化的方式去替代人力,去提高数据生产的自动化效果。”赵子健介绍说,数据标注业务分不同的标准和不同的难度。比如做人脸识别的场景,数据标注的任务要求并不高,对人力要求也不高。一些特殊领域,比如自动驾驶领域,还有一些小语种领域,或者专业知识性较强比如法律、金融这样的场景任务对从业人员的知识储备、综合能力要求就特别高。薪水也会根据任务的复杂程度而有所区分。

  赵子健所在的整数智能核心定位是产品型公司,做了一套自动化的数据标注工具,把很多人力的工作用自动化的算法替代,以提升整体标注速度和效率。“转包最大的问题就在于无法保证数据生产的质量和速度,数据如果没法保障,就会影响研发的进程,进一步影响商业化的进程,这是一个非常大的行业痛点。”他说,“我们要做的事就是尽可能促进行业规范化。”该公司推出的自动化标准工具可提效、替代70%的人力。此外,该公司自有供应链稳定持续产出,以此拓展科研机构和企业客户。

  “劳动密集”迈向“技术密集”

  根据《数据时代2025》测算,到2025年我国拥有的数据量在全球的占比将从2018年的23.4%提升到27.8%,位居全球首位。2015年以来,随着国家的大力推动,我国大数据产业加速发展。一大批大数据产业园相继落地,大数据产业生态加速完善,相关标准和技术体系持续完善,应用市场日益壮大,产业国际影响力不断提升。根据工业和信息化部发布《“十四五”大数据产业发展规划》产业规模测算,到2025年底,大数据产业规模将突破3万亿元。在此背景下,数据标注需求随数据量增长而上升。长期来看,我国大数据支出整体呈稳步增长态势,市场总量有望在2024年超过200亿美元。

  在大多数人看来,人工智能是高大上的奢侈品,离实际生活太远,而ChatGDP最大特点就在于,它让每个人都真实地体验到了高质量的人工智能,这意味着它会调动社会的高关注度、积极性与热情,也会使人工智能变成生活中的基础设施,意味着会有更多人投入到这一领域,更多的资本追加、更多的市场关注度,以及更多的产品推出……这种情况下,AI与各行各业深度结合,数据标注的业务量会进一步提升。

  不少业内人士表示,ChatGPT的火爆,对于数据标注行业是利好的。ChatGPT国产化,数据标注在整个市场里占据很大份额,因为它非常依赖于训练结果,机器可以训练底层的数据,但是要想和人进行更人性化的沟通,以及要符合国家的一些规定,单靠机器很难做到,需要大量的人的主观判断,人工智能大发展也会为数据标注行业带来更好的发展。

  互联网内容安全从业者表示,数据标注10年内不太可能被替代。“很多内容,机器再怎么训练它的算法,也很难完全替代人,因为很多东西非常主观、隐晦,机器很难通过算法识别出来,需要人力去做相应的识别。”

  赵子健则表示:“现在数据标注行业已经到了变革的时刻,传统意义上,大家觉得数据标注是人力密集型的行业,但未来发展一定是技术密集型,以技术的自动化替代人力这条路其实在美国走得更快。美国相对来说人力成本较高,所以更早地使用机器替代人力,美国已有大型自动化的数据标注公司,国内也一定会诞生一批这样的公司,真正实现提效,这是对于未来的行业预判。”他很肯定未来大方向上人工智能一定会与各产业深度结合,而每个行业,比如智慧医疗、智能制造、自动驾驶……这些场景都是海量的数据量级,数据已经成为一个新的生产要素。工业的发展需要水电煤,新的经济产业基础设施则需要有数据支持,所以,未来它会是整体经济发展的基础设施。

  (《小康》·中国小康网 独家专稿)

  本文刊登于《小康》2023年3月下旬刊

相关内容

扎实推动高质量发展在湖南农信系统落地生根

洪 樱 成依潇 刘雯娟 黄利飞 新型农业经营主体贷款余额177.2亿元,累计涉农贷款余额达6264.5亿元; 普惠型小微企业贷款余额达2182亿元,支持普惠型小微企业户数50.8万户; 新版手机银行客户数1244万户,收单商户数79万户,线···

全国港口前三季度吞吐量出炉

1-9月,全国港口集装箱吞吐量前10名分别是:上海港(第1)、宁波舟山港(第2)、深圳港(第3)、青岛港(第4)、广州港(第5)、天津港(第6)、厦门港(第7)、苏州港(第8)、北部湾港(第9)、日照港(第10)。图片来源于港口圈1-9月,···

定安打出组合拳推动知名企业纷纷落地

海南日报记者 李豌 特约记者 孙国富蜜雪冰城全球供应链总部基地和全国冷链物流总部基地项目、煌上煌集团……近年来,大企名企纷纷落地定安。国际投资单一窗口综合管理系统数据显示,2020年5月至今年9月,定安县在库项目36个,签约金额达158.9···

45年·45人·45个典型改革案例丨熊维政:一定要把信阳茶油做上市

□本报记者 胡巨成 刘宏冰潜心医药行业40余年,将一家作坊式医药小厂,做成大别山革命老区和全国贴膏剂药业首家上市企业,打造出“百亿级贴膏剂生产基地”的羚锐制药前“掌门人”熊维政,在他60岁时急流勇退,放手交棒,转身创办了信阳信锐油茶股份有限···

山东区划设想,二分滨州,组建渤海市,利津改区,邹平与高青互换

近年来,随着我国产业结构的不断调整,经济增长方式也在持续优化,特别是随着交通等基础设施的完善,区域经济开始朝着一体化发展方向迈进。如果用《射雕英雄传》中的一句话来形容,江苏是“东邪”、广东是“南帝”、四川是“西毒”,那么山东则是“北丐”,此···

为什么河南经济是最没有希望的?上车,带你深度了解河南的问题

“河南小孩出生就是为了离开河南”,这是我最近一个关于河南经济评论文章下点赞最高的评论。这句话我深深刺痛着自己,因为我自己就是河南人,深知这里面包含了多少无奈和心酸。当人们在聊地域之争的话题时,大家都会为自己的省份争辩几句,然而只有河南人,会···

关注双11丨“88VIP”淘宝天猫全网商品都能用花呗分期免息

2023天猫“双11”活动今晚8点正式开始。今年“88VIP”大额券总规模达到200亿,用户可领券额度最高可达860元。支付宝针对“88VIP”淘宝天猫用户还推出花呗分期免息服务,消费者购买大件商品又多了一重实惠。“88VIP”用户购买单价···

每日新闻,60秒知晓世界热点

2023年10月31日,星期二,农历九月十七1、31省份前三季度人均可支配收入公布:上海北京首超6万元位居全国前列,浙江天津江苏同属4万+梯队紧随其后;长三角万亿城市经济三季报:合肥增速第一,宁波增速超上半年;2、工行、农行、中行、建行、邮···

2024年城乡居民参保调整,一次性补缴5.9万,每月能领2300元吗?

随着时间的推移,社会保障制度也在不断地完善和调整。2024年城乡居民参保也将迎来新的一轮调整。据相关政策规定,未来居民参保需要一次性补缴5.9万,每月能领2300元。这个政策引起了很多人的关注和讨论。对于这个政策,有些人认为一次性补缴5.9···

老百姓:第三季度净利润同比增长32.78% “聚焦发展”战略优势凸显

中证网讯(记者 段芳媛)老百姓10月30日晚间披露2023年第三季度报告。公司前三季度实现营业收入160.42亿元,同比增长16.44%;实现归属于上市公司股东的净利润7.17亿元,同比增长17.54%。其中,第三季度实现营业收入52.31···

紧抓机遇开展差异化竞争 骆驼股份积极开拓国际市场

骆驼股份 黄剑波/供图 彭春霞/制图证券时报记者 韩忠楠越来越“卷”的新能源汽车赛道,既充满挑战,也酝酿着新的机遇。近期,受益于华为与赛力斯联合打造的全新问界M7的热销,与之相关的汽车产业链在A股市场的热度也随之升温。这当中,为问界M5/M···

宝山罗店:罗南二村 半年跌幅近乎恐怖 郊区老破小太可怕

前几天,我们写了几个宝山区二手房系列,美兰湖板块的万科琥珀郡园以半年跌幅近五分之一位列榜首,我以为就是跌幅极限。然后,今天现场去看了位于美兰湖南侧的罗南新村,在那周围详细地看了看,然后比较了一下罗南二村最近成交与4月份左右的成交记录,愕然发···

压倒许家印并不是造车,而是恒大童世界,砸几千亿搞了十几个鬼城

恒大集团以其高调的投资和建设项目而闻名,最近引起了人们的广泛关注。与传统地产业务不同,恒大集团的新尝试是在娱乐旅游领域建设恒大童世界。这一巨大的投资计划引发了广泛的争议和讨论。恒大童世界的建设规模之大令人瞩目。据报道,恒大集团计划投资数千亿···

《人民日报》警告奏效?98款,突破1亿台!华为正式宣布

导语:在科技的浪潮中,华为从遭遇“极限施压”,到芯片突破和鸿蒙生态的自研,始终展现出卓越的技术实力和坚韧不拔的创新决心。华为面对挑战:技术封锁与自主创新在2019年,《人民日报》发送《人民日报评华为遭"极限施压":科技自立,时不我待》一文,···

中国钢铁大王戴国芳,入狱5年东山再起,再造500强民企狂赚1957亿

他从一个收废品的穷小子,摇身一变,登上了中国400富豪榜。他的钢铁厂年销售额已超过1个亿,手下员工超过1千人,他就是钢铁大王戴国芳但是这个钢铁界的王者,却因为一时错误,被捕入狱,还坐了5年牢。出狱后,他不忘初心重操旧业,不仅再次创办炼钢厂,···

油价暴跌倒计时,专家透露:11月国内高油价将消失!

随着外资油站的进入,国内加油站市场的竞争格局正在发生重大变化。近日,多位专家在接受记者采访时表示,预计11月国内高油价将不复存在。这一预测的背后,是外资油站的入驻带来的市场冲击和国内油价的持续波动。外资油站的进入,打破了国内加油站的垄断格局···

共话中国经济新机遇丨专访:中国经济展现出发展韧性

新华社日内瓦10月30日电 专访:中国经济展现出发展韧性——访联合国贸发会议资深经济学家梁国勇新华社记者陈斌杰联合国贸发会议资深经济学家梁国勇日前接受新华社记者书面专访时表示,中国经济今年前三个季度的增长态势展现出了发展韧性和潜力。中国国家···

润达医疗:目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行

润达医疗近期接受投资者调研时称,目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行,公司在上海等地区积极和相关部分医疗机构展开合作,共同推进LDT相关业务在医疗机构的开展。未来随着相关政策法规进一步完善,LDT相关业务将给公司带来···

国航率先公布第三季度财报,疫情后首度扭亏

在阅读此文之前,希望用您发财的小手点一下“关注”,文章内容来源于网络但是最后会有小编的个人感悟,如有不足之处可以评论指出,谢谢您的支持。民航行业近期公布的积极消息显示了行业的积极向上趋势。多家航空公司在财报中宣布扭亏为盈,旅客运输量也逐步恢···

竹塑革命!中国发改委推动“以竹代塑”三年行动计划。

近日,中国国家发展和改革委员会发布了一份重要通知,名为《加快“以竹代塑”发展三年行动计划》,这一举措旨在推动“以竹代塑”产业体系的快速建立。这个消息将给与竹制品、造纸等行业密切相关的产业带来利好消息。竹子作为中国特色植物,广泛应用于造纸、包···