7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海举行。中国电子副总经理陆志鹏围绕“数据要素驱动的大模型体系”做主旨演讲,他认为,大模型技术实现高质量发展,数据有效供给是关键,亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。
陆志鹏
陆志鹏首先谈到大模型数据集的训练过程,大模型训练一般要经历这样一个流程:一般是公开数据,包括互联网数据、代码库,然后对这些数据进行半监管的训练,训练后形成了一个较为高质量的数据语料库以后,供大模型训练。
“但大模型公司可能会因为侵犯隐私和知识产权被起诉。”陆志鹏举例说,美国大模型出来后,就已经面临着一些法律风险。主要来自两个方面,一个是隐私,一个是知识产权。
美国目前采取鼓励型的监管政策,而欧洲则采取保守型的监管政策,相比之下,中国是一种包容型、审慎的监管政策。
“大模型技术出现后,数据供应的过程中间遇到什么问题?”陆志鹏说,一是缺少合规确权的机制,目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库,但数据都非常有限,而且可能面临着统一标准的问题;二是缺少数据的计量估价机制;三是缺少协调分配;四是缺少安全隐私保护机制。
面对这四个方面的问题,陆志鹏提及,中国电子这几年来和清华大学进行了跨学科研究,因为数据的构建非常复杂,涉及到了法律、管理、经济、金融、技术还有人文甚至政治等因素,为此,中国电子联合清华大学七个学院、将近一百个专家进行了联合攻关,形成了一套方案。大模型训练的问题和数据要素的问题实际上是一致的,也分别涉及确权、计量定价、流通分配和保护安全。
目前,中国电子研究开发出来的数据底座,可以对现有的数据进行归集、清洗、治理以后形成一个标准的数据产品,这个初级产品可能是文本数据,也可能是结构数据,还可能是非结构数据,把这些数据提供给大模型及各个应用方。
陆志鹏说,之所以OpenAI发布的语言大模型振动很大,其中一个原因是给它喂养的语料非常好,“用我们的话是小学、初中、高中到大学都是名校,所以数据需要进行治理”。
数据运算过程中,变量越多,大模型的反应就会越来越灵敏;参数越多,大模型的精准度越高,然而,面对大的参数计算机运算时,还要经过多层次的变化、多层次的降维才可以实现。如果数据量不经过加工治理,很难获得应用、很难挖掘价值,于是,中国电子提出“数据元件”,先把数据加工成元件,元件来支撑流通、支撑模型训练。这样就有效地解决了四个问题。
第一个是确权问题,目前数据确权是大问题,大家感觉无处下手, “数据二十条”发布提出数据产权“三权分置” 破解数据产权难题,数据元件与此相呼应。
第二个是计量问题,无论是文本数据还是结构化数据,从数据字段而言,它的价值很难进行计量,只有融合后的计量才有意义。也就是说,原始数据的价值是很难估量的。以前大家有一个误区,提出把数据评估进入会计报表,如果对现在的数据进行估值,只能通过成本法,计算采集数据花了多少人力、保存数据花了多少电费等等。而如果推动数据流通,计量这个数据到底有什么价值,此时数据的最大价值,即它承载的信息量能够计算出来,数据的价值就出来了。
第三个是在定价阶段,需要分阶段定价、分阶段分配。如果不在“数据元件”阶段前把分配问题解决,后续分配就很难落实。
第四个则是安全隐私问题,有了“数据元件”以后,可以通过元件监管方式回避安全问题。一是防止数据泄露,二是防止数据篡改——大模型会不会把我的数据带走,会不会篡改我的数据,会不会滥用我的数据——这些都是公众比较关心的。
最后,陆志鹏也谈到数据元件支撑的政务大模型应用探索,中国电子正在推动中国数字政府建设,参与数字广东、数字云南、数字湖南、数字新疆建设。基于数据元件的数据底座,能够支撑政务系统的大模型训练,为目前国内很多的大模型公司提供数据支撑,即政务行业大模型。
“我们有一个基本的判断,人工智能来得非常迅猛,再过几年可能政务系统现有的信息化、应用系统会被大模型冲击。如果政务系统的大模型一旦应用成功,现有的很多信息化系统就显得有点多余了,也同时显得有点重。”陆志鹏说。
南方+记者 郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端