一起学习网 一起学习网


AI标注员:训练“傻电脑”,然后淘汰自己

新闻资讯 数据,人工智能,李亚洲,薛再强,甲方,ai,电脑,鼠标,王伟,机器 09-10

记者/李一鸣

薛再强的办公室里挂着横幅

薛再强的办公室里挂着横幅

替代

壁垒似乎坚不可摧。对于真正“亲手”训练AI的算法工程师们来说,数据标注是个被藏在地下的世界。他们所接手到的,只是一个个被标注后生成的Json文件,而每一串代码,其实代表着地下世界里某位人类教师的某句讲解:“这是货车”“这是汽车”“这是行人”……那是AI的启蒙教育,它们统统被纳入算法。

地下世界里,有标注员重复的工作,有数据标注订单的转包、争夺……为了得到订单,这些人力的供应商们只能“内卷”起来,压低报价。“我们就像坐在桥边等活的民工,别人过来问一百干不干,你说干,旁边立马站起个人说我八十能干,那个说我六十就能干。”一名数据加工产业的经营者说。

人力低廉的价格和庞大的数量,是数据标注员和老板们立足的倚靠之一。面对被不断压低的单价,标注公司们需要不断去寻找更加便宜的人工。目前,已经有不少企业更多寻求与职业院校的合作,让标注公司成为职校生的实习场所,以压低人工的成本。

机器也在加入争夺。赵子健也是乙方中的一员,他的企业的思路是让AI实现标注。

据国际数据公司(IDC)预测,到2025年,中国数据标注服务的市场规模会由2022年的43亿元增长至123.4亿元。不过在这一行业还没有出现某个独角兽体量的企业,劳动密集是绝大多数企业的类型。在美国,由于更高的人力成本,数据标注企业会通过技术角度,思考解决数据加工过程中的成本问题。例如ScaleAI,该企业主要训练用来实现机器自动标注的人工智能,2022年,这家公司的估值已经达到73亿美元。

赵子健也想做和ScaleAI一样的事,他首先面对的是人力的竞争。“假设我的客户想要降低30%的成本,他要么去找便宜30%的人,要么通过算法自动化来替代”,赵子健说,“短期来看,肯定是第一种方式更容易。”

赵子健在2018年发现了有关数据标注的需求。当时他在浙江大学读本科,了解到有实验室在做桥梁颜色的自动识别项目。那个课题组里,七八个人标注十万张图,用了三个月才完工。于是他和朋友合伙成立了公司,从处理实验室的数据需求开始,踏入了这个世界。

赵子健还接到过“智慧课堂”的项目。就是在课堂前方设置一个摄像头,让系统通过学生上课时的表情状态,分析其上课时的专注度。在他看来,这确实是一项存在伦理争议的项目,但是他也认为,“如果做一个调查,我觉得至少有80%以上的家长会愿意牺牲孩子在课堂上的隐私,让他们提高五分的成绩。”

在数据的世界,效率是第一位的。赵子健在等待一个机会,那就是人工的成本降低到人们“无法忍受”的程度。他觉得,到那时,可以大量替代人工的自动标注工具一定会迎来更多的市场机会,数据标注就会走上智能化自动化的路线。“甲方不会管乙方是人工还是智能,只看你能降低多少成本。”

赵子健介绍,即便是自动标注系统,同样需要少量人力来实现一部分的标注工作,但在这个系统中,标注员更多是在辅助算法,实现更精准的自动标注。并且,随着标注的数据越来越多,自动标注的精准度也会越来越强。

在赵子健所预见的未来中,人眼所见的一切都将被数据化、智能化。他也没接触过公司那些外包的数据标注员,更不会想到,像李亚洲一样的标注员们如果被替代,他们将会何去何从。

他的公司里没有标注员。他问记者:“那些标注员们,不会觉得自己的工作没有意义吗?”

这个问题在商丘的产业园中得不到回答——大部分人不会想这个问题,少部分人则觉得,自己是随着AI技术浪潮狂飙的一员。薛再强的办公室里挂着一道横幅:“为人工智能创造最高效的数据而努力奋斗”。这句话是上家公司留下的,薛再强觉得写挺好,就没摘。

(应受访人要求,文中王伟才为化名)


编辑:一起学习网

标签:数据,人工智能,公司,商丘,这是,甲方,机器,成本,电脑,的人