“数据、算法、算力是人工智能的基本三要素。在资本的催化下,算力和算法都得到了“大跃进”式的发展,但作为三要素之一的数据却一直站在聚光灯之外。随着ai的商业化的不断落地,打造以数据为核心的行业壁垒已成为各大人工智能企业面前最重要、但却最容易被忽视的环节。”
26岁的单身母亲brenda住在非洲最大的贫民窟基贝拉,这也是全球最贫困的社区之一。每天早上brenda都会乘坐公共汽车前往内罗毕东部,和她的1000多名同事一起,开始一天八小时的工作。
她的主要工作内容简单而机械:上传图片,然后用鼠标机械地标记一张图片上的所有物体——人、车辆、交通标识、道路标记,甚至天空。在这里工作八小时可以得到9美元的报酬,对于当地人来说,这已是一笔可观的收入。
能简单控制鼠标的brenda和她分布全球上百万的同事们,在通过几个小时的培训后成为了全球人工智能产业链上最重要的环节之一。
在人工智能发展的早期,人工智能厂商通过廉价劳动力来满足自身的数据标注需求。而brenda和她的同事们就是这样的劳力,是人工智能背后的“人工”。
随着人工智能的发展迭代,这样“粗放”的标注方式正在逐渐被淘汰。
从吃糠咽菜到山珍海味,人工智能变身挑剔老饕
作为人工智能发展最基本的三要素,数据、算法和算力三元素之间一直处于相互制约,又相互促进升级的关系。互联网的诞生,让数据处于井喷式的爆发,助推了算力的提升,推动了算法的进步。而近年来生成对抗网络(gans)等技术及众多数据采集设备的应用,用于训练的数据可被多次复用,并与更多维数据融合进行算法训练正在成为趋势。使得数据需求从原来单纯追求“量”转变成追求“质量”。
随着人工智能商业化进程的加速,辅助驾驶、客服机器人等应用已开始普及。人工智能从理论落地正逐渐走入平常百姓家。人们对于ai的能力要求,以及在实际使用中产品稳定性,安全性的要求,也在逐渐提升。
安全性、稳定性的提升,实际是在倒逼对标注数据精确度提升的,这也就对数据精度有了更高的要求。曾经95%的数据精度就能“喂饱”的人工智能,开始需要更高精度的数据“喂养”,追求超高精度训练数据已然成为了ai落地的必要因素。
如果说以前的算法使用的通用数据集是粗粮的话,那现在算法需要的就是定制化的营养餐。企业若想进一步提升模型的落地能力,必然要逐渐脱离原来的通用数据集和互联网数据,积极投身于定制化数据采集当中,打造数据优势壁垒。
数据采集进入深水区:定制化数据采集成为数据获取层面的必要一环
众包采集和定制化采集是数据采集行业的两种常见模式。
众包模式的优势主要体现在样本的丰富性和多样性上,但对于行至今日的ai数据服务业务,通过众包模式解决所有数据采集需求并不现实。
首先,数据的安全性问题很难解决:平台用户提供的图片可能是未经合法授权的,作为平台方很难判断用户提供数据的来源。
此外,涉及到定制化需求的采集任务中,尤其是较为复杂的任务中,从众包用户采集到的数据往往差强人意,反倒增加了更多的审核成本。
更不用说有些采集需要在特定的场景内进行,具有一定的危险性(如辅助驾驶中对驾驶员行为进行采集),类似这样的采集任务通过众包非但达不到效果,还增加了采集用户的风险。
图:智能驾驶21区域定点识别采集
作为ai数据服务行业内唯一的独角兽企业,testin云测对这个问题感同身受。一开始,只是有一些ai企业找到testin云测,希望通过testin云测的众测平台做数据采集。但随着ai企业数据需求的不断进化,testin云测开始通过自建数据场景实验室和数据标注基地,打造专业的定制化采集和高质量的标注队伍,来帮助ai企业获取更多优质的特定场景数据。
场景实验室:深挖真实数据需求,搭配稳定被采样本
“场景实验室是testin云测布局高度定制化、多模态的ai数据服务的重要组成部分,借此能使得testin云测的交付能力与客户需求平行,甚至领先客户的需求一点点”,testin云测vp贾宇航说道。
领先需求“一点点”,需要的不仅是强大技术能力和搭建能力,更要有对应用场景深入的了解。
“在一个项目中,客户希望在不同光照条件和光照角度下采集玻璃后面的人脸数据”,贾宇航为我们举例道:“不同于以往常见的安防摄像头采集,这个项目中单是光源条件就分成了室内和室强光、逆光、倒光等一共24种光照条件,不仅如此,玻璃反光度、模特脸部遮挡比例值等都有严格的要求。”
对于这样的定制化采集需求,场景搭建虽然非常繁琐,但还谈不上困难。然而,ai数据服务的提供商绝不应该仅仅是帮助客户搭建场景,而是要帮助客户找到最需要的数据结果。在这个项目中,玻璃的反光程度不仅与玻璃的材质厚度有关,也跟光源大小、光源与玻璃之间的角度和距离等一系列变量有关。testin云测最终搭建了一个将近3000平米的场景以完成数据采集。
“只有深入理解了场景、深入理解了客户需求,才有可能提供给客户真实需要的数据。缺乏把握客户真实需求的能力将会给我们带来巨大的风险”,贾宇航总结道。
而面对越来越定制化的ai数据需求,仅仅拥有场景搭建能力也是不够的,没有稳定的样本储备,再高超的场景搭建能力也是空谈。
贾宇航为我们举了很“简单”的人脸表情采集的例子:“采集人脸表情是一件既简单又困难的事情。简单在于人群样本并不难找,而困难则在于对着摄像头切换不同表情并不是一件简单的事情,能够准确作出各种表情的人少之又少。例如‘痛苦’的表情,人类很难在没有外界刺激的情况下凭空表现出来。对于这样的需求,我们就需要更加专业,配合度更高的人群样本。场景实验室的第二个显著优势就是能够搭配稳定的备采人群样本。我们刚才提到的‘表情采集’项目最终是由在浙江横店的演员群体完成的。”
虽然被采人群在性别、年龄、人种等方面的丰富度很重要,但面对越来越精细的落地场景,人群样本的配合度更需要相应提高,如果考虑到长尾场景,甚至需要一些专业人士来参与采集,比如演员、残障人士等等。
不论是从最开始的“识别人的脸”到“苛刻条件下识别是谁的脸”,还是从以前的“识别表情”到“识别真实的表情”。我们总能感受到人工智能在朝着越来越细分的领域发展。
数据标注精度要求从95%上升到99%
为了算法落地,ai企业不仅需要定制化的数据采集来获得长尾场景的数据;同时对于标注数据的精度也需要进一步提升。正如ai工程师的座右铭“garbage in, garbage out”所描述的那样,对于模型精度要求的提高正在倒逼输入数据的质量进一步提高。
贾宇航为我们解释,“为了完成数据质量的跨越,我们选择自建数据标注基地以及系统化流程。”
与场景实验室的布局类似,testin云测在全国范围内也建立了数据标注基地。在这里,testin云测的技术和项目管理能力能够迅速转换,成为具体数据标注业务中的生产力。
贾宇航接着说道:“为了应对专业度日益提高的标注任务,自建的数据基地能够大幅提高数据标注的效率,在我们的标注平台上,标注人员使用统一的工具在标准化的作业流程中对数据进行标注,在一些复杂任务上,甚至可以做到多人协同标注。而在无形的层面上,技术还能够帮助我们迅速、深入地理解客户需求,降低沟通成本。”
这种技术能力还渗透到了testin云测的流程化管理中。通过标准化测试,标注云平台将已经标注完成的数据随机安插在标注员的标注作业中,实时把握标注人员对需求的掌握情况,从而减少了质检环节的压力,再加上云平台本身的辅助质检功能,能够更有效地保证数据的高质量输出。
“在路况信息数据的标注作业中,每一个图片数据包含着几十个属性分类,基于平台的协同标注,标注团队可以划分为几个标注小组,针对固定的几个属性进行标注,这样不但提升了标注员的效率,同时配合平台的标准化测试和辅助质检功能,还可以有效地对标后数据进行错标和漏标的筛查,从而确保高质高效的数据交付。”贾宇航表示。
未来:更加安全和个性化
人工智能正在逐渐从一些抽象的概念变成我们生活当中实际的应用,但阶段性地来看,ai数据数量和质量的瓶颈还将持续制约行业的发展。
对于ai行业当下的发展,贾宇航也没有掩饰自己的担忧:“行业内客观存在一些要求博天堂ag旗舰的版权归属甲方,但乙方依然售卖多份给不同客户的情况。而我们首先做的就是严格把控数据的私密性,让拥有数据成为企业的核心壁垒,不会存在倒买倒卖等行为。同时,我们内部有数据隔离、质量保障等一系列保护数据安全的方法,可以在确保企业数据安全的情况下,持续为数据采集和标注构建和优化自己的方案。”
尽管如此,贾宇航对于ai数据的未来依然充满信心:“我们认为无论是过去的移动互联网应用还是现在的ai应用都只是应用的一种,而我们想要做的事情就是帮助客户让其应用更有价值。从认识要用更加专业化的ai数据服务来解决越来越定制化的需求开始,我们已经在ai真正全面落地的征途上迈出了第一步。”