数据采集标注:人工智能产业落地的「至强」后

机器人培训 2020-02-29 08:49www.robotxin.com机器人培训

这两年,人工智能越来越火。

 

大到机场、火车站、商超、街道上的人脸识别设备;小到我们手机APP的各种算法,以及Siri、小度、小爱等语音助手,都与人工智能相关。

 

虽然人工智能应用的越来越普及,可我们还是会经常遇到APP推送不精准,语音助手像个“傻瓜”,人脸识别系统频繁出乌龙等现象……

 

乌龙闹剧董明珠“闯红灯”。实际是公交巴士贴着董明珠头像,刚好被摄像头拍到,人工智能系统误以为是董明珠闯了红灯。

 

我们畅想的人工智能,是科幻电影中能够“想我所想”的人工智能。可我们面对的人工智能,却是频繁出错,甚至是难以落地的人工智能。

 

那么,面对这些问题,我们要如何解决?我们又要做哪些努力,才能让人工智能更加精准呢?

 

制约人工智能发展的要素

 

总有朋友认为,人工智能不准是因为训练人工智能的数据不准。其实,这个观点说对也对,但也并非全对。

 

数据确实是制约人工智能发展的重要一环。可制约人工智能发展的要素并不只有数据,算法、算力也是极其重要的因素。

 

如果以一辆汽车来比喻,算法是汽车的设计理念,算力更像是汽车的发动机,而数据则是驱动骑车前行的燃料。

 

光有燃料,没有好的发动机和设计,汽车自然跑不快。同样,光有发动机,没有燃料,汽车也无法不动。

 

按理说,三位一体的协同发展肯定是最好的。可当前人工智能公司的现状却是很多公司已经具备了先进的算法和优质的硬件,产品不能落地还真是燃料的问题。

 

Testin有数总经理贾宇航在接受采访时表示

 

“人工智能时代到来以后,越来越多的产品、APP、硬件成为人工智能落地的载体。在人工智能落地的过程中,很多企业受制于数据难题,在产品迭代、升级的过程中遇到了较大阻力。”

 

而关于人工智能企业面对的数据难题,贾宇航重点提到了两个

 

  • 很多人工智能企业没有数据或可用的数据实在太少。这些企业在数据采集环节,就遇到了大问题。
  • 很多人工智能公司好不容易采集到了大量数据,却无法将数据标注精准,也找不到可靠的、拥有相关经验的人来标注。总要面临数据如何筛选、如何使用的难题。

 

那么,针对这些问题,人工智能企业又该怎么办呢?是否有一种办法,能够帮助人工智能企业解决当前的数据难题呢?

 

数据要如何采集、如何用?

 

其实打从人工智能出现的那一天起,数据采集、标注等问题,就得到了诸多厂商的重视。
 
早在2005年,亚马逊就建立了Mechanical Turk论坛,希望通过众包模式,解决人工智能公司的数据处理需求。

 

但随着人工智能的逐步发展,AI落地已经成为行业发展的一大重要阶段,相应的数据服务也迈向了场景化以及精细化时代。

 

贾宇航介绍称,Testin有数目前主攻自动驾驶、银行、保险和安防领域,为其提供定制化的数据采集、标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。
 
“比如自动驾驶厂商需要采集司机的疲劳状况,却很难把设备安装到大街上的车里面。因为这样采集到的数据不仅不标准,还会涉及司乘人员的隐私问题。
 
但Testin有数却可以根据客户需求,在数据采集中心搭建模拟场景,利用专业的备采人群和软硬件设备,采集丰富的样本信息,满足客户的多种需求。”
 
 Testin有数定制化采集场景示意图
 
作为AI数据服务行业的领航品牌,Testin有数拥有自建的数据基地体系,所有标注员统一管理,规范生产,能够在保证数据准确率的,有效保证标注作业的信息流转。
 
Testin有数还开发了自研标注平台,支持标注类型定制化开发,让标注类型功能更为全面,保证标准化业务可以高效运行。
 
           
Testin有数标注平台示意图
 
当前,国内很多数据标注公司,还是典型的劳动密集型企业。这些企业为了节省人力成本,还在使用培训半天即可上岗的临时工,做的也是数据标注行业最简单的事情。

 

可Testin有数很早就看到了传统模式的弊端,早已通过采集基地的建立、标注平台的搭建和职前60天的优质培训,摆脱了标注行业的低端同质化竞争,实现了技能密集型企业的转型。
 
贾宇航始终认为“劳动密集型的数据服务,过于依赖劳动力,企业天花板较为明显。这类企业对数据平台的建设不够重视,从业人员培训时间较短,数据标注的质量一般。

 

或许腰部公司会因为成本等原因,选择这类公司的服务,可头部公司一定会选择优质的数据标注厂商。因为只有优质的数据才能催生优质的人工智能,这是行业发展的基本规律。”

 

高质、精准的数据才是行业的未来

 
一个行业的成熟,一定离不开行业内成熟企业的推动。人工智能企业要想快速发展,必然离不开数据采集、标注行业的整体进步。
 
多年以前,我们经常会看到知名人工智能公司把数据采集、标注的服务外包给非洲公司,甚至有媒体在探访非洲数据标注工厂后感叹“贫民为硅谷人工智能打工赚钱。”
 
其实,数据标注工厂建立在非洲等欠发达地区,就是为了获取廉价劳动力。正因如此,数据服务也被外界认作是人工智能金字塔上最底层的工作。
 
可金字塔的最底层,虽然不像塔尖那样耀眼,可底层却是体积最大、也是支撑金字塔屹立不倒的坚实根基。
 
在人工智能企业草莽生长的阶段,地基不牢的企业尚可借力发展。可当企业成长的越来越快,企业搭建的数字化尖塔越来越高,根基是否牢靠直接决定了企业的发展上限。
 
这也是为什么,从一开始Testin有数就对标注人员培训、对标注中心搭建、对数据采集平台开发极为上心的重要原因。
 
因为贾宇航始终相信,高质、精准的数据才是行业的未来。“当一般的数据公司还在争夺地上的‘六便士’时,Testin有数已经奔往了天上的‘月亮’。”
 
目前,Testin有数已经在华东、华北、华南设有数据交付中心和数据采集、标注基地,并成功为数百家企业提供AI数据服务。
 
与之相证的是,国内相关调研报告的结论也一片向好,数据标注行业正在稳步上行。
 
据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
 
这一片蒸蒸日上的势头,不仅源于飞速发展的人工智能公司带来了大量需求,同样也离不开Testin有数这些默默耕耘的数据服务厂商,持续为人工智能行业提供着燃料。
 
确实,当前的人工智能还存在“不准”的现象,可我们却能看到,几年前,阿尔法狗在围棋领域完爆人类。而就在过去几个月内,此前发展了20多年都没被大众了解的RPA也突然火了。
 
为什么阿尔法狗能击败人类?为什么RPA突然爆火?这必然离不开人工智能算法的更新演进。可在技术成熟的背后,像Testin有数这样提供数据采集、标注服务的厂商也是功不可没。
 
正是数据采集与标注的成熟、精准,才能训练出阿尔法狗的精准算法。正是数据行业的不断积累,才让OCR、NLP等人工智能技术在今年变得成熟,从而推火了沉寂已久的RPA。
 

诚然,人工智能的前路还无尽漫长,但从以Testin有数为首的数据采集、标注厂商的发展方向来看,我们已经看到了行业未来的蓝图。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by