合成数据集为何如此重要?能为AI行业带来哪些便
这类公司需要大量带有标签的历史示例来训练AI系统,尤其是那些使用图像和视频的系统。这种需求催生了一个专门帮助其他企业注释数据的子行业。还有另一种方法来产生足够的数据来训练AI系统制造它。
实质上,这就是一家快速成长的以色列初创公司DataGen专门从事的工作。该公司使用自己的系统来创建所谓的“合成数据”,如人工生成的静止图像和视频图像,然后交由客户用来训练自己的AI。
该方法仅需几个小时就可为其客户生成定制的合成数据集,相比之下,数据标签公司通常需要几个月来策划等效的现实世界视频或图像库。
除了速度优势之外,有了合成数据,公司不必担心存在于数据集中的任何个人识别信息,也不必担心数据如何收集的道德考量。随着世界上越来越多的人口受到数据保护法的保护,这一特性变得越来越重要。Gartner曾表示,到2023年,全球65%的个人数据将受到某种隐私监管,而去年这一比例仅为10%。
DataGen的联合创始人Ofir Chakon(首席执行官)(左)和技术负责人Gil Elbaz(右)创建了所谓的综合数据来训练AI系统。
DataGen的联合创始人Ofir Chakon(首席执行官)(左)和技术负责人Gil Elbaz(右)创建了所谓的综合数据来训练AI系统。
除此之外,在的训练中,数据偏差仍然可能是一个问题。在某些情况下,合成数据集可以简单地复制真实数据集中发现的相同偏差。不过该公司有可能消除偏见的方法,客户可以根据自己的意愿调整其生成的数据集,修改数据集里的任何参数,从而允许创建更多示例以确保AI系统知道如何处理这些异常或罕见情况。例如,当一个机器人在仓库周围导航时使用摄像机“看”,如果发生停电,仓库低级应急照明开关打开,会发生什么?这是一种罕见情况,而在现实世界的数据集中,要获得这些罕见案例的例子要困难得多。
通常情况下,只有一小部分可用数据被保留用于测试人工智能。人们很难测试足够多的罕见情况,以了解人工智能在现实世界中遇到相同或类似情况时的表现如何。合成数据集的出现,解决了过去无法解决的问题,或成为整个AI行业的推动者。
声明本文版权归原作者所有,转载请注明出处,请勿转载至外网或用于商业用途。
机器人技术
- 800多家中国机器人企业近半无产品
- 看看机器人在和你抢什么
- 马化腾、李彦宏等科技企业大佬们在贵阳大数据
- 机器人投入汽车产业园 探索机器人产业链
- 特斯拉 Cybertruck 电动皮卡换上黑色外衣,有望为
- 沁峰如何成为冲压机器人细分赛道国家专精特新
- 运动机器人智障了吗?
- Rivian 将投资 50 亿美元在佐治亚州建造电动汽车工
- 调查发布 - 制造业在疫情防控常态化下突围——
- 未来工业机器人的市场什么样的变化
- 进博会特斯拉展台最全预测 沉浸式体验智能制造
- 美国将中国电动汽车关税提高到 100%,极星 CEO 对
- DeepMind 联合创始人:交互式 AI 才会“改变人类”
- 把握发展趋势 推动机器人产业高质量发展
- AI入侵教师职业,这五类产品发展迅猛
- 他们用AI和食用植物创造“人工肉食”,你想尝尝