人工智能大火,BasicFinder要做数据采集、加工的“送水人”

生活知识 2025-01-07 18:59www.robotxin.com生活百科

眼前的女员工,正专注于将古老的手写德文转换为现代的印刷字体。经过严谨的培训,她已熟练掌握这项技能,每秒钟至少能流畅转换一个字母。要知道,即便在德国的本土,能够完全理解和识别这种古老字体的人也是凤毛麟角。完成转换后,这些文字将被送往OCR公司,作为机器学习的重要数据资料。

在其他工作区域,员工们正忙于对图片中的汽车可行驶区域进行精确标注。这些标注成果将被广泛应用于无人驾驶技术的研发场景。

正如传统的生产线一样,数据也在流水线上被精细地分解、加工。这一切都得益于人工智能行业的蓬勃发展。据Tractica预测,到2024年,人工智能市场的规模将达到惊人的111亿美元。对于人工智能而言,高质量的数据是其发挥真正价值的关键。前端的数据采集和加工环节已经成为新的商业热点。

数据标注并不是一个全新的产业。例如,“海天瑞声”这家成立近20年的公司已经在语音领域取得了显著的成就。虽然人工智能的概念最早可以追溯到20世纪50年代,但之前的主流技术并未达到深度学习的阶段,因此数据的使用也相对较少。目前在这个领域里,有许多知名的公司如“数据堂”、“爱数智慧”、“泛涵科技”和“丁火智能”等。而今天我们要重点介绍的BasicFinder也是这个赛道上的一员。

正如我们所见,数据标记是一个以人力为主的劳动密集型行业。对于这类公司来说,人员效率和交付质量是至关重要的。

许多公司选择采用众包模式来进行数据标注,亚马逊每天都会发布任务给墨西哥和印度的兼职人员。但对于那些需要高精度的任务来说,众包模式并不适用。BasicFinder创始人杜霖表示,他们的公司采用的是自营模式,目前拥有超过12个数据工厂和2000余名经过培训的数据操作员。为了保证质量,这些数据工厂有的是参与投资,有的是深度合作。对于音频数据,BasicFinder会挑选听力出色的技术员,筛选通过率仅为30%。

在数据标注的过程中,BasicFinder采用流水线式的作业方式。从最前端的任务定义、数据采集,到中间的清洗、加工,以及后端的质量检测、训练迭代等各个环节都有明确的分工。他们开发了一套系统来辅助人工提高效率。

以视频标注为例,系统会将视频的每一帧切割成单独的图像,并自动去除没有人或身体不全的画面。接下来,工人会进行标记工作。如果画面中的人物较多,系统会将画面分割后分配给不同的标记员,以确保标记的准确性与效率。在无人便利店的项目中,BasicFinder系统会提供辅助线帮助人工进行标记,大大提高效率。

完成数据标注后,还有一个不可或缺的步骤是校验。这是一个不能标准化的事情,BasicFinder目前采用人工复查的方式。相对于标注过程来说,复查的时间大约在1:1到1:3之间。

最后说到数据安全层面的问题时杜霖强调客户的数据素材在交付后会被严格保密处理确保不会得到复用保证客户的数据安全如果企业有非常严格的需求BasicFinder还提供隔离标记房并且房内有监控客户可以随时查看员工作业过程以及每一台设备的标记情况这样客户可以更加放心地合作同时杜霖还表示他们跟员工或者采集人会签订授权协议以保障数据使用的合法性当然对于一些公开的数据集BasicFinder也会自建数据库供企业采购满足市场需求的需求以满足客户的各种需求保证高质量的数据输出同时杜霖还透露他们正在开发一个工具平台客户可以通过这个平台简单组合填写相关参数来定义任务平台会将任务分配到数据工厂或个人同时提供工具提升作业效率客户可以在后台监控这些信息不合格的数据也可以及时返工以确保高质量的数据输出在这个平台上数据加工变得更加便捷高效为客户带来更好的体验和服务。未来系统迭代的核心无疑是提升效率。对于是否会用机器替代人力进行标记的问题,杜告明确指出不会。因为人工标记的数据误差符合正态分布,能更全面地反映真实情况,而机器标记则趋于同一水平,用这种数据训练机器并不利于AI的最终效果。

关于收费模式,BasicFinder采取项目制,根据样本耗时估算人力成本。目前,该公司的订单主要聚焦于数据标注,国内外客户比例均衡,包括中科院、搜狗、中国移动、华为等国内知名企业,以及国外知名科研院所。这些客户多在运用深度学习框架进行研发,对数据需求量大,且客户的算法相对成熟,任务往往具有个性化特点。据悉,该公司最高订单定价达百万元,且不少用户会多次下达不同订单。

对于因深度学习兴起的数据服务商而言,潜在的威胁可能并非来自竞品,而是那些仅需少量数据就能达到预期效果的算法,如增强学习和迁移学习等。公司对此保持高度关注,虽然这些新技术尚未成熟,难以大规模应用,但它们也需要基础学习数据。公司可能会提供包含人工操作的数据以支持这些算法的发展。

BasicFinder自2015年注册成立至今,核心研发团队保持在20人左右。创始人杜霖是一位连续创业者,早在上海交通大学计算机系读大二时就开始了创业历程。他开发了一款SEM搜索引擎自动化营销工具并成功将其以数百万美元的价格出售给一家土耳其电子商务网站。之后,杜霖从事了数年TMT创投工作,最终在2015年预感到深度学习的潜力及对数据的需求后成立了BasicFinder。该公司已顺利完成两轮融资,计划在今年底或明年初进行下一轮融资。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by