如何用200美元打造一款听话的能人脸识别的无人机?
本文主人公是Lukas Biewald,他是CrowdFlower的创始人,曾被《Inc.》杂志评为杰出企业家。CrowdFlower是一个大数据平台,专注于为企业提供训练数据并推动人机交互机器学习的发展。Lukas毕业于斯坦福大学,拥有数学学士学位和计算机科学硕士学位。他曾在Yahoo日本搜索团队担任主管,之后在Powerset担任高级数据科学家,该公司于2008年被微软收购。
在探索深度学习与廉价硬件的交汇点,Lukas迈出了一步新的尝试。在成功打造了一款图像识别机器人后,他决定进一步研发一款能够进行面部识别并响应语音命令的自动化无人机。
在选择预制无人机的道路上,Lukas遇到了诸多挑战。他深知编程无人机的难度,于是决定从组装无人机零件开始。如同许多DIY项目一样,自己组装无人机成本高昂且效果并不理想。他决定寻找一款更加经济实惠且易于编程的预制无人机。
经过深入调查,Lukas发现了Parrot AR Drone 2.0无人机。他认为这款无人机对于业余爱好者来说非常理想,价格适中且具备编程功能。通过购买二手无人机,Lukas能够以更低的价格获得这款机器。尽管其飞行稳定性可能不如更昂贵的新款无人机,但Parrot AR Drone 2.0配备了一个好用的node.js客户端库,非常适合开发者进行开发。
Parrot AR无人机的耐用性也让Lukas印象深刻。在测试自动化程序的过程中,无人机多次撞击墙壁、家具、室内植物和客人身上,但依然能够稳定飞行。
编程无人机的过程也充满了挑战。与地面机器人相比,无人机的电池续航时间较短,需要频繁充电。为了解决这个问题,Lukas建议购买多块备用电池,以便在测试时能够持续使用。
在编程语言的选择上,Javascript成为Lukas的理想选择。他感叹无人机飞行中会遇到许多异步事件,而Javascript能够轻松应对。相较于过去使用C语言处理线程和异常的经历,Javascript的易用性让他印象深刻。他希望有更多的开发者为其他无人机平台建立Javascript开发包,以简化处理不确定性的开发过程。
在架构方面,Lukas决定采用一种将逻辑运行在笔记本电脑上、机器学习在云端进行的架构。他认为这种架构对于当前的业余无人机开发项目来说非常可行,并且相较于直接在树莓派硬件上运行神经网络,这种架构的延迟更低。
在云端机器学习API的选择上,微软的认知服务API成为Lukas的首选。这是唯一一个提供定制面部识别功能的API,让他能够实现更加个性化的无人机功能。
为了让编程过程更加便捷,Lukas分享了入门指南和有趣的技术细节。通过利用ardrone-wpa2项目,无人机可以加入个人的WiFi网络,省去了频繁切换网络的麻烦。远程登录无人机的操作也充满了乐趣。通过打开终端并直接登录无人机,Lukas展示了这一过程的示例。
翱翔在科技之巅:Parrot AR无人机的探索之旅
在无数次的试飞与调整之后,我发现我的Parrot AR无人机在安装安全壳的情况下飞行更为稳定。为了更自由的飞行体验,我决定舍弃安全壳。虽然无人机在无壳状态下似乎飞得更流畅,但它无疑更加危险。当无人机遭遇障碍物时,螺旋桨容易受损,家具上也会留下不可磨灭的印记。
通过网页控制飞行已成为现实。借助Express.js框架,我为无人机构建了一个美观且功能强大的web操作界面(如图所示)。一个简单的按钮即可发起AJAX请求,轻松操控无人机。
获得无人机视频流的过程同样令人兴奋。我利用AR无人机库,通过我的网络服务器从无人机摄像头中连续拉取PNG图片。这样,我就能将实时的画面传输到我的网站,让观看者如同身临其境。
在无人机图像上运行人脸识别是一项前沿技术。Azure的面部API强大且易于使用。它不仅能识别上传的照片,还能惊人地准确猜测年龄和性别。延迟时间仅为约200毫秒,对于这样的智能功能来说,费用1.5美元/1,000次请求显得非常合理。
我也尝试通过语音识别来控制无人机。并非语音识别本身具有挑战性,而是如何将音频流从网页传输到本地服务器,以符合微软的Speech API的要求。一旦成功采集到正确频率的音频,这个API就能轻松工作,且价格对于爱好者来说几乎可以忽略不计。我使用RecordRTC库进行网络音频录制,并通过FFmpeg程序处理音频采样点,将其合并为一个通道后上传到微软。
为了增加无人机的自主性,我使用ardrone-autonomy库为其绘制自动寻径地图。尽管我的妻子建议我在更为宽敞的空间试飞无人机(比如车库),以避免家具和植物的损伤,但我依然在我的“实验室”里不断探索(如图)。在这里,我尝试让我的无人机能够自主起飞、旋转并寻找目标。
无人机的编程之旅充满趣味和挑战。结合新的图像识别技术,我们可以将其应用于各个领域,从观察地面植物到在墙壁上作画。虽然Parrot无人机可能并不适合室内小空间飞行,但更高级别的无人机和更完善的应用将让这一切变为现实。随着技术的发展,无人机会变得更加稳定,而类似的应用也将大量涌现。
微软的认知服务云API表现超乎预期。尽管我曾担心无人机的摄像头和螺旋桨噪音会影响面部识别和语音识别,但实际表现却好得多。延迟问题也没有我想象中的严重。使用云计算处理实时图像流似乎是一种合理的架构选择,它可能是许多应用的未来之路。通过不断的探索和创新,我们将开启一个全新的无人机时代。
家用机器人
- 如何用200美元打造一款听话的能人脸识别的无人
- 2024年工业机器人展览会安排是怎样的?
- 李群自动化借助通过群晖构建边缘存储,高效管
- AI引领全球未来发展趋势至2025影响与概览
- 奇魂AI发布《基于人工智能的仿生机器人应用》研
- 顶天立地做科研,东大智造机器人闪耀太空
- 乐高机器人的拼法,乐高机器人怎么拼才帅
- 机器人按功能分为哪三类,机器人按系统功能可
- 机器人编程教什么,机器人编程课学什么
- 什么是人工智能,什么是人工智能的核心
- 经济报告2025前瞻热点趋势分析及其影响概览
- 上海科创趋势报告2025年动力引领风潮,展现前沿
- 帮助客户解决智造难题,纳博特斯克的精密减速
- 机器人成焦点:十大重点内容带你看懂微软开发
- 数据科学、机器学习、人工智能,究竟有什么区
- 封杀还是接受?人工智能的未来需要思考