北京智源推出通用视觉 AI 模型 SegGPT 可自动追踪并分割影音中的物体

机器人培训 2025-03-27 15:28www.robotxin.com机器人培训

IT之家报道,在2023年中关村论坛人工智能大模型发展论坛上,北京智源人工智能研究院发布了一款名为SegGPT的通用分割模型。这一模型是智源通用视觉模型Painter的衍生产品,拥有强大的上下文推理能力。

▲图片来源:Arxiv

SegGPT模型具备惊人的适应性,能够在训练完成后仅通过提供示例,就完成对各种分割任务的推理。无论是图像还是视频中的实例、类别、零部件、轮廓、文本、人脸,还是医学图像,都可以通过视觉提示词(prompt)轻松完成分割。

更令人兴奋的是,SegGPT支持任意数量的视觉提示推理,能够以第一帧图像和对应的物体掩码作为上下文示例,实现自动视频分割。它还能利用掩码的颜色作为物体的ID,进行自动追踪,这一功能无疑大大增强了模型的实用性和效率。

值得一提的是,IT之家查询得知,Meta也发布了基于AI的Segment Anything Model(SAM)模型,该模型具备识别和分离图像和视频中特定对象的能力。与此威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出了SEEM模型。这些模型都借助不同的视觉提示和语言提示,实现一键分割图像和视频。对于想要深入了解这些模型的读者,可以通过IT之家提供的链接访问相关论文。

SegGPT模型的推出,标志着人工智能在图像和视频分割领域的又一重要进步。其强大的功能和广泛的应用前景,让人对其未来的表现充满期待。

上一篇:第四届中国机器人峰会报名通道正式开启 下一篇:没有了

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by