北京智源推出通用视觉 AI 模型 SegGPT 可自动追踪并分割影音中的物体

机器人培训 2025-03-27 15:28www.robotxin.com机器人培训

IT之家报道，在2023年中关村论坛人工智能大模型发展论坛上，北京智源人工智能研究院发布了一款名为SegGPT的通用分割模型。这一模型是智源通用视觉模型Painter的衍生产品，拥有强大的上下文推理能力。

▲图片来源：Arxiv

SegGPT模型具备惊人的适应性，能够在训练完成后仅通过提供示例，就完成对各种分割任务的推理。无论是图像还是视频中的实例、类别、零部件、轮廓、文本、人脸，还是医学图像，都可以通过视觉提示词（prompt）轻松完成分割。

更令人兴奋的是，SegGPT支持任意数量的视觉提示推理，能够以第一帧图像和对应的物体掩码作为上下文示例，实现自动视频分割。它还能利用掩码的颜色作为物体的ID，进行自动追踪，这一功能无疑大大增强了模型的实用性和效率。

值得一提的是，IT之家查询得知，Meta也发布了基于AI的Segment Anything Model（SAM）模型，该模型具备识别和分离图像和视频中特定对象的能力。与此威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出了SEEM模型。这些模型都借助不同的视觉提示和语言提示，实现一键分割图像和视频。对于想要深入了解这些模型的读者，可以通过IT之家提供的链接访问相关论文。

SegGPT模型的推出，标志着人工智能在图像和视频分割领域的又一重要进步。其强大的功能和广泛的应用前景，让人对其未来的表现充满期待。

上一篇：第四届中国机器人峰会报名通道正式开启下一篇：没有了

北京智源推出通用视觉 AI 模型 SegGPT 可自动追踪并分割影音中的物体

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术