苹果推出 300 亿参数 MM1 多模态 AI 大模型 可识别图像推理自然语言
美女机器人 2025-03-25 14:57www.robotxin.com机器人女友
苹果公司近日于学术平台ArXiv发布了一篇震撼人心的研究论文,名为《MM1:Multimodal LLM预训练的方法、分析与洞察》。这篇论文详细介绍了一款名为“MM1”的多模态大型模型。此模型具有三种参数规模版本:30亿、70亿和300亿参数,拥有图像识别和自然语言推理的先进功能。
据IT之家报道,苹果研究团队在这篇论文中主要探讨了MM1模型的实验应用。他们通过精确控制各种变量,深入探索了影响模型效果的关键因素。研究结果显示,图像分辨率和图像标记数量对模型性能有着显著影响,而视觉语言连接器的影响则相对较小。不同类型的预训练数据也对模型性能产生了不同的影响。
研究团队在模型架构决策和预训练数据上进行了创新性的小规模消融实验。基于混合专家架构(Mixture of Experts)及独特的Top-2 Gating方法,他们成功构建了MM1模型。这款模型不仅在预训练指标上取得了最佳性能,而且在一系列多模态基准上进行监督微调后,仍能保持其出色的竞争力。
值得注意的是,研究人员对MM1模型进行了广泛的测试,发现其在实际应用中的表现令人瞩目。尤其是MM1-3B-Chat和MM1-7B-Chat版本,它们在VQAv2、TextVQA、ScienceQA、MMBench、MMMU和MathVista等多个领域中表现突出,超越了许多市场上的同类模型。对比谷歌的Gemini和OpenAI的GPT-4V等先进模型,MM1模型的整体表现仍稍逊一筹。尽管如此,这项研究仍为多模态大模型的未来发展提供了重要启示和潜力。
上一篇:梅县一建材企业通过技改实现生产自动化
下一篇:没有了