5 月 30 日,Xiaomi MiMo 官方大众号发文宣告,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表明,其在图片、视频、言语的通用问答和了解推理等多个使命上,大幅抢先同尺度标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 使命上比肩专用模型,为 Agent 年代而来。
MiMo-VL-7B 在坚持 MiMo-7B 纯文本推理才能的一起,在多模态推理使命上,仅用 7B 参数规划,在奥林匹克比赛(OlympiadBench)和多个数学比赛(MathVision、MathVerse)大幅抢先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也逾越闭源模型 GPT-4o。