面壁智能宣布开源 MiniCPM-V 2.6 模型,端侧AI多模态能力增强
【环球网科技综合报道】8月7日消息,人工智能公司面壁智能宣布正式开源其最新的端侧AI多模态模型——MiniCPM-V 2.6。官方称 MiniCPM-V 2.6 模型仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩。
据面壁智能官方介绍,MiniCPM-V 2.6 模型在多项功能上实现了首次在端侧的部署,包括实时视频理解、多图联合理解、多图ICL(上下文少样本学习)视觉类比学习、多图OCR等。这些功能的加入,使得端侧模型能够更贴近复杂的真实世界场景,充分发挥其传感器富集、贴近用户的优势。
据介绍,在模型效率与性能方面,MiniCPM-V 2.6模型具有极高的像素密度(Token Density),比GPT-4o的单token编码像素密度高两倍,从而在端侧设备上实现了极高的运行效率。量化后的模型仅需6GB内存,端侧推理速度高达每秒18个token,比上代模型快33%。此外,该模型还支持多种语言和推理框架,进一步提升了其应用的广泛性和灵活性。
值得一提的是,MiniCPM-V 2.6 模型在OCR能力上也延续了其一贯的SOTA性能水平,并进一步覆盖到单图、多图、视频理解等多个场景。通过统一的高清视觉架构,该模型将OCR能力进行迁移和知识共享,实现了从单图到多图及视频的流畅拓展,显著节省了视觉token的数量和资源消耗。
目前,MiniCPM-V 2.6 模型的开源地址已经公布在GitHub和HuggingFace平台上。