手机上能跑的 GPT-4V！面壁发布端侧最强多模态小钢炮 26实时视频理解首次上端

新闻中心 News 分类>>

联系天博体育 Contact us

24小时服务热线：0898-08980898

公司地址：江西省南昌市天博·体育(中国)官方网站-TB SPORTS
客服QQ：17062012
传真：400-25092010

您所在的位置是：首页 > 新闻中心 > 公司新闻

2024-08-11 00:53:26

浏览次数：次

　　手机上能跑的 GPT-4V！面壁发布端侧最强多模态小钢炮 26实时视频理解首次上端在多模态能力的加持下，MiniCPM-V 2.6 犹如长了一双「眼睛」，能够实时看到真实世界。在开启飞行模式的情况下，搭载该模型的端侧设备能够精准地识别面壁智能公司的室内场景。

　　从面壁智能公司的 Logo、到植物、办公桌、饮水机等物品，MiniCPM-V 2.6 的物品识别能力表现得毫无压力，甚至可以说是游刃有余。

　　面对小票繁多的记账或报销流程，只需拍照上传至 MiniCPM-V 2.6，它不仅能够识别出每张小票的具体金额，还能计算出总和，极大地简化了整个流程。

　　得益于其先进的 OCR 和 CoT（思维链）技术，MiniCPM-V 2.6 不仅能准确捕捉小票上的金额，还能以清晰简洁的方式呈现解题过程：

　　比如面对一段 1 分钟左右的天气预报视频，MiniCPM-V 2.6 可以在无声的条件下，用「肉眼」识别并描述不同城市的具体天气情况。

　　以 GPT-4V 经典的官方演示——调整自行车车座为例，MiniCPM-V 2.6 能通过多轮对话清晰指导用户调低自行车车座，并根据说明书和工具箱推荐合适的工具。

　　又或者， 2G 网速的你看不懂年轻人广为传播的梗图，那不妨让其耐心地给你解释梗图背后的槽点。

　　甚至它还能比人类更有幽默细胞，捕捉到梗图中的潜台词。作为程序员的你也许看着这张图，笑着笑着就哭了。

　　Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度即图像信息密度，直接决定了多模态模型实际的运行效率，数值越大，模型运行效率越高。

　　新一代小钢炮 MiniCPM-V 2.6 交出优秀成绩单的背后，主要归功于其采用了统一高清视觉架构。

　　例如，OCR SOTA 能力将 MiniCPM-V 单图场景的「180 万高清图像解析」进行能力迁移和知识共享，无缝拓展至多图场景和视频场景，并将这三种视觉理解场景统一形式化为图文交替的语义建模问题，共享底层视觉表示机制，实现相比同类型模型，视觉 token 数量节省超过 75% 。

　　在 OCR 信息提取的基础上，MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT（思维链）的复杂推理。

　　在 AI 可信度方面，MiniCPM-V 2.6 以 8.2% 的幻觉率，延续了小钢炮系列的传统优势。此外，面壁 RLAIF-V 的对齐技术，以及 Ultra 系列对齐技术的应用等技术也都是藏在 MiniCPM-V 2.6 背后的黑科技。

　　官方数据显示天博TB，小钢炮系列下载量已破百万。从开启端侧部署，多模态能力先河，到最强端侧多模态模型，再到端侧全面对标 GPT-4V 的新时代，面壁智能只用了短短半年的时间。

　　给面壁智能更多时间、也给国内场外大模型厂商更多时间，我们坚信未来面壁智能将继续推出更多优质的端侧 AI 模型，与国内外大模型厂商一同推动端侧 AI 的发展。