13个榜单SOTA！明略科技(2718.HK)正式开源GUI-VLA模型Mano-P 1.0

作者：

在

近日，明略科技正式开源自研 GUI 感知智能体模型 Mano-P 1.0。Mano-P 具备 GUI 感知、理解、规划、操作与验证能力，可通过纯视觉方式直接理解并操控桌面软件、网页界面及更复杂的图形化工作流，并支持在 Apple M4 芯片设备上本地运行。

Mano-P 让 AI 打破了“只看不做”的局限，能够直接在真实的图形界面中跨平台执行复杂任务。该项目以 Apache 2.0 协议开源，完整代码公开可审计，支持商业使用与二次开发。

通过提供纯视觉理解与本地执行能力，Mano-P 赋能个人开发者与企业组织能够以低成本构建专属的个性化 AI，在保障数据主权的前提下，正式迈入“私有化”的个人 AI 时代。

纯视觉驱动

打通复杂业务流的“最后一公里”

在现有技术架构下，自动化操作往往受限于底层 API 接口调用、CDP 协议或网页 HTML 解析，一旦面对非标准应用或跨系统协作时便显得力不从心。Mano-P 以纯视觉理解为核心技术范式，不依赖外部接口与协议，能够直接理解并操控桌面软件、3D 应用及复杂的专业工具，从根本上打破了传统基于浏览器的生态边界。

同时，Mano-P 可为现有 Agent 生态提供关键的执行能力底座。目前，Mano-P 可通过 skill 形式无缝接入OpenClaw 等 AI Agent。强强联合下，Agent 可以无缝穿梭于多窗口系统和跨应用的工作流中，顺滑地执行点击、文本输入、窗口切换及视觉验证等闭环动作。

这一突破解决了长期困扰 Agent 工作流的人工干预瓶颈，使模型不仅能胜任全自动应用的构建测试，更能向复杂的商业场景延伸，实现复杂任务的全程自主执行。

13 个榜单屠榜式 SOTA

刷新GUI专用模型性能天花板

为确保前沿技术在端侧设备的普惠可用，Mano-P 采用了双版本交付架构：由 72B 完整模型探索并证明技术上限，同时提供 4B 量化模型（w4a16）以满足极致的端侧部署需求。

Mano-P 1.0 以 72B 参数量的完整模型版本，在全球多模态领域的 13 个权威基准测试榜单中，实现了针对小尺寸模型的屠榜式 SOTA 领先。其能力矩阵全面覆盖了 GUI Grounding、CUA（计算机使用代理）、多模态感知认知、视频理解以及长上下文学习等关键维度，确立了端侧 GUI Agent 的性能标杆。

图片来源：明略科技

在业界权威的 OSWorld 专有模型基准测试中，Mano-P 72B 模型以 58.2% 的任务成功率位列全球第一，领先第二名 opencua-72b（45.0%）多达 13.2 个百分点。此外，在 ScreenSpot-V2、MMBench、UI-Vision等评测体系中，Mano-P 同样以绝对优势拔得头筹。

卓越的性能离不开底层的技术创新。Mano-P 引入了 SFT（监督微调）、离线强化学习与在线强化学习的三阶段渐进式训练架构，并配合专有的 GSPruning 视觉 Token 剪枝技术，实现了端侧推理效率的飞跃。

在配备 Apple M4 Pro 芯片的设备上，4B 量化模型可实现高达 476 tokens/s 的预填充速度与 76 tokens/s 的解码速度，峰值内存占用仅为 4.3GB，完美适配主流边缘设备的算力与存储限制。

可端侧本地部署

实现物理隔离级数据保护

随着 AI 深入核心业务流，数据隐私与合规性成为企业决策的核心考量。Mano-P 可进行本地端侧部署，数据零上云，通过“纯视觉理解 + 本地执行”的架构，能够实现数据处理与外部网络的物理隔离。

在本地模式下，模型可直接在 Mac mini / MacBook（M4 芯片及以上，32GB+ 内存）上运行，或使用 Mano-P 算力棒连接（通过 USB 4.0）。系统的屏幕截图、业务流转数据及任务指令均在本地闭环，从源头上杜绝了面向云端服务器的传输风险。

同时，Mano-P 具备强大的离线长任务自主规划能力。在无网环境下，Mano-P同样可以自主推进复杂业务流程，并完成过程中的决策与纠错。这一特性不仅重塑了人机交互的信任边界，更使得端侧 AI 能够真正进入高安全性、高隐私要求的企业级生产环境。

践行全面开源战略

加速 Personalized AI 生态繁荣

技术的价值在于广泛的应用与生态的共建。Mano-P 遵循 Apache 2.0 协议正式开源，完整客户端代码全面公开并支持严格审计，允许商业化应用与二次开发。

为降低企业与个人用户的接入成本，Mano-P 设计了三种开箱即用的使用形态，精准覆盖不同技术栈的用户群体。无需繁琐配置复杂的 API 密钥，用户均能以极低门槛构建专属的高性能 GUI 智能体。

按照既定开源规划，明略科技本次率先开源 Mano-CUA 核心技能，用户可将其便捷配置到 OpenClaw 或 Claude Code 中，以构建更智能的 CUA 任务工作流程，并克服人工干预带来的瓶颈。

图片来源：明略科技

Mano-CUA 本地模型和 SDK 组件预计将于月内正式开源，以满足具有高安全性开发者的需求。届时用户可直接调用本地化部署的 GUI-VLA 模型来构建自定义技能与工具，所有 CUA 操作都将在本地 Mac 设备上执行，而不会上传到外部服务器。

未来，明略科技还将全面开源 Mano-P 模型底层的训练方法、Token 剪枝技术与混合精度量化方案，助力开发者打造符合自身业务需求的专属本地 GUI-VLA 模型。

面向未来，从技术破局到生态共建，Mano-P 将 GUI 感知、视觉操作、本地运行与开源生态紧密结合，不仅为端侧智能体夯实了坚实的技术底座，更为“Personalized AI”铺就了一条清晰的现实路径。无论是独立开发者，还是对安全要求严苛的企业组织，都能以更低的门槛、更高的可控性，打造个性化 AI。明略科技正以开放之姿，让“人人可以创造专属AI ”的愿景逐渐照进现实。

GUI 产品经理工作流明略科技智能体

用哪个弄湿

少儿国寿福庆典版优缺点在哪？不足和亮点各参半

狗狗吃卫生巾怎么办

房贷二次扣款会影响征信吗？这是很有可能的

2020最新自助免费申请Office365教育版，免费5TOneDrive云盘详细图文教程

MacBook怎么绕过BootCamp安装Win10双系统

上海电信千兆宽带速度究竟如何上海电信千兆宽带

国内知名的前端博客

域名为什么会被墙如何检测域名是否被墙域名被墙如何处理

13个榜单SOTA！明略科技(2718.HK)正式开源GUI-VLA模型Mano-P 1.0

更多文章

站内搜索

标签云

热门文章

友情链接