近日,明略科技正式开源自研 GUI 感知智能体模型 Mano-P 1.0。Mano-P 具备 GUI 感知、理解、规划、操作与验证能力,可通过纯视觉方式直接理解并操控桌面软件、网页界面及更复杂的图形化工作流,并支持在 Apple M4 芯片设备上本地运行。
Mano-P 让 AI 打破了“只看不做”的局限,能够直接在真实的图形界面中跨平台执行复杂任务。该项目以 Apache 2.0 协议开源,完整代码公开可审计,支持商业使用与二次开发。
通过提供纯视觉理解与本地执行能力,Mano-P 赋能个人开发者与企业组织能够以低成本构建专属的个性化 AI,在保障数据主权的前提下,正式迈入“私有化”的个人 AI 时代。
纯视觉驱动
打通复杂业务流的“最后一公里”
在现有技术架构下,自动化操作往往受限于底层 API 接口调用、CDP 协议或网页 HTML 解析,一旦面对非标准应用或跨系统协作时便显得力不从心。Mano-P 以纯视觉理解为核心技术范式 ,不依赖外部接口与协议,能够直接理解并操控桌面软件、3D 应用及复杂的专业工具,从根本上打破了传统基于浏览器的生态边界 。
同时,Mano-P 可为现有 Agent 生态提供关键的执行能力底座。目前,Mano-P 可通过 skill 形式无缝接入OpenClaw 等 AI Agent。强强联合下,Agent 可以无缝穿梭于多窗口系统和跨应用的工作流中,顺滑地执行点击、文本输入、窗口切换及视觉验证等闭环动作。
这一突破解决了长期困扰 Agent 工作流的人工干预瓶颈,使模型不仅能胜任全自动应用的构建测试,更能向复杂的商业场景延伸,实现复杂任务的全程自主执行。
13 个榜单屠榜式 SOTA
刷新GUI专用模型性能天花板
为确保前沿技术在端侧设备的普惠可用,Mano-P 采用了双版本交付架构:由 72B 完整模型探索并证明技术上限,同时提供 4B 量化模型(w4a16)以满足极致的端侧部署需求 。
Mano-P 1.0 以 72B 参数量的完整模型版本,在全球多模态领域的 13 个权威基准测试榜单中,实现了针对小尺寸模型的屠榜式 SOTA 领先 。其能力矩阵全面覆盖了 GUI Grounding、CUA(计算机使用代理)、多模态感知认知、视频理解以及长上下文学习等关键维度,确立了端侧 GUI Agent 的性能标杆 。

图片来源:明略科技
在业界权威的 OSWorld 专有模型基准测试中,Mano-P 72B 模型以 58.2% 的任务成功率位列全球第一,领先第二名 opencua-72b(45.0%)多达 13.2 个百分点 。此外,在 ScreenSpot-V2、MMBench、UI-Vision等评测体系中,Mano-P 同样以绝对优势拔得头筹 。
卓越的性能离不开底层的技术创新。Mano-P 引入了 SFT(监督微调)、离线强化学习与在线强化学习的三阶段渐进式训练架构,并配合专有的 GSPruning 视觉 Token 剪枝技术,实现了端侧推理效率的飞跃。
在配备 Apple M4 Pro 芯片的设备上,4B 量化模型可实现高达 476 tokens/s 的预填充速度与 76 tokens/s 的解码速度,峰值内存占用仅为 4.3GB,完美适配主流边缘设备的算力与存储限制。
可端侧本地部署
实现物理隔离级数据保护
随着 AI 深入核心业务流,数据隐私与合规性成为企业决策的核心考量。Mano-P 可进行本地端侧部署,数据零上云 ,通过“纯视觉理解 + 本地执行”的架构,能够实现数据处理与外部网络的物理隔离。
在本地模式下,模型可直接在 Mac mini / MacBook(M4 芯片及以上,32GB+ 内存)上运行,或使用 Mano-P 算力棒连接(通过 USB 4.0)。系统的屏幕截图、业务流转数据及任务指令均在本地闭环,从源头上杜绝了面向云端服务器的传输风险 。
同时,Mano-P 具备强大的离线长任务自主规划能力。在无网环境下,Mano-P同样可以自主推进复杂业务流程,并完成过程中的决策与纠错。这一特性不仅重塑了人机交互的信任边界,更使得端侧 AI 能够真正进入高安全性、高隐私要求的企业级生产环境 。
践行全面开源战略
加速 Personalized AI 生态繁荣
技术的价值在于广泛的应用与生态的共建。Mano-P 遵循 Apache 2.0 协议正式开源,完整客户端代码全面公开并支持严格审计,允许商业化应用与二次开发 。
为降低企业与个人用户的接入成本,Mano-P 设计了三种开箱即用的使用形态,精准覆盖不同技术栈的用户群体。无需繁琐配置复杂的 API 密钥,用户均能以极低门槛构建专属的高性能 GUI 智能体。
按照既定开源规划,明略科技本次率先开源 Mano-CUA 核心技能,用户可将其便捷配置到 OpenClaw 或 Claude Code 中,以构建更智能的 CUA 任务工作流程,并克服人工干预带来的瓶颈。

图片来源:明略科技
Mano-CUA 本地模型和 SDK 组件预计将于月内正式开源,以满足具有高安全性开发者的需求。届时用户可直接调用本地化部署的 GUI-VLA 模型来构建自定义技能与工具,所有 CUA 操作都将在本地 Mac 设备上执行,而不会上传到外部服务器。
未来,明略科技还将全面开源 Mano-P 模型底层的训练方法、Token 剪枝技术与混合精度量化方案,助力开发者打造符合自身业务需求的专属本地 GUI-VLA 模型。
面向未来,从技术破局到生态共建,Mano-P 将 GUI 感知、视觉操作、本地运行与开源生态紧密结合,不仅为端侧智能体夯实了坚实的技术底座,更为“Personalized AI”铺就了一条清晰的现实路径。无论是独立开发者,还是对安全要求严苛的企业组织,都能以更低的门槛、更高的可控性,打造个性化 AI。明略科技正以开放之姿,让“人人可以创造专属AI ”的愿景逐渐照进现实。
