【CNMO科技消息】近日,据外媒报道,苹果研究人员已成功开发出一款名为Ferret-UI Lite的全新设备端人工智能代理。这款轻量级模型能够直接在设备上运行,并根据用户的指令自主与各类应用程序的图形界面进行交互。

据CNMO了解,这项研究是苹果对多模态大语言模型,特别是其Ferret系列模型的持续探索。早在2023年底,苹果就推出了名为“FERRET”的基础模型,旨在让AI理解图像中的特定部分。此后,苹果陆续发布了针对移动用户界面(UI)理解的Ferret-UI及其增强版Ferret-UI 2。这些早期模型虽然功能强大,但模型参数较大,更侧重于在服务器端运行。

此次发布的Ferret-UI Lite则代表了不同的研究方向——高效与轻量化。它是一个仅有30亿参数的变体,其核心目标是在资源有限的设备上(如手机)实现强大的GUI(图形用户界面)代理功能。
研究人员指出,当前大多数GUI代理都依赖大型基础模型,这些模型虽然推理和规划能力强,但体积庞大、计算需求高,难以在设备端流畅运行。为了解决这一矛盾,Ferret-UI Lite通过一系列创新技术,实现了性能与体积的平衡。它采用了实时裁剪与放大技术:模型在初步分析屏幕后,会对其关注的区域进行动态裁剪和放大,再进行二次判断。这有效弥补了小模型处理大量图像信息的局限性。

研究结果显示,尽管体积小巧,Ferret-UI Lite在多个基准测试中的表现,足以匹敌甚至超越参数规模高达其24倍的竞品模型。它尤其擅长处理短期、低层次的操作任务。虽然在涉及多个步骤的复杂交互上表现尚有不足,但作为一款完全运行在设备端的AI代理,它提供了显著优势:所有数据处理都在本地完成,无需上传至云端,极大地提升了用户隐私和数据安全性。
据悉,与之前主要使用iPhone截图进行测试的版本不同,Ferret-UI Lite的训练和评估主要在Android、网页及桌面GUI环境中进行。这或许反映了当前大规模GUI代理测试平台的可获取性现状,但也展示了该模型跨平台应用的潜力。
