GLM-PC

智谱 AI 推出的电脑智能体，具备视觉理解和任务规划能力

北

北京智谱华章科技股份有限公司中国

模型等级 A-Tier

注：由于本次输入中未包含实际抓取的网页内容，以下信息基于 CogAgent 公开的技术报告与官方资料整理，供您参考。

【产品概述】

CogAgent 是一款面向图形用户界面（GUI）理解和操作的多模态智能体模型。其产品定位是成为连接人类意图与数字世界操作桥梁的自主 AI 代理。核心价值主张在于赋予 AI 系统”看”懂屏幕、“理解”界面布局并”执行”点击、输入等复杂操作的能力。它主要解决了传统自动化脚本灵活性差、难以适应动态界面变化的问题，使得 AI 能够跨平台、跨设备地协助用户完成繁琐的计算机软件操作任务，极大提升了人机交互的效率和智能化水平，是实现通用人工智能在桌面端落地的关键一步。

【核心功能】

高精度界面元素识别：能够准确识别屏幕截图中的按钮、输入框等组件及其坐标位置。
跨平台操作支持：支持 Windows、Android 等多种操作系统的界面交互与控制。
高分辨率视觉处理：原生支持高分辨率图像输入，能清晰读取细小文字和复杂布局。
自主任务规划：根据用户自然语言指令，自动拆解步骤并规划操作路径。
多轮对话交互：支持在操作过程中与用户进行多轮对话，确认意图或询问细节。

【应用场景】

企业自动化办公：自动处理报销流程、数据录入及邮件回复等重复性桌面任务。
软件兼容性测试：自动遍历软件界面功能，检测 UI 显示错误及交互逻辑漏洞。
无障碍辅助服务：帮助视障人士操作电脑软件，通过语音指令完成视觉界面交互。

【技术特点】

CogAgent 基于 18B 参数量的语言基座模型构建，采用了创新的高分辨率编码器架构，能够有效处理 1120x1120 像素以上的屏幕图像，克服了传统多模态模型无法识别细小界面文字的局限。其技术优势在于将视觉感知模块与动作执行模块深度耦合，使用了专门的 Agent 框架进行推理。差异化特点体现在其强大的零样本（Zero-shot）泛化能力，无需针对特定软件进行训练即可操作。使用的 AI 技术包括 Transformer 架构、视觉注意力机制以及强化学习对齐技术，确保了操作的准确性和安全性，在 GUI 操作基准测试中达到了业界领先水平。

【定价信息】

目前 CogAgent 部分权重已开源，研究人员可免费下载使用。商业 API 调用服务通常依托于智谱 AI 开放平台，采用按 Token 用量计费的方案，具体价格需参考官方最新公告，通常设有免费试用额度供开发者体验。

【公司信息】

该产品由北京智谱华章科技股份有限公司（智谱 AI）与清华大学数据智能研究中心联合研发。智谱 AI 成立于 2020 年，源自清华大学知识工程实验室，是国内最早布局大模型技术的企业之一。公司已完成多轮战略融资，投资方包括腾讯投资、阿里巴巴、美团等知名互联网巨头及多家顶级风险投资机构，累计融资金额巨大，致力于构建自主可控的通用人工智能生态体系。