前言
最近对智谱开源的手机操作 Agent 框架 Open-AutoGLM 很感兴趣,它能通过视觉语言模型直接操作手机 APP。今天趁着热度上手实操了一把,整个过程虽然遇到了一些环境依赖的小坑,但 overall 还是跑通了。
这篇文章记录了我在 macOS 下完整的安装流程,特别是关于 Python 版本依赖 和 模型选择 的痛点,希望后来者能少走弯路。
1. 准备工作:代码与环境
首先是常规的拉取代码:
mkdir -p ~/Documents/githubcd ~/Documents/github
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
坑点一:Python 版本硬性要求
我的 Mac 自带的是 Python 3.9.6,但 Open-AutoGLM 明确要求 Python 版本必须 >= 3.10(代码中用到了 str | None 这种新语法)。
解决方案: 建议直接使用 Homebrew 安装较新的稳定版(我用了 3.11):
# 安装 Python 3.11brew install [email protected]
# 创建虚拟环境(指定使用 3.11)
/opt/homebrew/bin/python3.11 -m venv venv
# 激活环境
source venv/bin/activate
安装项目依赖:
pip install --upgrade pippip install -r requirements.txt
pip install -e .
2. 安卓连接:ADB 与输入法
要控制安卓手机,ADB (Android Debug Bridge) 是必须的。
安装 ADB
如果你的终端里敲 adb 提示找不到命令,直接用 brew 安装最省事,不用自己去配环境变量:
brew install --cask android-platform-tools安装好后连上手机,打开手机的 开发者模式 和 USB 调试,运行:
adb devices记得在手机弹窗上点击“允许调试”。
坑点二:ADB Keyboard 缺失
在运行检查脚本时,只要报 ADB Keyboard is not installed 错误,Agent 就无法在手机上输入文字。
一键修复命令:
# 1. 下载 APKcurl -L -o ADBKeyboard.apk https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk
# 2. 安装到手机
adb install ADBKeyboard.apk
# 3. 启用并设置为默认输入法
adb shell ime enable com.android.adbkeyboard/.AdbIME
adb shell ime set com.android.adbkeyboard/.AdbIME
3. 核心避坑:模型选择(非常重要!)
环境配好后,最关键的一步就是运行 Main 脚本连接模型。
❌ 错误示范:尝试使用非视觉模型 我刚开始尝试配置了 deepseek-chat(或其他纯文本 LLM),结果程序陷入了死循环。 现象:Agent 一直在“思考”,日志里不断输出思维链,但无法解析出具体的点击坐标 (x, y),也无法执行任何操作。
✅ 正确姿势 Open-AutoGLM 的核心原理是:截图 -> Vision LLM 识别 -> 输出操作。因此,必须使用支持视觉的多模态模型。
建议现阶段直接使用智谱官方的 autoglm-phone 模型,目前好像还在免费推广期,先把流程跑通最重要。
启动命令(使用官方 API):
# 替换你的 API Keyexport PHONE_AGENT_API_KEY="你的智谱API_KEY"
# 启动,指定正确的模型名称
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone"
4. 效果演示
跑通后,你可以直接对它说:“打开小红书搜索美食教程”。 你会看到 Agent 自动:
回到桌面
识别小红书图标并点击
点击搜索框
输入文字
点击搜索结果
总结
Open-AutoGLM 的门槛主要在环境配置(Python版本、ADB环境)和模型类型的选择上。只要避开非视觉模型这个坑,体验还是非常惊艳的。希望能看到更多基于它开发的有趣的应用!
本文由个人实操整理,环境基于 macOS Sequoia,测试时间 2025年1月。