Open-AutoGLM 实战记录:从环境搭建到模型避坑指南
硬件设备 人工智能 豆包手机 OpenAutoGLM AI Agent Android 5

前言

最近对智谱开源的手机操作 Agent 框架 Open-AutoGLM 很感兴趣,它能通过视觉语言模型直接操作手机 APP。今天趁着热度上手实操了一把,整个过程虽然遇到了一些环境依赖的小坑,但 overall 还是跑通了。

这篇文章记录了我在 macOS 下完整的安装流程,特别是关于 Python 版本依赖模型选择 的痛点,希望后来者能少走弯路。

1. 准备工作:代码与环境

首先是常规的拉取代码:

mkdir -p ~/Documents/github

cd ~/Documents/github

git clone https://github.com/zai-org/Open-AutoGLM.git

cd Open-AutoGLM

坑点一:Python 版本硬性要求

我的 Mac 自带的是 Python 3.9.6,但 Open-AutoGLM 明确要求 Python 版本必须 >= 3.10(代码中用到了 str | None 这种新语法)。

解决方案: 建议直接使用 Homebrew 安装较新的稳定版(我用了 3.11):

# 安装 Python 3.11

brew install [email protected]

# 创建虚拟环境(指定使用 3.11)

/opt/homebrew/bin/python3.11 -m venv venv

# 激活环境

source venv/bin/activate

安装项目依赖:

pip install --upgrade pip

pip install -r requirements.txt

pip install -e .

2. 安卓连接:ADB 与输入法

要控制安卓手机,ADB (Android Debug Bridge) 是必须的。

安装 ADB

如果你的终端里敲 adb 提示找不到命令,直接用 brew 安装最省事,不用自己去配环境变量:

brew install --cask android-platform-tools

安装好后连上手机,打开手机的 开发者模式USB 调试,运行:

adb devices

记得在手机弹窗上点击“允许调试”。

坑点二:ADB Keyboard 缺失

在运行检查脚本时,只要报 ADB Keyboard is not installed 错误,Agent 就无法在手机上输入文字。

一键修复命令

# 1. 下载 APK

curl -L -o ADBKeyboard.apk https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk

# 2. 安装到手机

adb install ADBKeyboard.apk

# 3. 启用并设置为默认输入法

adb shell ime enable com.android.adbkeyboard/.AdbIME

adb shell ime set com.android.adbkeyboard/.AdbIME

3. 核心避坑:模型选择(非常重要!)

环境配好后,最关键的一步就是运行 Main 脚本连接模型。

❌ 错误示范:尝试使用非视觉模型 我刚开始尝试配置了 deepseek-chat(或其他纯文本 LLM),结果程序陷入了死循环。 现象:Agent 一直在“思考”,日志里不断输出思维链,但无法解析出具体的点击坐标 (x, y),也无法执行任何操作。

✅ 正确姿势 Open-AutoGLM 的核心原理是:截图 -> Vision LLM 识别 -> 输出操作。因此,必须使用支持视觉的多模态模型。

建议现阶段直接使用智谱官方的 autoglm-phone 模型,目前好像还在免费推广期,先把流程跑通最重要。

启动命令(使用官方 API):

# 替换你的 API Key

export PHONE_AGENT_API_KEY="你的智谱API_KEY"

# 启动,指定正确的模型名称

python main.py \

--base-url https://open.bigmodel.cn/api/paas/v4 \

--model "autoglm-phone"

4. 效果演示

跑通后,你可以直接对它说:“打开小红书搜索美食教程”。 你会看到 Agent 自动:

  1. 回到桌面

  2. 识别小红书图标并点击

  3. 点击搜索框

  4. 输入文字

  5. 点击搜索结果

总结

Open-AutoGLM 的门槛主要在环境配置(Python版本、ADB环境)和模型类型的选择上。只要避开非视觉模型这个坑,体验还是非常惊艳的。希望能看到更多基于它开发的有趣的应用!


本文由个人实操整理,环境基于 macOS Sequoia,测试时间 2025年1月。

Open-AutoGLM 实战记录:从环境搭建到模型避坑指南
https://sisuad.cn/archives/019b7ea9-5663-70de-bb9c-e12c9f1fcbcf
作者
Engr_Peng
发布于
更新于
许可