对"豆包手机"的一点点思考(偏一点技术向) - V2EX
Blanke

对"豆包手机"的一点点思考(偏一点技术向)

  •  
  •   Blanke Dec 10, 2025 2128 views
    This topic created in 153 days ago, the information mentioned may be changed or developed.

    豆包手机的感想

    最近豆包手机很火,恰好看到智谱开源的 AutoGLM ,在群里吹水聊了下,记录下一点点思考。

    我虽然没有真机体验,看了 B 站很多真实用户分享的视频,还是挺激动。之前在 Github 看到过类似手机 ai 相关项目,大多技术路线差不多:通过 adb 、无障碍、root 等方式获取截图、ui 层级、设备运行信息等,然后调用远程模型(deepseek 、gpt 等),搭配内置的提示词,实现自动化操作手机。比较出名的有:Operit AIminitap-aidroidrun 等,以及这几天智谱开源的Open-AutoGLM项目,智谱和其他不同的是使用了针对手机场景训练的 AutoGLM-Phone-9B 模型。

    这些项目的原理和实现思路其实大同小异,前几个项目出来也有段时间了,我实际用过 Operit AI 。为啥选它呢?很简单,要是想体验舒服点,没人愿意一直用 adb 方式(总不能一直连电脑吧),而 Operit AI 是独立 APP 方式,提供无障碍、root 等方式激活运行,能获取 UI 层级、截图、执行 shell 命令,有很多内置库和 mcp 。但我实测简单的任务可以,比如打开打开网易云音乐搜索某首歌播放、打开 B 站搜索关键词播放并点赞,整体效果比较慢,主要受模型、提示词、实现逻辑等影响。体验后就很少使用了,主要是容易出错、体验不够流畅,当时就觉得这东西应该由手机厂商去做,系统有"上帝权限",根本不用靠无障碍或 adb 去拿设备信息,再加上端侧 ai 能力,也就是离线本地运行的模型,这样能避免很多问题:运行效率、隐私性等,就是肯定会更耗电。

    豆包手机出来后,我觉得基本贴近我之前想的方案了,惊喜的是,它用了类似"虚拟屏"的技术方案,也就是 ai 操作可以放后台,后台应用能达到"前台效果",还不影响前台用户操作手机,也就是可以轻松完成以下类似场景:打游戏的时候呼出豆包助手,及时给老婆回条消息(现在不让操作微信了),B 站上好多视频都展示过类似场景,这里就不专门吹了。还有一点,豆包手机整体 ai 操作比较丝滑,但是看到有的视频里提到有使用服务器额度的提示,也没见过断网后离线使用的实测,所以猜测大概率还是远程模型+本地轻量模型的方案。

    豆包手机被限制

    发布没几天,微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了,具体表现为警告、限制登录等。由于没摸到真机,网上也没有流出解锁 BL 或 Root 的方案,无法逆向分析,只能从理论层面琢磨下,以下纯属个人"臆想"。

    1. 可能的风控因素:设备硬件参数(机型、设备指纹、系统参数、环境变量等)、AI 技术特征(很多媒体提到的 INJECT_EVENTS 权限、无障碍技术的使用痕迹、"虚拟屏"的技术特征等)
    2. 可能的应对技术方案:
      • 先说明下,这是不考虑合规性和舆论风险的纯技术猜想,豆包一定不会这么做
      • 可以将设备参数随机化或伪装,既然可能风控的是努比亚 M153 参数,那么将机型参数改为努比亚 M154 或其他努比亚热门手机型号,避免被针对
      • 把技术实现改为系统层调用,避免使用无障碍等技术。既然系统都是自家开发的,那么在系统层面将 event 改成用户手动 event 轻轻松松,这样 APP 就识别不了是否是模拟操作
    3. 可能的后续发展:技术发展不能以马车视角看蒸汽机,ai 手机肯定是未来趋势,但是为了应对黑灰产、隐私性等要求,也为了守住自身的"护城河",软件厂商短期内大概率会保持保守态度。未来手机厂商和各大软件厂商大概率会牵手合作,只开放基础的 ai 操作权限,而且需要用户手动开启,手机系统也可完全关闭 AI 功能。根据以往的经验,或许这块还得靠苹果来推动,iOS 上了 Android 才有可能快速跟进,而且不用想,国内功能绝对有阉割或软件不配合。

    理想中的 AI 手机

    上面分析了豆包手机和同类开源项目的实现方案,也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目,我感觉未来也会有类似开源或极客形式的 AI 手机的方案,理想中的 AI 手机方案至少满足以下几点:

    1. 所有 AI 功能都在系统层实现,具体做法可以通过 Fork LineageOS 或开源 Rom 代码实现,也可通过类似 Xposed 模块等方式注入系统服务方式实现
    2. 支持离线运行 AI 模型,得平衡好功耗和模型能力(未来模型能力越来越强,还是很有可能的),毕竟移动设备,耗电多了也没人愿意用
    3. 系统层不依赖无障碍、Root 、adb 等,能高效获取界面和操作设备。优先通过 UI 层级(也就是 View 树,类似网页的 Dom 树)获取信息,而且要做精简,只提取有实际显示内容的 View 节点;截图方式效率低、模型处理也慢,可以考虑降低分辨率和画质;其他设备操作优先用 shell 命令获取,比如启动 APP 、发送广播、读取文件、设置定时任务这些
    4. 系统层直接实现自动化操作,模拟用户手动操作,让 APP 无法区分是自动化还是真人操作
    5. 支持 MCP 和插件,得有对开发者友好的扩展环境,搭建完善的插件生态
    6. 保障隐私,核心功能离线运行,要是有需要联网的功能,必须让用户手动确认
    7. 能识别并管控风险操作,毕竟有了系统最高权限,像删除文件、涉及金钱交易、执行高危命令这类操作,得让用户手动确认,或通过分级模式(比如极客模式、小白模式)降低使用门槛

    以上纯属"臆想",至少现阶段(2025 年底)很多要求都无法达到,期待 AI 快速发展的未来,能出现更多可能性,也希望手机厂商和软件厂商能多些开放合作,做出体验更好的 AI 手机。

    一点思考和随想,仅作记录,顺便分享到 v2 ,原文博客链接: https://blanke.me/blog/ai-doubao-phone/

    Supplement 1    Dec 10, 2025
    晚上看到 B 站有了更技术向的原理分析视频,仅作分享: [ [老戴] 豆包手机到底在看你什么?我抓到了它的真实工作流程-哔哩哔哩] https://b23.tv/9GnNZqz
    3 replies    2025-12-25 16:51:02 +08:00
    MacsedProtoss
        1
    MacsedProtoss  
       Dec 10, 2025 via iPhone
    离线运行就不可能,更别提啥别的了
    而且这真的是未来形态吗?并不见得。如果还是要模拟人操控 app ,那就不是未来的方向
    shyrock
        2
    shyrock  
       Dec 10, 2025
    AI 功能由 OS 实现,就意味着大部分 APP 交出了入口,成为后台服务提供者。

    而手机厂商反而从底层翻到了最上层,掌控一切流量。

    这个商业模式的障碍极难突破。
    BingoW
        3
    BingoW  
       Dec 25, 2025
    总结的很全面,我最近也在玩。豆包手机抢不到了,看的测评。自己旧的安卓手机试过了 autoGLM,用的 api 接口效果还可以,就是感官上很慢。不如视频里的豆包手机流畅,所以豆包手机肯定有基于本地算力的地方,简单的执行直接调用本地接口了,不需要远程。或者是一次调用远程,拿到了执行步骤后,流畅执行。
    About     Help     Advertise     Blog     API     FAQ     Solana     1758 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 52ms UTC 16:21 PVG 00:21 LAX 09:21 JFK 12:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86