本文分享了TMIC AI小新技术架构从定制化workflow到DeepAgent模式的架构改版实践。面对复杂问题需要跨模块协作、多步骤推理和动态参数识别的挑战,我们借鉴DeepAgent的核心设计思路(TodoList、SubAgent、Summary、FileSystem),实现了从"预设流程"到"AI自主决策"的转变。与此同时,我们还在DeepAgent的基础上针对业务场景做了创新性优化(Tree Action模式、SubAgent提速、异步Summary),显著提升了系统性能和效率。
在传统的移动端自动化体系中,Appium、UIAutomator 或基于 ADB 的脚本方案是绝对的主流。然而,作为在这个领域摸爬滚打多年的高级开发者,我们深知这些方案的痛点:强依赖 PC 宿主机、跨设备通信的 Socket 延迟、极易受 USB 线缆和网络波动影响的脆弱稳定性。当我们面对“高频、脱机、大规模集群”的 RPA(机器人流程自动化)需求时,传统外控方案往往显得力不从心。为此,本项目探索了一条完全不同的道路:彻底抛弃 PC 控制端,将大脑(逻辑控制)与手脚(事件注入)全部封装进 Android 设备本地。本文将剥开外壳,通过核心逻辑的源码级解构,带你走过这条充满坑与算计的“端侧自动化”之路,并客观剖析其当下面临的致命缺陷,以及结合 AI 的未来演进。
前几天我在司内论坛的一个问答中提到了要写一个拉取网络文章文本的 skill,昨天我实现了之后也就开始好奇起 Skills 的底层原理了——相比起各种花里胡哨的 agrnt 应用,我一直以来都很对大模型在纯粹的 HTTP 交互层面是如何交互的更感兴趣。 我们知道,大模型只会对话,聊天,所谓的工具调用也只不过是特化的聊天功能而已。但是各种天花乱坠的 skills,是如何在底层的 HTTP 中,与大模型——这个只会嘴遁的工具交互的呢?