站在“上帝视角”审视软件开发的历史演变,我们实际上是在见证 “人类意图”与“机器实现”之间鸿沟的不断缩减。 从问题空间到解决方案空间,前人尝试过声明式DSL、RAD工具,尝试过模型驱动工具。但仍局限于定制或细分于领域。 现在,结合全知全能的大模型像打开了盒子,AI 的介入让软件工程快速进入了“意图驱动”的时代。 我们正处在软件工程史上最剧烈的变革期——从“人写代码给机器看” 转向“人表达意图给AI听,AI实现给机器看”。 如果传统编程像是拿着精密蓝图、亲手切割并组装每一块木板来建造房子;那么Vibe Coding更像是对着一个神奇的建筑机器人描述你想要的“氛围”(比如“我想要一个通透、有现代感的起居室”),机器人会立刻堆砌出房屋。你不需要知道梁柱是如何受力的,只需不断告诉机器人“窗户再大一点”或“颜色再暖一点”,直到你满意为止。但一旦墙内电线走火,你可能根本不知道从哪里拆起。
随着通用大模型向着agentic以及GUI理解增强的方向发展,现在Gemini 3 Flash等通用大模型已经可以直接用来搭建一个效果还不错的GUI Agent,并且实践难度大幅降低,半小时左右就可以从0到1手搓出来。本文详细介绍如何逐步搭建一个GUI Agent,从实践中也可快速了解GUI Agent的原理。
架构,是对系统的描述。 维基百科的定义是:软件架构是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。 系统的三大特征表现在架构上就是:横向可并列,纵向可推导,整体可演进。 物理学的熵增定律表明孤立系统总是趋向于熵增的方向发展。在软件系统里同样适用,只不过是以复杂度的增加表现的。 互联网软件系统总是朝着复杂度增加的方向发展。所以架构的第一目的是控制复杂,使系统朝着可控的方向发展。
近年来,大模型正从能力竞赛走向工程落地,推理阶段的成本、时延与稳定性逐渐成为制约规模化应用的核心因素。在长上下文、高并发与多模态场景下,解码过程受限于算力与显存带宽,单纯依赖模型压缩或硬件堆叠的优化路径正逼近边际收益,促使业界重新审视推理机制本身的优化空间。在这一背景下,投机采样(Speculative Decoding)通过“小模型多步生成 + 大模型并行验证”,在保证生成质量的前提下减少大模型的有效前向计算。腾讯混元近期升级的 AngelSlim 围绕 Eagle3 投机采样训练范式 构建系统化实现,将投机采样提升为可训练、可迁移的加速能力,并扩展至 LLM、视觉语言与语音等多模态场景,在实际部署中最高可实现 1.9× 的推理加速,为多模态 AI 的实时化与规模化应用奠定基础。
2025 年 AI 编程工具遍地开花,但一个尴尬的现实是:工具越来越强,预期越来越高,落地却越来越难——speckit 的规范流程在企业需求的"千层套路"、海量代码面前显得理想化,上下文窗口频繁爆满让复杂任务半途而废,每次做类似需求还是要花同样的时间因为知识全在人脑里。本文记录了我从踩坑规范驱动工具,到借鉴 Anthropic 多 Agent 协作架构、融合上下文工程与复合工程理念,最终实现边际成本递减、知识持续复利的完整历程。如果你也在"AI 工具明明很强但就是用不好"的困境中挣扎,或许能找到一些共鸣。附带还有新的工作流下人的工作模式转变思考~