九个旗舰大模型决战中原,究竟谁才能问鼎天下,傲世群雄? 最近vibe coding练手写了个简化版的三国志,并接入LLM让LLM来扮演各个势力的领主,最后的决赛精彩程度远远超出了我的想象。你能猜出谁最后谁赢了吗?
2023年我们开始用 AI 辅助解决问题,2025 年我们验证了 AI Coding 的可行性,2026 年我们决定更进一步——不再让 AI 当"打字员",而是让它当"施工队长"。这篇文章记录了我们团队在 AI Native 研发模式落地过程中的思考、踩坑和最终形成的一套可复制的方法论。
苹果刚刚把一款名为Anything的应用从App Store彻底下架。这款应用在2025年9月以1亿美元估值融资1100万美元,上线以来帮助用户发布了数千款应用。下架理由是违反了App Store审核指南第2.5.2条——禁止应用下载或执行未经审核的代码。在此之前,苹果已经冻结了Replit和Vibecode等同类工具的更新,持续时间长达数月。这些被封杀的工具有一个共同的名字:Vibe Coding(氛围编程)。这个概念由OpenAI联合创始人Andrej Karpathy在2025年2月提出,核心理念是“完全跟着感觉走,拥抱指数增长,忘掉代码本身的存在”。它被柯林斯词典评为2025年度词汇。如今,它正在重塑软件开发的门槛,同时也在制造前所未有的混乱。
我们拆了2026年3月24日的一份Clawhub公开数据快照,样本共33,760个skills。这个市场的问题,不是供给不足,而是大部分供给没有穿过安装这道门。 下一阶段真正会赢的,不是功能最多的,也不是概念最大的,而是那些能让用户迅速完成一个动作、迅速看到结果、迅速形成依赖的 skill。这意味着Clawhub已经不缺供给,缺的是能真正形成安装的供给。很多skill完成了曝光,没有完成安装,而安装,已经明显向头部集中。
裸模型有四大硬伤:无记忆、不能执行代码、知识过时、无工作环境。Harness 六大组件逐一补救——文件系统管存储与版本;沙箱赋予代码自验证;AGENTS.md 无需训练即可注入知识;Web Search+MCP 打破知识截止;上下文工程对抗信息腐烂;编排+Hooks 保障多 Agent 协同质量。System Prompt 贯穿始终,是整套系统的神经中枢。 一句话摘要: 模型提供智能,Harness 让智能变得有用。如果你不是模型本身,那你就是 Harness 的一部分。
最近,「Harness Engineering」这个概念在 AI 工程圈里热了起来——Mitchell Hashimoto(HashiCorp 联合创始人、Terraform 缔造者)和 OpenAI 工程团队相继发文,描述了一套「让 Agent 可靠工作」的工程方法论。与此同时,笔者也在实践一套规范驱动(SDD)的 AI Coding 工作流,核心投入在于构建一套完整的 Spec 体系——把系统的意图、契约、行为规范结构化地写进仓库,让 Agent 有据可查。
从 speckit 踩坑到认知重建,从推翻精密架构到一个 AGENTS.md 文件重新出发。这篇讲的是"我做了什么,以及它为什么有效"。一个 AGENTS.md 文件,两个月后长成了拥有 22 个 Agent、27 个 Skill、28 个命令的工程体系。它不是设计出来的,而是被真实需求一步步逼出来的——中间经历了场景路由的建设与推翻、方法论的沉淀、多 Agent 协同代码审查的实战、运营活动配置的端到端落地,以及从一个人用到一个团队用的完整过程。如果你正在思考"AI 辅助开发到底能走多远",这篇文章给出的不是理论答案,而是一份带着所有弯路和修正的实践记录。
Token正在重塑AI时代的价值坐标,它是效率革命的引擎,还是成本失控的暗礁?本期将从Token降本的视角,透视AI时代"新石油"的经济逻辑。