之前没写过 VSCode 插件、没接触过 Chrome Cookie 加密机制、不了解 UUAP SSO。2 小时后,独立做了一个能自动读取浏览器登录态、实时监控 Comate 模型用量的 VSCode 插件——8 个核心文件,1000+ 行代码,打包后 .vsix 可以直接分发给同事使用。 这篇文章记录这 2 小时真实发生的事。0 行手写代码,不意味着什么都不用想。恰恰相反——我花了大量时间在判断:这个方案能不能落地、这个报错的根因是什么、Claude 给的方向是不是对的。代码是 Claude 写的,但每一个关键决策是我做的。
随着AI技术的快速发展,对GPU的需求也日益增加;但是,在实际生产环境中,受限于业务的模型特点及SLA等,GPU利用率普遍比较低,硬件算力被严重浪费。在这种情况下,GPU隔离能力对于最大化利用硬件资源就至关重要,本文基于NVIDIA场景,通过分析阐述业内隔离技术方案,引出他们的优势与缺陷,进而提出B站在隔离技术上的改进思路。
本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替排布及浮点运算顺序等手段,解决vLLM原生架构对Omni模型支持不足及精度漂移的问题。在此基础上,团队采用了 SmoothQuant与GPTQ结合的复合量化方案,并构建了包含5000条高质量数据的校准集以最大限度保留模型效果。最终在H20与RTX 4090硬件上的实测表明,该方案在保证各模态任务精度损失控制在1.5%以内的前提下,实现了2.5倍至3.5倍的推理加速,且针对不同硬件特性总结出了FP8(H20)与W4A16(4090)的最优部署策略。
昨天,阿里巴巴视频生成模型HappyHorse 1.0正式开启灰测。 该模型采用原生多模态架构,实现了音视频联合生成。它不仅支持文生视频、图生视频等多种创作方式,还具备灵活的后期编辑能力。依托1080P超分输出与15秒多镜头叙事技术,HappyHorse 1.0在画面质感、人物真实感及内容可控性上表现出色。 无论是广告电商、短剧创作还是社媒创意,HappyHorse 1.0都能提供从生成到编辑的一站式支持,让创意表达更加高效、精准。
先做个自我介绍。我是一名游戏客户端开发工程师,日常工作在 Unity 引擎开发。从去年开始高强度使用 AI 辅助开发,一开始只是让它帮我补补代码、查查 API,后来越用越深入,逐渐突破了自己原有的技术边界——借助 AI 的能力和公司内网提供的工具链,我独立给项目组交付了 WPF 桌面启动器、好几个内部提效的 Web 站点、还有一堆企业微信机器人。这些东西放在以前,对一个纯客户端出身的人来说几乎不可能独自完成。正是这段经历让我对"如何高效驾驭 AI"这件事有了很多切身体会,也是写这篇文章的出发点。
这篇文章主要讲 Agent 架构里几块最影响工程效果的内容,包括控制流、上下文工程、工具设计、记忆、多 Agent 组织、评测、追踪和安全,最后再用 OpenClaw 的实现把这些设计原则串起来看一遍。整理下来,有几处判断和我原来想的不太一样,更贵的模型带来的提升,很多时候没有想象中那么大,反而 Harness 和验证测试质量对成功率的影响更大,调试 Agent 行为时,也应优先检查工具定义,因为多数工具选择错误都出在描述不准确,另外,评测系统本身的问题,很多时候比 Agent 出问题更难发现,如果一直在 Agent 代码上反复调,效果未必明显,读完这篇,这几个问题应该能有些答案。
2026 年 4 月 24 日上午,DeepSeek 又一次把"开源炸弹"丢进了大模型圈。没有预热,官微只有一句话:“今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源”。从评分上看,这次的模型已经非常接近“闭源三巨头”的水平了,同时也是当之无愧的“地表最强开源模型”。但细读这份技术报告「DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence」,会发现DeepSeek的工作远比评分更硬核,无论是架构创新还是工程优化都是一如既往的精雕细琢。
柚漫剧团队深度拆解其如何通过构建Prompt友好型PRD、设计即代码、AI Coding基建与AI Agent测试等核心能力,打通“需求-设计-开发-测试”全链路智能闭环的实战经验。
Skill 是一个文件夹,核心是 SKILL.md 文件,使用 YAML frontmatter + Markdown 正文 的格式。当 LLM 判断需要某个 Skill 时,会调用 skill 工具加载它,SKILL.md 的全部内容会作为 tool-result 注入到对话上下文中,LLM 读到后自主决定怎么执行。