在日常开发过程中,偶尔会遇到后端接口未完成或者某个环境出现问题需要根据接口返回来复现等等场景。刚好最近在学习浏览器插件的相关知识,并在此背景下开发了一款基于浏览器插件的 Mock 工具。该工具专注于 API 请求拦截和数据模拟,旨在帮助开发者提升开发效率,能够解决一些问题。
为解决虚拟人长视频生成的质量退化问题,基础研发平台/计算和智能平台部/视觉智能团队推出 InfiniteTalk 技术,实现无限时长视频生成。该技术口型精准且动作流畅,支持“语音驱动图像”和“语音驱动视频”多种模式,已在 GitHub 开源并获 1.6K Stars, Hugging Face 月下载量 64.8K,受到了很多好评,能够应用到电商直播、教育、影视等领域。
今天,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。
在文本编辑领域,设想一种技术:无需复杂控制信号,只靠字形图像和少量训练数据,就能把文字“无缝”嵌入真实场景——中文招牌、日文海报、韩文标语,多语言统统适用。这就是 TextFlux 带来的全新体验,由bilibili人工智能平台部,联合北京大学王选所提出。TextFlux 不再依赖 OCR 编码器和繁复的监督信号,而是把渲染好的字形直接贴进场景,让模型型专注学习“如何与周围环境自然融合”。思路直观,架构简洁,却能生成更真实、更快捷、更通用的多语言场景文本编辑效果。相关代码、权重和数据集均已开源。截至目前,该项目已支持ComfyUI,能够在消费级显卡上部署和运行。
本文系统性地提出并阐述了一种配置驱动的独立运行时Agent架构,旨在解决当前低代码/平台化Agent方案在企业级落地时面临困难,为Agent开发领域提供了一套通用的、可落地的标准化范式。