• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
logo Online Tools
All Chinese English Newest Hottest
5935 search results

大模型推理性能优化比较复杂,千头万绪,涉及推理框架、模型特性、GPU硬件特性、算子优化、网络基础设施、通信协议、SLO等很多方面因素,优化的时候主要用工具分析Timeline,借力开源成果进展以及参考业界的各种论文和做法展开,总有一些东一榔头西一棒子的感觉。当涉及到灵魂拷问的时候,其实挺难回答,比如问:在某某芯片上的推理成本,还能降低到多少? 但大模型推理加速也有一些内在规律:大模型推理性能的核心挑战源于算力、显存、显存带宽、通信带宽等资源不匹配或短缺。该挑战在宏观分布式架构、中观框架设计、微观算子实现、更细粒度的计算优化等不同层级上均存在。 本文提出分形思考框架,借鉴分形几何的自相似性原理,在全层级遵循 “看清楚 - 避免浪费 - 提升利用率 - 节约资源” 的统一优化逻辑,尝试系统性地应对各种大模型在不同硬件上的推理优化的复杂局面,当普遍认为优化空间不大的时候, 实践看还是能分析和找到优化方向和机会点,不容易遗漏和丢失重点。

31 Technology lddgo Shared on 2026-01-27

从 ReAct 到 Ralph Loop:AI Agent 的持续迭代范式

30 Technology lddgo Shared on 2026-01-27

腾讯混元AI Infra团队开源生产级高性能LLM推理核心算子库 HPC-Ops,该算子库基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了显著性能突破。在真实场景下,基于HPC-Ops,混元模型推理 QPM 提升30%,DeepSeek模型 QPM 提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比 FlashInfer/FlashAttention 最高提升2.22倍;GroupGEMM 相比 DeepGEMM 最高提升1.88倍;FusedMoE 相比 TensorRT-LLM 最高提升1.49倍。

47 Technology lddgo Shared on 2026-01-27

淘天音视频技术团队与上海交大合作论文《 FPEM: Face Prior Enhanced Facial Attractiveness Prediction for Live Videos with Face Retouching 》,被计算机视觉领域顶级会议ICCV 2025(CCF A类顶会,录用率24.2%)成功收录。

88 Technology lddgo Shared on 2026-01-23

通过引入合适的 MCP Server,智能体可以深度参与到日常开发流程中,协助完成项目文件读取、官方文档获取、浏览器自动化、代码仓库管理,以及跨会话的上下文维护等任务。 本文将基于真实开发场景,介绍 TRAE IDE 中常用的 10 个 MCP Server,并梳理了它们的核心能力、使用场景与可用工具,帮助你在不同开发阶段选择合适的 MCP Server,从而提升你的日常开发效率。 

80 Technology lddgo Shared on 2026-01-23

在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。

53 Technology lddgo Shared on 2026-01-23

2025年初,DeepSeek的走红让更多人明白,不仅仅是模型本身,训练和推理过程中工程上的优化同样重要。元旦假期看了朱亦博老师的一篇帖子,很受启发,2025年过去了,我想应该尝试来把亦博老师总结的25年AI Infra六个重点方向尽可能以一些简单易懂的方式向大家介绍一下,也希望让更多的同学可以对这一年里AI Infra的发展有一些简要的了解。

106 Technology lddgo Shared on 2026-01-23

本文系统回顾了淘特导购团队在AI编码实践中的演进历程,从初期的代码智能补全到Agent Coding再到引入Rules约束,最终探索SDD(Specification Driven Development,规格驱动开发)——以自然语言规格(spec.md)为唯一真理源,驱动代码、测试、文档自动生成,实现设计先行、可测试性内建与文档永不过期。实践中发现SDD理念先进但落地门槛高、工具链不成熟、历史代码集成难,因此团队当前采用融合策略:以轻量级技术方案模板为输入 + Rules严格约束 + Agent Coding高效实现 + AI自动汇总架构文档,形成兼顾规范性、效率与可维护性的AI辅助编程最佳实践。

134 Technology lddgo Shared on 2026-01-23

Obsidian Skills 不仅仅是一个技能包,它标志着 Agent Skills 生态正在从通用技能向垂直领域深度集成演进。过去,Agent Skills 主要侧重于任务类型的通用能力,比如代码审查、PDF 处理等广泛适用的场景。而 Obsidian Skills 的出现代表了一个重要转折点,工具官方开始主动拥抱 AI 代理,为自己的产品创建官方维护的专属技能包。这种垂直领域技能的价值在于深入理解工具的设计哲学,掌握最佳实践和惯用模式,与插件生态无缝对接,并能跟随工具版本同步更新,为用户提供权威且完整的解决方案。本文通过详细介绍 Obsidian Skills 的三个核心技能(Obsidian Markdown、Obsidian Bases、JSON Canvas),展示了 AI 智能体如何真正理解 Obsidian 的独特之处。两个实战案例进一步证明了这些技能的实用价值,通过 Base 技能管理阅读清单,通过 Canvas 技能可视化知识网络,让 AI 成为知识管理的得力助手。

52 Technology lddgo Shared on 2026-01-23

在AI浪潮席卷全球的今天,有人认为关系型数据库已走向黄昏,MySQL 的生命力正在被边缘化。但事实真的如此吗?AliSQL,作为 MySQL 的重要分支,自2010年诞生以来,始终默默支撑着阿里巴巴集团核心业务的高并发、高可用需求。它从未消失,只是沉寂太久。 2026年,AliSQL社区的一帮开发者们,开始为AliSQL注入创新的血液!这是他们的第一篇,系统阐述了MySQL深度融合DuckDB的重大技术实践。这不仅是对“MySQL 只擅长 TP”这一行业共识的突破性回应,更是一次兼具工程魄力与架构远见的创新——在保持 MySQL 协议、语法、运维体系完全兼容的前提下,以轻量、高效、零侵入的方式,为MySQL 注入了 OLAP 能力。

63 Technology lddgo Shared on 2026-01-22