• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全
所有 中文 英语 最新 热度
5119 条查询结果

强化学习(Reinforcement Learning, RL)有两种基础的训练范式:在线强化学习(Online RL)和离线强化学习(Offline RL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。 基于此,研究者提出了离线到在线强化学习(Offline-to-online RL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升

102 技术 lddgo 分享于 2024-12-06

上一篇文章《你知道Java类是如何被加载的吗?》分析了HotSpot是如何加载Java类的,本文再来分析下Hotspot又是如何解析、创建和链接类方法的。

94 技术 lddgo 分享于 2024-12-06

随着 Paimon 近两年的推广普及,使用 Flink+Paimon 构建数据湖仓的实践也越来越多。在 Flink 实时数据开发中,对于依赖大量状态 state 的场景,如长周期的累加指标计算、回撤长历史数据并更新等,使用实时数仓作为中间存储来代替 Flink 的内部状态 state 是非常有必要的。 本文主要分享了使用 Paimon 作为实时状态存储,并在 Flink 中通过 Lookup 维表 Join 的方式进行状态查询和更新的应用实践。

89 技术 lddgo 分享于 2024-12-06

本文记录了一次Java进程CPU占用率过高的问题和排查思路。

103 技术 lddgo 分享于 2024-12-05

腾讯与中国人民大学数据工程与知识工程教育部重点实验室共同撰写的论文“Toward Timeliness-Enhanced Loss Recovery for Large-Scale Live Streaming”(提高大规模实时流媒体损失恢复的时效性)已被多媒体领域的国际顶级会议 ACM Multimedia (MM) 2024录用,并被选为大会中口头报告论文(录取比例为3.97%)。值得一提的是,论文提出的 AutoRec 机制已在腾讯云 EdgeOne 产品落地,并且经现网验证能够使客户端直播视频卡顿的平均次数和持续时间分别减少11.4%和5.2%。这也是今年继 ICDCS 24之后,腾讯-人大联合实验室在多媒体数据传输领域今年的又一项最新研究成果。

78 技术 lddgo 分享于 2024-12-05

在《说个暴论》一文中,我们揭露了当前关于大模型行业的一些乱象和痛点问题,其中重点提到了当前企业私有训练,不能调用外部 API 的情况下,可以利用开源 LLM+RAG 部署的方式,但这种方式的最大痛点是硬件成本和维护成本。而如果能调用 API,完全不用管有几台服务器,可以在任意时间,随意拉高并发量。 本文介绍了一种免去部署、维护、硬件成本的解决方案,利用腾讯乐享 AI 助手,企业可以实现基于企业内部知识库进行智能问答的业务场景,读者也可以从腾讯乐享 AI 助手的研发历程看到类似技术产品实现的方案逻辑。

89 技术 lddgo 分享于 2024-12-05

一个有趣的现象引起了作者的注意:当启用行首正则表达式处理多行日志时,采集性能出现下降。究竟是什么因素导致了这种现象?本文将探索Logtail多行日志采集性能提升的秘密。

94 技术 lddgo 分享于 2024-12-04

很多应用都属于数据密集型应用,而非计算密集型;对于这类应用,CPU 往往不是第一限制性因素,关键在于数据量 、数据复杂度 和 数据的快速多变性;因此数据库的选型在应用系统设计中就显得比较重要。数据库(数据引擎)最核心的任务就是“读到写入的值”,我们尝试从“最简单的脚本文件数据读写”一步一步扩展讨论到“分布式键值数据库”,在这个过程中我们会遇到很多“挑战”,并尝试逐步解决。

92 技术 lddgo 分享于 2024-12-04

Apache Paimon 在抖音集团多场景中的优化实践

106 技术 lddgo 分享于 2024-12-04

Linux下开发者习惯在物理机或者虚拟机环境下使用top和free等命令查看机器和进程的内存使用量,近年来越来越多的应用服务完成了微服务容器化改造,过去查看、监控和定位内存使用量的方法似乎时常不太奏效。如果你的应用程序刚刚迁移到K8s中,经常被诸如以下问题所困扰:容器的内存使用率为啥总是接近99%?malloc/free配对没问题,内存使用量却一直上涨?内存使用量超过了限制量却没有被OOM Kill? 登录容器执行top,free看到的输出和平台监控视图完全对不上?... 本文假设读者熟悉Linux环境,拥有常见后端开发语言(C/C++ /Go/Java等)使用经验,希望后面的内容能在读者面临此类疑惑时提供一些有效思路。

109 技术 lddgo 分享于 2024-12-04