Library

ARTICLE
STRING
CONVERTER
ENCRYPT
NETWORK
MORE

CHART

MATH

COORDINATE

IMAGE

FILE
ARTICLE

STRING

CONVERTER

ENCRYPT

NETWORK

MORE

CHART

MATH

COORDINATE

IMAGE

FILE

Online Tools

All

Chinese

English

Newest

Hottest

21 search results

基于Flink的配置化实时反作弊系统

本文详细阐述了基于Flink构建的实时反作弊流式过滤系统，针对大流量场景下的复杂特征计算、高频策略热更新、模拟过滤验证及多场景数仓对接等核心挑战，提出来多项解决方案，实现了秒级特征计算的实时过滤功能，有效支撑高并发场景下的精准风控判定，并通过ClickHouse与图灵双链路数据输出，满足实时监控与离线分析的多样化需求，为互联网业务提供了高吞吐、低延迟、强稳定的实时反作弊解决方案。

flink 百度技术

124 Technology lddgo Shared on 2025-03-03

Flink+Paimon实时数据湖仓实践分享

随着 Paimon 近两年的推广普及，使用 Flink+Paimon 构建数据湖仓的实践也越来越多。在 Flink 实时数据开发中，对于依赖大量状态 state 的场景，如长周期的累加指标计算、回撤长历史数据并更新等，使用实时数仓作为中间存储来代替 Flink 的内部状态 state 是非常有必要的。本文主要分享了使用 Paimon 作为实时状态存储，并在 Flink 中通过 Lookup 维表 Join 的方式进行状态查询和更新的应用实践。

阿里巴巴技术 flink

130 Technology lddgo Shared on 2024-12-06

Apache Flink 的过去、现在及未来

Apache Flink 是 Apache 软件基金会的顶级项目，是一款开源的分布式大数据实时处理框架，专为高吞吐量、低延迟的数据流处理而设计。它具备统一的流批一体处理能力，提供精确一次的状态一致性保证，越来越多的企业选择将 Apache Flink 应用于自身丰富的业务场景，如实时数仓、实时推荐、实时分析、实时大屏、实时风控等，解决实时计算的需求。Apache Flink 自诞生以来，迄今为止已覆盖海内外数千家企业的实时计算需求，涉及行业包括互联网、电商、在线教育、游戏、金融、制造业、新能源汽车等行业。

阿里巴巴技术 flink

102 Technology lddgo Shared on 2024-11-05

FlinkSQL之temporary join开发

在实时开发中，双流join获取目标对应时刻的属性时，经常使用temporary join。笔者在流量升级的实时迭代中，需要让流量日志精准的匹配上浏览时间里对应的商品属性，使用temporary join开发过程中踩坑不少，将一些经验沉淀在此文中，供各位同学参考与交流。

阿里巴巴技术 flink

104 Technology lddgo Shared on 2024-11-01

抖音集团 FlinkSQL 性能优化探索及实践

在降本增效的大背景下，为满足业务对更高性能的需求，流式计算团队对 FlinkSQL 进行了深度优化。本文将聚焦这一实践，详解主要优化思路。

字节跳动技术 flink

89 Technology lddgo Shared on 2024-08-20

得物Flink内核探索实践

随着大数据技术的飞速发展，实时处理能力变得越来越重要。在众多实时处理框架中，Apache Flink以其强大的流处理能力和丰富的功能集，受到了广泛关注和应用。在实时业务日益增长的趋势下，这促使我们深入探索Flink的内核，以更好地保障Flink任务的维护。本次分享将重点介绍得物在Flink内核方面的探索与实践，探讨如何通过深度优化和定制，实现更加高效和稳定的数据处理能力。

flink 得物技术

99 Technology lddgo Shared on 2024-07-31

FlinkSQL开发经验分享

最近做了几个实时数据开发需求，也不可避免地在使用Flink的过程中遇到了一些问题，比如数据倾斜导致的反压、interval join、开窗导致的水位线失效等问题，通过思考并解决这些问题，加深了我对Flink原理与机制的理解，因此将这些开发经验分享出来，希望可以帮助到有需要的同学。下文会介绍3个case案例，每个case都会划分为背景、原因分析和解决方法三部分来进行介绍。

阿里巴巴技术 flink

89 Technology lddgo Shared on 2024-06-21

Apache Flink类型及序列化研读&生产应用｜得物技术

序列化是指将数据从内存中的对象序列化为字节流，以便在网络中传输或持久化存储。序列化在Apache Flink中非常重要，因为它涉及到数据传输和状态管理等关键部分。Apache Flink以其独特的方式来处理数据类型以及序列化，这种方式包括它自身的类型描述符、泛型类型提取以及类型序列化框架。本文将简单介绍它们背后的概念和基本原理，侧重分享在DataStream、Flink SQL自定义函数开发中对数据类型和序列的应用，以提升任务的运行效率。

flink 得物技术

93 Technology lddgo Shared on 2024-06-21

Flink 基于 TDMQ for Apache Pulsar 的离线场景使用实践

Apache Flink 是一个开源的流处理和批处理框架，具有高吞吐量、低延迟的流式引擎，支持事件时间处理和状态管理，以及确保在机器故障时的容错性和一次性语义。Flink 的核心是一个分布式流数据处理引擎，支持 Java、Scala、Python 和 SQL 编程语言，可以在集群或云环境中执行数据流程序。它提供了 DataStream API 用于处理有界或无界数据流，DataSet API 用于处理有界数据集，以及 Table API 和 SQL 接口用于关系型流和批处理。目前 Flink 最新已经迭代至 1.20 版本，在此过程中不光是 Flink 框架，插件本身也有部分 API 以及配置存在变更，本文主要针对较高版本的 1.17 Flink Pulsar 插件进行测试验证

腾讯技术 flink

91 Technology lddgo Shared on 2024-05-30

Flink Keyed State的优化与实践

Flink SQL在业务使用中有较多的双流join场景，当左右流的流量都较大，Join的等待时间即使为1小时，Flink Keyed State（Flink State分Operator State和Keyed State，后文所有State均代表后者）的存储大小也很容易达到TB级（内部默认使用的是RocksDBStateBackend）。在State我们内部[1]之前就做了RT和长度的metric，当State的存储达到TB级别后，会发现State的scan/next/readNull请求RT会变得较高，另外双流Join不仅流量大，Join query的字段也较多，导致State的Value长度也较大，从而使得任务在流量高峰期CPU存在明显的周期性毛刺，根因是RocksDB的compaction引发。我们下面的内容主要是从业务场景跟进到RocksDB的读写行为，来优化RT耗时高的问题，并使用优化方案缓解compaction的压力。

flink 哔哩哔哩技术

121 Technology lddgo Shared on 2024-04-09

English