湖仓一体-Paimon篇-简介

news/2024/10/11 10:43:37/文章来源:https://blog.csdn.net/u011532237/article/details/142111880

什么是Paimon?

2021年末,Flink官方提出打造一个全新的存储 Flink Table Store,一个 Flink 完全内置的存储。
为了让 Flink Table Store 能够有更大的发展,Flink PMC经过讨论决定将其捐赠Apache进行独立孵化。
2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会的孵化器,改名为 Apache Paimon。
Paimon 基于数据湖 + LSM,有很强的 Upsert 更新能力。

能力简介

Apache Paimon 是一种数据湖的格式,支持使用 Flink 和 Spark 构建实时湖仓架构,用于流式和批处理操作。Paimon 创新性地结合了数据湖格式和LSM结构,将实时流式更新引入数据湖架构。
Paimon 提供以下核心功能:
● 实时更新:
○ 主键表支持大规模更新的写入,具有非常高的实时性,通常通过Flink Streaming进行。
○ 支持合并引擎,支持按规则更新记录。规则:删除重复项以保留最后一行、部分更新、聚合记录或保留第一行等
○ 支持定义changelog-producer,为合并引擎的更新生成正确、完整的changelog。
● 大量附加数据处理:
○ 附加表(无主键)提供大规模批处理和流处理能力,自动小文件合并。
○ 支持通过 z-order 排序进行数据压缩以优化文件布局,并使用 minmax 等索引提供基于数据跳过的快速查询。
● 数据湖功能:
○ 可扩展的元数据:支持存储Petabyte大规模数据集,支持存储大量分区。
○ 支持 ACID 事务、时间旅行和模式演变。

Apache Paimon 的架构

在这里插入图片描述

如上架构图所示:
读/写: Paimon 支持多种方式来读取/写入数据和执行 OLAP 查询。
● 对于读取,它支持消费数据
○ 从历史快照(批处理模式)
○ 从最新偏移量(在流模式下)
○ 以混合方式读取增量快照。
● 对于写入,它支持
○ 来自数据库变更日志的流式同步(CDC)
○ 从离线数据批量插入/覆盖。
生态系统:除了 Apache Flink,Paimon 还支持其他计算引擎的读取,例如 Apache Hive、Apache Spark 和 Trino。
内部的:
● 在底层,Paimon 将列式文件存储在文件系统/对象存储中
● 文件的元数据保存在manifest文件中,提供大规模存储和数据跳过。
● 对于主键表,采用LSM树结构,支持大量数据更新和高性能查询。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ldbm.cn/p/443137.html

如若内容造成侵权/违法违规/事实不符,请联系编程新知网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

maya-vray渲染蒙版

要用一个叫vrayMulWrapper的材质球,把alpha Conterbution调到-1,勾选matte surface启用蒙版物体。

F12抓包11:UI自动化 - Recoder(记录器)

课程大纲 使用场景(导入和导出): ① 测试的重复性工作,本浏览器录制并进行replay; ② 导入/导出录制脚本,移植后replay; ③ 导出给开发进行replay复现bug; ④ 进行前端性能分析。 1、录制脚…

在深圳停车场我居然能看到很漂亮的瓦房

石岩街道在宝安确实是小透明哈,从市区搬到石岩快4年了,确实这里的建筑特别像老家的感觉,马路很狭窄。如果是开车的话,我是不会进入罗租大道来着,人车太复杂。由于上屋社区适合儿童的室内场所太少了,石岩这块…

网页本地存储

网页本地存储 <html> <script>//添加数据function add(){var text;textdocument.getElementById(text).value;indexlocalStorage.length1;localStorage.setItem(index,text);}//显示localStorage所有内容function showall(){storagelocalStorage;var length stor…

docker容器中的内存占用高的问题分析

文章目录 问题描述原因分析分析1分析2验证猜想 结论和经验 问题描述 运维新增对某服务的监控后发现&#xff1a;内存不断上涨的现象。进一步确认&#xff0c;是因为有多个导出日志操作导致的内存上涨问题。 进一步的测试得出的结果是&#xff1a;容器刚启动是占用内存约为50M…

NeurIPS 2023 | 基于 Llama 的单变量时序预测基础模型

概率时间序列预测是在广泛应用中出现的一个重要实际问题&#xff0c;包括金融、天气预报、脑成像和计算机系统性能管理等领域。针对这一任务&#xff0c;已经提出了各种方法&#xff0c;从传统的自回归模型到最近基于深度学习架构的神经预测方法。这些以前的方法大多集中在用来…

[python]如何正确的安装pytorch?(详细)

一、我们为什么需要安装pytorch? pytorch作为目前最主流的开源机器学习库之一&#xff0c;凭借庞大的社区支持和易于开发的特性&#xff0c;收获了一大波开发者与项目分支。像我们熟知的“GLM”&#xff0c;“YOLO”,"GPT-Sovits"&#xff0c;“Stable Diffusion”.…

微服务——网关路由(Spring Cloud Gateway)

网关路由 1.什么是网关 网关又称网间连接器、协议转换器&#xff0c;是在网络层以上实现网络互连的复杂设备&#xff0c;主要用于两个高层协议不同的网络之间的互连。网关就是网络的关口。数据在网络间传输&#xff0c;从一个网络传输到另一网络时就需要经过网关来做数据的路由…

C/C++语言基础--从C到C++的不同(下),15个部分说明C与C++的不同

本专栏目的 更新C/C的基础语法&#xff0c;包括C的一些新特性 前言 1-10在上篇C/C语言基础–从C到C的不同(上&#xff09;&#xff1b;当然C和C的不同还有很多&#xff0c;本人暂时只总结这些&#xff0c;其他的慢慢更新&#xff1b;上一篇C/C语言基础–从C到C的不同(上&…

【webpack4系列】编写可维护的webpack构建配置(四)

文章目录 构建配置包设计功能模块设计和目录结构设计功能模块设计目录结构设计 使用ESLint规范构建脚本冒烟测试介绍和实际运用冒烟测试 (smoke testing)冒烟测试执行判断构建是否成功判断基本功能是否正常 单元测试和测试覆盖率测试框架编写单元测试用例单元测试接入测试覆盖率…

Fisco Bcos 2.11.0配置console控制台2.10.0及部署调用智能合约

Fisco Bcos 2.11.0配置console控制台2.10.0及部署调用智能合约 文章目录 Fisco Bcos 2.11.0配置console控制台2.10.0及部署调用智能合约前言版本适配一、启动FIsco Bcos区块链网络二、获取控制台文件三、配置控制台3.1 执行download_console.sh脚本3.2 拷贝控制台配置文件3.3 修…

研1日记12

1. 改19->10 2. 学习数据不平衡问题 1. 欠采样 合并两个样本数据 两种方式 1. 按原分布比例划分。sklearn中train_test_split里&#xff0c;参数stratify含义解析_traintestsplit参数stratify-CSDN博客 3.刘二大人 卷积操作 待看论文&#xff1a; 刘老师指导&#xff1a…

7. Transforms的使用(二)--Normalize

Transforms的使用&#xff08;二&#xff09; 1.图像数据标准化的意义 将图像数据标准化可以提高模型的收敛速度、梯度计算等问题。对于某个深度学习任务而言&#xff0c;将图片数据进行标准化可以确保所有的数据保持同样的统计分布 一般可以通过计算所有图片不同通道的平均平…

WGCAT工单系统 v1.2.1 支持导出PDF和分享创建工单功能

官网下载&#xff1a;www.wgstart.com WGCAT-v1.2.1 更新说明&#xff0c;2024-09-15发布 1. 新增&#xff0c;工单数据支持导出为PDF文件 2. 新增&#xff0c;可以分享给其他人创建工单&#xff0c;分享创建工单的链接不需要登录&#xff0c;直接可以提交工单数据&#xff0c;…

stm32单片机个人学习笔记3(GPIO输出)

前言 本篇文章属于stm32单片机&#xff08;以下简称单片机&#xff09;的学习笔记&#xff0c;来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记&#xff0c;只能做参考&#xff0c;细节方面建议观看视频&#xff0c;肯定受益匪浅。 STM32入门教程-2023版 细…

【webpack4系列】webpack基础用法(二)

文章目录 entryoutputloaderpluginmode前端构建基础配置关联HTML插件html-webpack-plugin构建 CSS 解析 ES6和React JSX解析 ES6解析 React JSX 解析CSS、Less和Sass解析CSS解析Less解析sass 解析图片和字体资源解析&#xff1a;解析图片资源解析&#xff1a;解析字体资源解析&…

虹科方案 | 精准零部件测试!多路汽车开关按键功能检测系统

欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; #LIN/CAN总线 #零部件测试 #CAN数据 导读 在汽车制造业中&#xff0c;零部件的安全性、功能性和可靠性是确保车辆整体性能的关键。虹科针对车辆零部件的LIN/CAN总线仿真测试&#xff0c;提出了基于虹科Baby-LIN系列产…

深度学习——基础知识

深度学习的重点在于优化&#xff0c;其中很重要的步骤在于如何调参&#xff0c;会涉及到一些微积分等数学知识。不同于以往接触到的数值运算&#xff0c;深度&#xff08;机器&#xff09;学习都是关于张量Tensor&#xff08;向量&#xff09;的计算&#xff0c;Python中最常用…

俄罗斯方块——C语言实践(Dev-Cpp)

目录 1、创建项目(尽量不使用中文路径) 2、项目复制 3、项目配置 ​1、调整编译器 2、在配置窗口选择参数标签 3、添加头文件路径和库文件路径 4、代码实现 4.1、main.c 4.2、draw.h 4.3、draw.c 4.4、shape.h 4.5、shape.c 4.6、board.h 4.7、board.c 4.8、cont…

Https AK--(ssl 安全感满满)

免责声明&#xff1a;本文仅做分享&#xff01; 目录 https探测 openssl Openssl连接服务器获取基本信息 连接命令&#xff1a; 指定算法连接: 测试弱协议连接是否可以连接: 得到的内容包括&#xff1a; sslscan 在线查询证书 https AK type 中间人AK sslsplit 工具…