您现在的位置是:首页 > 编程 > 

Apache Amoro Meetup o.2:助力湖仓一体生产实践

2025-07-29 15:05:23
Apache Amoro Meetup o.2:助力湖仓一体生产实践 本文共计2605 预计阅读时长8分钟随着云计算,人工智能,实时计算等技术的飞速发展,传统的数据系统,如数据仓库和数据湖,虽然各自具有独特的优势,但在实际应用中也暴露出了一些局限性。为了解决这些问题,湖仓一体(Lakehouse)作为一种新兴的数据架构应运而生,逐渐成为各行业关注的焦点。湖仓一体结合了数据湖和数据仓库的优点,旨在

Apache Amoro Meetup o.2:助力湖仓一体生产实践

本文共计2605 预计阅读时长8分钟

随着云计算,人工智能,实时计算等技术的飞速发展,传统的数据系统,如数据仓库和数据湖,虽然各自具有独特的优势,但在实际应用中也暴露出了一些局限性。为了解决这些问题,湖仓一体(Lakehouse)作为一种新兴的数据架构应运而生,逐渐成为各行业关注的焦点。湖仓一体结合了数据湖和数据仓库的优点,旨在提供一个统一的数据平台,既能存储多样化的原始数据,又能支持高效的数据分析和处理。湖仓一体架构通过将这两者的优势结合,打破了信息孤岛,实现了数据的统一管理和高效利用。

2024年12月21日,09:0-12:05,腾讯云大数据将参加Datafun联合Apache Amoro社区举办的Apache Amoro Meetup,助力湖仓一体生产实践。本次会议上,来自腾讯云大数据的专家工程师周劲松将在直播间分享腾讯云在湖仓一体架构下的生产实践,并与到场的技术专家们一同探讨湖仓一体的未来发展。感兴趣的小伙伴,欢迎扫码入收看直播:

识别二维码,加入直播

活动议程:

详细介绍:

王士达 高途 大数据资深开发工程师

个人介绍:7年实际工作经验,一直在做大数据相关工作。在美菜网.5年,公司做生鲜电商业务。曾任职于履约研发部、成立数据仓库部、BI研发部,参与公司数仓规范制定和数仓建设,以及BI工具和报表研发。目前在高途.5年,公司做在线教育业务。任职于大数据部的数据平台组,大数据资深开发工程师岗位。主要工作职责包括数据同步、数据湖调研落地、埋点上报及管理系统、USQL统一查询服务、指标字典等。

演讲题目:高途基于Iceberg和Amoro的湖仓一体架构实践

演讲介绍:高途对时效性的诉求逐渐增多,通过离线加工数据部分场景已经不满足业务诉求,业务伙伴希望可以通过实时数据来加快业务落地和决策。使用数据湖技术可以做到分钟级延迟,来满足业务诉求。本次分享介绍高途在腾讯云上接入数据湖技术时遇到的挑战,包含同步工具选择、近1年来表治理方法的演进、数据对比工具进行介绍。

演讲提纲:

· 业务背景:Databus通过MySQL、Canal、Kafka、HDFS和Hive链路进行数据同步,但存在链路长、数据丢失、大表合并资源消耗高和时效性差等问题,链路维护成本高并且无法满足小时级业务需求;Lambda架构的两套链路导致数据差异和浪费资源,批处理时间集中导致资源抢占任务延迟,实时链路排查困难等。

· 方案选型:主要从同步工具选型、Iceberg治理工具发展、数据质量校验方面进行介绍,以及高途在使用数据湖过程中遇到的挑战和解决方法

· 效果和收益:

① 离线链路提效

以前业务链路:离线数仓ods->dwd->dws中有多个层级,整体加工时间5个小时

现在链路:实时链路加工后的Kafka数据直接入dws层,整体缩短为5分钟级

② Databus同步任务迁移:超0亿以上大表全量和增量合并时,预估月费用1万+/月;切换实时入湖方式包含写入和治理,预计150/月

③ 实时性入仓,缩短抽数时间:有些ods层大表需要抽取40分钟,由40分钟缩短到分钟级。小时级链路最快可加快半小时

· 未来规划和总结

① 治理稳定性完善。由于是流式写入会产生小文件问题,围绕着小文件治理做工具和监控完善。

② 数据湖增量计算、大宽表部分列更新做探索

听众收益:

· 数据湖在可以解决传统数仓中哪些问题

· 在搭建数据湖链路中遇到问题和解决方法。包含同步工具、小文件自动治理、同步数据质量校验上的问题和解决办法

落地挑战和方案重点:

· Amoro治理稳定性问题待优化。大表治理频次异常可能阻塞其它表治理,需要保障方式

· 目前Flink不支持读取Iceberg v2表,如何使用Iceberg替换kafka,做到分钟级链路

陈政羽 货拉拉 高级大数据开发工程师

个人介绍:陈政羽(ConradJam),Apache Amoro PPMC,Apache Flink 社区贡献者,从事游戏大数据、数据平台开发工作,常年活跃在各大开源社区,目前在货拉拉负责湖仓一体、流计算平台等相关工作。

演讲题目:Amoro数据入湖新体验

演讲介绍:本次首先介绍了数据湖在货拉拉一些应用的场景,同时基于落湖中遇到的挑战,我们引入了Amoro作为湖仓一体管理平台,如何解决我们入湖时遇到的痛点,包括小文件管理,湖仓元数据管理,自动Snapshot管理等,以及未来我们希望后续Flink CDC如何基于Amoro做一些工作。

演讲提纲:

· 货拉拉数据湖场景

· 实时数据和CDC数据入湖场景挑战

· 基于Amoro打造的湖仓一体新平台

· 未来规划

落地挑战和方案重点:

· 基于Amoro优化Iceberg v2表,减少文件碎片,提升OLAP引擎查询能力

· 基于Amoro形成一套完整的湖仓体系架构

张永翔 抖音集团 数据湖存储专家

个人介绍:Amoro社区PPMC成员。先后在网易和抖音集团负责数据湖相关工作,专注于Apache Iceberg和Hudi的服务化实施与优化。

演讲题目:抖音数据湖表的优化与管理

演讲介绍:本次演讲将深入解析抖音数据湖的构建原理,探讨数据湖表面临的主要问题与挑战,并详细介绍高效的表管理服务。演讲还将阐释抖音如何将Amoro平台整合进数据湖架构,并展望对Amoro社区的未来发展和贡献。

演讲提纲:

1. 抖音数据湖的实现原理

2. 数据湖表的问题与挑战

. 表管理服务介绍

4. 和Amoro的结合以及社区贡献

听众收益:

1. 了解到抖音在数据湖领域的实践经验

2. 了解到抖音在Amoro社区未来的投入与规划

落地挑战和方案重点:

1. 万级别数据湖表的管理

2. 服务稳定性和扩展能力

胡源峰 虎牙 大数据平台开发工程师

个人介绍:虎牙大数据平台工程师,Apache Amoro(incubators)PPMC,Flink、Iceberg、Paimon Contributor。负责虎牙实时计算平台和数据湖建设,专注于Flink和数据湖(Table-format)相关技术,为内部提供Flink引擎以及平台支撑。

演讲题目:虎牙基于Iceberg+Paimon的实时湖仓实践

演讲介绍:虎牙长期是使用Hive来作为数仓的底座,但是Hive这一套已经无法满足在分钟级别延时的场景下的分析需求,所以引入了 Iceberg、Paimon这种table-format来满足这些需求,在实践过程中,我们遇到了一系列的问题,比如写入吞吐不够、写入任务资源占用率高、小文件过多等问题,我们自己开发了动态分区shuffle、引入Autoscaler、Amoro等技术解决这一系列问题,其中写入吞吐相比社区版本在某些场景下有近10倍提升,而 autoscaler降低了40%+资源同时解决了因为流量激增带来的任务延迟。

演讲提纲:

· 虎牙的数据湖入湖架构

· 任务实时入湖难点以及解决方案

· 和离线调度的结合实现分钟级微批调度

· Amoro在其中承担的角

听众收益:

· 了解虎牙在数据湖的实践经验

· 了解Paimon和Iceberg两种格式的优劣

周劲松 腾讯云 专家工程师

个人介绍:周劲松,腾讯云大数据专家工程师,从事大数据与数据库方向开发工作经验8年,目前在腾讯云负责湖仓一体方向的研发。Apache Amoro创始人和PPMC成员,主导了湖仓管理系统Amoro的设计与研发工作,推动Amoro加入Apache孵化器,持续致力于社区的发展。

演讲题目:腾讯云Iceberg批流一体解决方案

演讲介绍:湖仓一体(Lakehouse)是当下最流行的大数据基础设施架构,腾讯云作为国内顶尖的云计算提供商,基于EMR/DLC/TC-House/Oceanus/TBDS等产品矩阵打造了一整套全方位的湖仓一体解决方案。腾讯云基于Apache Iceberg与Apache Amoro打造了一套具有自动优化,智能优化,流批统一的数据湖解决方案。帮助用户统一了湖仓存储架构,降低了湖仓数据延迟,提高了数据开发效率。

演讲提纲:

1. 腾讯云湖仓一体架构

2. 腾讯云批流一体Iceberg解决方案简介

. 解决方案核心特性介绍

4. Iceberg批流一体业务实践分享

5. 未来规划及Amoro社区合作

听众收益:

1. 了解湖仓一体架构

2. 学习湖仓一体架构的最佳实践

. 学习湖仓一体架构的业务收益

识别二维码,加入直播

ED

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-12-19,如有侵权请联系 cloudcommunity@tencent 删除apache大数据数据湖架构数据

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1237730.html

相关标签:无
上传时间: 2025-07-26 18:35:44
留言与评论(共有 20 条评论)
本站网友 乳腺疾病
13分钟前 发表
湖仓一体架构通过将这两者的优势结合
本站网友 碧水源净水
30分钟前 发表
旨在提供一个统一的数据平台
本站网友 柳州男科
3分钟前 发表
目前在腾讯云负责湖仓一体方向的研发
本站网友 netstat命令
8分钟前 发表
欢迎扫码入收看直播:识别二维码
本站网友 儿童营养品
12分钟前 发表
演讲提纲:· 虎牙的数据湖入湖架构· 任务实时入湖难点以及解决方案· 和离线调度的结合实现分钟级微批调度· Amoro在其中承担的角听众收益:· 了解虎牙在数据湖的实践经验· 了解Paimon和Iceberg两种格式的优劣周劲松 腾讯云 专家工程师个人介绍:周劲松
本站网友 亲润孕妇护肤品
8分钟前 发表
Apache Amoro Meetup o.2:助力湖仓一体生产实践 本文共计2605 预计阅读时长8分钟随着云计算
本站网友 corollary
15分钟前 发表
数据丢失
本站网友 重庆通缉犯
27分钟前 发表
同步数据质量校验上的问题和解决办法落地挑战和方案重点:· Amoro治理稳定性问题待优化
本站网友 win7虚拟光驱下载
15分钟前 发表
数据对比工具进行介绍
本站网友 红茶的种类
5分钟前 发表
USQL统一查询服务
本站网友 北京租房攻略
15分钟前 发表
Apache Flink 社区贡献者
本站网友 crystalball
9分钟前 发表
数据质量校验方面进行介绍
本站网友 卓越理财
24分钟前 发表
以及未来我们希望后续Flink CDC如何基于Amoro做一些工作
本站网友 中国外资银行
27分钟前 发表
数据平台开发工作
本站网友 龙岗二手房
25分钟前 发表
09
本站网友 上海话剧中心
29分钟前 发表
大表治理频次异常可能阻塞其它表治理
本站网友 冰王牌狐臭
6分钟前 发表
Kafka
本站网友 前夜
12分钟前 发表
探讨数据湖表面临的主要问题与挑战
本站网友 子宫收缩乏力
15分钟前 发表
围绕着小文件治理做工具和监控完善