然而随着业务规模快速增长,T3出行在支撑海量的数据存储与计算时面临着:传统数仓难以解决出行场景的“长尾支付”、TCO(TotalCostofOwnership,总体拥有成本)居高不下、运维成本高且扩展性受限等问题。
为满足业务发展,T3出行将最初的传统数仓架构改造成业界新兴的Lakehouse架构,他们的研发团队在这个过程中走了不少“捷径”,像华为云数智融合产品就为其构建Lakehouse提供了不少助力。
在8月16日主题为“数智融合,云上创新”的华为云大咖说数智融合专场中,T3出行大数据平台研发负责人杨华分享了T3出行的Lakehouse架构与实践:
2020年初Databricks在一篇论文中正式提出了“Lakehouse”的概念,同期三大开源数据湖框架(ApacheHudi/Iceberg/DletaLakeOS版)逐步进入大家的视野。由于Databricks的Lakehouse是以DeltaLake作为核心TableFormat,因此,在做Lakehouse架构构建选型时,这三个框架便成为了优先选项。
在过去的两年里,围绕这三个数据湖框架构建的Lakehouse架构正在被越来越多的企业接受并付诸实践。Lakehouse(国内常称之为“湖仓一体”)是一个存算分离的架构,存储与计算解耦,各自scale-out。从存储层来看,借助于纠删码技术,对象存储使得数据的TCO与成本得到进一步的降低。从计算层来看,借助于弹性算力,计算资源从以前的长期租赁,变成了按需使用、按需计费的方式。
T3出行由于从早期就参与ApacheHudi社区的源码贡献,因此很早就看到了新兴的这些TableFormat的优势并开始探索、实践Lakehouse架构。借助于华为云FusionInsight整体托管能力及其OBS对象存储,T3出行的Lakehouse得以稳健地支撑业务的快速增长。
T3出行的Lakehouse架构同时支撑了面向数据分析的BI场景以及面向数据智能的AI场景,不仅使TCO相比技改前降低20%以上,更解决了传统数仓难以支持分钟级数据摄取等难题。以一套架构体系支撑了OLAP、AD-Hoc查询、离线与准实时的数据加工、机器学习训练等BI、AI的典型场景,有效地支撑了“数智融合”。