火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台***活动、技术干货文章等多个有趣、有料的模块内容。 双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~ 接下来让我们来看看 11-12 月数据中台产品有什么大事件吧~
产品迭代一览
火山引擎大数据研发治理套件DataLeap
火山引擎云原生数据仓库 ByteHouse
火山引擎湖仓一体分析服务 LAS
火山引擎云原生开源大数据平台 E-MapReduce
重点功能课堂
火山引擎大数据研发治理套件DataLeap
火山引擎云原生数据仓库 ByteHouse
火山引擎湖仓一体分析服务 LAS
火山引擎云原生开源大数据平台 E-MapReduce
【EMR Stateless】无状态的 EMR 实例,交付轻量级的瞬态集群。在存算分离的基础上进一步服务化 EMR 集群的状态元素,含状态 Server(如 HMS、History Server)、用户数据、元数据、用户/权限/审计数据、服务/任务日志、集群配置、监控指标数据等,让长运行集群变成轻量级瞬态集群,作业的提交和结束可以触发集群的创建和释放,从而获得更好的弹性和扩展性,让数据平台架构有更好的演进成长能力和***的成本优化。
活动推荐
【活动】火山引擎 VeDI 数据中台架构剖析与方案分享
【简介】数据中台在字节跳动内部已经有了多年的实践,并且已通过火山引擎数智平台 VeDI 对外输出,服务于多行业客户。12月20日,通过对火山引擎 VeDI 数据中台架构剖析与方案分享,重点阐述了字节跳动数据中台建设经验,在存算分离、湖仓一体、Serverless 等技术发展趋势下,从企业数仓架构选择、数据湖解决方案与应用实践,以及一站式数据治理等角度,为企业构建自身数据中台提供思路和启发。
【活动】Apache Hudi 中文社区12月交流会议
【简介】Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建***的企业级数据湖,目前已经在国内外多个大型公司生产落地。Apache Hudi 中文社区技术交流会固定于每月***一个周四晚上 19:30 到 20:30 开播,会议由火山引擎湖仓一体分析服务 LAS 团队主办,围绕 Apache Hudi 沟通社区进展、互换想法。其中第7期于2022年12月29日分享的主题有《InLong 支持数据湖 Hudi 新范式》和《Hudi 分区级生命周期管理》。
【活动回放】关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。
【活动】Pulsar Summit Asia 2022
【简介】Pulsar Summit 是 Apache Pulsar 社区年度盛会,它将分布在世界各地的 Apache Pulsar 项目 Contributor、Committer 和各企业 CTO/CIO、开发者、架构师、数据科学家,以及消息和流计算社区的精英召集在一起。于此盛会,大家分享实践经验、交流想法、探讨关于 Pulsar 项目和社区的知识,切磋互动。2022年11月19日(周六)13:30(北京时间),Pulsar Summit Asia 2022 于线上召开,EMR团队技术专家梁鑫受邀进行分享,主题为《Apache Pulsar 在火山引擎 E-MapReduce 的集成与场景》。
【观点】2022技术盘点:大数据管理工具走向更易用与专精,但中外发展现状存在明显差异
【简介】纵观整个数仓的发展历程,大体上可以分为 4 个阶段,尽管在当下,第 2、3、4 阶段的数仓产品仍处于共存状态——它们仍旧分别被各类企业所使用,但在企业数字化转型和企业上云的整体趋势背景下,有理由相信,未来处于第 4 阶段的云数仓,将会被越来越多的企业采用。
【干货】字节跳动数据湖索引演进
【简介】字节跳动数据湖架构是在 Apache Hudi 开源版本基础上的再次迭代,在 Hudi 落地的过程中,字节跳动也遇到了各种类型的问题,尤其是在索引使用的效率上。针对自身实际的业务场景和数据规模,字节也提出了新的索引实现方式并且贡献到了社区。本次分享主要介绍字节跳动数据湖索引演进。
【干货】火山引擎数据调度实例的 DAG 优化方案
【简介】在数仓研发中,不同的表之间会存在依赖关系,而产生表数据的任务实例,也会因此存在依赖关系。只有在上游实例运行成功、下游实例到达设定的运行时间且资源充足的情况下,下游实例才会开始执行。所以,在日常的任务运维中,常常需要分析实例上下游的运行情况,根据具体的情况对实例进行置成功、重跑等操作。而如何清晰地展示实例之间的关系,帮助用户快速地分析整个链路的运行情况,并完成问题定位和运维操作,则是实例 DAG 需要解决的问题。
【干货】火山引擎 DataLeap 的 Data Catalog 系统公有云实践
【简介】Data Catalog 是一种元数据管理的服务,会收集技术元数据,并在其基础上提供更丰富的业务上下文与语义,通常支持元数据编目、查找、详情浏览等功能。目前 Data Catalog 作为火山引擎大数据研发治理套 DataLeap 产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。
【干货】字节跳动数据中台的 Data Catalog 系统搜索实践
【简介】Data Catalog 能够帮助大公司更好地梳理和管理自己的资产,是 Data-drvien 公司的重要平台。一个通用的 Data Catalog 平台通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是 Data Catalog 的入口功能,承担着让用户“找到数”的主要能力。在字节跳动数据中台的 Data Catalog 系统中,每天有 70% 以上的用户会使用搜索功能。
【干货】一文了解 DataLeap 中的 Notebook
【简介】 Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。它通常使得探索性的开发和调试更加便捷。在 Notebook 环境,可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果,使用起来非常灵活。
【干货】火山引擎 LAS 数据湖存储内核揭秘
【简介】LAS 全称(Lakehouse Analysis Service)湖仓一体分析服务,融合了湖与仓的优势,既能够利用湖的优势将所有数据存储到廉价存储中,供机器学习、数据分析等场景使用,又能基于数据湖构建数仓供 BI 报表等业务使用。本文将从以下几点开展分享:LAS 介绍、问题与挑战、LAS 数据湖服务化设计与实践、未来规划。
【干货】火山引擎 EMR 上线瞬态集群能力,助力企业大幅降低使用成本
产品介绍
大数据研发治理套件 DataLeap
火山引擎云原生数据仓库 ByteHouse
云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,***分析性能和丰富的企业级特性,助力客户数字化转型。后台回复数字“6”了解产品