数据仓库处理架构: lambda架构、kappa架构
大数据处理架构详解Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓LambdaLambda架构Lambda Architecture是由Twitter工程师南森·马茨Nathan Marz提出的大数据处理架构。它的目标是构建一个通用的、健壮的大数据系统能够同时满足实时查询和历史数据批处理的需求。随着大数据的兴起越来越多的公司开始面临海量数据的处理问题。传统的批处理系统无法满足实时数据处理的需求而简单的流式处理系统又无法进行复杂的历史数据分析。这就需要一种混合架构能够兼顾实时性和复杂分析。Lambda架构应运而生。关于 Lambda 架构的详情请参考我的博客——《什么是Lambda架构》Lambda架构的缺点Lambda架构解决了大数据量下实时计算的问题但架构本身也存在一定缺点。实时与批量计算结果不一致引起的数据口径问题因为批量和实时计算走的是两个计算框架和计算程序算出的结果往往不同经常看到一个数字当天看是一个数据第二天看昨天的数据反而发生了变化。批量计算在计算窗口内无法完成在IOT时代数据量级越来越大经常发现夜间只有4、5个小时的时间窗口已经无法完成白天20多个小时累计的数据保证早上上班前准时出数据已成为每个大数据团队头疼的问题。开发和维护的复杂性问题Lambda 架构需要在两个不同的 APIapplication programming interface应用程序编程接口中对同样的业务- - 逻辑进行两次编程一次为批量计算的ETL系统一次为流式计算的Streaming系统。针对同一个业务问题产生了两个代码库各有不同的漏洞。这种系统实际上非常难维护服务器存储大数据仓库的典型设计会产生大量的中间结果表造成数据急速膨胀加大服务器存储压力。KappaKappa架构是对Lambda架构的改进和优化由Jay Kreps于2014年首次提出。随着流式计算系统的发展Lambda架构存在的一些问题逐渐显现出来系统复杂度高需要同时开发和维护批处理系统和流式系统。通过日志重播实现低延迟查询会导致数据冗余。实时视图和批处理视图存在延迟不一致的问题。为了解决这些问题Jay Kreps提出了Kappa架构。Kappa架构去除了Lambda架构的批处理层直接通过流式处理系统实现整个流程。Kappa架构主要包含两个层:流式处理层通过流式处理系统接收所有数据并进行实时计算更新存储中的结果视图。服务层对外提供查询服务直接基于流式处理层更新的结果视图进行查询返回。统一流处理所有数据实时和历史均通过流处理层处理历史数据通过事件日志重放实现重新计算Kappa架构减少了系统复杂度避免了数据冗余和数据不一致的问题。但需要流式处理系统能够保证Exactly-once语义以保证流式计算的正确性。而且去除批处理系统后对历史数据的复杂计算会更加困难。流批一体流批一体(Unified Batch and Streaming Processing)是指将流式处理和批处理统一在一个运行时框架中进行一体化的处理。在流批一体架构中实时数据流和历史数据批量处理可以使用同一组数据处理工具和技术例如Apache Spark、Apache Flink等。流批一体架构可以将实时数据和历史数据进行统一的处理和分析以简化数据处理的复杂性和提高数据处理的效率。在流批一体架构中实时数据流和历史数据批量处理可以使用同一套数据处理代码。这意味着数据处理人员可以使用同一种编程语言、框架和工具来处理实时数据和历史数据。这样可以减少数据处理人员的学习和使用成本并提高数据处理的效率和精度。流批一体架构还可以将实时数据和历史数据存储在同一套数据存储系统中例如Apache HBase、Apache Cassandra等。这样可以简化数据存储的管理和维护并提高数据的可用性和可靠性。总之流批一体是一种将流数据处理和批数据处理整合在一起的数据处理架构它可以简化数据处理的复杂性和提高数据处理的效率。流批一体架构可以在实时数据处理和历史数据批量处理之间实现无缝切换以满足不同的数据处理需求。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2416651.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!