美团面试:为什么要用分布式缓存?本地缓存呢?多级缓存一致性如何保证?
去年面美团的时候面试官看着我的简历问“我看你们项目里有个全局字典模块里面那些省市代码、订单状态配置是怎么做缓存的”我为了展现系统的高并发架构立马拔高音量说“为了保证系统的高可用和拓展性我们专门用了一套 Redis 集群每次业务流转都去 Redis 里查字典绝对扛得住大流量。”突然面试官没忍住笑了出来。我看到他摇了摇头才意识到事情不对——当时我们那个字典表总共也就不到五百条记录而且大半年都不会改动一次。面试被挂后才懂大炮打蚊子说的就是我这种“强行上架构”的过度设计。明明引入一个 Caffeine 本地缓存能完美解决的问题非要为了高大上走一遍 Redis 的网络 I/O。不仅增加了部署成本和系统脆弱性还白白拖慢了响应速度。段子归段子在真实的业务开发中搞懂不同缓存架构的适用边界特别是本地缓存和分布式缓存的抉择确实是系统设计的核心基本功也是考察候选人是否具备“务实架构思维”的高频考点。现在大环境这么卷面试官越来越看重我们解决实际问题的能力而不是堆砌技术栈。今天分享几道缓存选型和基础概念相关的面试题希望对大家有帮助⭐️ 为什么有些场景下用 Redis 反而不如本地缓存香⭐️ 单体架构下JDK 自带的 Map、Guava Cache 和 Caffeine 到底该怎么选引入分布式缓存如 Redis会给系统带来哪些隐患和额外成本⭐️ 面对极高并发的秒杀场景如何将本地缓存与 Redis 结合做成多级缓存多级缓存架构下如何低成本保证缓存的数据一致性Java 面试 后端通用面试指南Github 收获155KStar600位贡献者共同参与维护和完善 JavaGuide 网站http://javaguide.cn。缓存的基本思想很多同学只知道缓存可以提高系统性能以及减少请求响应时间Response Time但是不太清楚缓存的本质思想是什么。缓存的基本思想其实很简单就是我们非常熟悉的空间换时间这一经典性能优化策略的运用。所谓空间换时间也就是用更多的存储空间来存储一些可能重复使用或计算的数据从而减少数据的重新获取或计算的时间。说到空间换时间除了缓存之外你还能想到什么其他的例子吗这里再列举几个常见的索引索引是一种将数据库表中的某些列或字段按照一定的排序规则组织成一个单独的数据结构虽然需要额外占用空间但可以大大提高检索效率降低数据排序成本。数据库表字段冗余将经常联合查询的数据冗余存储在同一张表中以减少对多张表的关联查询进而提升查询性能减轻数据库压力。CDN内容分发网络将静态资源分发到多个边缘节点以实现就近访问进而加快静态资源的访问速度减轻源站服务器以及带宽的负担。编程需要学会归纳总结将自己学到的东西串联起来假如你在面试的时候能聊到这些面试官一定会对你有一个好印象的。不要把缓存想的太高大上虽然它的确对系统的性能提升的性价比非常高。当我们在学习并应用缓存的时候你会发现缓存的思想实际在 CPU、操作系统或者其他很多地方都被大量用到。比如CPU Cache缓存的是内存数据用于解决CPU处理速度与内存访问速度不匹配的问题内存缓存的是硬盘数据用于解决硬盘I/O速度过慢的问题。CPU 缓存模型示意图再比如为了提高虚拟地址到物理地址的转换速度操作系统在页表方案基础之上引入了转址旁路缓存Translation Lookaside BufferTLB也被称为快表。加入 TLB 之后的地址翻译拿日常使用的浏览器来说它会对访问过的图片或静态文件进行缓存浏览器缓存这样下次访问相同页面时加载速度会显著提升。我们日常开发中用到的缓存其中的数据通常存储于RAM内存中访问速度极快。为了避免内存数据在重启或宕机后丢失许多缓存中间件如Redis提供了磁盘持久化机制。相比于关系型数据库如MySQL缓存的访问速度和并发支持量都要高出几个数量级。在数据库之上增加一层缓存是保护底层存储、提升系统吞吐量的核心手段。缓存的分类接下来我们来看看日常开发中用到的缓存通常被分为哪几种。本地缓存什么是本地缓存?这个实际在很多项目中用的蛮多特别是单体架构的时候。数据量不大并且没有分布式要求的话使用本地缓存还是可以的。本地缓存位于应用内部其最大的优点是应用存在于同一个进程内部请求本地缓存的速度非常快不存在额外的网络开销。常见的单体架构图如下我们使用Nginx来做负载均衡部署两个相同的应用到服务器两个服务使用同一个数据库并且使用的是本地缓存。本地缓存示意图注意在集群模式下使用本地缓存必须考虑负载均衡策略。如果 Nginx 使用默认的轮询Round-Robin同一个用户的请求会随机落在不同机器导致本地缓存命中率极低。解决方案如下网关层使用一致性哈希或 Sticky Session保证同一用户的请求固定打到同一台机器。但此方案会破坏微服务的无状态特性导致节点扩缩容时缓存命中率剧烈震荡且极易引发单点热点问题现代云原生架构中较少采用。应用层仅将本地缓存用于”全局几乎不变”的数据如配置字典而非用户维度数据。本地缓存的方案有哪些1、JDK 自带的HashMap和ConcurrentHashMap。JDK 自带的ConcurrentHashMap是高并发下最基础的键值对容器。虽然常被新手用作极简缓存但它本质上只是一个数据结构并非真正的缓存框架。它缺乏缓存必备的核心机制过期淘汰策略TTL/TTI、容量驱逐算法如 LRU/W-TinyLFU以及命中率监控。因此大部分场景来说不会直接使用这两者当做缓存。一个稍微完善一点的缓存框架至少要提供过期时间、淘汰机制、命中率统计这三点。2、Ehcache、Guava Cache、Spring Cache这三者是使用的比较多的本地缓存框架。Ehcache的话相比于其他两者更加重量。不过相比于Guava Cache、Spring Cache来说Ehcache支持可以嵌入到 hibernate 和 mybatis 作为多级缓存并且可以将缓存的数据持久化到本地磁盘中、同时也提供了集群方案比较鸡肋可忽略。Guava Cache和Spring Cache两者的话比较像。Guava相比于Spring Cache的话使用的更多一点它提供了 API 非常方便我们使用同时也提供了设置缓存有效时间等功能。它的内部实现也比较干净很多地方都和ConcurrentHashMap的思想有异曲同工之妙。使用Spring Cache的注解实现缓存的话代码会看着很干净和优雅但需警惕底层实现陷阱Spring Cache 本身只是一层抽象接口若底层直接使用默认的ConcurrentMapCacheManager底层是无容量限制的ConcurrentHashMap在缓存大量动态 Key 时极易导致 OOM。因此生产中必须将其底层实现绑定为配置了最大容量的 Caffeine 或 Redis。3、后起之秀 Caffeine。相比于Guava来说Caffeine在各个方面比如性能都要更加优秀一般建议使用其来替代Guava。并且Guava和Caffeine的使用方式很像使用Caffeine创建本地缓存的代码示例用到了建造者模式// 使用 Caffeine 创建本地缓存示例 CacheString, String cache Caffeine.newBuilder() // 设置写入后 10 分钟过期本地缓存通常设置较短过期时间 .expireAfterWrite(10, TimeUnit.MINUTES) // 初始容量 .initialCapacity(100) // 最大条数限制 .maximumSize(500) // 开启统计功能 .recordStats() .build();本地缓存有什么痛点本地的缓存的优势非常明显低依赖、轻量、简单、成本低。但是本地缓存存在下面这些缺陷本地缓存应用耦合对分布式架构支持不友好比如同一个相同的服务部署在多台机器上的时候各个服务之间的缓存是无法共享的因为本地缓存只在当前机器上有。本地缓存容量受服务部署所在的机器限制明显。如果当前系统服务所耗费的内存多那么本地缓存可用的容量就很少。分布式缓存什么是分布式缓存我们可以把分布式缓存Distributed Cache 看作是一种内存数据库的服务它的最终作用就是提供缓存数据的服务。分布式缓存脱离于应用独立存在多个应用可直接的共同使用同一个分布式缓存服务。如下图所示就是一个简单的使用分布式缓存的架构图。我们使用 Nginx 来做负载均衡部署两个相同的应用到服务器两个服务使用同一个数据库和缓存。分布式缓存使用分布式缓存之后缓存服务可以部署在一台单独的服务器上即使同一个相同的服务部署在多台机器上也是使用的同一份缓存。 并且单独的分布式缓存服务的性能、容量和提供的功能都要更加强大。软件系统设计中没有银弹往往任何技术的引入都像是把双刃剑。你使用的方式得当就能为系统带来很大的收益。否则只是费了精力不讨好。简单来说为系统引入分布式缓存之后往往会带来下面这些问题系统复杂性增加引入缓存之后你要维护缓存和数据库的数据一致性、维护热点缓存、保证缓存服务的高可用等等。系统运维与资源成本增加引入分布式缓存意味着系统需要额外部署并维护一个高可用的缓存中间件集群这不仅消耗宝贵的内存资源也提高了运维门槛。分布式缓存的方案有哪些分布式缓存的话比较老牌同时也是使用的比较多的还是Memcached和Redis。不过现在基本没有看过还有项目使用Memcached来做缓存都是直接用Redis。Memcached 是分布式缓存最开始兴起的那会比较常用的。后来随着 Redis 的发展大家慢慢都转而使用更加强大的 Redis 了。有一些大厂也开源了类似于 Redis 的分布式高性能 KV 存储数据库例如腾讯开源的 Tendis 。Tendis 基于知名开源项目 RocksDB 作为存储引擎 100% 兼容 Redis 协议和 Redis4.0 所有数据模型。关于 Redis 和 Tendis 的对比腾讯官方曾经发过一篇文章Redis vs Tendis冷热混合存储版架构揭秘 可以简单参考一下。不过从 Tendis 这个项目的 Github 提交记录可以看出Tendis 开源版几乎已经没有被维护更新了加上其关注度并不高使用的公司也比较少。因此不建议你使用 Tendis 来实现分布式缓存。目前比较业界认可的 Redis 替代品还是下面这两个开源分布式缓存都是通过碰瓷 Redis 火的Dragonfly一种针对现代应用程序负荷需求而构建的内存数据库完全兼容 Redis 和 Memcached 的 API迁移时无需修改任何代码号称全世界最快的内存数据库。KeyDB Redis 的一个高性能分支专注于多线程、内存效率和高吞吐量。不过个人还是建议分布式缓存首选 Redis 毕竟经过这么多年的生产考验生态也这么优秀资料也很全面。相关阅读Redis 常见面试题总结上Redis 基础、应用、数据类型、持久化机制、线程模型等Redis 常见面试题总结(下)Redis 事务、性能优化、生产问题、集群、使用规范等多级缓存什么是多级缓存为什么要用我们这里只来简单聊聊本地缓存 分布式缓存的多级缓存方案这也是最常用的多级缓存实现方式。这个时候估计有很多小伙伴就会问了既然用了分布式缓存为什么还要用本地缓存呢。本地缓存和分布式缓存虽然都属于缓存但本地缓存的访问速度要远大于分布式缓存这是因为访问本地缓存不存在额外的网络开销我们在上面也提到了。不过一般情况下我们也是不建议使用多级缓存的这会增加维护负担比如你需要保证一级缓存和二级缓存的数据一致性。而且其实际带来的提升效果对于绝大部分业务场景来说其实并不是很大。这里简单总结一下适合多级缓存的两种业务场景缓存的数据不会频繁修改比较稳定数据访问量特别大比如秒杀场景。多级缓存方案中第一级缓存L1使用本地内存比如 Caffeine)第二级缓存L2使用分布式缓存比如 Redis。多级缓存读取缓存数据的时候我们先从 L1 中读取读取不到的时候再去 L2 读取。这样可以降低 L2 的压力减少 L2 的读次数。如果 L2 也没有此数据的话再去数据库查询数据查询成功后再将数据写入到 L1 和 L2 中。多级缓存开源实现推荐J2Cache基于本地内存和 Redis 的两级 Java 缓存框架。JetCache阿里开源的缓存框架支持多级缓存、分布式缓存自动刷新、 TTL 等功能。多级缓存一致性如何保证在多级缓存系统中保证强一致性成本太高业界的几个提供多级缓存功能的缓存框架基本都是最终一致性保证。例如可以使用 Redis 的发布/订阅机制、Redis Stream 或者消息队列来确保当一个实例的本地缓存发生变化时其他实例能够及时更新其本地缓存以保持缓存一致性。政采云技术的方案是 Canal 广播消息这里简单介绍一下DB 修改数据首先在数据库中进行数据修改。通过监听 Canal 消息触发缓存的更新使用 Canal 监听数据库的变更操作当检测到数据变化时触发缓存更新。同步 Redis 缓存对于 Redis 缓存因为集群中只共享一份数据所以直接同步缓存即可。同步本地缓存由于本地缓存分布在不同的 JVM 实例中需要借助广播消息队列MQ机制将更新通知广播到各个业务实例从而同步本地缓存。⚠️ 警惕消息乱序导致脏数据在并发修改场景下Canal 监听到多次更新推送到 MQ由于网络延迟消费端处理消息的顺序可能与 DB 实际执行顺序不一致导致旧版本数据覆盖新版本数据。生产环境中更新缓存的操作建议改为Delete失效缓存而非 Update迫使下次请求重新从 DB 拉取最新数据配合兜底的 TTL 机制最大程度避免脏数据残留。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2441194.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!