案例分析 丨湖仓一体助力保险企业数据战略转型升级

news2025/8/12 5:50:34

当下,海量数据结合前沿技术架构正在为保险业带来根本性的变革。本文以某知名保险机构为例,结合偶数行业实践经验,介绍保险企业如何利用湖仓一体技术推动数据战略转型升级。

背景介绍

在对该客户需求进行深度挖掘并横向比较行业现状后,我们发现:(1) 包括该客户在内的多数保险企业的数据分析场景较为单一,直接产生业务价值的数据挖掘不够丰富;(2) 该客户现有数据分析场景的效率、性能、用户体验都亟待提升。下文我们详细展开分析。

业务场景分析

客户现有的数据分析应用集中在经营分析、监管报送和风险管控等几个传统场景,其实不止该客户,目前大多数保险企业的大数据业务应用价值挖掘都还不够丰富。

1.风险管控

仅以目前多数保险企业都非常关注的风控环节为例,该客户仍以风险部门固定报表分析为主,而通过风险数据建模,应用在投保前风险排查、承保中风险管控及理赔时风险识别和反欺诈等全业务链条还非常有限。

在投保环节,可以利用数据搭建风险评估模型,筛查高风险客户,对大概率产生负价值的客户采用拒保或者提高保费的方式以减少损失。以互联网场景下的意外险和健康险为例,由于投保手续较为简单,很多产品免体检,只需要填写投保人基本信息即可,这些业务中,很容易出现投保人隐瞒病情、造假家庭收入的情况,逆向选择甚至欺诈的可能性非常大。因此在投保场景下可以利用数据进行多维分析,及时发现高风险投保客户,避免欺诈行为的发生。

在承保运营环节,相比较传统风控,大数据风控让保险机构对保险用户的动态跟踪反馈,定期对承保中用户信息进行维护,更新用户风险指数。此外,在加强用户信息安全管理和隐私方面,保险公司借助大数据和人工智能(如设备指纹、IP 画像、机器行为识别等工具)加以防范,在回访环节,根据用户情况及其手机在网状态选择拨打方式及话术,更有利于提高回访效率,提升客户体验。

在理赔环节,大数据风控先通过构建模型的方式筛查出疑似欺诈的高风险案件,然后再人工重点审核和调查,减少现场查勘误差,提高查勘效率。

除了风险管控,通过数据赋能业务还可以落地在其他几个重点保险场景中,包括产品创新、风险定价、精准获客。接下来我们展开说明下数据赋能这些场景的形式和实现逻辑。

       

        

2.产品创新

除了传统的保单和用户信息等结构化数据,很多互联网大厂和保险应用软件都积累了大量用户行为等非结构化数据,通过大数据可以对保险市场需求的洞察更为敏锐,从而研发出低成本、场景化的细分保险产品,用户也可以在合适的时间、地点和场景选择保障范围和比例。

如基于女性用户退换货频繁推出的运费险,男性用户出差频繁进而推出航班延误险和酒店取消险,手机用户增长进而推出碎屏险等等。

       

        

3.风险定价

险企对客户进行精准定价的前提是基于大量同质风险标的,通过对不同风险标的进行数据挖掘和分析,从而对不同特征的客户进行不同的定价。以车险为例,通过智能设备采集用户驾驶习惯,如活动区域、行驶里程、驾驶频率和时段、加速和刹车强度等习惯丰富车险定价因子,进而降低整个业务线的成本。

4.精准获客

精准获客就是根据保险用户偏好,在合适的时间推荐合适的保险产品给用户。保险公司在开展定向营销时,也更加注重场景内潜在用户挖掘,比如某些场景更容易激发用户的风险忧患意识,从而促进投保转化。此外,保险代理公司和代理人可以访问保险用户信息和行为偏好,通过大数据标签和智能引导,帮助代理人更好的抓住客户需求和用户体验,形成转化和复购。精准获客模式不仅降低了营销成本,还提升了营销效率。

效率和体验分析

1.效率

该客户现有技术架构对资源依赖较高,一般分析看板 5-10 张图表的查询请求很可能导致内存需求动辄数百 GB,甚至有时会到达 TB 级别,响应时间进而退化至数秒,严重影响了分析师和数据科学家的分析效率。同时,受现有架构制约,该客户难以形成实时经营决策和实时业务应用,也进一步影响了决策效率。

2.体验

除了资源开销大间接导致的交互体验下降,用户的数据分析通常要通过 IT 实现,对 IT 的依赖很大,因此很多灵活的应用分析都难以进行。以经营分析为例,该客户目前的经营分析主要以面向管理决策者的固定报表为主,对业务用户因随机需求产生的灵活报表支持有限,分析和决策灵活度较低。此外,缺少基于现有架构的原生分析工具和平台,导致整个数据分析和应用的体验较差。

技术架构分析

该保险公司很早就使用了 Db2,为提升 Db2 性能,该公司在 2013 年引入 TD 一体机,并重新搭建数据仓库平台,集市建立在 Db2 之上。

随着数据体量越来越大,基于 Teradata 和 Db2 的传统数据仓库越来越难以支撑业务发展, 从 2015 年起开始搭建 Hadoop 大数据平台,最初包含 6 个节点的集群。经过初期的探索后,将 Db2 的一些数据逐步迁移到 Hadoop 平台,同时把 ClickHouse 作为集市 SQL 查询引擎。

       

        

随着该客户 Hadoop 应用范围越来越广,集群规模也逐步扩大,但也暴露出现有平台架构的一些问题。

基于 TD 一体机 + Db2 的传统数仓,数据应用主要是多维分析和固定报表,存在的的主要问题包括:

  • 查询响应慢:80% 的查询响应在分钟级别;

  • 并发性能差:随着数据量和用户数的增长,共享存储模式愈发难以支撑高并发;

  • 时效性低:一方面由于 Db2 的计算能力和扩展性受限,另一方面是由于过多过大的 Cognos Power Cube 更新较慢,用户体验不佳;

  • 维护困难:报表体量约 1000 张,报表维护的工作量巨大。

ClickHouse+Hadoop 大数据平台的问题主要有:

  • 资源开销大:一般分析看板 5-10 张图表的查询请求同时发给 ClickHouse,由于 ClickHouse 对内存和 CPU 资源的需求较大(内存需求动辄数百 GB 乃至数 TB),其查询性能下降很快,平时不足 2s 的查询速度会退化至 8s 以上,响应时间影响交互分析体验;

  • 多表关联查询性能弱:ClickHouse 涉及 Join 的查询往往都需要 10s 以上,数据量⼤的查询甚⾄甚至更久;

  • 时效性低:ClickHouse 并不⽀持数据的删除,因此不得不通过额外字段来标记当前数据是否已经被删除,进一步拖慢查询的性能,因此也难以支持实时场景;

  • 开发成本高:ClickHouse 只能对同一分⽚上同一分区的数据去重,所以在设计表分区或者写⼊数据时,都需要更多精力进行处理,增加了开发成本;

  • 稳定性弱:ClickHouse 最常见的是使用时前端应用突然报出查询错误;

  • 维护困难:目前已开发了数百张宽表(含明细和汇总宽表)用以满足业务需求,每日更新、维护和迭代的工作量巨大。

湖仓一体实现方案

围绕客户痛点,偶数科技通过创新技术架构对该保险公司技术架构进行升级改造,依托实时湖仓一体架构形成数据创新和数据赋能。

       

        

通过 WASP 工具,同时满足批量和实时数据同步,实现批流一体,支持处理实时变化数据,让数据平台接入更多源异构数据,整合该保险公司的数据资产,如行为埋点和用户消息事件。

存储集群既可以使用偶数专有存储引擎 Magma、HDFS,也可以使用对象存储 S3,给客户更多的存储选择。

OushuDB 作为计算引擎,创新引入了快照视图 (Snapshot View) 的概念,通过汇集实时变化数据和批处理数据,形成 T+0 实时快照,始终随着业务源库的变化而实时变化。以保险用户的权益视图为例,通过多源库汇集后的跨库查询得到动态查询结果。因此在报表分析的应用方面,不仅支持管理决策者关注的固定经营报表,还支持分析师和业务人员的实时灵活报表分析。因此,该保险公司也就不再需要通过 MPP+Hadoop 组合来处理离线跑批及分析查询。

偶数为客户提供这样的一套云原生实时湖仓架构,不再依托原 ClickHouse、TD 一体机,还能帮助用户避免引入 MySQL、HBase 等组件,极大简化了数据架构,共享一份数据,实现了数据湖、数仓、集市全方位一体化,并实现了全实时数据分析能力,该架构是由偶数在 2021 年初提出的 Omega 架构。

全面改善提升

性能改善,提升用户体验

在实施偶数湖仓一体架构之前,基于现有的集群规模,用户操作的响应时间在分钟级,现通过 OushuDB 查询响应时间均控制在秒级。OushuDB 相比 ClickHouse 在查询性能方面大幅改善。基于国际基准测试 TPC-H 的实验表明,OushuDB 多节点性能是 ClickHouse 的 2 倍以上,单节点性能是 ClickHouse 的 5 倍以上,部分 Query 可达 20 倍。

       

详细的比较过程和结果可以看往期这篇文章:

受美制裁,俄罗斯 ClickHouse 能否扛起数据库大旗?

自助分析,赋能业务场景

之前业务部门有任何数据分析都需求必须通过 IT 实现,对 IT 的依赖很大。偶数湖仓一体架构原生支持 Kepler 数据分析和应用平台,Kepler 降低业务人员对 IT 的依赖,真正支持业务自助分析,实现了使用大数据指导业务部门提高产能、赋能业务。

通过 Kepler,客户在经营分析、数据分析、数据挖掘等众多方面都进行了探索。在涉及保险代理人营销获客的单一场景、单一需求中,就加工了近百亿条数据的宽表,创建了 50 多个维度(如产品、机构、渠道、保代年龄、性别、学历和过往业绩等)和 40 多个指标。

通过分析挖掘指对业务员做分群以确定高产能保险代理人的共性特征(如学历、性别、入职时间等等),对保险代理人跟进的商机和续保线索进行智能推荐和标签提示,实现了更精准的预估保代业务产能,最终让营销人员和该保险公司同时获得更好发展。

此外,偶数湖仓一体平台还兼容主流第三方 BI 工具,保障用户高效经营分析的同时,提供更多工具选择。

全实时分析,快速挖掘业务价值

由于引入偶数 Omega 架构,实时分析决策得到了质的提升。除了高效拆分历史和当前数据进行经营分析,在不同场景都逐步引入实时能力。

  • 运营层面:建立和完善了实时业务变化,实时营销效果,当日分时业务趋势分析等;

  • 用户层面:保险用户、保险代理人的推荐排序,根据实时行为等特征变量的生产,为用户推荐更精准的保险产品和定价;

  • 风控层面:投保实时风险识别、反欺诈、异常理赔预警等应用场景。

超高并发,支持全体用户

依托偶数湖仓一体对高并发的支持,大量用户可以同时使用复杂查询对同一份数据进行分析查询,满足更多用户对更细粒度的分析需求。OushuDB 虚拟计算集群可以对湖仓一体平台实现资源合理利用、资源动态配置和资源隔离,相比原 ClickHouse 对资源的占用情况,OushuDB 对资源占用非常低,这样有效的保障了大量用户同时在线查询,避免高并发复杂查询导致的系统崩溃。

从 2021 年,偶数科技开始接触该客户,到 POC 及正式合作,偶数凭借前沿技术、专业的方案设计和交付能力,一直陪伴客户成长和发展。无论是初识还是陪伴,偶数秉承着初心,持续专注云数据平台和解决方案,服务更多客户。

立即注册,开启数字化转型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15203.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于PHP+MySQL的图书分享平台

读书是提高一个人思维,最直接,最简单和最方便的方式。同时读书可以让自己的思想得到提升,保证自己一直都在时代的检前沿。图书是知识的载体,但是它也有它的特殊性。那就是他可以进行分享。很多时候,人们在购买图书并进行阅读之后,很可能就不再需要了,这个时候就可以和其他人进行…

SpringBoot完成查询和增加功能(简易版)

目录 一、环境准备 1、db 2、html 打开前端开发工具HBuilder X,把准备好的前端spboot移进去: 接着查看电脑的mvn版本,选中项目右键: npm -version npm i​ 3、java 在弹出的窗口中选择你需要导入的项目,点击ok…

python的网络请求库urllib、urllib2、urllib3、request的联系

文章目录1. 简介2. urllib3. urllib24. urllib35. requests6. 相关文章1. 简介 urllib、urllib2、urllib3、request均能通过网络访问互联网上的资源文件,它们通过使用统一资源定位符(URL)并结合re模块完成很多意想不到的操作。 urllib&…

数据库与缓存的一致性

数据库与缓存的一致性 一致性就是数据保持一致,在分布式系统中,可以理解为多个节点中数据的值是一致的。 强一致性:这种一致性级别是最符合用户直觉的,它要求系统写入什么,读出来的也会是什么,用户体验好…

Windows系统怎么加密文件夹?

Windows系统是目前使用人数最多的电脑系统,那么你知道在Windows系统上怎么加密文件夹吗?下面这篇文章,将向大家介绍两种Windows系统文件夹加密的方法,希望对你有所帮助。 方法一:使用超级加密3000进行加密 1、打开超级…

C和C++导出DLL后在Csharp中调用函数名的差异

参考链接:cc​​​​​​​在Unity中调用C代码:出现EntryPointNotFoundException的解决办法: - 知乎 (zhihu.com) __declspec(dllexport)的位置问题 - 岚之山 - 博客园 (cnblogs.com) 如果是报如下异常 System.EntryPointNotFoundExceptio…

【GlobalMapper精品教程】017:KML generator快速将坐标转为KML文件

本文介绍KML generator软件,并快速将坐标转为KML文件的使用方法,并用globalmapper中打开kml文件加以验证。本专栏配套完整的案例数据包,请打开data017.rar获取软件及数据。 文章目录 1. KML文件介绍2. kml generator软件介绍2.1 单点KML制作2.2 Excel数据KML制作2.3 文本文件…

【模电实验】【超值1 + 1】【验证性实验——分立元件“OTL“功率放大器实验】【验证性实验——分立元件稳压电源实验】

实验9-1 验证性实验——分立元件"OTL"功率放大器实验 Multisim仿真 编辑分立元件OTL功率放大器的仿真电路如下: 静态工作点的调试与仿真如下: 发射极基极集电极T1277mV998mV5.66VT26.38V6.93V12VT36.20V5.66V0V 交越失真分析如下&#xff1a…

【Linux】OS和进程概念

文章目录1.冯诺依曼体系结构2. 操作系统(Operator System )概念总结3. 进程描述进程-PCBtask_struct-PCB的一种task_ struct内容分类见见进程1.冯诺依曼体系结构 冯诺依曼结构也称普林斯顿结构,是一种将程序指令存储器和数据存储器合并在一起…

微机原理实验:字符转换为ASCII码

随记! 要求: 1. 将指定数据区的字符串数据以ASCII码形式显示在屏幕上,并通过DOS功能调用完成必要提示信息的显示。 2. 在屏幕上显示自己的学号姓名信息。 3. 循环从键盘读入字符并回显在屏幕上,然后显示出对应字符的AS…

JS高级(四):正则表达式、常见的特殊字符、案例、预定义类、正则替换

JavaScript高级(四)一、正则表达式1.它有什么作用?2.创建正则表达式(1)利用RegExp对象来创建(2)利用字面量创建3.测试正则表达式二、特殊字符1.^和$匹配开头和结尾2.[ ]字符类3.量词符三、用户名…

有线热电偶温度验证系统

在本文中,我们将介绍使用有线热电偶温度验证系统的一些优势,并将虹科Ellab的E-Val™ Pro与市场上可用的传统有线系统(验证仪)进行比较分析。 虹科E-Val Pro是一个高度直观的基于电缆的系统。设计用于各种应用,如冻干、…

数字化时代,企业为什么需要商业智能BI?

数字化时代的到来,数据资产已经成为第五大生产要素,数据是企业生产、经营和决策的重要因素。为提升企业经营状况的感知能力,数据分析应运而生,数据获取的及时性、准确性也需要更加系统些,此时,成熟的商业智…

EasyExcel代码层面设置写出的Excel样式、以及拦截器策略的使用、自动列宽设置、EasyExcel默认设置详解

一、概述 虽然EasyExcel已经提供了一系列注解方式去设置样式。 但是如果没有实体类,或者想要更精确的去设置导出文件的Excel样式的时候就需要在代码层面去控制样式了。 二、使用已有拦截器自定义样式 主要步骤: 创建Excel对应的实体对象创建一个sty…

注意 ! !|95% 的应用程序中发现错误配置和漏洞

业内权威机构 Synopsys 最近发布了一项研究报告,结果表明在进行4300次测试后,发现95%的应用程序中都至少都有一个影响安全的漏洞或配置错误,其中高危漏洞占20%,严重漏洞则占4.5%。在此次研究中,82% 的测试目标是 Web 应…

调用链路上千条,如何观测 Nacos 的运行状态

作者:涌月 背景 随着近年来微服务体系发展,微服务上下游链路的越来越复杂,在阿里云的线上实践场景中,我们发现使用微服务架构的公司的业务动辄会出现上千条调用链路,排查问题代价巨大。 在这种背景下,阿…

灰鸽子木马特征值免杀

文章目录木马特征值免杀一. 木马特征值免杀0x01. 灰鸽子配置生成木马0x02. 使用MyCCL复合特征码定位器反复缩小目标进行定位0x03. 直到定位到很小的区间0x04. 用工具将文件偏移地址0009B9C3转换成内存地址0049C5C30x05. 使用OD跳转特征值语句的执行顺序以实现免杀0x06. 将修改后…

【深入浅出Spring6】第五期——循环依赖和反射机制

一、Bean的循环依赖问题 什么是循环依赖? 类似于A依赖B,B又依赖A,这样就构成了依赖闭环 需求:我们创建两个类,彼此内置对方为私有属性,我们查看是否可以正常输出 $ singleton setter产生的循环依赖 编写我…

(八)Bean的生命周期

文章目录环境什么是Bean的生命周期为什么要知道Bean的生命周期Bean生命周期之5步Bean生命周期之7步Bean生命周期之10步三个点位详解:点位1点位2点位3演示程序Bean的作用域不同,管理方式不同自己new的对象如何让Spring管理上一篇:(…

UE4 回合游戏项目 20- 添加人物被攻击的动画

在上一节(UE4 回合游戏项目 19- 添加血量UI)基础上继续添加人物被攻击时播放被攻击动画的功能。 效果:(当玩家被攻击时,播放相应的受到伤害的动画) 步骤: 1.打开“1lantu”,在事件图…