Orc小文件合并问题
- Orc小文件合并问题
现象:hdfs中出现大量ORC小文件

1.1. 已经映射为hive表ORC小文件合并
1.1.1. 非分区表
alter table 表名 concatenate;
示例:
alter table ods_lxy_demo concatenate;
注意:可多次重复执行,每执行一次就会做一次文件合并,执行多次最终会合并成一个文件;重复执行次数是具体业务和文件多少而定,满足业务需求即可,不一定非要都合并成一个文件。
结果示例:(已将前面多个单个文件为1k左右的orc小文件合并)

1.1.2. 分区表
alter table 表名 partition(分区key=分区value) concatenate;
示例:
alter table tablename partition(dt=20221202) concatenate;
注意:concatenate 命令只支持 RCFILE 和 ORC 文件类型,需要执行多次,才能把文件合并为1个。
1.2. 调整flink程序检查点配置减少小文件产生
1.2.1. 增加检查点合并周期与超时时间
示例:
env.enableCheck
![gitee/github上传远程仓库错误usage: git remote add [<options>] <name> <url>](https://img-blog.csdnimg.cn/9c71bc5b821e43f7bea2c19e2b957306.png)
![[附源码]计算机毕业设计JAVA疫情防控期间网上教学管理](https://img-blog.csdnimg.cn/f09ed3f9d2364e03847a1d4fbe28e096.png)










![[附源码]Python计算机毕业设计SSM健身房管理系统设计(程序+LW)](https://img-blog.csdnimg.cn/8cf92118c2ed464590bbf9236fbe8383.png)
![[附源码]Python计算机毕业设计Django体育馆场地预约管理系统](https://img-blog.csdnimg.cn/278d262b05b445e8a20b9c8af3dcbe77.png)





