如果做ETL避免脏数据,那么不可以允许同一个job有并行允许的情况,也就是说max_instance参数始终设置成1。
这时候执行ETL任务,会有以下情况。
1 任务不超时。正常执行
2 任务超时。如果下一个时间点上一次任务还没有执行完,那么这个时间点的任务会被直接丢弃。
比如:间隔时间30秒,任务执行周期40秒,开始时间8:00:00
那么 8:00:00~8:00:40正常执行,8:00:30的任务被丢弃,下次执行时间是8:01:00
那么能否采用补发策略misfire_grace_time呢,答案是否定。
因为:
1 misfire_grace_time=30
的计时起点是任务理论触发的时间点(即预设的执行时间)
2 misfire_grace_time
的触发条件
- 仅适用于任务未开始执行的情况(如线程池满、系统卡顿导致延迟触发,比如内存使用率过高)
- 若前一个任务实例仍在执行中,新触发会被视为并发冲突而非延迟触发
综上,如果需要排队发送,也就是说如果超时立即发送,那么请选用Queue,kafka等队列