关键字:SAM+ 数据库自动备份、失效
故障景象描述
RG-SAM+ 数据库自动备份职能失效:开启自动备份职能,但对应磁盘下未天生备份数据库文件

故障排查分析
- SAM+逐日凌晨2点按时工作会队列执行数据库备份等工作,具体执行了局会纪录在运维日志里。
- 查看现场运维日志,发现按时工作只执行到某一天,之后就未打印执行日志。判断是此时按时工作异常了未执行,则必要进一步分析产品按时工作执行情况。
- 查看系统日志中有提醒系统按时器超时而终止。(正常是提醒“系统按时器执行结束!”)

- 查看底层对应功夫的LOG日志:
- LOG日志分析步骤:吓酌“系统按时器超时而终止”过滤,在用“billingScheduler_Worker”工作线程去过滤

- 发现提醒“系统按时器超时而终止“之前的一个工作:用户用网使用详情(时长)按时器执行功夫过长,且实现功夫为10:22,执行功夫超过3幼时,进而整个按时工作截止。
- 备注按时工作机造注明:5、6两个工作是在凌晨2点起头执行,到9点08秒截止,已起头的工作会持续执行结束。
- 针对运维日志里“数据库按时工作”。若是有一个工作执行超过3幼时,只停这一个工作,不会打印截止日志。
- 截止日志只对于起头新工作时判断功夫是否超过9点08秒,超过了就打印截止,就好比下图,用户用网使用详情这个工作就没有执行直接被截止了。

- 针对用户用网使用详情(时长)按时器执行功夫过长的可能原因分析:
备注:能够拿回现场数据库后盾测试执行功夫。
- 已查抄现场服务器CPU内存满足装置要求,磁盘IO不变在300M/S以上,数据库分配的最大可用内存是物理内存的一半,所以排除。
- 该工作是基于用户上网明细表做统计,将ONLINE_DETAIL统计这个表插入到AGGR_RECORD这个内外,必要查抄索引是否有迷失,能够参考如下,有少的话注明有存在迷失,能够联系400获取解决对策。(客户现场通过核查也排除这一点)

故障根因注明
软件问题:
RG-SAM+ 数据库自动备份职能失效的根因是“凌晨2点的数据库自动备份”按时器被截断未正常执行,截断的原因是“用户用网使用详情按时器”按时器执行功夫过长导致整个系统按时器截止,执行功夫过长的原因是该工作聚合逻辑存在缺点,在大数据情况下执行极度慢,超过产品限度的3幼时。
故障解决规划
更新补。航粗挥1个线程执行凌晨按时工作调整为3个线程并行处置,提升执行速度
该补丁已归并至4.22P6尺度版本,若是4.22P3版本必要打上补丁合集20231025及以上(补丁下载)
如遇故障无法定位解决可转:售后闪电兔 处置