Base执行语句日志
在Base上执行一个语句后的日志解析:
1.waiting代表在Base上正在获取gateway资源
2.出现logivew链接代表语句已提交到ODPS上进行解析
3.出现M1_Stg1等任务信息代表语句已解析成功并生成instance
4.M1_Stg1:1/2/10,冒号后面三个数字意义分别为正在执行的任务数/已完成任务数/总任务数,当第一个数字变为0,第二个数字等于第三个数字时该任务才算完成。有的时候第二个数字会大于第三个数字,是由于该任务切分后出现长尾,后端会自动添加backup任务同时执行。
5.在所有任务执行都达到100%后,该语句会返回成功信息。
通过理解日志中每个步骤执行信息对应的服务,在执行出现堵塞时候能快速定位问题。
例如若是日志日志中一直处于waiting状态,不打印下一步其余信息,说明gateway服务出问题或者槽位资源不足,不可以下发任务到ODPS上;
若是在出现logview地址后,一直不动,没有打印出具体的MR进程信息,说明语句已下发到ODPS已解析通过,并生成了实例信息,但因为ODPS上任务过多,需要在伏羲中进行排队等待获取ODPS计算资源资源;
专有云中ODPS上容易出问题的是ODPS的前台服务HiveServer(从这里看ODPS也是借使用了Hive的成熟解析框架),主要使用于解析ODPS SQL,经常出现服务僵死状态,导致异常的节点无法下线,语句还会继续下发到异常节点上就出现hang住现象,这一点在V2版本上比较突出,或者许在V3版本上加强可服务功可以,增强监控,待平台更新后再进行验证。