故障处理

最近更新时间: 2019-11-30 15:26:18

  • 集群创建失败 在容器服务上创建集群时,有时会创建失败。因为集群创建时,需要调用底层IAAS接口创建虚拟机,当租户虚拟机quota不足时,有可能导致集群创建失败。
  • 应用提交失败 容器服务为了保证应用在提交后可以很快运行起来,以及不同业务共享集群时可以按照quota公平的使用资源,会在应用提交时,加入资源的准入检查。当应用因为准入检查提交失败时,可以通过增加该namespace(业务)在本集群的quota来重试。
  • 实例运行失败 用户的应有时候会因为各种原因导致起不来或者运行失败。定位失败有几种方式。通过日志查看,尤其是stderr。还可以通过实例的事件来定位原因。
  • 我发现我成功提交了一个应用后发现应用的状态变成了失败,这是什么原因? 首先这里提示成功是因为这个请求是异步的,说明后台接收到了这个请求。而应用状态变成fail的原因可能有多个,要查看失败原因,可以点击应用名称进入详情页面,然后打开操作记录tab可以看到失败的操作记录,在失败的操作记录上点击后可以展开查看具体的失败原因。除了创建失败,其他的操作失败情况也可以在这里进行查看。
  • 我发现提交应用后,部分或者所有实例一直处于等待中状态,如何查看原因? 等待中状态说明实例在提交到后台后没有及时在工作节点拉起,或者拉起失败了,需要进入应用详情页面后在实例列表的tab中选择有问题的实例,查看实例的具体事件。主要通过查看事件和详细说明可以获取实例pending的原因。例如如果发现是调度失败,则可以查看详细说明可以得知为何失败,一般是资源不足导致的失败会有insufficient字样,如果创建的应用是floatingip网络模式的,还可能出现MatchNodeSelector的错误字样,说明集群没有floatingip资源或者有floatingip的机器其他资源又无法满足了。这时候需要联系管理员增加资源或者申请ip了。如果调度成功了,可能会卡在别的事件上(例如正在拉取一个较大的镜像(这时候需要耐心等待一下),拉取镜像失败,或者在启动容器的过程中出错了等),可以查看最新的事件查明原因。