一般的な問題

Prev Next

VPC環境で利用できます。

Ncloud Kubernetes Serviceの利用中に次のような問題が発生することがあります。問題ごとの原因と解決方法を確認し、適切に対処してください。

クラスタステータス異常

Ncloud Kubernetes Serviceのクラスタが長時間にわたってタスク中のステータスが維持されます。

原因

ユーザーのタスク環境によって様々な原因が考えられます。

解決方法

新規クラスタの作成および削除、ノードプールスケールインアウト、クラスタのアップグレードの際に、長時間にわたってタスク中のステータスを維持する場合は、カスタマーサポートにお問い合わせください。

クラスタ作成後、Cilium-Operator Podが Pendingのステータス

Ncloud Kubernetes Serviceのクラスタ作成後、Cilium-Operator Podが Pendingのステータスです。

原因

Ncloud Kubernetes Serviceは CNIである Ciliumの安定した動作のために Operatorの数を2つに設定しています。したがって、ワーカーノードが1つのクラスタの場合、1つの Cilium Operatorが Pendingステータスになります。これは意図されたものであり、実際の Ciliumの動作に影響を与えません。

解決方法

Cilium-Operatorの Scaleを調整するか、ワーカーノードの数を増やしてください。

ワーカーノードが Not Readyのステータス

Ncloud Kubernetes Serviceのワーカーノードが Not Readyのステータスです。

原因

様々な原因が考えられますが、ほとんどの場合はワーカーノードの高いリソース使用量により発生します。

解決方法

ワーカーノードのリソース使用量を確認した後、ワーカーノードに位置する Podを他のワーカーノードにスケジュールをするか、スケールを減らしてリソース使用量を減らしてください。その後、ワーカーノードを再起動してステータスが Readyに変わるかご確認ください。

リソースの多い使用量によりワーカーノードに問題が発生することを防止するため、以下のような Kubernetes機能を使用することをお勧めします。

Cloud Insightで基本提供されるサーバウィジェットは、メモリ使用量をモニタリングする際に buff/cacheを考慮しないため、実際のメモリ使用量と差が発生することがあります。buff/cacheはメモリ使用量が多い場合、リターンされないため OOM(Out Of Memory)が発生する可能性が高いです。この点を考慮しながらモニタリングを行ってください。

Evictステータスの Pod作成

Evictステータスを持つ Podが作成済み、または作成中です。

原因

Evictステータスとは、kubeletが Podを停止したステータスを意味します。Kubernetesのコンポーネントである kubeletはノードのリソースをモニタリングします。モニタリング対象ノードリソースがしきい値に達した場合、kubeletは Podを停止させてリソースを回収します。

解決方法

Podが Evictステータスの場合、ノードのリソースをモニタリングしてしきい値以下に落としてください。
Ncloud Kubernetes Serviceのしきい値は、Kubernetesのデフォルト設定に伴います。詳細は、Node-pressure Evictionをご参照ください。

ncp-iam-authenticatorで Kubernetes Clusterにアクセス不可

ncp-iam-authenticatorで Kubernetes Clusterにアクセスできません。

原因

ncp-iam-authenticator の利用時に表示されるエラーメッセージによって、原因と解決方法が異なります。

解決方法

各エラーメッセージの原因および解決方法は、次の通りです。

  • Cluster is undefined(400): 不正なクラスタ UUIDが入力された場合に発生します。
  • Authentication Failed(200): 不正な認証キーを使用した場合に発生します。ncp-iam-authenticatorは、~/.ncloud/configure 以下の認証キーを使用して有効期限切れになった認証キー、削除した認証キー、使用中止された認証キー、間違えて記載した認証キーではないかご確認ください。
  • Not Found Exception(404): ncloud_api_urlregion の値をご確認ください。
  • You must be logged in to the server(Unauthorized): アクセスアカウントがクラスタに関連する権限を持っていない場合に発生します。IAM認証ユーザー管理でアクセスアカウントの権限設定を行ってください。

Kubernetesダッシュボードへのアクセスエラー

  • Kubernetesダッシュボードにアクセス時、リソースが照会されません。
  • サブアカウントで Kubernetesダッシュボードにアクセスできません。
  • Kubernetesダッシュボードに「Unauthorized」が表示されます。

原因

Kubernetes Serviceで提供するダッシュボード(Kubernetes Dashboard)のアクセス権限はクラスタ内部の権限と同じです。ダッシュボードを利用するには、アクセスアカウントが適したクラスタの使用権限を持つ必要があります。

解決方法

IAM認証ユーザー管理を参照して、アクセスアカウントにクラスタ権限を付与してください。

PVCサイズ変更不可

PVCのサイズを変更できません。

原因

リサイジングしたいボリュームが使用中の場合は変更できません。

解決方法

ワーカーノードの replica値を0に調整してください。
当該 PVCと関連付けられたストレージを使用するワーカーノードの replica値を0に下げることでストレージが使用可能な状態になり、ストレージが使用可能なステータスになって初めて PVCボリュームをリサイジングできます。

StorageClass設定変更不可

StorageClassの設定を変更できません。

原因

既に作成された StorageClassは変更できません。

解決方法

必要な設定を備えた StorageClassを新規作成してご利用ください。Ncloud Kubernetes Serviceで提供する StorageClassの基本明細を参照できます。

  • Block Stroage
allowVolumeExpansion: true
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: nks-block-storage
parameters:
  type: SSD
provisioner: blk.csi.ncloud.com
reclaimPolicy: Delete
volumeBindingMode: WaitForFirstConsumer
  • NAS
allowVolumeExpansion: true
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: nks-nas-csi
mountOptions:
  - hard
  - nolock
  - nfsvers=3
provisioner: nas.csi.ncloud.com
reclaimPolicy: Delete
volumeBindingMode: WaitForFirstConsume

GPUノードリソースが認識されない

Ncloud Kubernetes Serviceクラスタで作成した GPUノードの GPUリソースが認識されません。

原因

GPUリソースを正常に使用するには、 NVIDIA Device Plugin のインストールが必要です。

解決方法

GPUノードガイドドキュメントを参照して NVIDIA Device Pluginをインストールします。
プラグインのインストールが完了すると、GPUリソースが正常に認識されます。

参考

本ガイドで必要な情報が見つからない場合やさらに必要な情報がある場合は、いつでも以下のフィードバックアイコンをクリックして、ご意見をお寄せください。いただいたご意見を参照して、より有益な情報を提供できるよう努力してまいります。