SAP 高可用性構成のトラブルシューティング

Google Cloud 上の SAP 高可用性構成で問題が発生した場合、その根本原因はクラスタリングソフトウェア、SAP ソフトウェア、Google Cloud インフラストラクチャ、またはこれらの組み合わせに存在する可能性があります。

Cloud Logging で Pacemaker ログを分析する

次の動画では、Cloud Logging を使用して Google Cloud 上の SAP の高可用性構成のトラブルシューティングを行う方法を説明します。

Linux クラスタ内の障害ノードがフェイルオーバー後に正しく再起動しない

Linux 高可用性クラスタが fence_gce フェンスエージェントを使用していて、フェンシングされた VM がフェイルオーバー後にクラスタに再参加できない場合は、フェンシングされた VM の再起動時に Corosync ソフトウェアの起動を遅らせる必要があります。

問題

fence_gce エージェントは、フェイルオーバー時に障害のある Compute Engine VM をフェンシングします。これにより、Pacemaker がフェンスアクションを完了と登録する前に、クラスタが再起動して再接続されます。フェンスアクションは登録されていないため、再起動された VM は Pacemaker サービスと Corosync サービスをシャットダウンし、クラスタから離れます。

診断

これが問題かどうか確認するには:

クラスタが fence_gce エージェントを使用していることを確認します。

RHEL

pcs config

SLES

crm config show

フェンスエージェントの定義には fence_gce が含まれています。

RHEL

Stonith Devices:
Resource: STONITH-example-ha-vm1 (class=stonith type=fence_gce)
Attributes: port=example-ha-vm1 project=example-project-123456 zone=us-central1-a
Operations: monitor interval=300s timeout=120s (STONITH-example-ha-vm1-monitor-interval-60s)
Resource: STONITH-example-ha-vm2 (class=stonith type=fence_gce)
Attributes: port=example-ha-vm2 project=example-project-123456 zone=us-central1-c
Operations: monitor interval=300s timeout=120s (STONITH-example-ha-vm2-monitor-interval-60s)

SLES

primitive fence-example-ha-vm1 stonith:fence_gce \
 op monitor interval=300s timeout=120s \
 op start interval=0 timeout=60s \
 params port=example-ha-vm1 zone=us-central1-a project=example-project-123456
primitive fence-example-ha-vm2 stonith:fence_gce \
 op monitor interval=300s timeout=120s \
 op start interval=0 timeout=60s \
 params port=example-ha-vm2 zone=us-central1-c project=example-project-123456

システムログで次のメッセージを確認します。

DATESTAMP> node2 stonith-ng[1106]:  notice: Operation reboot of node2 by node1 for stonith_admin.1366@node1.c3382af8: OK
DATESTAMP> node2 stonith-ng[1106]:   error: stonith_construct_reply: Triggered assert at commands.c:2343 : request != NULL
DATESTAMP> node2 stonith-ng[1106]: warning: Can't create a sane reply
DATESTAMP> node2 crmd[1110]:    crit: We were allegedly just fenced by node1 for node1!
DATESTAMP> node2 pacemakerd[1055]: warning: Shutting cluster down because crmd[1110] had fatal failure

解決策

Corosync の起動を遅らせるように両方のクラスタノードのオペレーティングシステムを構成し、フェンスアクションで新しいプライマリノードの Pacemaker が完了登録を行う時間を確保します。また、遅延に対応するため、Pacemaker の再起動タイムアウト値を設定します。

Corosync の遅延起動を構成するには:

クラスタをメンテナンスモードにします。

RHEL

pcs property set maintenance-mode=true

SLES

crm configure property maintenance-mode="true"

root として、各クラスタノードで Corosync の起動遅延を設定します。
1. systemd ドロップインファイルを作成します。
```
systemctl edit corosync.service
```
2. このファイルに次の行を追加します。
```
[Service]
ExecStartPre=/bin/sleep 60
```
3. ファイルを保存し、エディタを終了します。
4. systemd マネージャー構成を再読み込みします。
```
systemctl daemon-reload
```
ルートとしたいずれかのクラスタノードで、再起動するまでの Pacemaker のタイムアウト値が両方のフェンスエージェントに設定されていることを確認します。
1. pcmk_reboot_timeout の値を確認します。
```
crm_resource --resource FENCE_AGENT_NAME --get-parameter=pcmk_reboot_timeout
```
  FENCE_AGENT_NAME は、フェンスエージェントの名前に置き換えます。
2. pcmk_reboot_timeout パラメータが見つからない場合、またはその値が 300 より小さい値に設定されている場合は、両方のフェンスエージェントで値を設定します。
```
crm_resource --resource FENCE_AGENT_NAME --set-parameter=pcmk_reboot_timeout --parameter-value=300
```
  FENCE_AGENT_NAME は、フェンスエージェントの名前に置き換えます。
  
  pcmk_reboot_timeout の値は、以下の合計値よりも大きい値とする必要があります。
  - Corosync token のタイムアウト
  - デフォルトでは、Corosync コンセンサスのタイムアウトは token × 1.2 です。
  - 遅延属性を含め、再起動が完了するまでの時間の長さ。
  Google Cloud の場合、ほとんどのクラスタで 300 秒あれば十分です。
3. 新しい pcmk_reboot_timeout 値を確認します。
```
crm_resource --resource FENCE_AGENT_NAME --get-parameter=pcmk_reboot_timeout
```
  FENCE_AGENT_NAME は、フェンスエージェントの名前に置き換えます。

クラスタのメンテナンスモードを終了します。

RHEL

pcs property set maintenance-mode=false

SLES

crm configure property maintenance-mode="false"

特定のノードを優先する意図しないノードアフィニティ

クラスタコマンドを使用して高可用性クラスタ内のリソースを手動で移動すると、特定のノードを優先するように自動アフィニティまたはクライアントが設定されます。

問題

SAP HANA または SAP NetWeaver の Linux Pacemaker 高可用性クラスタで、SAP HANA システムや SAP NetWeaver セントラルサービスなどのリソースが特定のクラスタノードでのみ実行され、ノード障害イベント中に想定どおりにフェイルオーバーされません。

その結果、次のような問題が発生する可能性があります。

リソースのクラスタノードへの Pacemaker コマンド（move）を発行して SAP NetWeaver ASCS サービスのフェイルオーバーをトリガーすると、リソースは開始されず、ステータス stopped が表示されます。
一方のクラスタノードに standby コマンドを実行して、すべてのリソースをもう一方のノードに強制的に移動しても、リソースが開始しません。

診断

Pacemaker ログで、特定のリソースが稼働できないことを示すメッセージを確認します。次に例を示します。
```
2021-05-24 21:39:58 node_1 pacemaker-schedulerd (native_color) info:
 Resource NW1-ASCS01 cannot run anywhere
```
Pacemaker ロケーション制約の構成を確認して、特定のクラスタノードでのリソースの実行を妨げる可能性のある制約を特定します。

Pacemaker ロケーション制約の構成を確認する手順は次のとおりです。
1. ロケーション制約を表示します。
```
cibadmin --query --scope constraints | grep rsc_location
```
2. ロケーション制約を確認します。
  - 明示的なロケーション制約: スコアが INFINITY（ノードを優先）または -INFINITY（ノードを回避）のロケーション制約を見つけます。次に例を示します。
```
<rsc_location id="loc-constraint" rsc="NW1-ASCS01" score="INFINITY" node="nw-ha-1"/>
```
    フェンスエージェント以外に、スコアが INFINITY または -INFINITY のロケーション制約があってはなりません。フェンスエージェントは、フェンシングターゲットであるノードでの動作を防ぐため、すべての HA クラスタでスコアが -INFINITY のロケーション制約に定義されています。
  - 暗黙的なロケーション制約: Pacemaker コマンドを実行してクラスタをクラスタノードに移動するか、クラスタノードでのリソースの実行を禁止すると、接頭辞が cli-ban または cli-prefer の暗黙的なロケーション制約が制約 ID に追加されます。次に例を示します。
```
<rsc_location id="cli-prefer-NW1-ASCS01" rsc="NW1-ASCS01" role="Started" node="nw-ha-2" score="INFINITY"/>
```

解決策

ロケーション制約が、次のデプロイガイドで説明されているように指定されていることを確認します。
明示的なロケーション制約を修正するには、ロケーション制約を削除します。
RHEL
```
pcs constraint remove RESOURCE_LOCATION_ID
```
SLES
```
crm configure delete RESOURCE_LOCATION_ID
```
RESOURCE_LOCATION_ID は、ロケーション制約 ID に置き換えます。
暗黙的なロケーション制約を修正するには、指定したリソースで定義されているすべての制約を削除します。

リソースの移動または禁止に使用するコマンドを実行するたびに、次のコマンドを実行して、すべての制約を削除します。
RHEL
```
pcs resource clear RESOURCE_NAME
```
SLES
```
crm resource clear RESOURCE_NAME
```
RESOURCE_NAME は、移動するリソースの名前に置き換えます。

フェンスエージェントのオペレーションエラー

フェンスエージェントからクラスタのエラーステータスが報告されました。

問題

SAP HANA または SAP NetWeaver の Linux Pacemaker 高可用性クラスタで、フェンスエージェントがクラスタのエラーステータスを報告しました。例:

Failed Resource Actions:
   STONITH-ha-node-01_monitor_300000 on ha-node-02 'unknown error' (1): call=153, status=Timed Out, exitreason='',  last-rc-change='Mon Dec 21 23:40:47 2023', queued=0ms, exec=60003ms

診断

SAP HANA または SAP NetWeaver 高可用性クラスタにデプロイされたフェンスエージェントは、Compute Engine API サーバーに定期的にアクセスして、フェンスターゲットインスタンスのステータスを確認します。API 呼び出しのレスポンスに一時的な遅延が発生したり、ネットワークの中断が発生した場合、フェンスエージェントのモニタリングオペレーションが失敗するか、タイムアウトする可能性があります。

フェンスエージェントのステータスを確認するには、次のコマンドを実行します。

RHEL

pcs status

SLES

crm status

フェンスエージェントのステータスが stopped の場合、以下の解決策のいずれかを行ってエラーを解決します。

フェンスエージェントのオペレーションエラーでフェンスエージェントが停止する可能性がありますが、Pacemaker はフェンシングイベントで停止ディレクティブを使用してフェンスエージェントを呼び出します。

解決策

フェンスエージェントのステータスが stopped の場合は、次のいずれかを行います。

次のコマンドを実行して、障害カウントを手動でリセットし、フェンスエージェントを再起動します。
RHEL
```
pcs resource cleanup FENCE_AGENT_NAME
```
SLES
```
crm resource cleanup FENCE_AGENT_NAME
```
FENCE_AGENT_NAME は、フェンスエージェントの名前に置き換えます。
フェンスエージェントのオペレーションエラーを自動的に削除するには、failure-timeout パラメータを構成します。

failure-timeout パラメータは、指定された期間が経過すると障害カウントをリセットし、オペレーションエラーをすべてクリアします。このパラメータを適用するために、クラスタを再起動したり、クラスタをメンテナンスモードにする必要はありません。

failure-timeout パラメータを構成するには、次のコマンドを実行します。
```
crm_resource --meta --resource FENCE_AGENT_NAME --set-parameter failure-timeout --parameter-value DURATION
```
次のように置き換えます。
- FENCE_AGENT_NAME: フェンスエージェントの名前。
- DURATION: 最後のオペレーションの失敗後、障害カウントがリセットされてフェンスエージェントが再起動されるまでの時間。

リソースエージェントが停止している

リソースエージェントの起動に失敗したため、ステータスが Stopped のままになっています。

問題

SAP HANA または SAP NetWeaver の Linux Pacemaker 高可用性クラスタで、リソースエージェントがクラスタのエラーステータスを報告しました。次に例を示します。

Failed Resource Actions:
   rsc_SAPHana_DV0_HDB00_start_0 on ha-node-02 'error' (1): call=91, status='complete', last-rc-change='Wed Oct 18 18:00:31 2023', queued=0ms, exec=19010ms

診断

実行中のリソースエージェントが失敗した場合、Pacemaker はエージェントを停止して再起動しようとします。なんらかの理由で開始オペレーションが失敗した場合、Pacemaker はリソースの障害カウントを INFINITY に設定し、別のノードでエージェントを起動しようとします。いずれかのノードでリソースエージェントが起動に失敗した場合、リソースエージェントは Stopped ステータスのままになります。

リソースエージェントのステータスを確認するには、次のコマンドを実行します。

RHEL

pcs status

SLES

crm status

次の例は、SAP HANA のノード hana-b 上でステータスが Stopped のリソースエージェントを示しています。

Full List of Resources:
  * STONITH-hana-a        (stonith:external/gcpstonith):   Started hana-b
  * STONITH-hana-b        (stonith:external/gcpstonith):   Started hana-a
  * Resource Group: g-primary:
    * rsc_vip_int-primary       (ocf::heartbeat:IPaddr2):        Started hana-a
    * rsc_vip_hc-primary        (ocf::heartbeat:anything):       Started hana-a
  * Clone Set: cln_SAPHanaTopology_DV0_HDB00 [rsc_SAPHanaTopology_DV0_HDB00]:
    * Started: [ hana-a hana-b ]
  * Clone Set: msl_SAPHana_DV0_HDB00 [rsc_SAPHana_DV0_HDB00] (promotable):
    * Masters: [ hana-a ]
    * Stopped: [ hana-b ]
  * STONITH-scaleup-majority    (stonith:external/gcpstonith):   Started hana-b

解決策

リソースエージェントのステータスが Stopped の場合は、次の操作を行います。

障害カウントをリセットして、リソースエージェントを手動で起動します。
RHEL
```
pcs resource cleanup RESOURCE_AGENT_NAME
```
SLES
```
crm resource cleanup RESOURCE_AGENT_NAME
```
RESOURCE_AGENT_NAME は、リソースエージェントの名前に置き換えます。例: rsc_SAPHana_DV0_HDB00
リソースエージェントのステータスが Started になっていることを確認します。
```
crm_mon
```
それでもリソースエージェントが起動しない場合は、関連する診断情報を収集して、サポートにお問い合わせください。

SAP 高可用性構成のトラブルシューティング

Cloud Logging で Pacemaker ログを分析する

Linux クラスタ内の障害ノードがフェイルオーバー後に正しく再起動しない

問題

診断

RHEL

SLES

RHEL

SLES

解決策

RHEL

SLES

RHEL

SLES

特定のノードを優先する意図しないノード アフィニティ

問題

診断

解決策

RHEL

SLES

RHEL

SLES

フェンス エージェントのオペレーション エラー

問題

診断

RHEL

SLES

解決策

RHEL

SLES

リソース エージェントが停止している

問題

診断

RHEL

SLES

解決策

RHEL

SLES

特定のノードを優先する意図しないノードアフィニティ

フェンスエージェントのオペレーションエラー

リソースエージェントが停止している