環境
きっかけ
Ceph のコンソールをみたら、以下のような表示が。
実は一台 OSD のシャットダウンが長いので、強制終了してしまったんですよね・・・
1 2 3
| Overall status: HEALTH_ERR OSD_SCRUB_ERRORS: 1 scrub errors PG_DAMAGED: Possible data damage: 1 pg inconsistent
|
修復メモ
まず、今の状態は?とドキュメントを見てみると・・・
http://docs.ceph.com/docs/mimic/rados/operations/health-checks/#pg-degraded
修復は ↓ を見ろ。ということなので飛んでみると
http://docs.ceph.com/docs/mimic/rados/operations/pg-repair/
\からっぽ/
修復ログ
仕方ないので、ググりながら修復の指示を出してみます。
状態を確認
1 2 3 4 5
| root@cephadmin:~# ceph health detail HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent OSD_SCRUB_ERRORS 1 scrub errors PG_DAMAGED Possible data damage: 1 pg inconsistent pg 6.6 is active+clean+inconsistent, acting [2,3,4]
|
pg 6.6 (バージョンとかではなく、pg の 6.6 という ID みたいです)がなんか不完全みたいな感じです。
修復指示
1 2
| root@cephadmin:~# ceph pg repair 6.6 instructing pg 6.6 on osd.2 to repair
|
これだけです。 ceph pg repair <pgid> だそうなので、さきほど調べた pgid を入れました。
しばらく待つと、Web のダッシュボードに以下のようなログが流れ、修復されました。
1 2 3 4 5 6
| 2018-08-13 12:37:13.549087 [INF] Cluster is now healthy 2018-08-13 12:37:13.549072 [INF] Health check cleared: PG_DAMAGED (was: Possible data damage: 1 pg inconsistent, 1 pg repair) 2018-08-13 12:37:13.549018 [INF] Health check cleared: OSD_SCRUB_ERRORS (was: 1 scrub errors) 2018-08-13 12:35:43.367989 [ERR] Health check update: Possible data damage: 1 pg inconsistent, 1 pg repair (PG_DAMAGED) 2018-08-13 12:20:57.095121 [INF] Health check cleared: PG_DEGRADED (was: Degraded data redundancy: 15474/372066 objects degraded (4.159%), 10 pgs degraded, 13 pgs undersized) 2018-08-13 12:20:53.583490 [WRN] Health check update: Degraded data redundancy: 77598/372066 objects degraded (20.856%), 24 pgs degraded, 30 pgs undersized (PG_DEGRADED)
|