Cephのデータに破損が見つかったメモ

投稿日 2021-08-11 編集日 2025-10-06 カテゴリ tech

環境

Ubuntu 18.04
Ceph mimic

きっかけ

Ceph のコンソールをみたら、以下のような表示が。

実は一台 OSD のシャットダウンが長いので、強制終了してしまったんですよね･･･

1
2
3

Overall status: HEALTH_ERR
OSD_SCRUB_ERRORS: 1 scrub errors
PG_DAMAGED: Possible data damage: 1 pg inconsistent

修復メモ

まず、今の状態は？とドキュメントを見てみると･･･

http://docs.ceph.com/docs/mimic/rados/operations/health-checks/#pg-degraded

修復は ↓ を見ろ。ということなので飛んでみると

http://docs.ceph.com/docs/mimic/rados/operations/pg-repair/

＼からっぽ／

修復ログ

仕方ないので、ググりながら修復の指示を出してみます。

状態を確認

root@cephadmin:~# ceph health detail
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent
    pg 6.6 is active+clean+inconsistent, acting [2,3,4]

pg 6.6 （バージョンとかではなく、pg の 6.6 という ID みたいです）がなんか不完全みたいな感じです。

修復指示

1 2	root@cephadmin:~# ceph pg repair 6.6 instructing pg 6.6 on osd.2 to repair

これだけです。 ceph pg repair <pgid> だそうなので、さきほど調べた pgid を入れました。

しばらく待つと、Web のダッシュボードに以下のようなログが流れ、修復されました。

2018-08-13 12:37:13.549087 [INF]  Cluster is now healthy
2018-08-13 12:37:13.549072 [INF]  Health check cleared: PG_DAMAGED (was: Possible data damage: 1 pg inconsistent, 1 pg repair)
2018-08-13 12:37:13.549018 [INF]  Health check cleared: OSD_SCRUB_ERRORS (was: 1 scrub errors)
2018-08-13 12:35:43.367989 [ERR]  Health check update: Possible data damage: 1 pg inconsistent, 1 pg repair (PG_DAMAGED)
2018-08-13 12:20:57.095121 [INF]  Health check cleared: PG_DEGRADED (was: Degraded data redundancy: 15474/372066 objects degraded (4.159%), 10 pgs degraded, 13 pgs undersized)
2018-08-13 12:20:53.583490 [WRN]  Health check update: Degraded data redundancy: 77598/372066 objects degraded (20.856%), 24 pgs degraded, 30 pgs undersized (PG_DEGRADED)