From aec8891bac3aa1dcb8348186917da3818d26aa56 Mon Sep 17 00:00:00 2001 From: kaffa Date: Mon, 18 May 2026 17:54:15 +0900 Subject: [PATCH] history: add 2026-05-18 detector PVC follow-up + remaining timebombs (chaos / detector-logs) --- .../2026-05-17-safeline-pvc-fsck-incompat.md | 20 +++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/history/2026-05-17-safeline-pvc-fsck-incompat.md b/history/2026-05-17-safeline-pvc-fsck-incompat.md index 5aa063d..5f3d717 100644 --- a/history/2026-05-17-safeline-pvc-fsck-incompat.md +++ b/history/2026-05-17-safeline-pvc-fsck-incompat.md @@ -129,6 +129,26 @@ kubectl -n longhorn-system exec lh-curl -- sh -c " - 같은 노드/같은 시점 mkfs된 다른 RWX 볼륨도 share-manager 재기동 시 동일 에러 가능. 사전 점검 가치 있음 — 한 번씩 detach/reattach 사이클 돌려 fail하는 PVC 식별 후 미리 교체. - 또는 share-manager의 fsck 옵션을 `-y`로 patch (Longhorn 자체 코드 수정 필요, upstream 이슈로 보고 권장). +## 2026-05-18 후속 — detector PVC 폭발 (예측 적중) + +어제 명시한 4개 위험 PVC 중 `safeline/safeline-detector` (옛 PV `pvc-8f9bfed6`)가 **2026-05-17 23:12 KST부터 6시간 이상 VolumeAttachment finalizer hang** (`Waiting for volume share to be available`) 후 **2026-05-18 14:18 KST 동일 절차로 복구**됨. 신규 PV `pvc-d2654f70-01e2-4a40-8336-1b56ddacb2cb` 바인딩, detector 파드 정상 기동(rskynet hyperscan 47 패턴 로드, NFSv4.1 클라이언트 정상 등록). 데이터 영향 없음(detector PVC는 룰셋/캐시, 이미지에 포함). + +복구 actor 미상 — helm/Argo 변경 없음(generation/RS 변동 없음), K3s audit log 부재로 PVC 삭제 호출자 식별 불가. csi-plugin이 attach 강제 시도까지는 자동, PVC delete/recreate는 사람 또는 다른 자동화로 추정. + +### 남은 시간폭탄 + +| PVC | PV | 노드 | mkfs 시점 | 위험 | +|---|---|---|---|---| +| `safeline/safeline-chaos` | `pvc-0440758f-f056-46d0-9733-dbb77f2e9101` | incus-hp2 | 55d (2026-03-24) | 다음 share-manager 재기동 시 동일 ext4 fsck 거부 예상 | +| `safeline/safeline-detector-logs` | `pvc-384dd143-05b6-4cd6-a0dd-3edf5dca3acc` | incus-hp2 | 55d (2026-03-24) | 동일 | + +어제 위험 명단의 `detector`와 `8f9bfed6`은 동일 PVC(`safeline-detector`)에 옛 PV였고 이번에 해소됨. 남은 둘은 어제 절차로 사전 교체 가능 — 데이터 가치 낮음(chaos = 검출 룰 캐시 / detector-logs = nginx access 로그). + +### 학습 + +- v1.11.2 share-manager strict fsck는 옛 ext4 metadata와 호환 안 됨 — 같은 시점 mkfs된 RWX 볼륨은 **share-manager 재기동을 절대 트리거하지 말거나** 사전에 강제 교체해야 함. +- 같은 노드 RWX share-manager 6개 집중 위험은 별건 — incus-hp2 share-manager 이슈 시 SafeLine 전체 영향. + ## 관련 - [[../infra/platform/longhorn]] — Longhorn 플랫폼 정본