history: add 2026-05-18 detector PVC follow-up + remaining timebombs (chaos / detector-logs)
This commit is contained in:
@@ -129,6 +129,26 @@ kubectl -n longhorn-system exec lh-curl -- sh -c "
|
||||
- 같은 노드/같은 시점 mkfs된 다른 RWX 볼륨도 share-manager 재기동 시 동일 에러 가능. 사전 점검 가치 있음 — 한 번씩 detach/reattach 사이클 돌려 fail하는 PVC 식별 후 미리 교체.
|
||||
- 또는 share-manager의 fsck 옵션을 `-y`로 patch (Longhorn 자체 코드 수정 필요, upstream 이슈로 보고 권장).
|
||||
|
||||
## 2026-05-18 후속 — detector PVC 폭발 (예측 적중)
|
||||
|
||||
어제 명시한 4개 위험 PVC 중 `safeline/safeline-detector` (옛 PV `pvc-8f9bfed6`)가 **2026-05-17 23:12 KST부터 6시간 이상 VolumeAttachment finalizer hang** (`Waiting for volume share to be available`) 후 **2026-05-18 14:18 KST 동일 절차로 복구**됨. 신규 PV `pvc-d2654f70-01e2-4a40-8336-1b56ddacb2cb` 바인딩, detector 파드 정상 기동(rskynet hyperscan 47 패턴 로드, NFSv4.1 클라이언트 정상 등록). 데이터 영향 없음(detector PVC는 룰셋/캐시, 이미지에 포함).
|
||||
|
||||
복구 actor 미상 — helm/Argo 변경 없음(generation/RS 변동 없음), K3s audit log 부재로 PVC 삭제 호출자 식별 불가. csi-plugin이 attach 강제 시도까지는 자동, PVC delete/recreate는 사람 또는 다른 자동화로 추정.
|
||||
|
||||
### 남은 시간폭탄
|
||||
|
||||
| PVC | PV | 노드 | mkfs 시점 | 위험 |
|
||||
|---|---|---|---|---|
|
||||
| `safeline/safeline-chaos` | `pvc-0440758f-f056-46d0-9733-dbb77f2e9101` | incus-hp2 | 55d (2026-03-24) | 다음 share-manager 재기동 시 동일 ext4 fsck 거부 예상 |
|
||||
| `safeline/safeline-detector-logs` | `pvc-384dd143-05b6-4cd6-a0dd-3edf5dca3acc` | incus-hp2 | 55d (2026-03-24) | 동일 |
|
||||
|
||||
어제 위험 명단의 `detector`와 `8f9bfed6`은 동일 PVC(`safeline-detector`)에 옛 PV였고 이번에 해소됨. 남은 둘은 어제 절차로 사전 교체 가능 — 데이터 가치 낮음(chaos = 검출 룰 캐시 / detector-logs = nginx access 로그).
|
||||
|
||||
### 학습
|
||||
|
||||
- v1.11.2 share-manager strict fsck는 옛 ext4 metadata와 호환 안 됨 — 같은 시점 mkfs된 RWX 볼륨은 **share-manager 재기동을 절대 트리거하지 말거나** 사전에 강제 교체해야 함.
|
||||
- 같은 노드 RWX share-manager 6개 집중 위험은 별건 — incus-hp2 share-manager 이슈 시 SafeLine 전체 영향.
|
||||
|
||||
## 관련
|
||||
|
||||
- [[../infra/platform/longhorn]] — Longhorn 플랫폼 정본
|
||||
|
||||
Reference in New Issue
Block a user