infra-hosts: Longhorn 자동 복구 설정 (node-down auto-delete + replica-auto-balance)

This commit is contained in:
kaffa
2026-04-19 15:05:00 +09:00
parent 620abeae79
commit dc18ec8bac

View File

@@ -36,6 +36,17 @@ CronJob `kube-system/descheduler`, 30분 주기, helm `descheduler/descheduler`
- evict 제외: kube-system, longhorn-system
- 배경: 2026-04-19 kr2(30GB) OOM freeze — K3s pod 33개 + Incus 9개 = 42 워크로드 과적, 커널 freeze 후 물리 재부팅
### Longhorn 자동 복구 설정 (2026-04-19)
| 설정 | 값 | 효과 |
|------|-----|------|
| `node-drain-policy` | `always-allow` | 노드 drain 시 볼륨 강제 detach (레플리카 있으면 안전) |
| `node-down-pod-deletion-policy` | `delete-both-statefulset-and-deployment-pod` | 노드 다운 시 StatefulSet+Deployment pod 자동 삭제 → 다른 노드에서 재생성 |
| `auto-salvage` | `true` | faulted 볼륨 자동 복구 시도 |
| `replica-auto-balance` | `best-effort` | 새 노드 추가 시 레플리카 자동 분산 |
이전 값: node-drain-policy=`block-if-contains-last-replica`, node-down-pod-deletion-policy=`do-nothing`, replica-auto-balance=`disabled`. 변경 사유: kr2 다운 시 볼륨 detach 불가 → Multi-Attach 에러로 pod 재스케줄 실패, 수동 VolumeAttachment 삭제 필요했음
| 노드 | LAN IP | OS |
|------|--------|----|
| incus-hp1 | 192.168.9.227 | Debian 13 (trixie) |