infra-hosts: Longhorn 자동 복구 설정 (node-down auto-delete + replica-auto-balance)
This commit is contained in:
@@ -36,6 +36,17 @@ CronJob `kube-system/descheduler`, 30분 주기, helm `descheduler/descheduler`
|
||||
- evict 제외: kube-system, longhorn-system
|
||||
- 배경: 2026-04-19 kr2(30GB) OOM freeze — K3s pod 33개 + Incus 9개 = 42 워크로드 과적, 커널 freeze 후 물리 재부팅
|
||||
|
||||
### Longhorn 자동 복구 설정 (2026-04-19)
|
||||
|
||||
| 설정 | 값 | 효과 |
|
||||
|------|-----|------|
|
||||
| `node-drain-policy` | `always-allow` | 노드 drain 시 볼륨 강제 detach (레플리카 있으면 안전) |
|
||||
| `node-down-pod-deletion-policy` | `delete-both-statefulset-and-deployment-pod` | 노드 다운 시 StatefulSet+Deployment pod 자동 삭제 → 다른 노드에서 재생성 |
|
||||
| `auto-salvage` | `true` | faulted 볼륨 자동 복구 시도 |
|
||||
| `replica-auto-balance` | `best-effort` | 새 노드 추가 시 레플리카 자동 분산 |
|
||||
|
||||
이전 값: node-drain-policy=`block-if-contains-last-replica`, node-down-pod-deletion-policy=`do-nothing`, replica-auto-balance=`disabled`. 변경 사유: kr2 다운 시 볼륨 detach 불가 → Multi-Attach 에러로 pod 재스케줄 실패, 수동 VolumeAttachment 삭제 필요했음
|
||||
|
||||
| 노드 | LAN IP | OS |
|
||||
|------|--------|----|
|
||||
| incus-hp1 | 192.168.9.227 | Debian 13 (trixie) |
|
||||
|
||||
Reference in New Issue
Block a user