From dc18ec8bac0e490839bded001ee8587d6cfc507d Mon Sep 17 00:00:00 2001 From: kaffa Date: Sun, 19 Apr 2026 15:05:00 +0900 Subject: [PATCH] =?UTF-8?q?infra-hosts:=20Longhorn=20=EC=9E=90=EB=8F=99=20?= =?UTF-8?q?=EB=B3=B5=EA=B5=AC=20=EC=84=A4=EC=A0=95=20(node-down=20auto-del?= =?UTF-8?q?ete=20+=20replica-auto-balance)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- infra/compute/infra-hosts.md | 11 +++++++++++ 1 file changed, 11 insertions(+) diff --git a/infra/compute/infra-hosts.md b/infra/compute/infra-hosts.md index 8f74411..4618d3c 100644 --- a/infra/compute/infra-hosts.md +++ b/infra/compute/infra-hosts.md @@ -36,6 +36,17 @@ CronJob `kube-system/descheduler`, 30분 주기, helm `descheduler/descheduler` - evict 제외: kube-system, longhorn-system - 배경: 2026-04-19 kr2(30GB) OOM freeze — K3s pod 33개 + Incus 9개 = 42 워크로드 과적, 커널 freeze 후 물리 재부팅 +### Longhorn 자동 복구 설정 (2026-04-19) + +| 설정 | 값 | 효과 | +|------|-----|------| +| `node-drain-policy` | `always-allow` | 노드 drain 시 볼륨 강제 detach (레플리카 있으면 안전) | +| `node-down-pod-deletion-policy` | `delete-both-statefulset-and-deployment-pod` | 노드 다운 시 StatefulSet+Deployment pod 자동 삭제 → 다른 노드에서 재생성 | +| `auto-salvage` | `true` | faulted 볼륨 자동 복구 시도 | +| `replica-auto-balance` | `best-effort` | 새 노드 추가 시 레플리카 자동 분산 | + +이전 값: node-drain-policy=`block-if-contains-last-replica`, node-down-pod-deletion-policy=`do-nothing`, replica-auto-balance=`disabled`. 변경 사유: kr2 다운 시 볼륨 detach 불가 → Multi-Attach 에러로 pod 재스케줄 실패, 수동 VolumeAttachment 삭제 필요했음 + | 노드 | LAN IP | OS | |------|--------|----| | incus-hp1 | 192.168.9.227 | Debian 13 (trixie) |