incus-kr2: K3s/reboot 동반 작업 전 iommu=pt 사전 체크 항목 추가

This commit is contained in:
kaffa
2026-05-14 16:57:09 +09:00
parent f0de7a3c37
commit bc01809643

View File

@@ -1,6 +1,8 @@
--- ---
title: incus-kr2 title: incus-kr2
updated: 2026-05-05 updated:
- 2026-05-05 AMD-Vi IOMMU Completion-Wait timeout 차단 (`iommu=pt`) 검증 완료
- 2026-05-14 K3s/reboot 동반 작업 사전 체크 항목 추가 (iommu=pt 활성 확인)
tags: [infra, host, incus, k3s, seoul, amd, iommu] tags: [infra, host, incus, k3s, seoul, amd, iommu]
type: host type: host
host_kind: server host_kind: server
@@ -64,6 +66,20 @@ ro usbcore.autosuspend=-1 quiet iommu=pt
- `usbcore.autosuspend=-1` — USB r8152 절전 hang 차단 (2026-04-04) - `usbcore.autosuspend=-1` — USB r8152 절전 hang 차단 (2026-04-04)
- `iommu=pt` — AMD-Vi Completion-Wait timeout 차단 (2026-05-04) - `iommu=pt` — AMD-Vi Completion-Wait timeout 차단 (2026-05-04)
### 사전 체크 — reboot/워크로드 재배치 동반 작업 전 필수
K3s 업그레이드, OS apt + reboot, 커널 업그레이드, dist-upgrade, grub 패키지 업그레이드, 호스트 reboot 등 **GRUB cmdline 또는 워크로드 부하 패턴이 영향받을 수 있는 작업** 직전에 다음 두 줄로 iommu=pt 활성 여부 확인:
```bash
ssh kaffa@incus-kr2 'cat /proc/cmdline; grep GRUB_CMDLINE /etc/default/grub'
```
- `/proc/cmdline``iommu=pt` 있어야 현재 부팅에서 활성
- `GRUB_CMDLINE_LINUX_DEFAULT``iommu=pt` 있어야 다음 reboot에서도 적용
- 둘 중 하나라도 빠지면 작업 중단하고 GRUB 복구 후 reboot 사이클 별건 처리
이유: AMD-Vi freeze는 K3s+Incus 워크로드 부하 패턴에서 발생. K3s drain/uncordon으로 pod 재배치 시 freeze 위험 윈도우. dist-upgrade·grub 패키지 prompt 또는 `/etc/default/grub` 수동 편집으로 iommu=pt가 빠지면 다음 reboot에서 freeze 재발.
## 디스크 ## 디스크
- `/dev/nvme0n1` — root + 데이터, ext4 937 GiB (사용 18%) - `/dev/nvme0n1` — root + 데이터, ext4 937 GiB (사용 18%)