From bc01809643fcfd434fb418edb87fd17ac4ab4295 Mon Sep 17 00:00:00 2001 From: kaffa Date: Thu, 14 May 2026 16:57:09 +0900 Subject: [PATCH] =?UTF-8?q?incus-kr2:=20K3s/reboot=20=EB=8F=99=EB=B0=98=20?= =?UTF-8?q?=EC=9E=91=EC=97=85=20=EC=A0=84=20iommu=3Dpt=20=EC=82=AC?= =?UTF-8?q?=EC=A0=84=20=EC=B2=B4=ED=81=AC=20=ED=95=AD=EB=AA=A9=20=EC=B6=94?= =?UTF-8?q?=EA=B0=80?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- infra/compute/hosts/incus-kr2.md | 18 +++++++++++++++++- 1 file changed, 17 insertions(+), 1 deletion(-) diff --git a/infra/compute/hosts/incus-kr2.md b/infra/compute/hosts/incus-kr2.md index ff03ef5..2c8bb05 100644 --- a/infra/compute/hosts/incus-kr2.md +++ b/infra/compute/hosts/incus-kr2.md @@ -1,6 +1,8 @@ --- title: incus-kr2 -updated: 2026-05-05 +updated: + - 2026-05-05 AMD-Vi IOMMU Completion-Wait timeout 차단 (`iommu=pt`) 검증 완료 + - 2026-05-14 K3s/reboot 동반 작업 사전 체크 항목 추가 (iommu=pt 활성 확인) tags: [infra, host, incus, k3s, seoul, amd, iommu] type: host host_kind: server @@ -64,6 +66,20 @@ ro usbcore.autosuspend=-1 quiet iommu=pt - `usbcore.autosuspend=-1` — USB r8152 절전 hang 차단 (2026-04-04) - `iommu=pt` — AMD-Vi Completion-Wait timeout 차단 (2026-05-04) +### 사전 체크 — reboot/워크로드 재배치 동반 작업 전 필수 + +K3s 업그레이드, OS apt + reboot, 커널 업그레이드, dist-upgrade, grub 패키지 업그레이드, 호스트 reboot 등 **GRUB cmdline 또는 워크로드 부하 패턴이 영향받을 수 있는 작업** 직전에 다음 두 줄로 iommu=pt 활성 여부 확인: + +```bash +ssh kaffa@incus-kr2 'cat /proc/cmdline; grep GRUB_CMDLINE /etc/default/grub' +``` + +- `/proc/cmdline`에 `iommu=pt` 있어야 현재 부팅에서 활성 +- `GRUB_CMDLINE_LINUX_DEFAULT`에 `iommu=pt` 있어야 다음 reboot에서도 적용 +- 둘 중 하나라도 빠지면 작업 중단하고 GRUB 복구 후 reboot 사이클 별건 처리 + +이유: AMD-Vi freeze는 K3s+Incus 워크로드 부하 패턴에서 발생. K3s drain/uncordon으로 pod 재배치 시 freeze 위험 윈도우. dist-upgrade·grub 패키지 prompt 또는 `/etc/default/grub` 수동 편집으로 iommu=pt가 빠지면 다음 reboot에서 freeze 재발. + ## 디스크 - `/dev/nvme0n1` — root + 데이터, ext4 937 GiB (사용 18%)