kaffa
b1ba9f1d90
k3s-to-incus-migration: APISIX 서울 유지·Tofu+Ansible·kr1 GPU 확정
2026-06-01 13:25:42 +09:00
kaffa
a44ff12f15
infra/compute: K3s → Incus 이전 플랜 초안
2026-06-01 13:22:11 +09:00
kaffa
5be51134c9
incus-hp1 storage-net 참여 사실 반영 + kr2 multus-shim ETXTBSY 인시던트 기록
...
- infra-hosts.md: hp1 행 갱신 (이전 "1GbE only" → 2.5G 192.168.205.227, MAC 20:e1:5d:6a:2b:2e, MTU 9000 JF OK), 2.5G 표 hp1 행 추가, NAS NIC 정보(USB cdc_ncm → r8152 RTL8157 chip rev 14 + MAC)로 정확화, 호스트 자원 표에 hp1 추가, SSH 정보 라인에 hp1 접근 한계 명시
- nas-storage.md: K3s 노드 표 3→4 노드로 갱신 (hp1 추가), nodeAffinity 설명 표현 갱신
- history/2026-05-20-kr2-multus-shim-etxtbsy.md: ETXTBSY 데드락 RCA 및 `rm /opt/cni/bin/multus-shim` 회피책 기록
2026-05-20 17:10:07 +09:00
kaffa
bc01809643
incus-kr2: K3s/reboot 동반 작업 전 iommu=pt 사전 체크 항목 추가
2026-05-14 16:57:09 +09:00
kaffa
f0de7a3c37
infra-hosts: frontmatter updated 누적 보존 (iommu=pt 기록 복원)
2026-05-14 12:28:12 +09:00
kaffa
821c5a6278
infra-hosts: K3s 4노드 v1.34.5 → v1.34.7+k3s1 patch 업그레이드 (2026-05-14)
2026-05-14 12:27:10 +09:00
kaffa
0a45e0536c
AMD-Vi (IOMMU) Completion-Wait timeout 메커니즘 정본 신설
...
incus-kr2 freeze 사건 분석으로 확정된 IOMMU 부분 hang 메커니즘과
운영 규칙(`iommu=pt` 선제 적용)을 별도 reference 문서로 분리.
호스트 사연(history)과 메커니즘(reference)을 분리해 다른 AMD Ryzen
호스트 도입 시 재사용 가능한 정본으로 정리.
- infra/compute/amd-vi-iommu.md 신규 (메커니즘 + 차단 + 운영 규칙)
- compute _index.md, hosts/incus-kr2.md, history 문서에 링크
2026-05-05 11:47:31 +09:00
kaffa
35f1e16f09
incus-kr2 freeze 원인 = AMD-Vi (IOMMU) Completion-Wait timeout
...
호스트 약 2주 간격 freeze 재발 패턴 분석 결과 AMD Ryzen 6900HX의
IOMMU Completion-Wait queue stall이 근본 원인. GRUB cmdline에
`iommu=pt` 추가하여 IOMMU passthrough 모드로 차단.
- infra/compute/hosts/incus-kr2.md 신규 (호스트 정본)
- history/2026-05-04-amd-iommu-freeze.md 신규 (사건 기록)
- _index.md / infra-hosts.md 갱신
2026-05-05 07:18:28 +09:00
kaffa
d25dc3e52f
obsidian 정합성 정정 — bouncer 단일화 잔존 stale 정리
...
- infra/compute/infra-hosts.md: jp1 default 20→19, cs-cf-worker-bouncer 컨테이너 라인에서 제거
- services/bunnycdn-security.md: Edge Script 64811 / bloom filter / 국가차단 / Turnstile inouter-bunny 폐기 반영. 현재 layer (Bunny Shield + Rate Limit + 대역폭 한도) 중심 재작성
- infra/network/apisix.md: Edge Script 64811 attach 라인 폐기 표시
- infra/security/cloudflare.md: Workers 인벤토리 + Worker 라우트 + CF proxy 패턴 + cfb-manager 절 모두 폐기 반영
- infra/security/crowdsec-safeline.md: cs-cf-worker-bouncer 운영 중 문장 폐기 표시
- ops-agents/overview.md: Syn 영역 정의에서 폐기 자산 명시
- history/_index.md: 누락된 2026-04-25-netbis-npm-vector-msg-rewrite, 2026-04-26-bouncer-consolidation 등록 + frontmatter updated
2026-04-26 10:33:48 +09:00
kaffa
46cb3236d3
deprecate anomaly-detect (오탐 다수로 인스턴스까지 제거)
...
원인: Grok-4-fast agentic 분석기가 더미 IP(1.1.1.1, 1.2.3.4 시퀀스),
Cloudflare 엣지 IP(172.70.x), 자체 Linode IDC 대역(45.79.x)을
path-enumeration으로 오탐 ban. 같은 기간 hub 시나리오는 진짜 스캐너
1건(India SoloRDP)을 정확히 잡음.
작업:
- infra/platform/anomaly-detect.md → deprecated stub
- history/2026-04-25-anomaly-detect-removal.md 신규 (폐기 사유, 재가동 조건 정리)
- crowdsec-safeline.md acquisition 다이어그램에서 anomaly-detect 분기 제거
- infra/compute/infra-hosts.md hp2 default 5→4 갱신
- infra/platform/_index.md, history/_index.md 인덱스 갱신
- infra/security/vault.md apps 목록에서 항목 제거 (apps/anomaly-detect 경로는 비어있음, 유지)
보존:
- Vault secret/ai/openrouter (다른 서비스 공용 가능성)
- Gitea kaffa/anomaly-detect repo (재구축 reference)
2026-04-25 15:00:13 +09:00
heimdall
738a60b093
longhorn: 1.8.2 -> 1.11.1 업그레이드 (2026-04-23)
2026-04-23 09:06:21 +09:00
kaffa
782fff8fe9
k3s: document kr2 kubelet memory reserve as intentional OOM mitigation
...
Ties the existing /etc/rancher/k3s/config.yaml kubelet-arg (system-reserved=8Gi,
eviction-hard<2Gi) to the 2026-04-19 OOM freeze incident so it won't be
flagged as mystery asymmetry in future audits. Closes item 6 of 2026-04-20
K3s improvements.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com >
2026-04-21 07:44:09 +09:00
kaffa
dc18ec8bac
infra-hosts: Longhorn 자동 복구 설정 (node-down auto-delete + replica-auto-balance)
2026-04-19 15:05:00 +09:00
kaffa
620abeae79
infra-hosts: Descheduler 설치 기록 (kr2 OOM freeze 대응)
2026-04-19 14:36:03 +09:00
heimdall
7395446478
docs: add _index.md MOC to all directories
2026-04-16 13:46:06 +09:00
heimdall
f0e51daafd
refactor: organize infra/ into compute/network/security/data/platform
2026-04-16 13:43:36 +09:00