| Date | Title | Author | Categories | Description |
|---|---|---|---|---|
| 07 LangGraph Manual State Update | LangGraph는 중간 단계의 상태를 수동으로 업데이트 할 수 있는 방안을 제공하고 있습니다. | |||
| 08 LangGraph State Customization | 지금까지는 메시지들의 상태(State) 에 의존해 왔습니다. | |||
| 09 LangGraph DeleteMessages | 그래프의 일반적인 상태 중 하나는 메시지 목록입니다. 일반적으로 해당 상태에 메시지를 추가만 합니다. 하지만 때로는 메시지를 제거 해야 할 수도 있습니다. | |||
| 10 LangGraph ToolNode |
이번 튜토리얼에서는 도구 호출을 위한 LangGraph의 사전 구축된 pre-built의 ToolNode 사용 방법을 다룹니다.
|
|||
| 11 LangGraph Branching |
노드의 병렬 실행은 전체 그래프 작업의 속도를 향상시키는 데 필수적입니다. LangGraph는 노드의 병렬 실행을 기본적으로 지원하며, 이는 그래프 기반 워크플로우의 성능을 크게 향상시킬 수 있습니다.
|
|||
| 12 LangGraph Add Conversation Summary | 대화 기록을 유지하는 것은 지속성의 가장 일반적인 사용 사례 중 하나입니다. 이는 대화를 지속하기 쉽게 만들어주는 장점이 있습니다. | |||
| 13 LangGraph Subgraph | SubGraph 를 사용하면 여러 구성 요소를 포함하는 복잡한 시스템을 구축할 수 있으며, 이러한 구성 요소 자체가 그래프가 될 수 있습니다. SubGraph 의 일반적인 사용 사례는 멀티 에이전트 시스템 구축입니다. | |||
| 14 LangGraph Subgraph Transform State |
subgraph 상태가 parent graph 상태와 완전히 독립적일 수 있습니다.
|
|||
| 15 LangGraph Streaming Steps |
graph의 전체 상태를 스트리밍하는 방법
|
|||
| 01 LangGraph Building Graphs | 이번 튜토리얼에서는 LangGraph를 사용하여 그래프를 생성하는 방법을 배웁니다. | |||
| 02 LangGraph Naive RAG | 절차 | |||
| 03 LangGraph Add Groundedness Check | 절차 | |||
| 04 LangGraph Add Web Search | 절차 | |||
| 05 LangGraph Add Query Rewrite | 절차 | |||
| 06 LangGraph Agentic RAG | 에이전트(Agent) 는 검색 도구를 사용할지 여부를 결정해야 할 때 유용합니다. 에이전트와 관련된 내용은 Agent 페이지를 참고하세요. | |||
| 07 LangGraph Adaptive RAG | 이 튜토리얼은 Adaptive RAG(Adaptive Retrieval-Augmented Generation)의 구현을 다룹니다. | |||
| 01 LangGraph Agent Simulation | 챗봇을 구축할 때, 예를 들어 고객 지원 어시스턴트와 같은 경우, 챗봇의 성능을 제대로 평가하는 것이 어려울 수 있습니다. 코드 변경마다 집중적으로 수동으로 상호 작용하는 것은 시간이 많이 소요됩니다. | |||
| 02 LangGraph Prompt Generation | 이 튜토리얼에서는 사용자가 프롬프트를 생성할 수 있도록 돕는 챗봇을 만드는 방법을 설명합니다. 챗봇은 먼저 사용자로부터 요구사항을 수집한 후, 이를 바탕으로 프롬프트를 생성하고 사용자 입력에 따라 이를 수정합니다. 이 과정은 두 개의 별도 상태로 나뉘며, LLM이 상태 전환 시점을 결정합니다. | |||
| 03 LangGraph CRAG | 이번 튜토리얼은 Corrective RAG (CRAG) 전략을 사용하여 RAG 기반 시스템을 개선하는 방법을 다룹니다. | |||
| 04 LangGraph Self RAG | 이 튜토리얼에서는 Self-RAG라는 Retrieval Augmented Generation(RAG) 전략을 소개하고, 이를 LangGraph를 활용하여 구현하는 방법을 단계별로 설명합니다. | |||
| 05 LangGraph Plan and Execute |
이 튜토리얼에서는 “plan-and-execute” 스타일의 에이전트를 만드는 방법을 소개하고, 이를 LangGraph를 활용하여 구현하는 과정을 단계별로 설명합니다. “plan-and-execute” 전략은 복잡한 작업을 수행할 때 장기적인 계획을 먼저 수립한 뒤, 해당 계획을 단계별로 실행하며 필요에 따라… |
|||
| 06 LangGraph Multi Agent Collaboration llama3 |
이 튜토리얼에서는 멀티 에이전트 네트워크를 LangGraph를 활용하여 구현하는 방법을 다룹니다. 멀티 에이전트 네트워크는 복잡한 작업을 여러 개의 전문화된 에이전트들로 나누어 처리하는 “분할 정복” 접근 방식을 사용하는 아키텍처입니다. |
|||
| 06 LangGraph Multi Agent Collaboration |
이 튜토리얼에서는 멀티 에이전트 네트워크를 LangGraph를 활용하여 구현하는 방법을 다룹니다. 멀티 에이전트 네트워크는 복잡한 작업을 여러 개의 전문화된 에이전트들로 나누어 처리하는 “분할 정복” 접근 방식을 사용하는 아키텍처입니다. |
|||
| 07 LangGraph Multi Agent Supervisor |
이 튜토리얼에서는 LangGraph를 활용하여 다중 에이전트 시스템을 구축하고, 에이전트 간 작업을 효율적으로 조정하고 감독자(Supervisor)를 통해 관리하는 방법을 살펴봅니다. 여러 에이전트를 동시에 다루며, 각 에이전트가 자신의 역할을 수행하도록 관리하고, 작업 완료 시 이를 적절히 처리하는 과정을… |
|||
| 08 LangGraph Hierarchial Agent Team | 이 튜토리얼에서는 계층적 에이전트 팀을 구성하는 방법을 살펴봅니다. | |||
| 09 LangGraph SQL Agent | 이 튜토리얼에서는 SQL 데이터베이스에 대한 질문에 답할 수 있는 에이전트를 단계별로 구축하는 방법을 소개합니다. | |||
| 10 LangGraph Research Assistant | 이 튜토리얼의 목적은 LangGraph를 활용하여 연구 자동화 시스템을 구축하는 방법에 대해서 다룹니다. | |||
| 01. VisRAG: 파싱의 종말과 새로운 검색 아키텍처 | 배포 수준의 개발 경험이 있다면, ’RAG 성능의 80%는 전처리(Pre-processing)에서 결정된다’는 말에 공감하실 것입니다. 하지만 이 전처리가 곧 가장 큰 리스크입니다. | |||
| 01. VisRAG: 파싱의 종말과 새로운 검색 아키텍처 | 배포 수준의 개발 경험이 있다면, ’RAG 성능의 80%는 전처리(Pre-processing)에서 결정된다’는 말에 공감하실 것입니다. 하지만 이 전처리가 곧 가장 큰 리스크입니다. | |||
| 03. 프로덕션 배포와 에이전트 네이티브 워크플로우 |
VisRAG의 MaxSim 연산과 멀티 벡터 구조를 상용 수준에서 처리하기 위해서는 일반적인 DB만으로는 부족합니다. - Qdrant: multivector 검색 기능을 지원하며 안정적인 확장이 가능. - VectorChord: PostgreSQL 확장 기능으로, 러스트(Rust) 기반의 고성능 벡터 처리…
|
|||
| Jan 1, 2110 | Data Governance | Data Governance | 작성 예정중 | |
| Mar 1, 2100 | Epidemiology | Epidemiology | Understanding disease patterns, causation, and prevention through systematic study of health-related states and events in populations | |
| Mar 1, 2100 | Mathematics | Mathematics | Rather than studying pure mathematics, I focus on studying and organizing mathematical concepts by filling out this mathematics blog section with some mathematics stuff for deep learning | |
| Dec 25, 2026 | Azure AI Search Multimodal Search | Engineering, Infra, Cloud, Azure, RAG | Azure AI Search의 Multimodal Search 기능을 설명한다. PDF 문서에서 텍스트와 이미지를 추출하고 벡터화하여 검색 가능한 인덱스를 구축하는 5단계 파이프라인, 3가지 추출 옵션, 2가지 임베딩 방식을 다룬다. | |
| May 15, 2026 | Data Engineering Described — Overview | Engineering | 데이터 엔지니어링이 왜 독립 분야로 부상했는지 밝히고, 정의·수명주기·역사적 진화·데이터 성숙도 3단계·Type A/B 역할 구분·조직 내 이해관계자 맵 6개 축으로 Reis Ch.1 전체 체계를 조감한다. | |
| May 15, 2026 | What Is Data Engineering? | Engineering | 데이터 엔지니어링의 다양한 정의를 비교하고 Reis의 정의로 수렴하는 과정을 추적한다. 정의를 5개 구성 요소(원시 데이터, 시스템·프로세스, 고품질 정보, 다운스트림 유스케이스, 교차 영역)로 분해하고, 각 요소의 실무적 의미를 반사실 비교와 비유로 풀어낸다. | |
| May 15, 2026 | Data Engineering Lifecycle과 역사적 진화 | Engineering | 데이터 엔지니어링 수명주기(생성·저장·수집·변환·서빙)의 구조와 6대 저류를 소개하고, DW 시대(1980s)부터 수명주기 엔지니어링(2020s)까지 네 시대의 진화를 추적하며, 각 시대의 기술적 전환이 데이터 엔지니어 역할에 미친 영향을 반사실 비교로 분석한다. | |
| May 15, 2026 | Data Engineering과 Data Science, 그리고 핵심 역량 | Engineering | 데이터 엔지니어링과 데이터 사이언스가 왜 별개이면서 보완적인지 욕구 계층 모델로 밝히고, 데이터 성숙도 3단계(Starting·Scaling·Leading)별 엔지니어 역할을 실무 시나리오로 분석하며, 비즈니스 5대 역량과 기술 역량(언어·프레임워크·아키텍처)을 체계적으로 정리한다. | |
| May 15, 2026 | Data Engineer의 역할 스펙트럼과 조직 내 위치 | Engineering | 데이터 엔지니어의 역할이 단일하지 않다는 사실을 Type A/B 연속체로 설명하고, 조직 내에서 내부 지향(Internal-Facing)과 외부 지향(External-Facing) 엔지니어의 책임·기술 스택·설계 관점 차이를 대비한다. | |
| May 15, 2026 | Data Engineer와 협업하는 기술 역할과 비즈니스 리더십 | Engineering | 데이터 엔지니어가 조직 내에서 상호작용하는 기술 역할(Data Architect, Software Engineer, DevOps/SRE, Data Scientist, Data Analyst, ML Engineer)과 비즈니스 리더십(CEO, CIO, CTO, CDO, CAO)의 관계를 Upstream/Downstream 프레임워크로 정리한다. | |
| May 15, 2026 | Data Engineering Lifecycle — Overview | Engineering | 데이터 엔지니어링 수명주기(Generation → Storage → Ingestion → Transformation → Serving)의 전체 구조와, 이를 관통하는 6대 Undercurrent(Security, Data Management, DataOps, Data Architecture, Orchestration, Software Engineering)를 조감한다. | |
| May 15, 2026 | 데이터 엔지니어링 수명주기의 정의와 범위 | Engineering | 데이터 엔지니어링 수명주기가 무엇인지 정의하고, 전체 데이터 수명주기(Full Data Lifecycle)와의 관계를 명확히 한다. 5단계의 비선형적 특성과 Storage의 기반 역할, Undercurrent와의 구조적 관계를 직관적으로 설명한다. | |
| May 15, 2026 | Generation과 Storage — 소스 시스템과 저장 전략 | Engineering | 데이터 엔지니어링 수명주기의 시작점인 Generation(소스 시스템)의 유형·평가 기준·스키마 관리와, 전 수명주기에 걸치는 Storage의 핵심 설계 고려사항, 데이터 온도(hot/lukewarm/cold) 개념을 상세히 다룬다. | |
| May 15, 2026 | Ingestion과 Transformation — 수집과 변환의 설계 | Engineering | 데이터 엔지니어링 수명주기의 핵심 중간 단계인 Ingestion(수집)과 Transformation(변환)을 깊이 다룬다. Batch/Streaming 선택 기준, Push/Pull 패러다임, 변환 단계의 진행, 비즈니스 로직과 ML Featurization의 역할을 실무 관점에서 분석한다. | |
| May 15, 2026 | Serving Data와 6대 Undercurrent | Engineering | 데이터 엔지니어링 수명주기의 마지막 단계인 Serving의 세 가지 주요 용도(Analytics, ML, Reverse ETL)와, 수명주기 전체를 관통하는 6대 Undercurrent(Security, Data Management, DataOps, Data Architecture, Orchestration, Software Engineering)를 상세히 다룬다. | |
| May 15, 2026 | Designing Good Data Architecture — Overview | Engineering | 데이터 아키텍처가 왜 데이터 엔지니어링 수명주기의 기반인지 밝히고, 엔터프라이즈 아키텍처 정의·데이터 아키텍처 정의·“좋은” 아키텍처의 특성·9대 원칙· 주요 개념(도메인/서비스, 분산 시스템, 결합도, 이벤트 기반)· 아키텍처 유형(DW, 데이터 레이크, 레이크하우스, 모던 데이터 스택, Lambda/Kappa, 데이터 메시) 6개 축으로 Reis Ch.3 전체 체계를 조감한다. | |
| May 15, 2026 | What Is Data Architecture? | Engineering | 데이터 아키텍처가 왜 엔터프라이즈 아키텍처의 하위 집합인지 밝히고, TOGAF·Gartner·EABOK 세 프레임워크의 EA 정의 비교, Reis의 통합 정의(유연성+가역성+트레이드오프), 운영 아키텍처 vs 기술 아키텍처 구분, “좋은” 아키텍처의 조건 4개 축으로 데이터 아키텍처의 개념적 기반을 구축한다. | |
| May 15, 2026 | Architecture Principles and Major Concepts | Engineering | 좋은 데이터 아키텍처의 9대 원칙이 왜 필요한지 밝히고, 공통 컴포넌트·장애 계획·확장성·리더십·항상 아키텍팅·소결합·가역적 결정·보안·FinOps 원칙과 도메인/서비스·분산 시스템·결합도(모놀리스 vs 마이크로서비스)·이벤트 기반 아키텍처·Brownfield vs Greenfield 개념을 실무 맥락에서 분석한다. | |
| May 15, 2026 | Architecture Examples and Types | Engineering | 데이터 아키텍처 유형이 왜 시대별로 진화해왔는지 밝히고, 데이터 웨어하우스(ETL/ELT/클라우드 DW/데이터 마트)·데이터 레이크(1.0의 실패와 교훈)· 레이크하우스·모던 데이터 스택·Lambda/Kappa·Dataflow 모델·IoT·데이터 메시 8개 아키텍처 패턴을 실무 트레이드오프와 함께 비교 분석한다. | |
| May 15, 2026 | Choosing Technologies — Overview | Engineering | 기술 선택이 왜 아키텍처 이후에 와야 하는지 밝히고, 팀 규모·시장 속도·상호운용성·비용 최적화·불변 vs 일시적 기술·위치(클라우드/온프레미스)· 구매 vs 구축·모놀리스 vs 모듈·서버리스 vs 서버·벤치마크·저류 11가지 고려사항으로 Reis Ch.4 전체 체계를 조감한다. | |
| May 15, 2026 | Team Size and Speed to Market | Engineering | 팀 규모와 역량이 왜 기술 선택의 첫 번째 고려사항인지 밝히고, 카고 컬트 엔지니어링의 위험·관리형 서비스 우선 전략·기술 스킬 인벤토리, 시장 속도의 중요성·완벽의 적(enemy of good)·가치 조기 전달 원칙 두 축으로 데이터 엔지니어의 기술 선택 출발점을 설정한다. | |
| May 15, 2026 | Interoperability and Cost Optimization | Engineering | 기술 간 상호운용성이 왜 모듈화 전략의 전제 조건인지 밝히고, JDBC/ODBC/REST 표준·통합 난이도 스펙트럼, 총소유비용(TCO)·총기회비용(TOCO)·FinOps·CapEx vs OpEx 비교 두 축으로 데이터 기술의 통합성과 경제성을 분석한다. | |
| May 15, 2026 | Immutable vs Transitory Technologies and Location | Engineering | 기술 선택에서 왜 불변 기술과 일시적 기술을 구분해야 하는지 밝히고, 린디 효과·2년 재평가 주기·곰 덫 회피 전략, 온프레미스·클라우드·하이브리드·멀티클라우드 배치 전략·클라우드 경제학·데이터 그래비티·클라우드 본국 송환 두 축으로 기술의 시간적 전략과 공간적 전략을 분석한다. | |
| May 15, 2026 | Build vs Buy and Monolith vs Modular | Engineering | 직접 구축할 것인지 기성품을 구매할 것인지의 판단 기준이 왜 경쟁 우위인지 밝히고, OSS(커뮤니티/상용)·프로프라이어터리(독립/클라우드)·평가 기준, 모놀리스의 단순성 vs 모듈화의 유연성·분산 모놀리스 안티패턴·컨테이너/오케스트레이션 두 축으로 기술 확보 전략과 시스템 구조 전략을 분석한다. | |
| May 15, 2026 | Serverless vs Servers and Benchmark Wars | Engineering | 서버리스가 왜 모든 경우에 적합하지 않은지 밝히고, AWS Lambda·BigQuery·컨테이너·Kubernetes의 서버리스 스펙트럼, 서버리스 vs 서버 비용 교차점·평가 기준 6가지, 벤치마크 전쟁의 일반적 트릭(소규모 데이터셋/무의미한 비용 비교/비대칭 최적화) 두 축으로 운영 모델 선택과 성능 평가의 함정을 분석한다. | |
| May 15, 2026 | Undercurrents and Technology Choices | Engineering | 기술 선택이 왜 데이터 엔지니어링 수명주기의 저류와 분리될 수 없는지 밝히고, 데이터 관리·DataOps·데이터 아키텍처·소프트웨어 엔지니어링 관점에서의 기술 평가 기준, Apache Airflow의 장단점과 오케스트레이션 기술 선택의 실무 사례 두 축으로 Ch.4의 결론을 정리한다. | |
| May 15, 2026 | Optimization 학습 로드맵 — LP에서 볼록 최적화까지 | Math | 최적화(Optimization)가 데이터 과학·머신러닝·딥러닝의 핵심 엔진인 이유를 밝히고, 선형 최적화(LP) → 쌍대성(Duality) → 볼록 이론(Convex Theory) → 알고리즘(Interior Point Methods) 4단계 학습 로드맵을 교재 2권(Bertsimas·Boyd)의 구조와 함께 제시한다. | |
| May 15, 2026 | 선형 최적화 입문 — Ch.1 Overview | Math | 선형 최적화(Linear Optimization, LP)가 무엇인지 정의하고, 정준형(canonical form)과 표준형(standard form)의 동치 관계를 밝힌 뒤, 수송 문제·생산 계획·회귀 추정 등 다양한 모델링 사례를 통해 LP의 모델링 능력이 선형 제약 이상으로 광범위함을 보인다. | |
| May 15, 2026 | LO 용어 체계와 수송 문제 | Math | 선형 최적화(LO)의 핵심 용어 — 결정변수, 실현가능집합, 최적값, 풀이가능성 — 을 엄밀하게 정의하고, 식이 문제·생산 계획·재고 관리·수송 문제·네트워크 흐름 5개 모델링 사례를 통해 LP 정형화의 실무적 감각을 구축한다. | |
| May 15, 2026 | 공학 응용과 LP 환원 가능 문제 | Math | ℓ₁/ℓ∞ 회귀, 압축 센싱(Compressed Sensing), LP-SVM 등 공학 응용 문제를 LP로 환원하는 기법을 상세히 다루고, 다면체 표현의 미적분(calculus)을 통해 “어떤 문제가 LP로 환원 가능한가”에 대한 체계적 판별 도구를 구축한다. | |
| May 15, 2026 | 다면체 표현과 확장 정형화 | Math | 다면체 표현 가능 집합이 다면체임을 증명하는 Fourier-Motzkin 소거법을 상세히 분석하고, 다면체 표현 가능 함수(p.r.f.)의 구조 정리를 유도한다. 슬랙 변수를 활용한 확장 정형화(extended formulation)의 위력을 2차 원추의 고속 다면체 근사(Ben-Tal-Nemirovski 정리)를 통해 구체적으로 확인한다. | |
| May 15, 2026 | 다면체 집합의 기하: 전체 조감 | Math | BER Ch.2 전체를 조감한다. 선형 부분공간에서 아핀·볼록 집합으로의 확장, 다면체 집합의 극점(extreme point)과 극선(extreme ray), 그리고 다면체의 내부·외부 표현을 연결하는 구조 정리(Representation Theorem)를 개관한다. 이 기하학이 심플렉스법의 이론적 토대인 이유를 설명한다. | |
| May 15, 2026 | 아핀 부분공간, 볼록 집합, 상대적 내부 | Math | 아핀 부분공간(affine subspace)의 정의·미적분·차원 이론에서 출발하여, 볼록 집합(convex set)의 볼록 결합·볼록 포·차원으로 확장한 뒤, 상대적 내부(relative interior)가 왜 통상적 내부보다 유용한지 밝힌다. 각 개념의 기하학적 직관과 LP·볼록 최적화에서의 역할을 설명한다. | |
| May 15, 2026 | 원추, Caratheodory 정리, 극점과 이중 확률 행렬 | Math | 원추(cone)의 정의와 미적분, 쌍대 원추 개념에서 출발하여, Caratheodory 정리가 볼록 결합의 항 수를 n+1 이하로 제한하는 원리를 증명한다. 다면체의 면(face)과 극점(vertex)의 대수적·기하학적 특성화를 확립하고, Birkhoff 정리(이중 확률 행렬의 극점 = 순열 행렬)를 통해 극점 이론의 응용력을 보인다. | |
| May 15, 2026 | 기저, 극선, 그리고 다면체 구조 정리 | Math | 다면체 원추의 기저(base)와 극선(extreme ray)을 정의하고 대수적으로 특성화한 뒤, 다면체 구조 정리(Structure Theorem)를 증명한다. 이 정리는 다면체의 외부 서술(부등식)과 내부 서술(극점+극선)이 동치임을 확립하며, LP의 최적해가 극점에서 달성되고 심플렉스법이 유한 단계에 종료한다는 핵심 따름정리를 산출한다. | |
| May 15, 2026 | 쌍대성 이론 전체 조감 | Optimization | 선형 부등식 체계의 대안 정리(GTA), LP 쌍대성 정리, 최적성 인증서, 감도 분석, 강건 최적화를 아우르는 쌍대성 이론의 전체 구조를 조망한다. | |
| May 15, 2026 | 대안의 일반 정리와 따름정리 | Optimization | 선형 부등식 체계의 해가 없음을 인증하는 대안의 일반 정리(GTA)를 증명하고, 동차/비동차 Farkas 보조정리, 다면체 집합의 성질 인증 체계를 수립한다. | |
| May 15, 2026 | 최적성 인증서와 LP 쌍대성 | Optimization | LP 문제의 실현가능성, 유계성, 풀이가능성, 최적성에 대한 완전한 인증서 체계를 수립하고, 이를 토대로 쌍대 문제를 자연스럽게 구성한다. | |
| May 15, 2026 | Hedeker § 7.2 — MRM with Autocorrelated Errors | Statistics, Longitudinal Data Analysis | Hedeker & Gibbons Ch.7 의 핵심 절 § 7.2 를 깊이 다룬다. 표준 MRM 의 조건부 독립 가정 (\(\varepsilon_i \sim N(0, \sigma^2 I)\)) 을 완화해 자기상관 행렬 \(\Omega_i\) 를 도입, \(V(y_i) = Z_i \Sigma_v Z_i' + \sigma^2 \Omega_i\) 로 일반화한다. 다섯 가지 자기상관 구조 — AR(1) (식 7.7), MA(1) (식 7.16), ARMA(1,1) (식 7.17), Toeplitz, 비정상 AR(1) (식 7.18-7.19) — 의 식·자유 모수·언제 적합한지의 직관을 풀이한다. EB estimator 와 posterior covariance (식 7.5-7.6) 의 \(I \to \Omega\) 일반화도 정리한다. (Hedeker & Gibbons, 2006, § 7.2) | |
| May 14, 2026 | 동적 프로그래밍 개관 — 완전한 모델이 있을 때의 최적 정책 계산 | Reinforcement Learning | 동적 프로그래밍(DP)은 완전한 환경 모델이 주어졌을 때 최적 정책을 계산하는 알고리즘 군이다. Bellman 방정식을 반복적 업데이트 규칙으로 변환하는 핵심 아이디어와, 정책 평가·정책 개선·정책 반복· 가치 반복의 전체 로드맵을 소개한다. | |
| May 14, 2026 | 정책 평가와 정책 개선 — DP의 두 핵심 연산 | Reinforcement Learning | DP의 두 기본 연산인 정책 평가(Bellman 방정식의 반복 적용으로 v_π 계산)와 정책 개선(v_π에 대한 탐욕 정책으로 더 좋은 정책 생성)을 상세히 설명한다. 정책 개선 정리의 유도와 4×4 그리드월드 예시를 포함한다. | |
| May 14, 2026 | 정책 반복과 가치 반복 — DP의 두 완전한 알고리즘 | Reinforcement Learning | 정책 반복(Policy Iteration)은 정책 평가와 개선을 교대하여 유한 번에 최적 정책에 수렴한다. 가치 반복(Value Iteration)은 평가를 1회로 단축하여 Bellman 최적 방정식을 직접 반복한다. 두 알고리즘의 비교와 도박꾼 문제 예시를 통한 실습을 포함한다. | |
| May 14, 2026 | 비동기 DP, 일반화된 정책 반복(GPI), DP의 효율성 | Reinforcement Learning | 비동기 DP는 전체 스윕 없이 임의 순서로 상태를 업데이트하여 대규모 문제에 적용할 수 있게 한다. GPI는 정책 평가와 개선의 상호작용을 일반화하는 프레임워크로, 거의 모든 RL 알고리즘을 포괄한다. DP의 계산 복잡도와 실용적 효율성을 분석한다. | |
| May 14, 2026 | Monte Carlo Methods 개관 — 모델 없이 경험에서 학습 | Reinforcement Learning | Monte Carlo 방법은 환경 모델 없이, 에피소드 경험의 실제 수익을 평균하여 가치 함수를 추정한다. DP와의 근본적 차이(샘플 vs 기대값, 부트스트랩 유무)를 설명하고, 블랙잭 예시로 MC의 장점을 시연한다. | |
| May 14, 2026 | MC 예측과 행동 가치 추정 — First-visit MC, Every-visit MC, q_π 학습 | Reinforcement Learning | Monte Carlo 예측은 에피소드 수익의 평균으로 가치 함수를 추정한다. 모델 없는 학습에서는 상태 가치 v_π 대신 행동 가치 q_π를 추정해야 정책을 개선할 수 있다. First-visit MC와 Every-visit MC의 차이, 탐색 시작(Exploring Starts) 가정의 의미를 상세히 다룬다. | |
| May 14, 2026 | MC 제어 — ES 기반 정책 개선과 ε-greedy On-policy 제어 | Reinforcement Learning | MC 제어는 에피소드 경험에서 최적 정책을 탐색한다. Exploring Starts(ES) 기반 MC 제어로 시작하여, 현실적인 ε-greedy on-policy 제어로 발전한다. GPI 프레임워크 내에서 MC 평가-개선 사이클이 수렴하는 원리와, ε-soft 정책 중 최적이 되는 조건을 수식과 함께 설명한다. | |
| May 14, 2026 | Off-policy 예측과 중요도 샘플링 — Ordinary IS, Weighted IS, 점진적 구현 | Reinforcement Learning | Off-policy 학습은 데이터를 생성하는 행동 정책과 학습하려는 목표 정책을 분리한다. 중요도 샘플링(Importance Sampling)으로 행동 정책의 데이터를 목표 정책의 가치 추정에 활용하는 원리를 설명하고, Ordinary IS와 Weighted IS의 편향-분산 특성을 비교한다. | |
| May 14, 2026 | Off-policy MC 제어 — 가중 IS 기반 최적 정책 탐색과 절단 수익 | Reinforcement Learning | Off-policy MC 제어는 행동 정책의 데이터로 결정적 최적 정책을 학습한다. 가중 중요도 샘플링과 GPI를 결합하여 구현하며, 에피소드 꼬리 부분만 학습하는 한계를 분석한다. Truncated IS로 γ<1 환경에서의 분산을 줄이는 기법과, Ch.5 전체를 종합한다. | |
| May 14, 2026 | Temporal-Difference Learning 개관 — DP와 MC의 장점을 결합한 부트스트랩 학습 | Reinforcement Learning | TD 학습은 MC처럼 환경 모델 없이, DP처럼 부트스트랩을 사용하여 매 스텝 즉시 학습하는 방법이다. TD(0)의 업데이트 규칙, TD 오차의 의미, MC/DP/TD의 근본적 차이를 설명하고, 운전 귀가 예제로 TD의 온라인 학습 이점을 직관적으로 시연한다. | |
| May 14, 2026 | TD 예측과 TD의 이점 — TD(0)의 수렴, 배치 학습, 확실성 등가 추정 | Reinforcement Learning | TD(0) 예측의 구체적 알고리즘과 수렴 조건을 다루고, MC 대비 TD가 빠른 이유를 설명한다. 배치 학습에서 TD(0)가 확실성 등가(certainty-equivalence) 추정에 수렴하는 반면 MC는 단순 샘플 평균에 수렴하는 근본적 차이를 분석한다. 랜덤 워크 실험으로 TD의 우위를 시연한다. | |
| May 14, 2026 | Sarsa — On-policy TD 제어와 Windy Gridworld | Reinforcement Learning | Sarsa는 on-policy TD 제어 알고리즘으로, (S,A,R,S’,A’) 다섯 요소로 행동 가치 함수 q_π를 매 스텝 업데이트한다. GPI 프레임워크에서 TD 예측 + ε-greedy 개선을 결합하여, MC 제어보다 빠르게 최적 정책에 접근한다. Windy Gridworld로 Sarsa의 학습 과정을 시연한다. | |
| May 14, 2026 | Q-Learning — Off-policy TD 제어와 Cliff Walking | Reinforcement Learning | Q-learning은 off-policy TD 제어의 대표 알고리즘으로, max 연산을 통해 행동 정책과 무관하게 최적 행동 가치 q*를 직접 추정한다. Cliff Walking에서 Sarsa와의 on-policy/off-policy 차이를 비교하고, Expected Sarsa와 Afterstate 가치 함수까지 확장한다. | |
| May 14, 2026 | 적격 흔적 개요 — TD와 MC를 잇는 통합 메커니즘 | Reinforcement Learning | 적격 흔적(eligibility traces)은 TD(0)와 MC를 양극단으로 하는 스펙트럼의 중간 지점을 효율적으로 탐색하는 메커니즘이다. n-step 수익, λ-수익, forward/backward 관점의 핵심 아이디어를 개관하고, 왜 적격 흔적이 보상 지연과 비마르코프 과제에서 첫 번째 방어선인지 설명한다. | |
| May 14, 2026 | n-step TD 예측과 Forward View of TD(λ) | Reinforcement Learning | n-step TD는 TD(0)와 MC 사이의 스펙트럼을 형성한다. 1-step부터 ∞-step까지의 수익을 λ-가중 평균으로 통합하면 TD(λ)의 forward view가 된다. n-step 수익의 오류 감소 성질, λ-수익의 수학적 구조, Random Walk에서의 최적 n 탐색을 다룬다. | |
| May 14, 2026 | Backward View TD(λ)와 Forward-Backward 등가성 | Reinforcement Learning | TD(λ)의 backward view는 적격 흔적으로 현재 TD 오차를 과거 상태에 비례 전파하는 인과적 메커니즘이다. 누적, 대체, Dutch 세 종류 흔적의 차이를 비교하고, true online TD(λ)가 forward view와 정확히 등가인 것을 보인다. | |
| May 14, 2026 | Sarsa(λ)와 Watkins’s Q(λ) — 적격 흔적 기반 제어 | Reinforcement Learning | Sarsa(λ)는 TD(λ)의 예측 메커니즘을 행동 가치 함수로 확장한 on-policy 제어 알고리즘이다. 적격 흔적이 보상 지연 문제에서 학습을 어떻게 가속하는지 Gridworld로 시연하고, Watkins’s Q(λ)의 off-policy 제어에서 흔적 절단의 한계까지 다룬다. | |
| May 14, 2026 | Off-policy 적격 흔적, 구현 이슈, Variable λ | Reinforcement Learning | Watkins Q(λ)의 이진적 흔적 절단을 넘어, 중요도 샘플링 비율로 적격 흔적을 연속적으로 조절하는 방법을 소개한다. 또한 테이블 기반 흔적의 효율적 구현, 가변 λ의 이론적 가능성, 그리고 Ch.7 전체의 결론과 실전 권장사항을 정리한다. | |
| May 14, 2026 | Planning & MCTS 개관 — 모델 기반 RL의 통합 관점 | Reinforcement Learning | 모델 기반 RL은 환경 모델을 학습하여 시뮬레이션된 경험으로 계획(planning)을 수행한다. Ch.8은 동적 프로그래밍과 TD/MC 방법이 모두 가치 함수의 백업이라는 공통 구조를 공유함을 보이고, Dyna로 학습과 계획을 통합하며, MCTS로 현대적 계획 방법까지 다룬다. | |
| May 14, 2026 | 모델과 계획, Dyna 아키텍처 — 학습과 계획의 통합 | Reinforcement Learning | Dyna-Q는 실제 경험으로 Q-learning을 수행하면서 동시에 모델을 학습하고, 모델에서 생성한 시뮬레이션 경험으로 추가 Q-learning(계획)을 수행한다. 미로 실험에서 계획 스텝 n이 클수록 학습이 가속됨을 확인한다. | |
| May 14, 2026 | 잘못된 모델과 우선순위 스위핑 — 환경 변화에 대응하는 계획 | Reinforcement Learning | 환경이 변하면 학습된 모델이 틀리게 된다. Dyna-Q+는 탐험 보너스로 오래된 전이를 재탐험하도록 유도하여 환경 변화에 적응한다. 우선순위 스위핑은 가치 변화가 큰 상태-행동 쌍을 우선 업데이트하여 계획 효율을 극대화한다. | |
| May 14, 2026 | 전체 vs 샘플 백업, 궤적 샘플링 — 계획의 백업 전략 | Reinforcement Learning | 전체 백업(expected update)과 샘플 백업(sample update)은 각각 장단점을 가진다. 분기 수(branching factor)가 작으면 전체 백업이, 크면 샘플 백업이 효율적이다. 궤적 샘플링은 on-policy 분포에 따라 상태를 방문하여 계획의 효율을 높인다. | |
| May 14, 2026 | 휴리스틱 탐색과 MCTS — 대규모 상태 공간의 계획 | Reinforcement Learning | 휴리스틱 탐색은 현재 상태에서 시작하여 깊이 있는 트리를 탐색하고 가치 함수로 리프를 평가한다. MCTS는 시뮬레이션(rollout)으로 트리를 선택적으로 성장시키며, UCB 기반 탐색으로 탐험-이용 균형을 달성한다. AlphaGo의 핵심이 된 방법이다. | |
| May 14, 2026 | Off-policy 함수 근사 개관 — Deadly Triad와 발산의 위험 | Reinforcement Learning | On-policy 함수 근사는 수렴 보장이 가능하지만, Off-policy로 넘어가면 상황이 근본적으로 달라진다. 함수 근사, 부트스트래핑, Off-policy 학습의 세 요소가 결합된 ’deadly triad’는 왜 위험한지, 그리고 이를 해결하려는 연구 방향을 개관한다. | |
| May 14, 2026 | Off-policy 근사의 도전과 연구 방향 — GTD, Emphatic TD, Gradient Correction | Reinforcement Learning | Off-policy + 함수 근사의 발산 문제를 해결하려는 핵심 알고리즘인 GTD, GTD2, TDC, Emphatic TD를 수식과 코드로 다룬다. 각 접근의 핵심 아이디어, 수렴 조건, 실전 한계를 비교 분석한다. | |
| May 14, 2026 | 정책 근사와 Actor-Critic 개관 — 가치가 아닌 정책을 직접 학습 | Reinforcement Learning | 지금까지의 모든 방법은 가치 함수를 학습하고 그로부터 정책을 유도했다. 정책 근사는 정책 자체를 파라미터로 표현하고 직접 최적화한다. 이 접근이 왜 필요한지, 정책 경사 정리란 무엇인지, Actor-Critic 아키텍처는 어떻게 구성되는지를 개관한다. | |
| May 14, 2026 | Actor-Critic 심화 + 적격도 AC + R-Learning | Reinforcement Learning | Actor-Critic의 적격도 추적 확장, 정책 경사와 적격도의 결합, 할인 없는 연속 과제를 위한 평균 보상 설정과 R-Learning 알고리즘을 다룬다. Access-Control Queuing 예제로 R-Learning의 실전 적용을 보인다. | |
| May 14, 2026 | On-Policy 함수 근사 개관 — 테이블에서 일반화로 | Reinforcement Learning | 상태 공간이 크거나 연속적이면 테이블 기반 방법은 불가능하다. 함수 근사는 매개변수 벡터 w로 가치 함수를 근사하여, 경험한 상태에서 미경험 상태로 일반화한다. Ch.9는 on-policy 경사 하강법, 선형 방법, 제어를 다룬다. | |
| May 14, 2026 | 가치 예측과 경사 하강법 — SGD 기반 함수 근사 | Reinforcement Learning | 경사 하강법(SGD)은 각 백업을 훈련 예시로 사용하여 가중치를 오차가 줄어드는 방향으로 업데이트한다. MC 타겟은 비편향이므로 수렴이 보장되고, TD(λ)는 부트스트래핑으로 편향이 있지만 실전에서 더 효과적이다. | |
| May 14, 2026 | 선형 방법과 제어 — Tile Coding, RBF, Mountain Car | Reinforcement Learning | 선형 함수 근사 V̂(s,w) = w⊤x(s)는 분석 가능하고 수렴 보장이 강하다. Coarse coding, tile coding, RBF 등 다양한 특징 구성으로 일반화 패턴을 제어하고, Sarsa(λ) + 함수 근사로 연속 상태 제어 문제를 해결한다. | |
| May 14, 2026 | 부트스트래핑은 근사인가? — Bootstrap vs Non-Bootstrap 분석 | Reinforcement Learning | 이론적으로 MC(λ=1)가 가장 작은 오차 한계를 갖지만, 실전에서는 중간 λ의 부트스트래핑 방법이 더 좋은 성능을 보인다. 이 역설의 원인은 편향-분산 트레이드오프와 학습 속도의 차이에 있다. | |
| May 14, 2026 | RL과 심리학·신경과학 — 도파민, 조건형성, 보상 예측 오차 | Reinforcement Learning | RL의 핵심 개념(TD 오차, 보상 예측, 가치 함수)이 심리학의 조건형성 이론과 신경과학의 도파민 보상 신호와 놀라울 정도로 일치한다. 이 연결이 왜 중요한지, 어떤 실험적 증거가 있는지를 개관한다. | |
| May 14, 2026 | RL 응용 사례 개관 — 게임에서 산업까지 | Reinforcement Learning | 강화학습이 실제 문제에 적용된 대표적 사례들을 개관한다. 각 사례에서 문제를 RL로 어떻게 공식화했는지, 어떤 알고리즘과 표현을 사용했는지, 어떤 성과를 달성했는지의 공통 패턴과 교훈을 정리한다. | |
| May 14, 2026 | TD-Gammon + Samuel의 Checkers — 게임 RL의 이정표 | Reinforcement Learning | TD-Gammon은 자기 대전과 TD(λ)+신경망만으로 백개먼 세계 최고 수준에 도달한 역사적 사례이다. Samuel의 Checkers Player는 그 선구자로서 1950년대에 이미 TD 학습과 함수 근사의 핵심 아이디어를 구현했다. | |
| May 14, 2026 | Acrobot + Elevator Dispatching — 제어와 산업 최적화 | Reinforcement Learning | Acrobot은 연속 상태 공간에서 Sarsa(λ)+Tile coding이 효과적임을 보인 제어 문제이고, Elevator Dispatching은 10^22 상태의 산업 문제에서 Q-learning+신경망이 기존 방법을 능가한 사례이다. | |
| May 14, 2026 | Dynamic Channel Allocation + Job-Shop Scheduling | Reinforcement Learning | Dynamic Channel Allocation은 셀룰러 통신망에서 Sarsa(λ)가 기존 방법들을 능가한 사례이고, Job-Shop Scheduling은 NP-hard 최적화에서 RL이 효과적 해를 찾은 사례이다. | |
| May 14, 2026 | Prospects of Reinforcement Learning — 전망과 차원 분석 | Reinforcement Learning | RL의 모든 방법론을 관통하는 핵심 차원(bootstrapping, on/off-policy, 함수 근사, 모델 사용)을 체계적으로 정리하고, 미래 발전 방향을 조망한다. Sutton & Barto Ch.15의 통합적 관점이다. | |
| May 14, 2026 | 통합적 관점과 상태 추정 — RL 방법론의 수학적 통합 | Reinforcement Learning | RL의 모든 가치 추정 방법을 일반화된 TD 갱신으로 통합하고, General Value Functions(GVF)로 확장한다. Bayesian 관점에서의 상태 추정과 RL의 연결을 다룬다. | |
| May 14, 2026 | 시간 추상화와 예측적 표현 — RL의 미해결 전선 | Reinforcement Learning | Options Framework로 시간 추상화를 실현하고, Predictive State Representation으로 모델 없는 상태 추정을 달성한다. Sutton & Barto 교과서의 마지막 장으로서 RL의 열린 문제들을 조망한다. | |
| May 14, 2026 | Ch.7 Overview — MRM with Autocorrelated Errors | Statistics | Hedeker & Gibbons (2006) Ch.7 의 종합 overview. Ch.4-5 의 MRM 은 조건부 독립 가정 (\(\varepsilon_i \sim \mathcal{N}(0, \sigma^2 I)\)) 위에서 작동하고, Ch.6 의 CPM 은 분산-공분산 행렬 자체를 직접 모형화한다. Ch.7 은 두 접근을 결합하여 MRM 의 랜덤 효과 (\(Z_i \upsilon_i\)) 와 CPM 의 자기상관 오차 (\(\sigma^2 \Omega_i\)) 를 같은 모형에 둔다. 결과 분산-공분산 \(V(y_i) = Z_i\Sigma_\upsilon Z_i' + \sigma^2 \Omega_i\) 는 종단 데이터의 가장 유연한 표현이다. § 7.1 도입, § 7.2 일반 framework + 5 자기상관 구조 (AR(1)·MA(1)·ARMA(1,1)·Toeplitz·NS-AR(1)) 요약, § 7.3 모형 선택, § 7.4 Bock 항우울제 데이터 적합 패턴까지 정리한다. | |
| May 14, 2026 | Klein Appendix B — Large-Sample Tests Based on Likelihood Theory | Statistics, Survival Analysis | Klein 책의 부록 B 를 정리한다. 가능도 이론에 기반한 세 가지 대표본 검정 (Likelihood Ratio · Wald · Rao Score) 의 식 B.4-B.6 과 직관, 단순 가설과 복합 가설 (nuisance 모수 포함) 의 통계량 식 B.10-B.14, 그리고 Klein 의 두 지수 분포 예제 (Example B.1 단일 모수, B.2 두 그룹 비교) 의 수치 결과를 풀이한다. 세 검정이 점근적으로 동등 (\(\chi^2_p\)) 하지만 작은 표본에서 다르게 나오는 이유와 실무에서 어느 검정을 선택할지의 trade-off 를 다룬다. (Klein & Moeschberger, 2003, Appendix B) | |
| May 14, 2026 | 시계열 분석 카테고리 개관 | Statistics, Time-Series | Statistics/Time Series 카테고리의 진입점이다. 8권의 교재를 기반으로 13 Phase, 82편의 학습 로드맵을 제시하고, 독자 유형별 추천 경로를 안내한다. | |
| May 14, 2026 | 수치 최적화와 재귀 추정 | Statistics, Time-Series, System-Identification | 파라미터 추정의 수치적 구현을 다룬다. 최소제곱의 QR 분해, Levinson 알고리즘, 비선형 최적화(Gauss-Newton), 재귀 최소제곱(RLS), 잊음 계수, Kalman 필터 해석을 설명한다. | |
| May 14, 2026 | 설계 목표와 실험 설계 | Statistics, Time-Series, System-Identification | 식별의 설계 변수와 목적 함수를 정의하고(Ch.12), 실험 설계의 핵심 원리를 다룬다(Ch.13). 지속 가진, 폐루프 식별, 최적 입력 스펙트럼, 샘플링 간격 선택을 설명한다. | |
| May 14, 2026 | 전처리와 식별 기준 선택 | Statistics, Time-Series, System-Identification | 데이터 전처리(Ch.14)와 식별 기준 선택(Ch.15)을 다룬다. 오프셋·이상치·결측치 처리, 프리필터에 의한 편향 분포 제어, 로버스트 노름, 최적 도구 변수(IV) 방법을 설명한다. | |
| May 14, 2026 | 모델 검증과 실전 식별 | Statistics, Time-Series, System-Identification | 모델 구조 선택과 검증(Ch.16), 실전 식별 절차(Ch.17)를 다룬다. AIC·MDL에 의한 차수 선택, 잔차 분석(백색성·독립성 검정), 교차 검증, MATLAB Identification Toolbox 워크플로우를 설명한다. | |
| May 14, 2026 | 전략적 사고의 10가지 원형: Ten Tales of Strategy | Strategy_Frameworks, Game Theory, Art of Strategy, Decision Making | 게임이론의 핵심 원리를 일상과 비즈니스의 10가지 전략적 상황으로 소개한다. 상대방의 입장에서 생각하기, 역추론, 혼합전략, 약속과 위협, 죄수의 딜레마 등 후속 챕터에서 심화할 핵심 개념을 미리 맛보는 개관이다. | |
| May 14, 2026 | 10가지 전략 상황의 심층 분석 | Strategy_Frameworks, Game Theory, Art of Strategy, Strategic Analysis | Ten Tales의 각 이야기를 정식 게임이론 언어로 재구성한다. 보수 행렬, 게임 트리, 정보 집합을 활용하여 직관적 이해를 형식적 분석으로 전환하고, 각 상황에 대한 비즈니스 확장 사례와 Python 시뮬레이터를 제공한다. | |
| May 14, 2026 | 역추론과 순차 게임: Backward Reasoning | Strategy_Frameworks, Game Theory, Art of Strategy, Sequential Games | 순차 게임(Sequential Game)의 분석 도구인 게임 트리와 역추론(Backward Induction)을 체계적으로 학습한다. Charlie Brown부터 의회-대통령 게임, Survivor 21 Flags까지 점진적으로 복잡해지는 사례를 통해 “앞을 내다보고 뒤로 추론하라”는 전략의 제1법칙을 체화한다. | |
| May 14, 2026 | 게임 트리의 구축과 역추론의 실전 적용 | Strategy_Frameworks, Game Theory, Art of Strategy, Sequential Games | 게임 트리를 실제로 구축하고 역추론을 적용하는 실전 기법을 다룬다. 21 Flags의 Nim 이론 확장, 체스에서의 제한 깊이 역추론, 비즈니스의 복잡한 순차 게임(시장 진입, 용량 확장, 가격 전쟁)에 대한 체계적 분석 방법을 제시한다. | |
| May 14, 2026 | 최후통첩 게임과 공정성: 역추론의 행동경제학적 한계 | Strategy_Frameworks, Game Theory, Art of Strategy, Behavioral Economics | 역추론이 예측하는 결과와 실제 인간 행동 사이의 괴리를 최후통첩 게임을 통해 분석한다. 공정성 선호, 이타주의, 수치심이 보수 함수를 변형하는 메커니즘을 이해하고, 이를 비즈니스 협상, 가격 전략, 조직 관리에 적용하는 방법을 다룬다. | |
| May 14, 2026 | 죄수의 딜레마와 우월전략: 협력의 어려움 | Strategy_Frameworks, Game Theory, Art of Strategy, Prisoners Dilemma | 게임이론의 가장 유명한 구조인 죄수의 딜레마(Prisoners’ Dilemma)를 체계적으로 분석한다. 우월전략의 개념, 개인 합리성과 집단 최적의 괴리, 가격 전쟁에서 환경 문제까지 PD 구조가 편재하는 현실 상황을 이해하고, 해결 메커니즘의 원리를 탐색한다. | |
| May 14, 2026 | 우월전략과 딜레마의 해부: 구조적 분석 | Strategy_Frameworks, Game Theory, Art of Strategy, Dominant Strategy | 우월전략(Dominant Strategy)과 피지배전략(Dominated Strategy)의 수학적 정의를 정밀하게 분석하고, 반복 제거법(Iterated Elimination of Dominated Strategies)의 논리를 도출한다. PD의 다양한 변형과 현실 비즈니스 적용을 심층 탐구한다. | |
| May 14, 2026 | 반복 게임과 협력의 진화: Tit-for-Tat에서 진화적 안정까지 | Strategy_Frameworks, Game Theory, Art of Strategy, Repeated Game | 일회성 PD의 비극을 반복 게임이 어떻게 극복하는지 분석한다. Axelrod 토너먼트의 교훈, Tit-for-Tat의 강점과 한계, Generous TFT·Pavlov·GRIM 등 진화된 전략을 비교하고, 현실 비즈니스에서 반복적 상호작용이 협력을 촉진하는 메커니즘을 탐구한다. | |
| May 14, 2026 | 내시 균형: 전략적 사고의 안착점 | Strategy_Frameworks, Game Theory, Art of Strategy, Nash Equilibrium | 내시 균형(Nash Equilibrium)의 개념, 최적 반응(Best Response)의 원리, 다중 균형 문제와 초점(Focal Point)의 역할을 체계적으로 분석한다. 조정 게임(Coordination Game), 성별 대결(Battle of the Sexes), 치킨 게임(Chicken)의 구조적 차이를 이해하고 비즈니스에 적용한다. | |
| May 14, 2026 | 다중 균형과 조정 문제: 초점, 선점, 그리고 제도 설계 | Strategy_Frameworks, Game Theory, Art of Strategy, Focal Point | 다중 내시 균형이 존재할 때의 선택 문제를 심층 분석한다. Schelling의 초점(Focal Point) 이론, 조정 게임의 비즈니스 적용, 성별 대결과 치킨 게임에서의 전략적 선택, 그리고 제도 설계를 통한 균형 선택 유도 메커니즘을 체계적으로 탐구한다. | |
| May 14, 2026 | 혼합 전략: 예측 불가능성의 전략적 가치 | Strategy_Frameworks, Game Theory, Art of Strategy, Mixed Strategy | 순수 전략 내시 균형이 없는 게임에서의 해법인 혼합 전략(Mixed Strategy)을 분석한다. 무차별 원리(Indifference Principle)의 수학, 혼합 전략의 직관적 해석, 스포츠·경매·보안에서의 응용, 그리고 minimax 정리와의 관계를 탐구한다. | |
| May 14, 2026 | 선택과 우연: 전략적 무작위화의 과학 | Strategy_Frameworks, Game Theory, Art of Strategy, Minimax | 전략적 무작위화(Randomization)의 과학적 근거와 실증적 검증을 분석한다. von Neumann의 Minimax 정리, 최적 혼합 비율 계산법, 페널티킥 실증 분석, 그리고 “의도적 불예측성”이 최적인 비즈니스 상황의 체계적 분류를 제시한다. | |
| May 14, 2026 | 전략적 불확실성: 정보 비대칭과 무작위화의 한계 | Strategy_Frameworks, Game Theory, Art of Strategy, Mixed Strategy | 비영합 게임에서 혼합 전략의 역할과 한계를 분석한다. 교대 편향(alternation bias)의 실증적 증거, 비영합 게임의 혼합 NE 불안정성, 상관 균형의 우월성, 그리고 실전에서 “진짜 무작위”를 구현하는 메커니즘 설계를 제시한다. | |
| May 14, 2026 | 전략적 행동: 게임을 바꾸는 기술 | Strategy_Frameworks, Game Theory, Art of Strategy, Strategic Moves | 전략적 행동(Strategic Moves)의 완전한 분류 체계를 제시한다. 무조건적 공약(Commitment), 조건적 위협(Threat), 조건적 약속(Promise)의 구조적 차이, 억제(Deterrence)와 강제(Compellence)의 구분, 그리고 각 전략적 행동이 게임 구조를 어떻게 변형하는지를 분석한다. | |
| May 14, 2026 | 위협과 약속의 설계: 억제와 강제의 메커니즘 | Strategy_Frameworks, Game Theory, Art of Strategy, Threats and Promises | 위협(Threat)과 약속(Promise)의 미시 구조를 분석한다. 억제 위협 vs 강제 약속의 비대칭적 비용 구조, 살라미 전술 대응, 점진적 벌칙 설계, 위약금 최적화, 그리고 비즈니스 환경에서의 조건적 전략행동 구현 패턴을 체계적으로 제시한다. | |
| May 14, 2026 | 선도자 우위: 벼랑끝 전술과 시장 구조 설계 | Strategy_Frameworks, Game Theory, Art of Strategy, First-Mover Advantage | 선도자 우위(First-Mover Advantage)의 게임이론적 기초와 실전 응용을 분석한다. Stackelberg 모형, 용량 선점, 벼랑끝 전술의 수학적 구조, 그리고 “시장을 설계하는” 전략적 행동의 체계를 제시한다. | |
| May 14, 2026 | 신뢰성 구축: 전략적 행동을 믿게 만드는 8가지 경로 | Strategy_Frameworks, Game Theory, Art of Strategy, Credibility | 전략적 행동(공약, 위협, 약속)의 신뢰성(Credibility)을 구축하는 8가지 메커니즘을 분석한다. 계약, 평판, 소통 차단, 배수진, 통제 포기, 단계적 이행, 팀워크, 대리인 위임 — 각 경로의 작동 원리, 비용 구조, 적용 조건을 체계적으로 분류한다. | |
| May 14, 2026 | 평판과 위임: 신뢰성의 동적 구축과 전략적 대리인 | Strategy_Frameworks, Game Theory, Art of Strategy, Reputation | 평판(Reputation)의 동적 형성 과정과 전략적 대리인(Mandated Agent) 위임의 심화 분석을 제시한다. Kreps-Wilson 평판 모형, 체인스토어 역설, 강경 대리인 전략, 조직의 신뢰 자본 축적, 그리고 “합리적 비합리성(Rational Irrationality)”의 전략적 가치를 분석한다. | |
| May 14, 2026 | 경매, 입찰, 경쟁: 가격 발견의 전략 | Strategy_Frameworks, Game Theory, Art of Strategy, Auctions | 영국식·일본식·Vickrey·봉인입찰·네덜란드식 경매의 구조와 최적 입찰 전략을 비교 분석한다. 수익 동치 정리(Revenue Equivalence Theorem), 승자의 저주(Winner’s Curse), 선점 게임(Preemption Game), 소모전(War of Attrition)의 경매적 해석을 종합한다. | |
| May 14, 2026 | 선점 게임과 소모전: 시간의 경매 | Strategy_Frameworks, Game Theory, Art of Strategy, Timing | 선점 게임(Preemption Game)과 소모전(War of Attrition)을 경매의 프레임워크로 분석한다. 최적 진입 시점의 결투(Duel) 모형, 소모전에서의 합병 전략, 그리고 FCC 동시 오름차순 경매의 메커니즘 설계를 심층 탐구한다. | |
| May 14, 2026 | 경매 메커니즘 설계: 규칙이 전략을 바꾼다 | Strategy_Frameworks, Game Theory, Art of Strategy, Mechanism Design | 경매 규칙 변경이 입찰자 행동에 미치는 영향을 분석하고, 조합 경매(Combinatorial Auction), 담합 방지(Anti-Collusion), 유보 가격(Reserve Price), 정보 공개 정책 등 경매 메커니즘 설계(Mechanism Design)의 핵심 원리를 탐구한다. | |
| May 14, 2026 | 협상의 게임이론: BATNA, 파이 측정, 벼랑 끝 전술 | Strategy_Frameworks, Game Theory, Art of Strategy, Negotiation | 교대 제안(Alternating Offers) 모형을 통해 협상의 역추론 구조를 분석하고, BATNA(Best Alternative to Negotiated Agreement)가 파이 분할을 결정하는 메커니즘, 벼랑 끝 전술(Brinkmanship)이 파업과 교착을 설명하는 원리, 그리고 가상 파업(Virtual Strike)이라는 혁신적 대안을 종합 탐구한다. | |
| May 14, 2026 | BATNA 전략과 교대 제안: 협상력의 구조적 원천 | Strategy_Frameworks, Game Theory, Art of Strategy, Negotiation | BATNA(Best Alternative to Negotiated Agreement)의 전략적 조작이 협상 결과를 어떻게 바꾸는지 심층 분석한다. Rubinstein 교대 제안 모형의 수학적 구조, 파이 측정의 실전 방법론, 다차원 협상에서 이슈 연계·분리의 전략적 선택, 그리고 궁극적 게임(Ultimatum Game) 실험이 보여주는 인간 협상 행동의 편향을 탐구한다. | |
| May 14, 2026 | 벼랑 끝 전술과 가상 파업: 협상 교착의 해부 | Strategy_Frameworks, Game Theory, Art of Strategy, Negotiation | 협상에서 벼랑 끝 전술(Brinkmanship)이 교착과 파업을 발생시키는 메커니즘을 분석하고, 파업이 비용을 수반하는 신호 보내기(Costly Signaling)인 이유를 설명한다. 가상 파업(Virtual Strike)이 사회적 비용을 제거하면서 동일한 협상력을 유지하는 원리, 만료 계약 하 교섭의 역학, 반복 궁극적 게임에서의 전략적 비합리성을 탐구한다. | |
| May 14, 2026 | 투표의 게임이론: 콩도르세 역설, 의제 조작, 중위 투표자 | Strategy_Frameworks, Game Theory, Art of Strategy, Voting | 투표 시스템이 선호 집계의 불완전한 도구임을 콩도르세 역설로 보여주고, 의제 순서가 결과를 완전히 바꿀 수 있음을 법정 사례로 입증한다. 중위 투표자 정리의 진실 유도 성질, Arrow의 불가능성 정리, 승인 투표(Approval Voting)의 장단점, 그리고 전략적 투표의 불가피성을 종합 분석한다. | |
| May 14, 2026 | 전략적 투표와 제도 설계: Arrow 정리에서 승인 투표까지 | Strategy_Frameworks, Game Theory, Art of Strategy, Voting | 전략적 투표의 불가피성을 Arrow의 불가능성 정리로 증명하고, 다양한 투표 시스템(다수결, 결선, 보르다, 콩도르세, 승인 투표)의 전략적 취약점을 비교 분석한다. 다차원 정책 공간에서의 후보 위치 전략, Caplin-Nalebuff의 2/3 다수결 안정성 정리, 예산 게임에서의 선점 전략, 그리고 피봇 투표자(Pivotal Voter)의 전략적 중요성을 통합 탐구한다. | |
| May 14, 2026 | 인센티브의 게임이론: 도덕적 해이, 효율 임금, 계약 설계 | Strategy_Frameworks, Game Theory, Art of Strategy, Incentives | 노력이 관찰 불가능할 때 발생하는 도덕적 해이(Moral Hazard) 문제를 분석하고, 고정급+성과급 혼합 계약이 최적 인센티브를 설계하는 원리를 탐구한다. 효율 임금(Efficiency Wage), 선형 vs 비선형 인센티브, 당근 vs 채찍, 다중 과업에서의 인센티브 왜곡, 상대 평가 경쟁, 내재적 동기의 구축 효과를 종합 분석한다. | |
| May 14, 2026 | 계약 설계 심화: 효율 임금, 계층 조직, 동기 부여의 과학 | Strategy_Frameworks, Game Theory, Art of Strategy, Incentives | 인센티브 계약 설계의 심화 주제를 탐구한다. 비선형 인센티브의 래칫 효과, 당근과 채찍의 행동경제학적 차이, 경력 우려(Career Concerns)가 명시적 인센티브를 대체하는 메커니즘, 계층 조직에서의 인센티브 전달 손실, 다중 주인 문제의 비효율성, 그리고 내재적 동기의 구축 효과와 최적 보상 설계를 종합 분석한다. | |
| May 14, 2026 | 전략적 사고 종합: 봉투 역설에서 기업 인수까지 | Strategy_Frameworks, Game Theory, Art of Strategy, Case Studies | 전략적 사고의 핵심 원칙들을 종합 사례로 적용한다. 봉투 교환의 역추론 역설, 카지노 룰렛의 후행자 이점, 기업 인수에서의 이중 가격 공개매수의 지배 전략, 상어 방지 장치를 무력화하는 역추론, 그리고 결투에서 무기 정확도가 결과에 미치는 역설적 효과를 분석한다. | |
| May 14, 2026 | 전략 사례 심화: 삼자 결투, Vickrey 경매, 도달 불가 균형 | Strategy_Frameworks, Game Theory, Art of Strategy, Case Studies | 전략적 사고의 고급 사례를 심화 분석한다. 삼자 결투에서 약자의 역설적 생존 전략, Vickrey 경매의 진실 신고, 솔로몬 왕의 메커니즘 설계, 1달러 경매의 몰입 함정, 리어 왕의 유산 인센티브, Alcoa 과잉 설비의 진입 억제, 총기 규제의 게임이론, 그리고 슬롯머신 카지노의 정보 비대칭을 분석한다. | |
| May 14, 2026 | 정보의 해석과 조작: 신호·선별·신호 방해의 전략적 게임 | Strategy_Frameworks, Game Theory, Art of Strategy, Information | 비대칭 정보(Asymmetric Information) 하에서 전략적 행위자가 정보를 전달(Signaling), 추출(Screening), 방해(Signal Jamming)하는 메커니즘을 종합적으로 분석한다. Spence의 교육 신호 모형, Akerlof의 레몬 시장, Bayes 규칙을 활용한 포커 추론, 그리고 가격차별의 자기선택 메커니즘까지 전략적 정보 게임의 완전한 프레임워크를 제시한다. | |
| May 14, 2026 | 선별 메커니즘 설계: 자기선택과 가격차별의 수학 | Strategy_Frameworks, Game Theory, Art of Strategy, Screening | 정보 열위자가 설계하는 선별(Screening) 메커니즘의 수학적 구조를 심화 분석한다. 유인 양립 제약(IC), 참여 제약(PC), 최적 메뉴 설계, 그리고 항공사·소프트웨어·보험 등 실전 가격차별 전략의 설계 원리를 제시한다. “손상된 제품(Damaged Goods)”의 역설적 합리성과 다차원 선별의 확장까지 포괄적으로 다룬다. | |
| May 14, 2026 | 신호 방해와 전략적 블러핑: 정보 은닉의 게임 | Strategy_Frameworks, Game Theory, Art of Strategy, Bluffing | 정보를 숨기려는 행위자의 전략(Signal Jamming)과 정보 추출을 방해하는 혼합 전략의 수학적 구조를 분석한다. 포커 블러핑의 최적 비율, 역(逆)신호(Countersignaling)의 3타입 모형, 전시 기만 작전, 그리고 양방향 정보 조작 게임의 균형을 종합적으로 다룬다. | |
| May 14, 2026 | 협력과 조정: 죄수의 딜레마를 넘어서 | Strategy_Frameworks, Game Theory, Art of Strategy, Coordination | 다인(多人) 죄수의 딜레마, 밴드왜건 효과(Bandwagon Effect), 티핑(Tipping) 현상, 그리고 조정 실패(Coordination Failure)의 게임이론적 구조를 종합 분석한다. QWERTY 잠금, 인종 분리의 Schelling 모형, 교통 혼잡의 사회적 최적, 그리고 단기 집중 집행의 전략적 우위를 다룬다. | |
| May 14, 2026 | 공유지의 비극과 제도 설계: 외부성의 내재화 | Strategy_Frameworks, Game Theory, Art of Strategy, Externalities | 교통 혼잡, 환경 오염, 광고 경쟁 등 다인 죄수의 딜레마 상황에서 외부성(Externality)을 내재화하는 제도적 해법을 분석한다. 피구세(Pigouvian Tax), 카르텔, 보조금, 규제의 게임이론적 근거와 한계를 비교하고, 공유지의 비극(Tragedy of the Commons)을 넘어서는 조정 메커니즘을 설계한다. | |
| May 14, 2026 | 밴드왜건, 티핑, 위치 게임: 조정의 동역학 | Strategy_Frameworks, Game Theory, Art of Strategy, Tipping | 밴드왜건 효과(Bandwagon Effect)의 자기 강화 메커니즘, Schelling 티핑(Tipping) 모형의 비선형 증폭, Hotelling 위치 게임(Location Game)의 중위 수렴(Median Convergence), 그리고 미끄러운 경사면(Slippery Slope) 투표의 동역학을 분석한다. 임계 질량(Critical Mass) 전략과 단기 집중 정책의 이론적 근거를 제시한다. | |
| May 13, 2026 | 코드 지능 시스템의 비전 — 코드 검색을 넘어 | Agent, Project | 엔터프라이즈 레거시 코드베이스를 이해하려면 코드 검색만으로는 부족한 이유를 밝히고, 데이터 리니지 복원·조직적 고고학·컨텍스트 압축 3가지 축으로 코드 지능(Code Intelligence) 시스템의 정체성을 정의한다. | |
| May 13, 2026 | 5-Layer 인지 모델과 10가지 방법론 원칙 | Agent, Project | 코드 지능 시스템을 일관되게 구축하기 위한 5-Layer 인지 모델(정적 구조 → 리니지 → 숨은 결합 → 의미 압축 → 에이전트 추론)의 의존성 규칙과, 10가지 방법론 원칙(Lineage-first, Glossary-first, Determinism-first 등)을 정의하고 학술적 정당화를 제시한다. | |
| May 13, 2026 | Glossary-First 계약 — 용어가 코드 읽기보다 먼저다 | Agent, Project | 코드 분석에서 용어 혼동(lexical drift)이 환각의 주요 원인임을 밝히고, METHONTOLOGY 7단계 중 1~4단계를 차용한 Glossary-First 용어 계약의 설계·시드 수집·검토·freeze 절차와 운영 거버넌스를 제시한다. | |
| May 13, 2026 | Competency Question 기반 반복 개발 | Agent, MINERVA, Code Intelligence, Ontology Engineering | Competency Question(CQ)이 코드 지능 시스템의 스펙·테스트·이터레이션 트리거 세 역할을 겸하는 방법을 밝히고, CQ 카테고리 8종, ABC 작성 패턴, 반복 루프 7단계를 다룬다. | |
| May 13, 2026 | Layer 1 — 정적 구조 인덱서 (AST + Call Graph) | Agent, MINERVA, Code Intelligence, Static Analysis | Layer 1 정적 구조 인덱서가 AST 파싱, 심볼 테이블, Call Graph 추출을 결정적으로 수행하는 방법을 밝히고, CPG 10-Layer 모델 매핑, 산출물 7종, 추출 알고리즘을 다룬다. | |
| May 13, 2026 | Layer 2 — 데이터 리니지, 시스템의 척추 | Agent, MINERVA, Code Intelligence, Data Lineage | Layer 2 데이터 리니지가 코드 지능 시스템의 척추(spine)로서 모든 메타데이터가 부착되는 구조를 밝히고, PDG·DAMA Lineage 모델, 5종 노드·4종 엣지·7종 채널, 추출 알고리즘을 다룬다. | |
| May 13, 2026 | Layer 3a — 스키마 지능과 암묵적 계약 | Agent, MINERVA, Code Intelligence, Schema Intelligence | Layer 3a 스키마 지능이 명시적 DDL과 암묵적 dict 패턴 모두에서 데이터 스키마를 추출·추론하는 방법을 밝히고, 암묵적 계약 추론, 스키마 드리프트 탐지, Lineage 결합을 다룬다. | |
| May 13, 2026 | Layer 3b — 숨은 결합과 트랩 탐지 | Agent, MINERVA, Code Intelligence, Hidden Coupling | Layer 3b가 코드에 숨겨진 결합(hidden coupling)과 트랩 12종을 3축(Lexical·Value·Structural)으로 분류·탐지하는 방법을 밝히고, 자동 탐지 알고리즘과 Lineage 결합 영향 분석을 다룬다. | |
| May 13, 2026 | Layer 3c — 의도 복원, 조직적 고고학 | Agent, MINERVA, Code Intelligence, Intent Recovery | Layer 3c 의도 복원이 코드에 응축된 의사결정·역사적 타협·장애 대응의 ’왜’를 5가지 범주로 발굴하는 방법을 밝히고, 시간 차원 통합, LLM 환각 제어 패턴, UNKNOWN 운영을 다룬다. | |
| May 13, 2026 | Layer 4 — Semantic IR과 컨텍스트 압축 | Agent, MINERVA, Code Intelligence, Context Compression | Layer 4 Semantic IR이 multi-resolution tier(T1~T6)로 코드를 압축하고 token budget을 관리하는 방법을 밝히고, always-include 항목 보존, 환각 검증 프롬프트, 캐시 무효화를 다룬다. | |
| May 13, 2026 | 통합 지식 저장소 — PostgreSQL + pgvector + AGE | Agent, MINERVA, Code Intelligence, Knowledge Store | 코드 지능 시스템의 통합 지식 저장소가 PostgreSQL 위에 관계형·벡터·그래프 세 모델을 단일 트랜잭션으로 통합하는 방법을 밝히고, Property Graph 선택 근거, URI 설계, Cypher 쿼리 패턴을 다룬다. | |
| May 13, 2026 | 증분 동기화와 Provenance 추적 | Agent, MINERVA, Code Intelligence, Data Pipeline | 증분 동기화가 3-tier 주기(즉시·일배치·주배치)로 변경 영향을 최소화하며 지식 저장소를 갱신하는 방법을 밝히고, Provenance Trail 스키마, CDC 패턴, DAMA 11활동 매핑을 다룬다. | |
| May 13, 2026 | 쿼리 계획과 결정론적 Resolver | Agent, MINERVA, Code Intelligence, Query Planning | 쿼리 Resolver가 사용자 질의를 intent 분류 → query plan → 결정적 도구 실행 → token budget 관리 → 응답 구성의 6단계로 처리하는 방법을 밝히고, CodeQL predicate 매핑과 LLM escalation 분기를 다룬다. | |
| May 13, 2026 | 하이브리드 정적-동적 분석 | Agent, MINERVA, Code Intelligence, Dynamic Analysis | 하이브리드 분석이 정적 lineage 그래프와 런타임 신호를 결합하여 dead code 확인, hot path 발견, env 분기 검증을 수행하는 방법을 밝히고, hybrid join 알고리즘과 프라이버시 보호를 다룬다. | |
| May 13, 2026 | 스킬 라이브러리와 그룹 라우팅 | Agent, MINERVA, Code Intelligence, Skill Library | 스킬 라이브러리가 코드 지능 시스템의 응용 기능을 표준 계약으로 통일하고, 6개 그룹으로 라우팅하며, LangGraph subgraph로 체이닝하는 방법을 밝히고, 스킬 계약 스키마와 그룹 설계를 다룬다. | |
| May 13, 2026 | Agentic 탐색과 검증 루프 | Agent, MINERVA, Code Intelligence, Agentic Loop | Agentic 탐색이 ReAct·Reflexion·Self-Ask 패턴으로 복잡한 질문을 iterative하게 해결하고, 3-layer 검증으로 환각을 차단하며, fail-loud 원칙으로 UNKNOWN을 명시하는 방법을 다룬다. | |
| May 13, 2026 | 평가, 신뢰도, UNKNOWN Surfacing | Agent, MINERVA, Code Intelligence, Evaluation | 코드 지능 시스템의 평가 체계가 CQ 회귀, confidence calibration, 환각 탐지, UNKNOWN 큐 운영의 4종 평가로 지속적 품질을 보장하는 방법을 밝히고, Brier Score와 reliability diagram을 다룬다. | |
| May 13, 2026 | 서비스 통합과 단계적 배포 | Agent, MINERVA, Code Intelligence, Service Integration | 코드 지능 시스템이 3-Stage 저장소 전략(Incubation → Integration → Native)으로 단계적 배포되고, 계약 드리프트 자동 검출과 BaseAgent 어댑터로 호스트 시스템과 통합되는 방법을 다룬다. | |
| May 13, 2026 | GraphRAG I — 코드 지식 온톨로지 | Agent, MINERVA, Code Intelligence, GraphRAG | 코드 지식 그래프의 TBox(온톨로지 스키마)와 ABox(인스턴스 추출)를 분리 설계하여, AST 기반 결정적 추출로 80% 이상 FACT 라벨을 확보하는 온톨로지 공학 방법을 다룬다. | |
| May 13, 2026 | GraphRAG II — 그래프 구축과 커뮤니티 탐지 | Agent, MINERVA, Code Intelligence, GraphRAG | 코드 지식 그래프의 품질 평가(DAMA 4차원), entity resolution, Leiden 커뮤니티 탐지, 계층적 요약 생성까지 production-ready 그래프 구축 파이프라인을 다룬다. | |
| May 13, 2026 | GraphRAG III — 검색 전략과 온톨로지 진화 | Agent, MINERVA, Code Intelligence, GraphRAG | GraphRAG의 Global Search(community summary map-reduce)와 Local Search(entity neighborhood)를 코드 지능 시스템에 통합하고, CQ 실패 기반 온톨로지 진화 루프를 설계하는 방법을 다룬다. | |
| May 13, 2026 | 멀티 레포 이벤트 파이프라인과 운영 모니터링 | Agent, MINERVA, Code Intelligence, Operations | 수십 개 레포를 관리하는 코드 지능 시스템의 이벤트 파이프라인(webhook, 이벤트 큐, Airflow DAG, cross-repo cascade)과 SLI/SLO 기반 운영 모니터링 체계를 설계하는 방법을 다룬다. | |
| May 13, 2026 | Reinforcement Learning 학습 로드맵 — Tabular에서 Frontiers까지 | Reinforcement Learning | 강화학습(RL)이 지도·비지도학습과 근본적으로 다른 이유를 밝히고, Tabular → Approximate → Frontiers 3-Part 로드맵을 통해 정책·가치함수·모델의 핵심 아이디어를 체계적으로 조망한다. | |
| May 13, 2026 | RL 문제 개관 — 에이전트, 환경, 보상 | Reinforcement Learning | 강화학습이 지도·비지도학습과 근본적으로 다른 세 가지 특성(폐쇄 루프, 무감독, 지연 결과)을 밝히고, 에이전트-환경 상호작용 패러다임의 핵심 구조를 완전한 목표 지향 시스템 관점에서 조망한다. | |
| May 13, 2026 | 강화학습이란 무엇인가 — 정의, 특성, 응용 사례 | Reinforcement Learning | 강화학습(RL)이 동시에 문제·해법·연구 분야인 삼중 정체성을 밝히고, 폐쇄 루프·무감독·지연 결과의 세 특성이 실제 사례에서 어떻게 나타나는지 체스·로봇·정유 공장 등 6가지 사례로 분석한다. | |
| May 13, 2026 | 강화학습의 구성 요소 — 정책, 보상, 가치, 모델 | Reinforcement Learning | 강화학습 시스템의 네 가지 핵심 구성 요소(정책·보상·가치함수·모델)가 왜 필요한지 밝히고, 가치 함수 추정이 RL 알고리즘의 중심이 된 이유와 진화적 방법·정책 경사의 위치를 비교한다. “최적화 ≠ 최적성” 원칙으로 RL의 한계와 범위를 명확히 한다. | |
| May 13, 2026 | Tic-Tac-Toe로 이해하는 RL — 가치 함수 학습과 강화학습의 역사 | Reinforcement Learning | Tic-Tac-Toe 예제를 통해 가치 함수 기반 RL이 진화적 방법·미니맥스와 다른 점을 시연하고, 시행착오 학습·최적 제어·시간차 학습의 세 갈래 역사가 현대 RL로 합류하는 과정을 추적한다. | |
| May 13, 2026 | Multi-arm Bandits 개관 — 탐색과 활용의 첫 번째 무대 | Reinforcement Learning | 강화학습의 핵심 도전인 탐색-활용 딜레마를 Multi-arm Bandit 문제를 통해 도입한다. 평가적 피드백의 본질, 행동 가치 추정, 다양한 균형 전략의 전체 그림을 조감한다. | |
| May 13, 2026 | n-Armed Bandit 문제와 Action-Value 방법 | Reinforcement Learning | n-Armed Bandit 문제를 수학적으로 정식화하고, 행동 가치를 표본 평균으로 추정하는 방법을 도출한다. Greedy와 epsilon-greedy 행동 선택 전략을 10-armed testbed에서 비교하여 탐색의 필요성을 실증한다. | |
| May 13, 2026 | 점진적 구현과 비정상 문제 | Reinforcement Learning | 표본 평균을 메모리 효율적으로 점진적 갱신하는 공식을 유도하고, RL 전체를 관통하는 일반 업데이트 패턴을 도출한다. 비정상 환경을 위한 지수 가중 이동 평균과 확률적 근사의 수렴 조건을 상세히 분석한다. | |
| May 13, 2026 | 낙관적 초깃값과 UCB 행동 선택 | Reinforcement Learning | 낙관적 초깃값이 탐욕적 행동 선택에서도 초기 탐색을 유도하는 메커니즘을 분석하고, UCB가 추정의 불확실성을 정량화하여 체계적으로 탐색하는 원리를 수학적으로 설명한다. | |
| May 13, 2026 | Gradient Bandit 알고리즘과 연관 탐색 | Reinforcement Learning | 가치 추정 대신 행동 선호도를 학습하는 Gradient Bandit 알고리즘의 원리와 수학적 정당화를 상세히 유도하고, 비결합 Bandit에서 결합적 연관 탐색(Contextual Bandit)으로의 확장을 통해 전체 RL 문제로 가는 연결 고리를 설명한다. | |
| May 13, 2026 | 유한 MDP 개관 — 상태, 행동, 보상의 수학적 프레임워크 | Reinforcement Learning | 유한 마르코프 결정 과정(Finite MDP)의 전체 그림을 조감한다. 에이전트-환경 인터페이스, 보상 가설, 수익, 가치 함수, Bellman 방정식, 최적 정책의 핵심 개념을 하나의 로드맵으로 제시한다. | |
| May 13, 2026 | 에이전트-환경 인터페이스와 목표, 보상 | Reinforcement Learning | 에이전트-환경 인터페이스의 정확한 구조를 정의하고, 에이전트와 환경의 경계가 물리적 경계와 다른 이유를 설명한다. 보상 가설을 통해 목표를 형식화하는 방법과 보상 설계의 원칙과 함정을 분석한다. | |
| May 13, 2026 | 수익, 에피소드, 할인과 통합 표기법 | Reinforcement Learning | 에이전트의 목표를 수학적으로 형식화하는 수익(return)의 정의를 소개한다. 에피소드 태스크와 연속 태스크의 차이, 할인율 gamma의 역할과 직관, 그리고 두 설정을 통합하는 표기법을 상세히 설명한다. | |
| May 13, 2026 | 마르코프 성질, MDP, 가치 함수와 Bellman 방정식 | Reinforcement Learning | 마르코프 성질이 왜 RL의 핵심 가정인지, 유한 MDP의 4-함수 전개, 그리고 가치 함수의 정의에서 Bellman 방정식 도출까지의 전체 흐름을 상세히 설명한다. | |
| May 13, 2026 | 최적 가치 함수, Bellman 최적 방정식, 근사의 필요성 | Reinforcement Learning | 최적 상태-가치 함수 v_와 최적 행동-가치 함수 q_의 정의, Bellman 최적 방정식의 유도, 탐욕 정책을 통한 최적 정책 추출, 그리고 실제 문제에서 근사가 불가피한 이유를 설명한다. | |
| May 13, 2026 | Reinforcement Learning | Reinforcement Learning | Sutton & Barto의 Reinforcement Learning: An Introduction 교과서를 기반으로 강화학습 기초부터 최신 전망까지 체계적으로 다루는 카테고리 인덱스 | |
| May 13, 2026 | 이항 모형과 구체적 가격 결정 | Stochastic_Process | 이항 모형의 구체적 예제(콜백 옵션, 풋옵션, 녹아웃 옵션)와 Put-Call Parity를 상세히 계산한다. 자본자산가격결정모형(CAPM)과 미국식 옵션의 최적 행사 전략을 분석한다. Durrett(2016, Ch.6 §6.3-6.5)을 기반으로 한다. | |
| May 13, 2026 | Black-Scholes 공식 | Stochastic_Process | 이항 모형의 연속 시간 극한으로 Black-Scholes 공식을 유도한다. 브라운 운동의 정의, 기하 브라운 운동 주가 모형, Black-Scholes 편미분방정식, 유럽형 콜/풋 가격 공식을 상세히 다룬다. Durrett(2016, Ch.6 §6.6-6.7)을 기반으로 한다. | |
| May 13, 2026 | 브라운 운동과 확률 과정 예시 | Stochastic_Process | 브라운 운동의 형식적 정의, 경로 성질, 대칭 변환을 다루고, Ornstein-Uhlenbeck 과정, 브라운 브릿지, 분수 브라운 운동을 구체적으로 분석한다. 각 과정의 공분산 구조와 시뮬레이션 방법을 상세히 설명한다. Pavliotis(2014, Ch.1 §1.3-1.4)를 기반으로 한다. | |
| May 13, 2026 | 확률 과정 정의와 정상 과정 | Stochastic_Process | 확률 과정의 형식적 정의를 심화하고, 강/약 정상 과정의 관계, Bochner 정리를 통한 스펙트럼 표현, 에르고딕 정리의 증명, 그리고 구체적 예제를 상세히 다룬다. Pavliotis(2014, Ch.1 §1.1-1.2)를 기반으로 한다. | |
| May 13, 2026 | Karhunen-Loève 전개 | Stochastic_Process | 확률 과정의 Karhunen-Loève(KL) 전개를 공분산 연산자의 스펙트럼 분해 관점에서 유도한다. Mercer 정리, 적분 연산자의 고유값 문제, 절단 KL 전개의 오차 분석을 다루고, 브라운 운동과 Ornstein-Uhlenbeck 과정에 대한 구체적 KL 전개를 계산한다. Pavliotis(2014, Ch.1 §1.5)를 기반으로 한다. | |
| May 13, 2026 | 확률 과정 입문 개관 | Stochastic_Process | 확률 과정의 수학적 정의, 유한 차원 분포, 가우시안 과정, 정상 과정의 개념을 체계적으로 소개한다. 이산 시간에서 연속 시간으로의 전환을 강조하며, Phase A의 이산 개념이 어떻게 일반화되는지 설명한다. Pavliotis(2014, Ch.1 overview-§1.2)를 기반으로 한다. | |
| May 13, 2026 | 확산 과정 개관 | Stochastic_Process | 확산 과정(diffusion process)의 전체 구조를 개관한다. 마르코프 성질의 계층(이산/연속, 이산/연속 상태), Chapman-Kolmogorov 방정식, 생성자, 에르고딕 이론, Kolmogorov 전진·후진 방정식까지 Ch.2의 핵심 개념을 조감도로 배치한다. Pavliotis(2014, Ch.2)를 기반으로 한다. | |
| May 13, 2026 | 생성자와 에르고딕 마르코프 과정 | Stochastic_Process | 마르코프 반군의 생성자(generator) 개념을 도입하고, 후진·전진 Kolmogorov 방정식을 반군-생성자 프레임워크에서 유도한다. 수반 반군, 불변 측도, 에르고딕 정리를 다루고, BM과 OU 과정의 생성자 및 에르고딕 성질을 구체적으로 분석한다. Pavliotis(2014, Ch.2 §2.3–2.4)를 기반으로 한다. | |
| May 13, 2026 | 마르코프 과정 예시와 Chapman-Kolmogorov 방정식 | Stochastic_Process | 마르코프 과정의 형식적 정의, 여과(filtration), 전이 함수를 엄밀하게 다룬다. 이산·연속 상태의 마르코프 과정 예시(랜덤 워크, 포아송 과정, 브라운 운동, OU 과정)를 분석하고, Chapman-Kolmogorov 방정식을 유도하여 전이 밀도의 반군 구조를 보인다. Pavliotis(2014, Ch.2 §2.1–2.2)를 기반으로 한다. | |
| May 13, 2026 | Klein Appendix A.2 — Multivariate Methods for Maximization | Statistics, Survival Analysis | Klein 부록 A 의 다변수 최적화 절을 깊이 다룬다. Gradient 식 A.3 와 Hessian 식 A.4 의 표기를 정리하고, Steepest Ascent (식 A.5, 그래디언트 방향 + 1D 최적화), 다변수 Newton-Raphson (식 A.6, \(\mathbf{H}^{-1} \mathbf{u}\)), Marquardt 절충 (\(\gamma\) 다이얼) 의 알고리즘과 수렴 차수, 발산 사례, 안전장치를 단계별로 풀이한다. 길쭉한 우도 함수에서 steepest 의 지그재그가 발생하는 이유와 Newton 의 Hessian 정규화가 이를 어떻게 해결하는지 직관으로 설명한다. Klein Example A.2 의 Weibull (λ, α) MLE 10 obs 에 세 방법의 step trace 를 비교한다. (Klein & Moeschberger, 2003, Appendix A.2) | |
| May 13, 2026 | Global Forecasting과 Advanced DL Architecture | Statistics, Time-Series, Deep-Learning | 다수 시계열에 하나의 모델을 학습시키는 Global Forecasting 전략과 N-BEATS, DeepAR, Transformer, TFT 등 최신 딥러닝 아키텍처를 다룬다. PyTorch Lightning, GluonTS, NeuralForecast 프레임워크를 비교하고 하이퍼파라미터 최적화 기법(Ray Tune)을 소개한다. | |
| May 13, 2026 | 확률론적 예측과 시계열 분류 | Statistics, Time-Series, Deep-Learning | 확률론적 시계열 예측(Probabilistic Forecasting)의 세 가지 유형 – 초과 확률(exceedance probability), 예측 구간(prediction interval), 예측 분포(predicted distribution)를 다루고, 시계열 분류(TSC) 문제를 CNN, ResNet, InceptionTime 등으로 해결하는 방법을 다룬다. | |
| May 13, 2026 | 시계열 이상 탐지 (Anomaly Detection) | Statistics, Time-Series, Deep-Learning | 시계열 이상 탐지(Time Series Anomaly Detection)의 두 가지 패러다임 – 예측 기반(prediction-based)과 재구성 기반(reconstruction-based)을 다룬다. ARIMA/NHITS 예측 구간, LSTM Autoencoder, PyOD, VAE, AnoGAN을 NYC 택시 데이터셋에 적용하여 이상 탐지 파이프라인을 구축한다. | |
| May 13, 2026 | 계층·그룹 시계열 예측 개관 (Hierarchical & Grouped Forecasting) | Statistics, Time-Series, Hierarchical-Forecasting | 계층적(hierarchical) 및 그룹(grouped) 시계열 예측의 전체 구조를 개관한다. Bottom-up, Top-down, MinT(Minimum Trace) 최적 조정까지 Hyndman FPP3 Ch.11의 핵심 개념을 요약한다. | |
| May 13, 2026 | 계층 구조와 단일 수준 접근법 (BU·TD·MO) | Statistics, Time-Series, Hierarchical-Forecasting | 계층 시계열(hierarchical)과 그룹 시계열(grouped)의 구조를 정의하고, 전통적 정합 예측 방법인 Bottom-Up, Top-Down(세 가지 비율), Middle-Out 접근법을 상세히 다룬다. 호주 관광 데이터를 사용한 R 구현 포함. | |
| May 13, 2026 | 예측 조정과 호주 관광 사례 (Forecast Reconciliation) | Statistics, Time-Series, Hierarchical-Forecasting | 예측 조정(forecast reconciliation)의 수학적 기반을 다룬다. 합산 행렬·매핑 행렬의 행렬 대수, MinT(Minimum Trace) 최적 해, W_h 추정의 네 가지 변형(OLS, WLS, MinT), 호주 관광 데이터 적용 사례를 포함한다. | |
| May 13, 2026 | 분포 예측 조정과 호주 교도소 사례 | Statistics, Time-Series, Hierarchical-Forecasting | 정합 예측의 확률 분포 확장을 다룬다. 정규 분포 가정 하의 해석적 조정, 부트스트랩 기반 조정, 호주 교도소 인구 데이터의 그룹 구조 적용과 CRPS 평가를 포함한다. | |
| May 13, 2026 | 고급 예측 방법 개관 (Advanced Forecasting Methods) | Statistics, Time-Series, Advanced-Forecasting | Hyndman FPP3 Ch.12의 고급 예측 방법을 개관한다. 복잡 계절성(다중 주기, 동적 조화 회귀), Prophet 모델, VAR, 신경망 자기회귀(NNAR), 부트스트랩·배깅 예측을 요약한다. | |
| May 13, 2026 | 복잡 계절성과 Prophet 모델 | Statistics, Time-Series, Advanced-Forecasting | 다중 계절 주기를 가진 시계열의 분석과 예측을 다룬다. STL 다중 분해, 동적 조화 회귀(DHR)의 Fourier 기반 계절 모델링, Prophet의 구조·장단점·전력 수요 적용 사례를 포함한다. | |
| May 13, 2026 | 부트스트랩·배깅 시계열 예측 | Statistics, Time-Series, Advanced-Forecasting | 시계열 부트스트랩과 배깅(bagging) 예측을 다룬다. STL 잔차의 블록 부트스트랩으로 유사 시계열을 생성하고, 각 시계열에 독립 모델을 적합하여 예측을 평균하는 앙상블 방법을 설명한다. | |
| May 13, 2026 | 시스템 식별 개관 | Statistics, Time-Series, System-Identification | 시스템 식별(System Identification)의 전체 개관을 다룬다. 동적 시스템의 정의, 모델의 종류, ARX 모델과 최소제곱법, 시스템 식별 절차의 반복 루프를 설명한다. | |
| May 13, 2026 | LTI 시스템 표현과 시뮬레이션·예측 | Statistics, Time-Series, System-Identification | 선형 시불변(LTI) 시스템의 수학적 표현을 다룬다. 임펄스 응답, 전달 함수, 주파수 함수, 스펙트럼의 정의와 관계를 설명하고, 시뮬레이션과 1-step-ahead 예측의 원리를 다룬다. | |
| May 13, 2026 | LTI 모델 구조와 비선형·시변 확장 | Statistics, Time-Series, System-Identification | 시스템 식별에서 사용하는 LTI 모델 구조를 다룬다. ARX, ARMAX, OE, BJ 모델의 구조와 예측기 형태를 비교하고, 상태공간 모델, 비선형·시변 모델로의 확장을 설명한다. | |
| May 13, 2026 | 비모수 주파수·시간 영역 방법과 모수 추정 | Statistics, Time-Series, System-Identification | 비모수 방법(상관 분석, ETFE, 스펙트럼 분석)과 모수 추정 방법(예측 오차법, 최소제곱법, 최대우도법)을 다룬다. 각 방법의 편향-분산 특성과 상호 관계를 설명한다. | |
| May 13, 2026 | 추정량의 수렴과 점근 분포 | Statistics, Time-Series, System-Identification | 예측 오차 추정량(PEM)의 수렴(일치성)과 점근 분포를 다룬다. Fisher 정보 행렬, Cramér-Rao 하한, 점근 공분산 행렬의 주파수 영역 표현을 설명하고 통계학과의 연결을 논의한다. | |
| May 13, 2026 | 시스템 1과 시스템 2: 두 사고 체계의 이해 | Strategy_Frameworks | Daniel Kahneman의 이중 처리 이론(Dual Process Theory)을 소개한다. 시스템 1(자동적·빠른·직관적)과 시스템 2(의식적·느린·분석적)의 핵심 특성, 상호작용 메커니즘, 그리고 전략적 의사결정에서의 함의를 체계적으로 분석한다. | |
| May 13, 2026 | 시스템 1과 시스템 2의 심층 역학: 충돌, 협력, 전략적 활용 | Strategy_Frameworks | 시스템 1과 시스템 2의 상호작용을 심층 분석한다. 주의력 경제학, 자아 고갈 모형, 인지 부하와 의사결정 품질의 관계를 수학적으로 모형화하고, 전략적 의사결정에서 두 시스템을 최적으로 활용하는 프레임워크를 Python으로 구현한다. | |
| May 13, 2026 | 소수의 법칙과 앵커링: 통계적 직관의 체계적 실패 | Strategy_Frameworks | ||
| May 13, 2026 | 소수의 법칙 심화: 조직 의사결정에서의 통계적 사고 | Strategy Frameworks, Cognitive Science, Decision Making | Kahneman의 소수의 법칙을 조직 의사결정에 적용한다. 표본 크기 무시(sample size neglect)가 전략적 판단을 어떻게 왜곡하는지 분석하고, 조직 수준의 통계적 사고 시스템을 구축하는 방법을 제시한다. | |
| May 13, 2026 | 앵커링 방어 시스템: 추정과 협상의 탈편향 전략 | Strategy Frameworks, Cognitive Science, Decision Making | Kahneman의 앵커링 효과(Anchoring Effect)를 체계적으로 방어하는 조직 시스템을 구축한다. 두 가지 앵커링 메커니즘(조정 불충분 + 프라이밍)의 차별적 방어법, 협상/추정/계획에서의 앵커 전략과 대응을 실전 도구로 제시한다. | |
| May 13, 2026 | 가용성 편향과 감정 휴리스틱: 기억의 편향이 위험 판단을 왜곡하는 방법 | Strategy Frameworks, Cognitive Science, Risk Assessment | Kahneman의 가용성 휴리스틱(Availability Heuristic)과 감정 휴리스틱(Affect Heuristic)을 통합적으로 분석한다. 빈도 판단이 ’검색 용이성’에 의해 왜곡되는 메커니즘, 감정이 위험-이익 평가를 단순화하는 방식, 가용성 폭포(Availability Cascade)의 사회적 증폭 효과를 분석한다. | |
| May 13, 2026 | 조직의 가용성 관리: 정보 환경 설계와 위험 판단 보정 | Strategy Frameworks, Cognitive Science, Risk Management | 가용성 편향이 조직 의사결정을 왜곡하는 구조적 메커니즘을 분석하고, 정보 환경 설계(Information Environment Design)를 통한 체계적 방어 시스템을 구축한다. 가용성 폭포(Availability Cascade)의 조직 내/외 방어, 위험 커뮤니케이션의 탈편향 전략을 제시한다. | |
| May 13, 2026 | 감정-이성 통합 위험 지능: 합리적 직관과 가용성 폭포 면역 시스템 | Strategy Frameworks, Cognitive Science, Risk Intelligence | Slovic의 감정 휴리스틱과 Damasio의 소마틱 마커 가설을 통합하여, 감정을 억제하는 것이 아닌 “정보로 활용하면서 왜곡을 방어하는” 통합 위험 지능 모델을 구축한다. 개인-팀-조직 수준의 감정-이성 통합 프로토콜과 가용성 폭포 면역 시스템을 제시한다. | |
| May 13, 2026 | 대표성 휴리스틱과 기저율 무시: Tom W 문제에서 Linda 문제까지 | Strategy Frameworks, Cognitive Science, Probability Judgment | Kahneman의 대표성 휴리스틱(Representativeness Heuristic)을 체계적으로 분석한다. Tom W 문제를 통한 기저율 무시, Linda 문제를 통한 결합 오류(Conjunction Fallacy), 그리고 “유사성 판단”이 “확률 판단”을 대체하는 메커니즘을 설명한다. | |
| May 13, 2026 | 기저율 전략: 조직의 베이즈적 의사결정 시스템 | Strategy Frameworks, Cognitive Science, Bayesian Thinking | 대표성 휴리스틱의 방어로서 기저율(Base Rate)을 조직 의사결정에 체계적으로 통합하는 방법을 제시한다. 베이즈 정리의 직관적 적용, 기저율을 인과적으로 프레이밍하여 무시를 방지하는 전략, 그리고 조직 수준의 ‘통계학자처럼 생각하기’ 문화 구축을 다룬다. | |
| May 13, 2026 | 대표성 편향의 조직적 방어: 스테레오타입 함정에서 구조화된 예측으로 | Strategy Frameworks, Cognitive Science, Organizational Decision Making | 대표성 휴리스틱이 채용, 투자, 전략 평가에서 만드는 조직적 함정을 분석하고, 구조화된 판단(Structured Judgment)을 통해 대표성의 이점은 활용하면서 기저율 무시와 결합 오류를 방어하는 시스템을 구축한다. | |
| May 13, 2026 | 인과와 통계, 평균으로의 회귀: 인과적 사고의 지배와 회귀 맹점 (Ch.16-17 Overview) | Strategy Frameworks, Cognitive Science, Statistical Reasoning | 인과적 기저율과 통계적 기저율의 심리적 차이, 택시 문제(Green-Blue Cab)의 두 버전 비교, 고정관념의 이중성(정확성 vs 윤리), 그리고 Galton이 발견한 평균으로의 회귀 — 인간 마음이 왜 ’원인 없는 패턴’을 이해하지 못하는지 분석한다. | |
| May 13, 2026 | 조직의 인과 편향 방어: 통계적 기저율을 인과적으로 만드는 전략 | Strategy Frameworks, Cognitive Science, Organizational Learning | 조직이 통계적 기저율을 무시하는 메커니즘을 분석하고, 통계를 ’인과적 이야기’로 변환하는 4가지 전략(인과적 프레이밍, 사례 결합, 시뮬레이션 경험, 피드백 루프)을 설계한다. Nisbett-Borgida 실험의 교훈을 조직 학습에 적용한다. | |
| May 13, 2026 | 회귀 효과 기반 예측 시스템: 조직의 평균 회귀 인식과 활용 | Strategy Frameworks, Cognitive Science, Performance Management | 평균으로의 회귀를 이해하고 활용하는 조직 시스템을 설계한다. 성과 관리의 회귀 함정 탈출, 채용/투자에서의 회귀 보정 예측, 그리고 “비판이 칭찬보다 효과적” 착각의 조직적 해독을 다룬다. | |
| May 13, 2026 | 직관적 예측의 교정: 비회귀적 직관에서 보정된 판단으로 (Ch.18 Overview) | Strategy Frameworks, Cognitive Science, Prediction | Kahneman의 직관적 예측 교정 4단계를 분석한다. Julie 문제를 통해 비회귀적 직관(intensity matching → substitution)의 메커니즘을 해부하고, 기저율 출발 → 직관적 예측 → 상관 추정 → 회귀 보정의 처방을 제시한다. | |
| May 13, 2026 | 조직의 예측 교정 시스템: Reference Class Forecasting과 구조화된 예측 | Strategy Frameworks, Cognitive Science, Organizational Forecasting | Kahneman의 예측 교정 4단계를 조직 수준으로 확장한다. Flyvbjerg의 Reference Class Forecasting, 구조화된 예측 프로세스(Structured Analytic Techniques), 그리고 조직의 예측 캘리브레이션 시스템을 설계하여 체계적 과대추정을 방어한다. | |
| May 13, 2026 | Part II 통합 방어 체계: 휴리스틱과 편향의 조직적 면역 시스템 | Strategy Frameworks, Cognitive Science, Decision Architecture | Kahneman Part II(Ch.10-18)의 핵심 편향들을 통합하여 조직의 면역 시스템을 설계한다. 소수의 법칙, 앵커링, 가용성, 대표성, 인과-회귀 맹점, 비회귀적 예측 — 이 6대 편향에 대한 통합 방어 아키텍처를 구축한다. | |
| May 13, 2026 | 주의력과 정신적 노력: 시스템 2의 자원 경제학 | Strategy_Frameworks | Kahneman의 동공 측정 연구(Pupillometry)를 통해 정신적 노력의 물리적 실체를 탐구한다. Add-1/Add-3 과제의 역 V자 반응, 인지 용량의 한계, 최소 노력의 법칙(Law of Least Effort), 그리고 과제 전환 비용(Task Switching Cost)이 전략적 의사결정에 미치는 영향을 분석한다. | |
| May 13, 2026 | 선택적 주의와 지각 맹시: 인지 자원의 전략적 배분 | Strategy_Frameworks | 주의력의 선택적 배분 메커니즘을 심층 분석한다. 비주의 맹시(Inattentional Blindness), 변화 맹시(Change Blindness), 흐름 상태(Flow)의 인지적 메커니즘을 해부하고, 조직 수준에서 주의력 자원을 최적 배분하는 전략적 프레임워크를 구현한다. | |
| May 13, 2026 | 게으른 통제자: 시스템 2의 선택적 개입과 자아 고갈 | Strategy_Frameworks | 시스템 2가 왜 기본적으로 ’게으른지’를 인지과학적으로 분석한다. Baumeister의 자아 고갈(Ego Depletion) 실험, 인지 부하와 자기 통제의 상충 관계, Csikszentmihalyi의 흐름 상태에서의 노력 분리를 탐구하고, 전략가가 시스템 2의 게으름을 극복하는 구조적 방법을 제시한다. | |
| May 13, 2026 | 전략적 자기 규율: 게으른 시스템 2를 위한 의사결정 아키텍처 | Strategy_Frameworks | 게으른 시스템 2를 극복하는 세 가지 접근법을 심층 분석한다. Thaler의 넛지 아키텍처, Odysseus 전략(사전 약속), 그리고 Kahneman의 의사결정 위생(Decision Hygiene) 프레임워크를 통합하여, 인지 자원 제약 하에서 최적 의사결정을 구조적으로 보장하는 시스템을 Python으로 구현한다. | |
| May 13, 2026 | 연합 기계: 시스템 1의 자동적 연상 네트워크 | Strategy_Frameworks | ||
| May 13, 2026 | 프라이밍의 전략적 활용: 조직 환경 설계와 방어 시스템 | Strategy_Frameworks | ||
| May 13, 2026 | 인지적 용이성: 유창성이 판단을 지배하는 메커니즘 | Strategy_Frameworks | ||
| May 13, 2026 | 설득과 방어의 이중 전략: 인지 용이성의 실전 활용 | Strategy_Frameworks | ||
| May 13, 2026 | 규범, 놀라움, 원인: 시스템 1의 세계 모델과 인과 추론 | Strategy_Frameworks | ||
| May 13, 2026 | 내러티브 오류 방어: 시스템 사고와 인과 복잡성 관리 | Strategy_Frameworks | ||
| May 13, 2026 | 결론 도약 기계: WYSIATI와 직관적 확신의 메커니즘 | Strategy_Frameworks | ||
| May 13, 2026 | 프레이밍과 앵커링: WYSIATI가 만드는 판단의 왜곡 | Strategy_Frameworks | ||
| May 13, 2026 | 조직적 WYSIATI 방어 시스템: 집단 지성으로 결론 도약 차단 | Strategy_Frameworks | ||
| May 13, 2026 | 판단은 어떻게 일어나는가: 기본 평가, 강도 매칭, 멘탈 샷건 | Strategy_Frameworks | ||
| May 13, 2026 | 판단 설계 공학: 기본 평가를 활용한 전략적 커뮤니케이션 | Strategy_Frameworks | ||
| May 13, 2026 | 더 쉬운 질문에 답하기: 질문 치환과 휴리스틱의 본질 | Strategy_Frameworks | ||
| May 13, 2026 | 전략적 질문 치환 공격과 방어: 설득과 의사결정의 이중 설계 | Strategy_Frameworks | ||
| May 13, 2026 | Part I 종합: 인지 시스템 통합 방어 아키텍처 | Strategy_Frameworks | ||
| May 13, 2026 | 이해의 착각과 사후 판단 편향: 과거는 예측 가능했다는 환상 | Strategy Frameworks, Cognitive Science, Overconfidence | Kahneman Part III의 시작점인 Ch.19-20을 개관한다. 사후 판단 편향(hindsight bias)이 어떻게 우리에게 ’세상은 예측 가능하다’는 위험한 환상을 심는지, 그리고 타당성의 착각이 어떻게 전문가들을 과신하게 만드는지 분석한다. Google 성공 서사, Built to Last의 함정, 이스라엘 군대 장교 선발 실험, 주식 거래의 기술 착각까지. | |
| May 13, 2026 | 조직의 사후 판단 방어: 서사 오류에서 프로세스 평가로 | Strategy Frameworks, Cognitive Science, Overconfidence | 사후 판단 편향과 이해의 착각이 조직에서 어떻게 작동하는지 심층 분석한다. CEO 후광 효과, 성공 서사의 함정, 결과 편향적 인사 평가의 문제를 진단하고, 의사결정 저널, Pre-mortem, 프로세스 감사 등 구조적 방어 체계를 설계한다. | |
| May 13, 2026 | 타당성 착각의 조직적 방어: 전문가 과신에서 구조화된 판단으로 | Strategy Frameworks, Cognitive Science, Overconfidence | 타당성의 착각과 기술의 착각이 조직에서 어떻게 전문가 의존, 비구조화 면접, 능동적 투자 등의 형태로 나타나는지 분석한다. Kahneman의 군대 경험, Odean의 개인 투자자 연구, Malkiel의 무작위 보행 이론을 조직 맥락에 적용하여 예측 타당성 점검 프레임워크를 설계한다. | |
| May 13, 2026 | 직관 대 공식, 전문가 직관의 조건: Meehl의 교훈과 Klein-Kahneman 합의 | Strategy Frameworks, Cognitive Science, Overconfidence | Ch.21의 핵심 — 왜 단순 공식이 전문가 판단을 이기는가(Meehl의 200개 연구). Ch.22의 핵심 — 언제 전문가 직관을 믿을 수 있는가(Klein-Kahneman 합의). Apgar 점수, 보르도 와인 공식, 동일 가중치의 놀라운 위력, 그리고 직관이 타당한 2가지 조건: 규칙성 + 충분한 연습. | |
| May 13, 2026 | 조직의 공식 기반 판단 시스템: Meehl에서 AI까지 | Strategy Frameworks, Cognitive Science, Overconfidence | Meehl의 원칙을 현대 조직에 적용한다. 구조화 면접 설계, 동일 가중치 스코어카드, 예측 시장, AI 보조 판단 등 실전 도구를 설계하고, 알고리즘 혐오를 극복하는 조직 변화 관리 전략을 제시한다. | |
| May 13, 2026 | 전문가 직관의 경계 지도: Klein-Kahneman 합의의 조직적 실천 | Strategy Frameworks | Klein-Kahneman 합의(2009)의 2조건 — 규칙적 환경과 장기 학습 기회 — 을 조직 실무에 적용하는 체계적 프레임워크를 설계한다. 영역별 직관 타당도 매핑, Recognition-Primed Decision(RPD) 모델의 조직적 활용, Wicked Environment 식별, 하이브리드 의사결정 설계를 다룬다. | |
| May 13, 2026 | 외부 관점과 자본주의의 엔진: 계획 오류에서 참조 집단 예측까지 | Strategy Frameworks | Kahneman의 교육과정 프로젝트 일화를 통해 Inside View와 Outside View의 극적 대비를 보여주고, Flyvbjerg의 Reference Class Forecasting, 계획 오류(Planning Fallacy), 낙관 편향의 경제적 기능과 위험, 그리고 Klein의 Premortem 기법을 통합적으로 다룬다. | |
| May 13, 2026 | Reference Class Forecasting 실무 가이드: 조직의 계획 오류 방어 시스템 | Strategy Frameworks | Bent Flyvbjerg의 Reference Class Forecasting을 조직에 도입하는 실무 가이드. 참조 집단 데이터베이스 구축, 기준선 예측 생성, 사례별 조정 프로토콜, 예측 추적 시스템 설계, 산업별 적용 사례를 다룬다. | |
| May 13, 2026 | Premortem과 낙관 편향 방어: 조직의 전략적 비관주의 설계 | Strategy Frameworks | Gary Klein의 Premortem 기법을 조직에 체계적으로 도입하는 실전 가이드. 집단사고(Groupthink) 극복, Competition Neglect 방어, 과신 CEO 견제, Stretch Goal과 현실적 예측의 분리, 비관주의의 전략적 활용을 다룬다. | |
| May 13, 2026 | 자본주의의 엔진: 낙관 편향, 기업가 정신, 과신의 경제학 | Strategy Frameworks | 낙관 편향이 개인의 축복이자 경제의 엔진이면서 동시에 체계적 위험인 메커니즘을 분석한다. 기업가의 환상(81% 자기 성공 확신), 과신 CEO의 가치 파괴, Competition Neglect, CFO 과신 연구, 그리고 Premortem을 통한 조직적 교정을 통합한다. | |
| May 13, 2026 | 조직의 낙관 편향 방어 시스템: 과신 CEO에서 합리적 위험 감수까지 | Strategy Frameworks | 조직에서 낙관 편향이 증폭되는 구조적 메커니즘을 분석하고, 과신 CEO 견제 시스템, 인센티브 재설계, 의사결정 게이트, 예측 캘리브레이션 문화 구축을 위한 실무 프레임워크를 설계한다. | |
| May 13, 2026 | 전략적 낙관주의: 동기 부여와 현실적 계획의 이중 트랙 운영 | Strategy Frameworks | 낙관 편향의 긍정적 기능을 보존하면서 그 위험을 통제하는 ‘이중 트랙’ 시스템을 설계한다. Seligman의 회복탄력성, Amazon의 One-way/Two-way Door, 실패 예산, 혁신 포트폴리오, 그리고 Part III 전체(과신)의 통합 방어 아키텍처를 완성한다. | |
| May 13, 2026 | Bernoulli의 오류와 전망 이론: 선택의 심리학 (Ch.25-26 Overview) | Strategy Frameworks | Kahneman이 Part IV에서 제시하는 핵심 전환: ’예측의 오류’에서 ’선택의 오류’로. Bernoulli의 기대효용이론이 놓친 참조점 의존성과 손실 회피를 파헤치고, 전망 이론(Prospect Theory)의 세 가지 인지적 특성을 소개한다. | |
| May 13, 2026 | 전망 이론의 전략적 활용: 프레이밍, 협상, 가격 심리학 | Strategy Frameworks | 전망 이론의 세 가지 인지 특성(참조점, 민감도 체감, 손실 회피)을 전략 도구로 변환한다. 가격 전략, 협상 설계, 변화 관리, 인센티브 구조에서의 실무 적용법과 윤리적 경계선을 탐구한다. | |
| May 13, 2026 | 조직의 손실 회피 관리: 혁신 장벽에서 전략적 위험 감수까지 | Strategy Frameworks | 손실 회피가 조직 수준에서 어떻게 혁신을 방해하고 현상 유지를 강화하는지 분석한다. Samuelson의 도박 문제, Broad Framing, Risk Policy, 그리고 조직적 손실 회피 극복 시스템을 설계한다. | |
| May 13, 2026 | 소유 효과와 부정성 우위: 갖고 있는 것을 과대평가하는 이유 (Ch.27-28 Overview) | Strategy Frameworks | 소유한 것의 가치를 과대평가하는 ’소유 효과’와 부정적 사건이 긍정적 사건보다 더 강력하게 작용하는 ’부정성 우위’를 분석한다. 손실 회피가 일상적 거래, 조직 행동, 목표 설정에서 어떻게 발현되는지 탐구한다. | |
| May 13, 2026 | 소유 효과의 조직적 관리: 변화 저항 극복과 고객 Lock-in 설계 | Strategy Frameworks | 소유 효과를 조직 내부에서는 극복 대상으로, 외부(고객)에서는 활용 도구로 전환한다. IKEA 효과, 전환 비용 설계, 소유감 마케팅, 그리고 M&A에서의 소유 효과 극복 전략을 체계적으로 구축한다. | |
| May 13, 2026 | 부정성 우위의 전략적 활용: 위기 관리, 서비스 설계, 조직 문화 | Strategy Frameworks | “나쁜 것이 좋은 것보다 강하다”는 원리를 조직 전략으로 전환한다. 고객 서비스에서의 5:1 법칙, 위기 커뮤니케이션의 부정성 관리, 피드백 시스템 설계, 그리고 조직 문화에서 부정성 우위를 역이용하는 구조적 접근을 제시한다. | |
| May 13, 2026 | 4중 패턴과 희귀 사건의 과대평가: 의사결정 가중치의 비대칭 (Ch.29-30 Overview) | Strategy Frameworks | Kahneman의 4중 패턴(Fourfold Pattern)은 전망 이론의 핵심 성취이다. 확률의 고저와 이득/손실의 조합이 만드는 4가지 행동 패턴을 분석하고, 의사결정 가중치가 실제 확률과 어떻게 괴리되는지 탐구한다. | |
| May 13, 2026 | 4중 패턴의 비즈니스 전략: 가격, 협상, 제품 설계에의 적용 | Strategy Frameworks | 4중 패턴을 비즈니스의 핵심 영역 — 가격 전략, 협상, 제품 설계, 마케팅 —에 구체적으로 적용한다. 가능성 효과와 확실성 효과를 의도적으로 설계하여 고객 행동을 예측하고 가치를 극대화하는 프레임워크를 제시한다. | |
| May 13, 2026 | 조직 위험 관리와 희귀 사건 대비: 4중 패턴의 제도적 교정 | Strategy Frameworks | 4중 패턴이 만드는 조직적 위험 판단 오류를 분석하고, 이를 교정하기 위한 제도적 장치를 설계한다. 희귀 사건의 과대/과소평가, 위험 포트폴리오 설계, 그리고 Taleb의 Black Swan과 Kahneman의 통합적 위험 관리 프레임워크를 제시한다. | |
| May 13, 2026 | 위험 정책과 넓은 프레임: 좁은 의사결정의 함정 (Ch.31-32 Overview) | Strategy Frameworks | 개별 의사결정을 독립적으로 처리하는 ’좁은 프레임’이 어떻게 비합리적 결과를 만드는지 분석한다. Samuelson의 역설, 위험 정책(Risk Policy), 넓은 프레임의 논리를 탐구하고, 조직이 일관된 의사결정을 위해 필요한 구조를 제시한다. | |
| May 13, 2026 | 넓은 프레임의 실무 적용: 투자, 인사, 전략적 의사결정 설계 | Strategy Frameworks | 좁은 프레임이 만드는 비합리적 결정을 조직의 핵심 영역 — 투자, 인사, 전략 —에서 구체적으로 분석하고, 넓은 프레임을 제도적으로 구현하는 방법을 제시한다. 심리적 회계의 함정과 이를 역이용하는 전략을 포함한다. | |
| May 13, 2026 | 점수 매기기와 후회의 심리학: 결과 평가 편향과 처분 효과 | Strategy Frameworks | 인간은 이익과 손실의 ‘계좌’를 닫는 방식에서 체계적 편향을 보인다. 이익 실현은 서두르고 손실 확정은 미루는 ’처분 효과’, 후회 회피의 역할, 그리고 이를 교정하는 조직적/개인적 전략을 제시한다. | |
| May 13, 2026 | 선호의 역전과 프레이밍 효과: 동일한 현실, 다른 결정 | Strategy Frameworks | 단일 평가와 결합 평가에서 선호가 역전되는 메커니즘을 분석하고, 프레이밍이 의사결정의 실체를 어떻게 재구성하는지 전략적으로 검토한다. | |
| May 13, 2026 | 조직 프레이밍 설계: 전략적 의사결정 아키텍처의 실무 | Strategy Frameworks | 프레이밍 효과를 조직 의사결정에 체계적으로 적용하는 방법론을 구축한다. 제품 설계, 가격 전략, 내부 커뮤니케이션, 변화 관리에서의 프레이밍 실무를 다룬다. | |
| May 13, 2026 | 넛지와 선택 아키텍처: 기본값이 만드는 세상 | Strategy Frameworks | 넛지(Nudge)와 선택 아키텍처의 이론적 기반을 프레이밍 효과에서 도출하고, 공공 정책, 조직 설계, 제품 UX에서의 체계적 적용 방법론을 구축한다. | |
| May 13, 2026 | 두 자아: 경험하는 자아와 기억하는 자아의 분리 | Strategy Frameworks | 경험 자아(experiencing self)와 기억 자아(remembering self)의 근본적 분리를 분석하고, 피크-엔드 법칙과 지속 무시가 의사결정에 미치는 영향을 전략적으로 검토한다. | |
| May 13, 2026 | 피크-엔드 법칙의 조직 적용: 서비스, 직원, 고객 경험 설계 | Strategy Frameworks | 피크-엔드 법칙과 지속 무시를 서비스 설계, 직원 경험, 고객 여정에 체계적으로 적용하는 프레임워크를 구축한다. | |
| May 13, 2026 | 이야기로서의 삶: 서사적 자아와 의사결정의 왜곡 | Strategy Frameworks | 기억하는 자아가 삶을 ’이야기’로 구성하는 방식을 분석하고, 지속 무시와 서사적 프레이밍이 커리어, 관계, 전략적 의사결정에 미치는 영향을 다룬다. | |
| May 13, 2026 | 망각 휴가 사고실험: 경험 vs 기억의 경제학 | Strategy Frameworks | Kahneman의 ‘망각 휴가’ 사고실험을 출발점으로, 경험 경제와 기억 경제의 분리, 그리고 두 자아를 모두 만족시키는 통합 설계 철학을 구축한다. | |
| May 13, 2026 | 경험적 행복과 초점 착각: 웰빙의 두 측정 | Strategy Frameworks | Kahneman이 제시하는 경험적 행복(Experienced Well-Being)의 측정 방법과 초점 착각(Focusing Illusion)의 메커니즘을 종합한다. DRM, U-Index, 소득 포화점, 그리고 “삶에 대한 생각”의 왜곡 구조를 분석한다. | |
| May 13, 2026 | U-Index 조직 실무: DRM 기반 직원 경험 설계 | Strategy Frameworks | Kahneman의 U-Index와 DRM을 조직 진단 도구로 전환한다. 부서별/활동별 ’고통 시간’을 정량화하고, 체계적 개선 전략을 수립한다. | |
| May 13, 2026 | 초점 착각의 전략 적용: 마케팅, 제품, 정책 설계 | Strategy Frameworks | “삶에서 어떤 것도 당신이 그것을 생각할 때만큼 중요하지 않다.” Kahneman의 초점 착각(Focusing Illusion)을 마케팅 전략, 제품 포지셔닝, 공공 정책 설계에 체계적으로 적용하는 프레임워크를 구축한다. | |
| May 13, 2026 | 통합적 행복 설계: 경험 자아와 기억 자아의 균형 | Strategy Frameworks | Kahneman이 도달한 결론 — 경험적 행복과 삶의 평가 모두를 포괄하는 ’하이브리드 웰빙 개념’을 개인, 조직, 사회 수준에서 설계 가능한 아키텍처로 구축한다. | |
| May 13, 2026 | 전략은 선택이다: 5단계 전략 선택 캐스케이드 | Strategy Frameworks | A.G. Lafley와 Roger Martin이 제시하는 전략의 정의: 전략은 5가지 핵심 질문에 대한 통합적 선택의 캐스케이드이다. P&G Olay 사례로 전략 선택의 계층적 구조와 상호 강화 메커니즘을 분석한다. | |
| May 13, 2026 | Olay 사례 심화: 매스티지 전략의 캐스케이드 해부 | Strategy Frameworks | P&G Olay Total Effects의 성공을 5단계 선택 캐스케이드로 완전 분해한다. 매스티지 전략의 구조, 의사결정 과정, 그리고 다른 산업으로의 전이를 분석한다. | |
| May 13, 2026 | Shorten Your Odds: 전략의 확률을 높이는 7단계 역설계 | Strategy_Frameworks, Playing to Win, Strategy Cascade, Decision Making | 전략은 완벽한 답을 보장하지 않는다. 그러나 올바른 질문을 던지고 체계적으로 조건을 검증하면 성공 확률을 극적으로 높일 수 있다. 7단계 역설계 프로세스, 6가지 전략 함정, 6가지 승리 신호를 통합하여 전략의 불확실성을 관리하는 방법을 다룬다. | |
| May 12, 2026 | 자기 자신을 측정하는 시스템 | Machine Learning, Engineering, Data Science | 결정 시스템이 스스로를 개선하지 못하는 구조적 원인을 분석하고, Precision-Recall 프레임워크로 측정 설계, 피드백 루프 패턴(Open vs Closed Loop), 관찰가능성 3요소(로깅·메트릭·트레이싱), 스키마 계약의 보편 설계 원칙 4개를 다룬다. | |
| May 12, 2026 | 확률 과정 학습 로드맵 | Stochastic_Process | 확률 과정(Stochastic Process)이 왜 현대 통계학·금융공학·머신러닝의 공통 언어인지를 밝히고, Durrett(2016)과 Pavliotis(2014) 두 교재를 축으로 이산 마르코프 체인 → 포아송·갱신 과정 → 연속 시간 마르코프 체인 → 마팅게일 → 확산·SDE → Fokker-Planck의 학습 경로를 제시한다. | |
| May 12, 2026 | 마르코프 체인 — 상태 분류와 특수 예제 | Stochastic_Process | 이중 확률 행렬과 균등 정상 분포, 상세 균형 조건과 가역성, 출생-사멸 체인의 정상 분포 재귀 공식, 그래프 위의 랜덤 워크, Metropolis-Hastings 알고리즘의 원리를 다룬다. Durrett(2016, Ch.1 SS1.6-1.7)을 기반으로 Ehrenfest 체인, 모노폴리 게임, 이징 모형, 기사의 랜덤 워크 등 풍부한 예제로 마르코프 체인 이론의 적용 범위를 보여준다. | |
| May 12, 2026 | 마르코프 체인 — 정의와 다단계 전이 확률 | Stochastic_Process | 마르코프 성질의 엄밀한 정의와 전이 행렬의 구성을 밝히고, Chapman-Kolmogorov 방정식으로 다단계 전이 확률이 행렬 거듭제곱임을 증명한다. 강마르코프 성질, 상태 분류(재귀/과도), 비환원성과 비주기성의 정의를 다루며, 정상 분포의 존재·유일성 정리를 전이 행렬의 고유값 구조로 연결한다. Durrett(2016, Ch.1 SS1.1-1.5)을 기반으로 사회 이동, 재고 관리, 수리 체인 등 구체적 예제를 통해 이론을 예시한다. | |
| May 12, 2026 | 마르코프 체인 — 탈출 분포와 탈출 시간 | Stochastic_Process | 마르코프 체인이 특정 영역에서 빠져나갈 확률(탈출 분포)과 그 기대 시간(탈출 시간)을 계산하는 체계적 방법을 다룬다. 일단계 분석(first-step analysis)으로 연립방정식을 세우고, (I-r)^{-1} 행렬로 기대 방문 횟수와 기대 탈출 시간을 한 번에 구하는 기법을 정립한다. 도박꾼 파산, 테니스 경기, Wright-Fisher 모형, 동전 패턴 대기 시간 등 Durrett(2016, Ch.1 SS1.8-1.9)의 예제를 상세히 다룬다. | |
| May 12, 2026 | 마르코프 체인 — 무한 상태 공간 | Stochastic_Process | 유한 상태 공간에서 성립하던 정상 분포의 존재와 수렴 정리가 무한 상태 공간에서 어떻게 달라지는지를 다룬다. 양재귀와 영재귀의 구분, 반사 랜덤 워크의 삼분법, 분기 과정의 소멸 확률과 생성함수 기법, M/G/1 큐잉 시스템의 안정성 조건을 Durrett(2016, Ch.1 SS1.10)을 기반으로 상세히 다룬다. | |
| May 12, 2026 | 마르코프 체인 개관 | Stochastic_Process | 마르코프 체인(Markov Chain)이 왜 확률 과정의 가장 기본적이고 강력한 도구인지를 밝히고, 마르코프 성질의 정의, 전이 행렬의 구성, 정상 분포의 존재 조건, 수렴 정리의 직관을 다룬다. 도박꾼의 파산, 날씨 모형, 분기 과정 등 Durrett(2016, Ch.1)의 핵심 예제를 소개하며, PageRank, HMM, MCMC 등 현대적 응용과의 연결을 제시한다. | |
| May 12, 2026 | 지수 분포 심화와 복합 포아송 과정 | Stochastic_Process | 복합 포아송 과정 S(t) = Y_1 + … + Y_{N(t)}의 정의와 성질을 다룬다. 확률적 합의 기대값·분산 공식(Wald’s identity), 보험 청구 모형, 네트워크 트래픽 모형, 그리고 M/G/∞ 대기행렬의 정상 분포를 도출한다. Durrett(2016, Ch.2 §2.3)를 기반으로 직관적 설명과 Python 시뮬레이션을 포함한다. | |
| May 12, 2026 | 포아송 과정 개관 | Stochastic_Process | 포아송 과정의 두 가지 동치 정의 — 지수 분포 도착 간격과 독립 증분 — 를 소개한다. 지수 분포의 무기억 성질, 지수 경주, 감마 분포와의 관계, 포아송 분포의 이항 근사, 그리고 포아송 과정의 독립 증분과 정상 증분 성질을 다룬다. Durrett(2016, Ch.2 SS2.1-2.2)을 기반으로 고객 도착, 콜센터 모형, 방사성 붕괴 등 실세계 응용과 함께 Python 시뮬레이션으로 이론을 검증한다. | |
| May 12, 2026 | 포아송 과정의 변환 | Stochastic_Process | 포아송 과정의 세 가지 핵심 변환 — thinning(솎아내기), superposition(합성), conditioning(조건부 분포)을 다룬다. Thinning 정리에 의해 포아송 과정의 독립 분해가 성립하고, 합성에 의해 독립 포아송 과정의 합이 다시 포아송이 된다. 조건부 분포에서 도착 시각이 균등 분포의 순서 통계량이 되는 놀라운 성질을 증명한다. 포아송 경주, 비균질 thinning, 그리고 다양한 응용을 Python으로 검증한다. Durrett(2016, Ch.2 §2.4)를 기반으로 한다. | |
| May 12, 2026 | 연령과 잔여 수명 | Stochastic_Process | 갱신 과정에서 연령 A(t)와 잔여 수명 Z(t)의 극한 분포를 도출한다. 검사 역설(inspection paradox)을 직관적으로 설명하고, 이것이 실세계에서 왜 “무작위로 선택한 항목이 평균보다 크게 느껴지는가”를 설명함을 보인다. 이산 경우의 마르코프 체인 해석, 연속 경우의 갱신 보상 유도, 그리고 지수·균등·감마 분포 예제를 포함한다. Durrett(2016, Ch.3 §3.3)을 기반으로 한다. | |
| May 12, 2026 | 대기행렬 이론과 갱신 응용 | Stochastic_Process | 갱신 이론의 대기행렬 응용을 다룬다. GI/G/1 큐의 안정성 조건 λ < μ를 증명하고, Little의 공식 L = λW의 비용 방정식 유도를 상세히 설명한다. M/G/1 큐에서 PASTA 성질과 Pollaczek-Khintchine 공식 W_Q = λE[s²]/(2(1-ρ))를 도출하며, 서비스 시간의 분산이 대기 시간에 미치는 영향을 분석한다. Durrett(2016, Ch.3 §3.2)를 기반으로 한다. | |
| May 12, 2026 | 갱신 과정 개관 | Stochastic_Process | 갱신 과정의 정의와 핵심 정리를 다룬다. 일반적인 도착 간격 분포를 허용하는 갱신 과정에서 대수의 법칙 N(t)/t → 1/μ을 증명하고, 갱신 보상 정리를 통해 장기 평균 보상률 Er/Et을 도출한다. 교대 갱신 과정, 포아송 관리인 문제, 차량 교체 정책 등의 응용을 다루며, 마르코프 체인과의 연결을 해석한다. Durrett(2016, Ch.3 §3.1)을 기반으로 한다. | |
| May 12, 2026 | 연속시간 마르코프 체인 개관 | Stochastic_Process | 이산시간 마르코프 체인(DTMC)을 연속시간으로 확장한 연속시간 마르코프 체인(CTMC)의 핵심 개념을 소개한다. 지수 체류 시간, 전이율 행렬 Q, 점프율, 내장 점프 체인, 형식적 구성법, 균일화(uniformization), 그리고 CTMC가 적합한 실세계 응용을 다룬다. Durrett(2016, Ch.4 overview + §4.1)을 기반으로 한다. | |
| May 12, 2026 | CTMC 정의와 전이 확률 | Stochastic_Process | CTMC의 전이 확률을 전이율 행렬 Q로부터 계산하는 방법을 다룬다. Chapman-Kolmogorov 방정식에서 콜모고로프 전진/후진 방정식을 유도하고, 행렬 지수 \(e^{Qt}\) 로 해를 표현한다. 포아송 과정, 2-상태 체인, 율 과정의 전이 확률을 닫힌 형태로 풀고 검증한다. Durrett(2016, §4.1-4.2)을 기반으로 한다. | |
| May 12, 2026 | CTMC 극한 행동과 탈출 분포 | Stochastic_Process | 연속시간 마르코프 체인의 극한 행동과 탈출 분포를 다룬다. 정상 분포 조건 πQ = 0, 상세 균형 조건, 출생-사망 체인의 정상 분포 공식, 탈출 분포와 적중 시간의 Q-행렬 기반 계산법을 제시한다. L.A. 날씨 체인, Duke 농구, 이발소, 기계 수리 등 풍부한 예제를 포함한다. Durrett(2016, §4.3-4.4)을 기반으로 한다. | |
| May 12, 2026 | 대기행렬과 네트워크 | Stochastic_Process | 마르코프 대기행렬의 핵심 모형 M/M/1, M/M/s, M/M/1/N을 체계적으로 분석하고, Burke 정리(출력이 포아송)와 Jackson 네트워크의 곱형 정상 분포를 다룬다. 대기 시간, 대기열 길이, Little의 공식 응용, 다중 서버 안정 조건을 포함한다. Durrett(2016, §4.5-4.6)을 기반으로 한다. | |
| May 12, 2026 | 마팅게일 수렴과 응용 | Stochastic_Process | 비음수 수퍼마팅게일의 거의 확실한 수렴(Theorem 5.17), 극대 부등식, Polya’s urn의 균등 분포 극한, 분기 과정에서의 마팅게일 응용, 그리고 소멸 확률의 마팅게일 재유도를 다룬다. Durrett(2016, Ch.5 §5.5)을 기반으로 한다. | |
| May 12, 2026 | 도박 전략과 정지 시각 정리 | Stochastic_Process | 마팅게일을 이용한 도박 전략 분석, 정지 시각의 정의, 정지된 마팅게일의 수퍼마팅게일 성질, Wald 항등식, 도박사의 파산 확률 재유도, 그리고 보험 파산 확률의 Cramér 추정을 다룬다. Durrett(2016, Ch.5 §5.3-5.4)을 기반으로 한다. | |
| May 12, 2026 | 마팅게일 개관 | Stochastic_Process | 마팅게일의 정의, 조건부 기댓값의 핵심 성질, 그리고 랜덤 워크, 도박사의 파산, 지수 마팅게일, 곱 마팅게일 등 기본 예제를 다룬다. 마팅게일-서브마팅게일-수퍼마팅게일의 관계와 Jensen 부등식을 포함한다. Durrett(2016, Ch.5 §5.1-5.2)을 기반으로 한다. | |
| May 12, 2026 | 수리금융 개관 | Stochastic_Process | 금융 파생상품의 무차익 가격 결정 원리, 마팅게일 측도와 1차 기본 정리, 그리고 이항 모형(binomial model)의 기초를 다룬다. 옵션 가격이 왜 확률에 의존하지 않는지, 헤지(hedging)란 무엇인지를 직관적으로 설명한다. Durrett(2016, Ch.6 §6.1-6.2)을 기반으로 한다. | |
| May 12, 2026 | 확산 과정과 Kolmogorov 방정식 | Stochastic_Process | 확산 과정(diffusion process)이 왜 마르코프 과정의 핵심 특수 사례인지 밝히고, 후진 Kolmogorov 방정식(backward Kolmogorov equation)과 전진 Kolmogorov 방정식(Fokker-Planck equation) 두 PDE를 생성자 이론에서 엄밀하게 유도하며, 다차원 확산으로의 확장과 Python 시뮬레이션을 통해 이론-실무를 연결한다. Pavliotis(2014, Ch.2 §2.5)를 기반으로 한다. | |
| May 12, 2026 | SDE 예시와 Lamperti/Girsanov 변환 | Stochastic_Process | 주요 SDE 예시(브라운 운동, OU 과정, 기하 브라운 운동, CIR 모형)의 해를 구체적으로 분석하고, Lamperti 변환으로 승법적 잡음을 덧셈 잡음으로 변환하는 방법을 다룬다. Girsanov 정리로 드리프트를 확률 측도 변환으로 제거하는 원리를 설명하며, 최대 가능도 추정과의 연결을 소개한다. Pavliotis(2014, Ch.3 §3.5–3.6)를 기반으로 한다. | |
| May 12, 2026 | SDE 도입과 Itô/Stratonovich 적분 | Stochastic_Process | 확률 적분을 왜 새로 정의해야 하는지 밝히고, Itô 적분과 Stratonovich 적분을 Riemann 합의 평가점 선택으로 통일 프레임워크에서 정의한다. Itô 등거리 공식, 마팅게일 성질, Itô-Stratonovich 변환 공식을 유도하고, 두 해석의 물리적·수학적 장단점을 비교한다. Pavliotis(2014, Ch.3 §3.2)를 기반으로 한다. | |
| May 12, 2026 | 선형 확률미분방정식 | Stochastic_Process | 다차원 선형 SDE dX = -AX dt + σ dW 의 해를 행렬 지수 함수로 명시하고, 자기 상관 행렬과 분산 진화 방정식(Lyapunov 방정식)을 유도한다. 정상 가우시안 분포와 Fokker-Planck 방정식의 가우시안 전이 밀도 해를 구한다. Pavliotis(2014, Ch.3 §3.7)를 기반으로 한다. | |
| May 12, 2026 | 확률미분방정식 개관 | Stochastic_Process | 확률미분방정식(SDE)이 왜 확산 과정 이론의 경로 수준 표현인지 밝히고, 백색잡음의 형식적 정의, 적분 방정식으로의 재해석, 가법/승법 잡음의 차이, Itô·Stratonovich 해석의 필요성, 첫 탈출 시간 등 Ch.3 전체의 핵심 아이디어를 직관과 수식을 함께 제시하며 개관한다. Pavliotis(2014, Ch.3 §3.1 개관)를 기반으로 한다. | |
| May 12, 2026 | SDE 해의 존재와 Itô 공식 | Stochastic_Process | SDE 강해(strong solution)의 정의와 존재·유일성 정리를 Lipschitz·선형 성장 조건으로 엄밀하게 제시하고, Itô 공식을 유도하여 확률 연쇄 법칙이 어떻게 수정되는지 밝힌다. Feynman-Kac 공식으로 SDE와 PDE의 쌍방향 연결을 보이고, Fokker-Planck 방정식을 Itô 공식의 귀결로 재도출한다. Pavliotis(2014, Ch.3 §3.3–3.4)를 기반으로 한다. | |
| May 12, 2026 | 1차원 확산과 OU 과정/Hermite 다항식 | Stochastic_Process | 1차원 확산 과정의 정류 분포를 상세 균형 조건으로 유도하고, 생성자의 스펙트럼 분해를 통해 전이 밀도를 고유함수 전개로 표현한다. OU 과정에서 Hermite 다항식이 고유함수로 나타남을 보이고, 생성·소멸 연산자와 Poincaré 부등식을 통해 스펙트럼 갭과 지수 수렴을 확립한다. Pavliotis(2014, Ch.4 §4.3–4.4)를 기반으로 한다. | |
| May 12, 2026 | 기본 성질과 확산 과정 예시 | Stochastic_Process | 브라운 운동(흡수·반사 경계 조건), Ornstein-Uhlenbeck 과정, 기하 브라운 운동의 Fokker-Planck 방정식을 해석적으로 풀고, 모멘트 방정식을 도출한다. Fourier 급수와 전이 밀도의 가우시안 구조를 활용하며, 정상 분포로의 수렴을 분석한다. Pavliotis(2014, Ch.4 §4.2)를 기반으로 한다. | |
| May 12, 2026 | 고유함수 전개와 MCMC | Stochastic_Process | 가역 확산의 생성자 고유함수 전개를 통해 전이 확률 밀도를 스펙트럼 급수로 표현하고, 자기 상관 함수와 스펙트럼 밀도를 유도한다. Smoluchowski(Langevin) 동역학을 MCMC 샘플링 알고리즘으로 활용하는 이론적 근거를 제시하고, 가역/비가역 퍼터베이션이 수렴 속도에 미치는 영향을 분석한다. Pavliotis(2014, Ch.4 §4.7–4.8)를 기반으로 한다. | |
| May 12, 2026 | Fokker-Planck 방정식 개관 | Stochastic_Process | Fokker-Planck 방정식의 유래와 물리적 의미를 개관한다. 전진 Kolmogorov 방정식으로서의 역할, 확률 유속의 연속 방정식 해석, 균일 타원성 가정, 고전 해의 정의와 존재·유일성, 경계 조건(흡수·반사·주기)을 소개하고 Fokker-Planck 이론 전체의 로드맵을 제시한다. Pavliotis(2014, Ch.4 §도입 및 §4.1)를 기반으로 한다. | |
| May 12, 2026 | Schrödinger 연산자 환원 | Stochastic_Process | Fokker-Planck 생성자를 Schrödinger 연산자로 변환하는 유니타리 동치를 분석한다. 생성자, Fokker-Planck 연산자, Schrödinger 연산자가 유니타리 변환으로 연결됨을 증명한다. 실수 시간 Schrödinger 방정식으로의 환원이 스펙트럼 갭 연구에 미치는 함의를 다룬다. 인수분해 구조를 통해 연산자의 반양정치성을 확인한다. Pavliotis(2014, Ch.4 §4.9)를 기반으로 한다. | |
| May 12, 2026 | Smoluchowski 방정식과 가역 확산 | Stochastic_Process | 포텐셜 기반 SDE(Smoluchowski 방정식)의 Fokker-Planck 방정식을 분석하고, Gibbs 분포가 불변 분포임을 증명한다. Poincaré 부등식을 통해 평형으로의 지수 수렴을 확립하고, 가역 확산과 상세 균형 조건을 특성화한다. 생성자를 가역 성분(대칭)과 비가역 성분(반대칭)으로 분해하는 일반론을 제시한다. Pavliotis(2014, Ch.4 §4.5–4.6)를 기반으로 한다. | |
| May 12, 2026 | Stochastic Process | Stochastic_Process | 확률 과정의 핵심 주제를 마르코프 체인, 포아송 과정, 마팅게일, 확산 과정, SDE, Fokker-Planck까지 Durrett(2016)과 Pavliotis(2014) 두 교재를 축으로 체계적으로 다루는 콘텐츠 목록이다. | |
| May 12, 2026 | Klein Appendix A.1 — Univariate Methods for Maximization | Statistics, Survival Analysis | Klein 부록 A 의 단변수 최적화 절을 깊이 다룬다. Bisection (절반씩 좁힘, 선형 수렴, 매우 견고), Secant 식 A.1 (할선의 영점, 황금비 \(\phi \approx 1.618\) 차 수렴, \(f''\) 불필요), Newton-Raphson 식 A.2 (접선의 영점, 2 차 수렴, 초기값 의존) 의 알고리즘을 의사코드와 함께 정리하고, 수렴 차수의 수학적 유도, 발산 사례, 안전장치 (step-halving, Brent’s method) 를 다룬다. Example A.1 의 Weibull α MLE (10 obs) 에 세 방법을 적용한 step-by-step trace 로 수렴 속도를 비교한다. (Klein & Moeschberger, 2003, Appendix A.1) | |
| May 12, 2026 | 조직 관성과 엔트로피: 변화를 거부하는 힘과 질서의 자연적 붕괴 | Strategy Frameworks | 좋은 전략은 경쟁자의 관성을 활용하고, 자신의 엔트로피를 관리하며, 모든 요소를 통합(Putting It Together)하는 능력에서 완성된다. 조직이 변화를 거부하는 세 가지 형태, 질서가 붕괴하는 메커니즘, 그리고 NVIDIA 사례를 통해 본 전략의 통합적 실행. | |
| May 12, 2026 | 조직 관성의 해부: 루틴, 문화, 대리 관성의 메커니즘과 극복 전략 | Strategy Frameworks | 조직이 변화를 거부하는 세 가지 메커니즘을 해부한다. 루틴 관성은 어떻게 형성되고 해체하는가, 문화 관성은 왜 가장 극복이 어렵고 AT&T는 왜 실패했는가, 대리 관성의 함정은 어떻게 작동하는가. 그리고 엔트로피가 조직을 어떻게 서서히 죽이는지 — GM의 교훈. | |
| May 12, 2026 | 전략의 통합: NVIDIA 사례로 보는 좋은 전략의 완성형 | Strategy Frameworks | NVIDIA는 어떻게 Intel, 3dfx를 넘어 GPU 시장을 지배했는가. Ch.15 ’Putting It Together’는 이 책의 모든 전략 원칙이 하나의 기업에서 통합적으로 작동하는 사례를 보여준다. 진단, 가이딩 폴리시, 일관된 행동, 레버리지, 체인-링크, 집중, 동태성 활용의 7가지 원칙의 통합. | |
| May 12, 2026 | 전략의 과학과 전략적 사고: 가설로서의 전략, 인지적 한계의 극복 | Strategy Frameworks | 좋은 전략은 직관이 아닌 과학적 방법론으로 만들어진다. 전략을 가설로 설정하고, 실험하고, 학습하는 방법. 변이(anomaly)에서 기회를 포착하는 능력. 인지적 한계를 극복하는 구조적 사고 기법. Create-Destroy, 전문가 패널, 판단 연습의 실전 방법론. | |
| May 12, 2026 | 전략의 과학: 가설, 실험, 독점적 지식의 체계적 구축 | Strategy Frameworks | 전략을 과학적 방법론으로 수립하고 검증하는 체계. 가설 설정의 구조, 실험 설계의 원칙, 변이(anomaly)에서 기회를 포착하는 방법, 독점적 지식을 축적하는 수직 통합의 전략적 의미. Starbucks와 현대 기업들의 과학적 전략 사례. | |
| May 12, 2026 | 전략적 사고의 기술: 인지 편향 극복, Create-Destroy, 판단 연습 | Strategy Frameworks | 전략적 사고는 타고나는 것이 아니라 훈련으로 개발하는 기술이다. 조기 결론의 함정, Create-Destroy 기법의 실전 적용, 머릿속 전문가 패널 구축법, 판단력 향상을 위한 체계적 연습 방법론. TiVo 워크숍에서의 교훈과 현대 전략 사고 도구. | |
| May 12, 2026 | 전략적 독립 사고: 군중에 휩쓸리지 않는 전략가의 정신적 규율 | Strategy Frameworks | 좋은 전략은 군중 심리와의 싸움에서 태어난다. Global Crossing과 2008 금융 위기가 보여주는 사회적 몰이(herding)의 위험, 독립적 사고를 유지하는 구조적 방법, inside view vs outside view, 그리고 전략가로서의 정신적 규율을 종합적으로 정리한다. | |
| May 12, 2026 | 사회적 군집행동과 내부관점 편향: 전략적 독립 사고의 적 | Strategy_Frameworks | Rumelt Ch.18의 핵심 개념인 사회적 군집행동(Social Herding)과 내부관점 편향(Inside View Bias)을 심층 분석한다. Global Crossing, 2008 금융위기, 닷컴 버블의 사례를 통해 군집행동의 메커니즘을 해부하고, Kahneman의 Reference Class Forecasting으로 편향을 극복하는 구조적 방법론을 제시한다. | |
| May 12, 2026 | 독립적 판단의 실천 프레임워크: 전략적 사고의 구조적 보호 | Strategy_Frameworks | Rumelt Ch.18의 실천적 차원을 심층 분석한다. Warren Buffett, Charlie Munger, Ray Dalio의 독립 사고 시스템을 해부하고, 조직 수준에서 독립적 판단을 제도화하는 프레임워크를 제시한다. Pre-mortem, Superforecasting, Mental Model Lattice 등 검증된 도구의 구현 방법을 Python으로 시연한다. | |
| May 12, 2026 | 전략의 핵심(Kernel): 진단, 유도 정책, 일관된 행동 | Strategy Frameworks | Rumelt의 전략 핵심(Kernel) 프레임워크를 분석한다. 좋은 전략은 진단(Diagnosis), 유도 정책(Guiding Policy), 일관된 행동(Coherent Actions)의 세 요소로 구성되며, 이 구조가 전략의 본질을 결정한다. | |
| May 12, 2026 | 전략적 진단과 유도 정책: 핵심을 꿰뚫는 관점의 기술 | Strategy Frameworks | 전략 Kernel의 처음 두 요소인 진단(Diagnosis)과 유도 정책(Guiding Policy)을 심화 분석한다. 날카로운 진단을 내리는 방법론, 진단에서 유도 정책으로의 논리적 전환, 그리고 유도 정책의 설계 원칙을 실전 사례와 함께 탐구한다. | |
| May 12, 2026 | 일관된 행동의 설계: 전략을 실행으로 번역하는 기술 | Strategy Frameworks | 전략 Kernel의 세 번째 요소인 일관된 행동(Coherent Actions)을 심화 분석한다. 행동 간 일관성의 유형과 측정법, 일관성을 파괴하는 조직적 메커니즘, 일관된 행동 포트폴리오 설계 방법론을 실전 사례와 Python 구현으로 탐구한다. | |
| May 12, 2026 | 전략적 레버리지와 근접 목표: 최소 투입으로 최대 효과를 만드는 기술 | Strategy Frameworks | Rumelt의 전략적 레버리지(Leverage)와 근접 목표(Proximate Objectives)를 통합 분석한다. 전략적 레버리지는 예측, 핵심 지점 식별, 집중 투입을 통해 작은 힘으로 큰 변화를 만드는 기술이며, 근접 목표는 달성 가능한 구체적 목표를 설정하여 조직 에너지를 방향 있게 집중시키는 기술이다. | |
| May 12, 2026 | 전략적 레버리지의 3요소: 예측, 핵심 지점, 집중 | Strategy Frameworks | Rumelt의 전략적 레버리지(Using Leverage) 개념을 심화 분석한다. 예측(Anticipation)의 방법론, 핵심 지점(Pivot Points)의 식별 기법, 집중 투입(Concentration)의 실행 원칙을 게임 이론, 시스템 사고, 행동경제학 관점에서 탐구한다. | |
| May 12, 2026 | 근접 목표의 설계: 모호성을 해결하고 행동을 만드는 전략적 목표 수립 | Strategy Frameworks | 전략에서 가장 무시되지만 가장 강력한 도구인 ’근접 목표’를 탐구한다. 모호성(ambiguity)을 해결하는 방법, 목표의 위계 구조 설계, 옵션 창출 전략, 그리고 Kennedy의 달 착륙 선언부터 현대 스타트업까지의 사례를 통해 “달성 가능하면서도 도전적인” 목표 설계의 기술을 다룬다. | |
| May 12, 2026 | 체인-링크 시스템과 전략적 설계: 가장 약한 고리가 전체를 결정한다 | Strategy Frameworks | 시스템의 성과는 가장 약한 고리(chain-link)에 의해 결정된다. Ch.8의 체인-링크 원리(제약 이론, IKEA 모델, GM의 교착 상태)와 Ch.9의 전략적 설계(Hannibal의 Cannae, 사전 계획, 예측, 조정된 행동)를 통합하여 ‘시스템으로서의 전략’ 관점을 탐구한다. | |
| May 12, 2026 | 체인-링크 시스템 심화: 병목 식별, 교착 탈출, 통합적 탁월함의 구축 | Strategy Frameworks | 체인-링크 시스템의 심층 분석. 병목(bottleneck) 식별 방법론, 조직이 교착 상태에 빠지는 메커니즘과 탈출 전략, 품질 매칭(quality matching)의 경제학, 그리고 IKEA·Southwest Airlines 수준의 통합적 탁월함을 달성하는 단계적 접근법. | |
| May 12, 2026 | 전략적 설계 심화: 사전 계획, 예측, 조정된 행동의 통합적 설계 | Strategy Frameworks | 전략을 ’설계(design)’로 바라보는 관점의 심층 분석. Hannibal의 Cannae 전투에서 추출한 세 가지 설계 원리 (사전 계획, 예측, 조정된 행동)를 현대 비즈니스에 적용하는 방법, 설계의 트레이드오프, 그리고 적응적 설계(adaptive design)의 균형. | |
| May 12, 2026 | 전략적 집중과 성장의 역설: 집중이 우위를 만들고, 성장이 우위를 파괴한다 | Strategy Frameworks | Ch.10 ’집중(Focus)’과 Ch.11 ’성장(Growth)’을 통합하여 분석한다. Crown Cork & Seal의 35년 19% 연 수익률을 만든 전략적 집중의 원리, 그리고 Avery 시대의 인수 기반 성장이 어떻게 그 우위를 파괴했는지를 탐구한다. ’집중은 우위를 만들고, 무분별한 성장은 우위를 파괴한다’는 핵심 명제를 검증한다. | |
| May 12, 2026 | 전략적 집중의 기술: 선택, 포기, 일관성으로 경쟁 우위를 구축하는 방법 | Strategy Frameworks | 전략적 집중(Focus)의 심층 분석. Crown Cork & Seal의 집중 전략 해부, ’선택’과 ’포기’의 경제학, 집중이 만드는 정보 우위와 학습 가속, 집중을 유지하는 리더십의 역할, 그리고 집중의 한계와 적정 범위. | |
| May 12, 2026 | 성장의 덫: 인수, 다각화, 규모의 환상이 전략을 파괴하는 메커니즘 | Strategy Frameworks | 성장(Growth)이 어떻게 전략을 파괴하는지 심층 분석한다. Crown Cork & Seal의 Avery 시대, Telecom Italia의 합병 실패, 인수 프리미엄의 경제학, “크다 = 좋다”의 환상, 그리고 건전한 성장을 달성하는 원칙과 방법론. | |
| May 12, 2026 | 경쟁 우위와 동태성: 우위의 활용, 격리 메커니즘, 변화의 파도 타기 | Strategy Frameworks | Ch.12 ’우위의 활용(Using Advantage)’과 Ch.13 ’동태성의 활용(Using Dynamics)’을 통합하여 분석한다. 경쟁 우위의 본질(비대칭성), Porter의 경쟁 우위 개념과 격리 메커니즘, 그리고 변화의 파도(wave of change)를 감지하고 활용하는 전략적 사고를 탐구한다. | |
| May 12, 2026 | 경쟁 우위의 활용: 비대칭성 식별, 격리 메커니즘 구축, 우위의 레버리지 | Strategy Frameworks | 경쟁 우위를 ’발견’하는 것과 ’활용’하는 것은 다르다. 비대칭성의 원천을 체계적으로 식별하는 방법, 격리 메커니즘의 유형과 강화 전략, 우위를 심화/확장/방어하는 세 가지 활용 전략, 그리고 우위의 수명 관리. | |
| May 12, 2026 | 전략적 동태성의 활용: 변화의 파도를 읽고, 고지를 선점하는 기술 | Strategy Frameworks | 정적인 우위는 반드시 침식된다. 지속적 성공은 변화의 파도를 미리 읽고 새로운 고지를 선점하는 능력에서 나온다. Cisco의 성공, 5가지 이정표, 끌개 상태(attractor state), 그리고 동태적 우위 구축의 체계적 방법론. | |
| May 11, 2026 | Klein Appendix A — Numerical Techniques for Maximization | Statistics, Survival Analysis | Klein 책의 부록 A 를 정리한다. 생존분석의 MLE (Weibull, log-logistic 모수 회귀), Cox 부분우도, frailty EM 알고리즘 등은 모두 닫힌 형식 해가 없어 수치 최적화에 의존한다. § A.1 의 단변수 방법 3 가지 (bisection, secant, Newton-Raphson) 와 § A.2 의 다변수 방법 3 가지 (steepest ascent, Newton-Raphson, Marquardt) 의 알고리즘·식·수렴 속도·견고성을 직관적으로 풀이하고, Klein 의 Weibull MLE 두 예제 (Example A.1, A.2) 로 비교한다. (Klein & Moeschberger, 2003, Appendix A) | |
| May 11, 2026 | 주기도와 비모수 스펙트럼 추정 (Periodogram & Nonparametric Spectral Estimation) | Statistics, Time-Series | 이산 Fourier 변환(DFT)과 주기도의 정의·분포·한계를 설명하고, 평활화(smoothing)·Daniell 커널·테이퍼링(tapering) 등 비모수 스펙트럼 추정의 핵심 도구를 다룬다. | |
| May 11, 2026 | 모수 스펙트럼 추정과 교차 스펙트럼 (Parametric Estimation & Cross-Spectra) | Statistics, Time-Series | AR 기반 모수 스펙트럼 추정(parametric spectral estimation)과 다변량 시계열의 교차 스펙트럼(cross-spectrum), 코히런스(coherence) 를 다룬다. 비모수 추정과의 비교, Whittle 우도, 스펙트럼 행렬의 개념을 포함한다. | |
| May 11, 2026 | 선형 필터와 지연 회귀 (Linear Filters & Lagged Regression) | Statistics, Time-Series | 선형 필터의 주파수 응답 함수를 통한 시계열 변환 원리를 설명하고, 지연 회귀 모형(lagged regression model) 의 주파수 영역 추정법과 코히런스를 이용한 입출력 관계 분석을 다룬다. | |
| May 11, 2026 | 신호 추출과 다차원 스펙트럼 (Signal Extraction & Multidimensional Spectra) | Statistics, Time-Series | 신호+잡음 모형에서 최적 필터(Wiener filter) 의 유도와 설계를 다루고, 다차원(공간) 시계열의 파수 스펙트럼(wavenumber spectrum) 과 2차원 주기도 분석을 소개한다. | |
| May 11, 2026 | 경쟁자의 미래 목표와 가정 분석 — 행동 동인 진단 | Strategy_Frameworks, Competitive Strategy, Competitor Analysis | 경쟁자 행동의 근본 동인인 미래 목표와 가정을 체계적으로 진단하는 방법을 다룬다. 사업부 목표, 모기업 영향, 포트폴리오 분석을 통한 목표 추론, 그리고 가정의 맹점을 식별하여 전략적 기회를 포착하는 방법론을 제시한다. | |
| May 11, 2026 | 경쟁자의 현재 전략과 역량 평가 — 관찰 가능한 진단 | Strategy_Frameworks, Competitive Strategy, Competitor Analysis | 경쟁자의 현재 전략을 기능 영역별로 식별하고, 역량을 체계적으로 평가하는 방법론을 다룬다. 제품, 유통, 마케팅, 운영, R&D, 재무, 조직 등 전 영역에 걸친 강점·약점 분석과 신속 대응 역량, 적응 역량을 포함한다. | |
| May 11, 2026 | 경쟁자 반응 프로파일과 인텔리전스 시스템 | Strategy_Frameworks, Competitive Strategy, Competitor Analysis | 4가지 진단 구성 요소를 통합하여 경쟁자 반응 프로파일을 구축하는 방법론을 다룬다. 공세적 움직임 예측, 방어적 역량 평가, 전장 선택 원칙, 그리고 경쟁자 인텔리전스 시스템의 구축과 운영 방법을 제시한다. | |
| May 11, 2026 | 시장 신호의 유형 — 경쟁자 의도의 간접적 표현 | Strategy_Frameworks, Competitive Strategy, Market Signals | 시장 신호의 개념과 유형을 체계적으로 다룬다. 사전 발표, 사후 공개, 산업 논평, 교차 견제, 전투 브랜드 등 다양한 신호 형태의 구조와 진정한 의도 vs 허세(bluff)를 구분하는 방법론을 제시한다. | |
| May 11, 2026 | 시장 신호의 해석과 활용 방법론 | Strategy Frameworks | 시장 신호의 진위 판별, 역사적 패턴 분석, 신호 모니터링 시스템 구축 등 신호 해석의 실무 방법론을 체계화한다. | |
| May 11, 2026 | 경쟁적 이동의 기본 원리 | Strategy Frameworks | 과점 시장에서 경쟁적 이동의 기본 논리를 분석한다. 죄수의 딜레마 유비, 산업 불안정성의 조건, 비위협적 이동의 3가지 유형을 체계적으로 다룬다. | |
| May 11, 2026 | 위협적 이동과 보복 시차 분석 | Strategy Frameworks | 경쟁자를 위협하는 공격적 이동의 설계 원리, 보복의 4가지 시차 원천, 보복 예측 프레임워크를 체계화한다. | |
| May 11, 2026 | 서약과 방어 전략 | Strategy Frameworks | 경쟁적 서약의 3가지 유형, 서약 전달 메커니즘, 방어 전략의 체계, 초점점 이론, 정보와 비밀의 전략적 활용을 분석한다. | |
| May 11, 2026 | 구매자 선택 프레임워크 | Strategy Frameworks | 전략적 구매자 선택의 4대 기준 — 구매 욕구 적합성, 성장 잠재력, 내재적 교섭력, 서비스 비용 — 을 분석하고 최적 고객 포트폴리오를 설계한다. | |
| May 11, 2026 | 구매자 가격 민감도와 전략 | Strategy Frameworks | 구매자의 가격 민감도를 결정하는 8가지 구조적 조건, 좋은 구매자 창조 전략, 선택 기준 확대 방법론을 체계적으로 분석한다. | |
| May 11, 2026 | 구매 전략과 공급자 관리 | Strategy Frameworks | 공급자 교섭력에 대응하는 구매 전략 — 구매 분산, 전환 비용 회피, 대안 공급원 육성, 표준화, 후방 통합 위협 — 을 체계적으로 분석한다. | |
| May 11, 2026 | 전략 집단의 개념과 분류 | Strategy Frameworks | 산업 내 기업들을 유사한 전략적 차원을 따르는 집단으로 분류하는 전략 집단(Strategic Group) 개념의 정의, 분류 차원, 매핑 방법론을 분석한다. | |
| May 11, 2026 | 이동 장벽과 전략 집단 형성 | Strategy Frameworks | 진입 장벽의 일반화 개념인 이동 장벽(Mobility Barriers)이 전략 집단을 보호하는 메커니즘과, 전략 집단이 형성되는 역사적·구조적 원인을 분석한다. | |
| May 11, 2026 | 전략 집단과 경쟁 세력의 차등 적용 | Strategy Frameworks | 동일 산업 내 전략 집단이 교섭력, 대체품, 집단 간 경쟁에서 어떻게 차등적 영향을 받는지를 분석한다. | |
| May 11, 2026 | 기업 수익성 결정 요인과 전략 수립 | Strategy Frameworks | 전략 집단 내 기업 수익성을 결정하는 9가지 요인 — 산업 구조, 이동 장벽, 교섭력, 대체품, 경쟁, 규모, 진입 비용, 실행 능력 — 과 전략 수립에 대한 함의를 분석한다. | |
| May 11, 2026 | 산업 진화의 기본 개념과 제품 수명 주기의 한계 | Strategy Frameworks | 산업 진화의 분석 프레임워크 — 제품 수명 주기의 4가지 한계, 진화적 과정(evolutionary processes)의 개념, 초기 구조에서 잠재적 구조로의 이동 메커니즘을 체계적으로 분석한다. | |
| May 11, 2026 | 진화적 과정의 심층 분석 | Strategy Frameworks | 산업 진화를 유발하는 12가지 진화적 과정 — 구매자 학습, 지식 확산, 규모 변화, 투입 비용, 제품/마케팅/공정 혁신, 인접 산업 변화, 정부 정책, 진입/퇴출 — 의 메커니즘과 전략적 함의를 분석한다. | |
| May 11, 2026 | 산업 진화의 핵심 관계와 전략적 대응 | Strategy Frameworks | 산업 진화의 핵심 관계 — 집중화와 이동 장벽의 동조, 퇴출 장벽의 집중화 저해, 산업 경계 변화, 기업의 구조 영향력 — 를 분석하고, 진화 과정을 예측·활용하기 위한 전략적 프레임워크를 제시한다. | |
| May 11, 2026 | 신흥 산업의 구조적 환경과 발전 제약 | Strategy Frameworks | 신흥 산업(emerging industry)의 정의와 8가지 공통 구조적 특성 — 기술적 불확실성, 전략적 불확실성, 높은 초기 비용, 스핀오프, 첫 구매자, 짧은 시간 지평, 보조금, 초기 이동 장벽 — 과 산업 발전을 제약하는 12가지 문제를 체계적으로 분석한다. | |
| May 11, 2026 | 신흥 산업의 전략적 선택과 진입 시점 | Strategy Frameworks | 신흥 산업에서 기업이 직면하는 핵심 전략적 선택 — 산업 구조 형성, 외부효과 관리, 공급자·채널 활용, 이동 장벽 전환 대응, 진입 시점 결정, 경쟁자 대응, 시나리오 기반 예측 기법 — 을 체계적으로 분석한다. | |
| May 11, 2026 | 초기 시장 식별과 시나리오 예측 방법론 | Strategy Frameworks | 신흥 산업에서 초기 시장(early markets)을 체계적으로 식별하는 9가지 기준 — 혜택의 성격, 기술 수준, 실패 비용, 전환 비용, 지원 서비스, 기술 노후화, 규제 장벽, 자원, 인식 — 과 시나리오 기반 산업 예측의 실무적 적용 방법론을 심층 분석한다. | |
| May 11, 2026 | 산업 성숙 전환기의 환경 변화와 전략적 함의 | Strategy Frameworks | 산업이 성장기에서 성숙기로 전환할 때 발생하는 9가지 환경 변화 — 성장 둔화, 경험 축적 구매자, 비용/서비스 경쟁, 용량 과잉, 방법론 변화, 신제품 개발 난항, 국제 경쟁, 이익 감소, 유통 파워 — 와 이에 대한 전략적 대응 방안을 분석한다. | |
| May 11, 2026 | 성숙 전환의 전략적 함정과 조직 변화 | Strategy Frameworks | 산업 성숙 전환기에 기업이 빠지기 쉬운 9가지 전략적 함정 — 자기 인식 관성, 중간에 낀 상태, 현금 함정, 점유율 포기, 가격 거부, 관행 변화 거부, 과도한 혁신, 품질 구실, 과잉 설비 — 과 총괄 관리자의 역할 전환, 조직 구조 변화를 심층 분석한다. | |
| May 11, 2026 | 쇠퇴 산업의 수요 조건과 퇴출 장벽 | Strategy Frameworks | 쇠퇴 산업의 정의와 구조적 결정 요인 — 수요 하락의 3가지 원인 (기술 대체, 인구 통계, 니즈 변화), 수요 불확실성의 역할, 잔존 수요 세그먼트의 수익성, 퇴출 장벽의 6가지 원천 (자산 특수성, 고정 비용, 전략적 상호관계, 금융시장 접근, 수직 통합, 경영적/감정적 장벽) — 을 체계적으로 분석한다. | |
| May 11, 2026 | 쇠퇴 산업의 4가지 전략적 대안 | Strategy Frameworks | 쇠퇴 산업에서 기업이 선택할 수 있는 4가지 전략 — 리더십 (Leadership), 니치(Niche), 수확(Harvest), 조기 매각(Quick Divestment) — 의 목표, 전술, 실행 조건, 운영적 요구사항을 체계적으로 분석한다. 각 전략의 투자 함의와 실행 상의 행정적/조직적 도전 과제를 포함한다. | |
| May 11, 2026 | 쇠퇴 전략의 선택과 실행: 매칭, 함정, 사전 준비 | Strategy Frameworks | 쇠퇴 산업에서의 전략 선택 프레임워크 — 산업 호의성(hospitality)과 기업 상대적 강점의 2×2 매트릭스, 전략적 니즈의 3차원 고려, 쇠퇴기의 3가지 함정(인식 실패, 소모전, 강점 없는 수확), 성숙기에서의 쇠퇴 사전 준비 전략 — 을 체계적으로 분석한다. | |
| May 11, 2026 | 글로벌 산업의 경쟁 우위 원천과 장애 요인 | Strategy Frameworks | 글로벌 산업의 정의와 구조적 특성 — 글로벌 경쟁 우위의 8가지 원천(비교 우위, 생산 규모, 글로벌 경험, 물류/마케팅/ 구매 규모, 제품 차별화, 기술, 생산 이동성)과 글로벌 경쟁의 장애 요인(운송 비용, 제품 차이, 유통, 정부 규제 등) — 을 체계적으로 분석한다. | |
| May 11, 2026 | 글로벌 산업으로의 진화와 경쟁 이슈 | Strategy Frameworks | 산업이 글로벌화되는 촉발 요인 — 환경적 트리거(규모 증가, 운송비 감소, 요소 비용 변화, 국가 간 유사성 증가, 정부 규제 완화)와 전략적 혁신(제품 재정의, 세그먼트 식별, 적응 비용 감소, 탈통합) — 그리고 글로벌 경쟁의 고유 전략적 이슈 (산업 정책, 호스트 정부 관계, 시스템적 경쟁, 경쟁자 분석)를 체계적으로 분석한다. | |
| May 11, 2026 | 글로벌 경쟁의 동향과 신흥국 기업의 부상 | Strategy Frameworks | 글로벌 경쟁에 영향을 미치는 주요 동향 — 국가 간 차이 감소, 공격적 산업 정책, 신흥 개발국(NDC) 기업의 부상 — 과 신흥국 기업의 경쟁 우위/약점, 선진국 기업의 대응 전략, 글로벌 경쟁 환경의 미래 전망을 체계적으로 분석한다. | |
| May 11, 2026 | 수직 통합의 전략적 편익과 비용 | Strategy Frameworks | 수직 통합의 정의와 전략적 프레임워크 — 통합의 6가지 전략적 편익(결합 운영, 내부 통제, 정보, 시장 회피, 안정적 관계, 교섭력 상쇄)과 7가지 전략적 비용(진입 비용, 유연성, 균형, 운영 레버리지, 자본 요구, 인센티브 둔화, 관리 차이) — 을 체계적으로 분석한다. | |
| May 11, 2026 | 수직 통합의 방향별 이슈와 대안적 통합 형태 | Strategy Frameworks | 전방 통합과 후방 통합의 고유한 전략적 이슈 — 차별화, 유통 접근, 시장 정보, 가격 실현(전방) / 독점 지식 보호, 투입재 차별화(후방) — 와 완전 통합의 대안으로서 테이퍼드 통합과 준통합의 메커니즘, 장단점을 분석한다. | |
| May 11, 2026 | 수직 통합 의사결정의 종합 프레임워크와 실행 가이드 | Strategy Frameworks | 수직 통합 의사결정의 종합 프레임워크 — 전략적 분석의 단계별 접근법, 이전 가격 정책의 전략적 함의, 통합/해체의 동적 분석, 그리고 실행 시 관리적 도전과 조직 설계의 원칙을 통합적으로 제시한다. | |
| May 11, 2026 | 용량 확장의 전략적 요소와 과잉 투자의 원인 | Strategy Frameworks | 용량 확장 의사결정의 본질 — NPV 계산이 아닌 그 숫자의 원천(산업 분석과 경쟁자 분석) — 과 산업 과잉 용량의 체계적 원인을 기술적, 구조적, 경쟁적, 정보적, 관리적, 정부적 범주로 분석하며, 과잉 투자를 억제하는 조건과 기업의 전략적 대응 방안을 제시한다. | |
| May 11, 2026 | 용량 확장의 선점 전략: 조건, 위험, 실행 | Strategy Frameworks | 용량 확장에서의 선점 전략(Preemptive Strategy) — 시장의 상당 부분을 먼저 확보하여 경쟁자를 억제하는 전략의 정의, 성공을 위한 5가지 필수 조건, 내재적 위험, 실패 시 결과, 그리고 현대 산업에서의 적용 사례와 대안적 접근법을 분석한다. | |
| May 11, 2026 | 신규 사업 진입의 경제학: 내부 개발, 인수, 순차 전략 | Strategy Frameworks | 신규 사업 진입의 전략적 분석 — 내부 개발과 인수라는 두 가지 진입 방식의 경제적 원리, 진입 비용과 기존 기업의 보복, 매력적 진입 대상 산업의 5가지 조건, 인수에서의 기업 시장(market for companies)의 역학, 그리고 순차적 진입 전략을 종합적으로 제시한다. | |
| May 11, 2026 | 분산 산업의 구조와 원인 | Strategy Frameworks | 분산 산업(fragmented industry)의 정의와 구조적 특성을 분석하고, 분산을 유발하는 13가지 경제적 원인 — 진입 장벽 부재, 규모의 불경제, 운송 비용, 재고 비용, 교섭력 부재, 다양한 시장 수요, 이미지 기반 차별화, 퇴출 장벽, 규제 등 — 의 메커니즘을 체계적으로 규명한다. | |
| May 11, 2026 | 분산 극복과 집중화 전략 | Strategy Frameworks | 분산 산업을 집중화하는 5가지 전략 — 규모의 경제 창출, 시장 수요 표준화, 분산 원인 분리/중립화, M&A 임계 규모 확보, 트렌드 조기 인식 — 의 메커니즘과 조건을 분석하고, ‘고착(stuck)’ 상태의 산업에서 발견되는 전략적 기회를 탐구한다. | |
| May 11, 2026 | 분산 산업의 경쟁 전략과 전략적 함정 | Strategy Frameworks | 분산 산업에서 효과적으로 경쟁하기 위한 8가지 대처 전략 — 분권화 관리, 공식 시설, 부가가치 강화, 제품/고객/주문 전문화, 지역 밀착, 최소 비용 — 과 5가지 전략적 함정을 분석하고, 분산 산업 전략 수립의 통합 프레임워크를 제시한다. | |
| May 11, 2026 | 좋은 전략의 본질: 예상 밖의 힘과 숨겨진 권력의 발견 | Strategy_Frameworks | ||
| May 11, 2026 | 좋은 전략은 예상 밖이다: 일관성과 집중의 원리 | Strategy_Frameworks | ||
| May 11, 2026 | 숨겨진 권력의 발견: 비대칭 통찰과 전략적 레버리지 | Strategy_Frameworks | ||
| May 11, 2026 | 나쁜 전략의 구조와 원인: 전략 실패의 4가지 징후와 3가지 근본 원인 | Strategy_Frameworks | ||
| May 11, 2026 | 나쁜 전략의 4가지 징후: 허울, 회피, 혼동, 잘못된 목표 | Strategy_Frameworks | ||
| May 11, 2026 | 나쁜 전략이 만연한 이유: 선택 회피, 템플릿, 긍정 사고의 함정 | Strategy_Frameworks | ||
| May 10, 2026 | Deep Learning 학습 로드맵 | Deep Learning | 딥러닝을 체계적으로 학습하기 위한 12단계 로드맵이다. 수학 기초부터 LLM 구축, 강화학습, 생성 모델까지 5권의 핵심 교재를 기반으로 150편의 학습 경로를 설계한다. 각 Phase의 목표, 선행 조건, 핵심 개념을 정리하여 학습자가 자신의 수준에 맞는 진입점을 찾을 수 있도록 안내한다. | |
| May 10, 2026 | DL 실무 방법론 — 메트릭, 베이스라인, HPO, 디버깅 | Deep Learning | 딥러닝 프로젝트의 실무 방법론: 성능 메트릭 선택, 베이스라인 모델 설정, 데이터 수집 판단, 하이퍼파라미터 최적화(Random Search, Bayesian Optimization), 디버깅 전략을 체계적으로 정리한다. | |
| May 10, 2026 | POS·NER — Sequence Labeling, BiLSTM-CRF | Deep Learning | 시퀀스 레이블링의 핵심: 품사 태깅(POS), 개체명 인식(NER), BIO 태깅 체계, HMM과 Viterbi 알고리즘, BiLSTM-CRF 모델을 다룬다. | |
| May 10, 2026 | Constituency·Dependency Parsing | Deep Learning | 구문 분석의 두 축: 구성소 구문 분석(constituency parsing)과 의존 구문 분석(dependency parsing). CFG, CKY 알고리즘, 전이 기반(arc-standard), 그래프 기반(Eisner/MST) 파싱을 다룬다. | |
| May 10, 2026 | Information Extraction — Relation, Event | Deep Learning | 정보 추출의 핵심: 관계 추출(RE), 이벤트 추출, 시간 표현 분석, 템플릿 채우기. 패턴 기반, 지도학습, 원거리 감독(distant supervision) 방법론을 다룬다. | |
| May 10, 2026 | Semantic Role Labeling | Deep Learning | 의미역 결정(SRL)의 핵심: 의미역(Agent, Patient, Theme), 논항 교체(diathesis), PropBank/FrameNet 자원, BIO 기반 SRL 시스템과 BERT 기반 span 예측을 다룬다. | |
| May 10, 2026 | Coreference Resolution·Entity Linking | Deep Learning | 상호참조 해결의 핵심: 멘션 탐지, 선행사 선택, 신경망 멘션 랭킹 모델, 클러스터 기반 접근법, Winograd Schema Challenge와 성별 편향 문제를 다룬다. | |
| May 10, 2026 | 자기지도학습·멀티모달·XAI 개관 | Deep Learning | 현대 딥러닝의 세 축: 자기지도학습(SimCLR, BYOL, MAE), 멀티모달 모델(CLIP, Flamingo, GPT-4V), 설명 가능한 AI(SHAP, Grad-CAM, Attention Rollout)를 개관한다. | |
| May 10, 2026 | DL 응용 — CV·NLP·Speech 개관 | Deep Learning | 대규모 딥러닝 시스템의 설계 원리와 CV(객체 검출, 세그멘테이션), NLP(기계 번역, QA), Speech(ASR, TTS) 도메인별 핵심 응용을 개관한다. | |
| May 10, 2026 | 표현 학습 — Pretraining, Transfer, Domain Adaptation | Deep Learning | 표현 학습의 핵심 개념: 비지도 사전학습(Greedy Layer-Wise), 전이 학습과 도메인 적응, 준지도 분리(disentangling), 분산 표현의 지수적 이점을 다룬다. | |
| May 10, 2026 | 분산 학습 — Data/Model Parallelism, AllReduce | Deep Learning | 대규모 딥러닝의 분산 학습: 데이터 병렬(Data Parallelism)과 모델 병렬(Model Parallelism), AllReduce 통신 패턴, 비동기 계산, 파라미터 서버 아키텍처를 다룬다. | |
| May 10, 2026 | Gaussian Processes | Deep Learning | 가우시안 프로세스(GP)의 핵심: 함수 공간의 사전 분포, RBF·Matern 커널, 사후 추론(posterior inference), 주변 우도(marginal likelihood) 기반 하이퍼파라미터 최적화를 다룬다. | |
| May 10, 2026 | Recommender Systems | Deep Learning | 추천 시스템의 핵심: 협업 필터링, 행렬 분해(MF), AutoRec, Neural Matrix Factorization(NeuMF), 시퀀스 인식 추천을 다룬다. | |
| May 10, 2026 | Phonetics·Speech Feature — MFCC, Mel Spectrogram | Deep Learning | 음성 신호 처리의 기초: 음향 음성학, 샘플링과 양자화, DFT/FFT, 멜 스펙트로그램, MFCC 추출 파이프라인을 단계별로 구현한다. | |
| May 10, 2026 | ASR — CTC, Whisper, Wav2Vec | Deep Learning | 자동 음성 인식(ASR)의 핵심: CTC(Connectionist Temporal Classification) 손실, Encoder-Decoder 구조, 자기지도 사전학습(Wav2Vec 2.0, HuBERT), Whisper 모델의 구조와 학습 전략을 다룬다. | |
| May 10, 2026 | TTS — Tacotron, FastSpeech, Vocoder | Deep Learning | 텍스트 음성 합성(TTS)의 핵심: Tacotron의 attention 기반 합성, FastSpeech의 비자기회귀 생성, 뉴럴 보코더(WaveNet, HiFi-GAN), VALL-E의 코덱 기반 접근법을 다룬다. | |
| May 10, 2026 | 합성곱 연산의 수학적 정의 | Deep Learning | 합성곱(convolution)의 수학적 정의, 교차 상관(cross-correlation)과의 관계, 2D 합성곱의 텐서 연산, Toeplitz 행렬 표현, 그리고 CNN에서의 역할을 다룬다. | |
| May 10, 2026 | 이미지 증강과 전이 학습·파인튜닝 | Deep Learning | 이미지 데이터 증강(augmentation)의 주요 기법과 효과, 전이 학습(transfer learning)의 원리, 그리고 파인튜닝(fine-tuning)의 실무 전략을 다룬다. ImageNet 사전 학습 모델을 활용하는 방법을 분석한다. | |
| May 10, 2026 | 객체 검출 – R-CNN에서 SSD까지 | Deep Learning | 객체 검출(object detection)의 핵심 개념인 바운딩 박스, IoU, NMS를 설명하고, R-CNN 계열(R-CNN, Fast R-CNN, Faster R-CNN)의 2-stage 방식과 SSD, YOLO 등 1-stage 방식의 원리와 차이를 분석한다. | |
| May 10, 2026 | 시맨틱 세그멘테이션과 FCN | Deep Learning | 시맨틱 세그멘테이션(semantic segmentation)의 개념과 평가 지표, FCN(Fully Convolutional Network)의 구조, 전치 합성곱(transposed convolution), 그리고 U-Net, DeepLab 등 후속 아키텍처의 핵심 아이디어를 분석한다. | |
| May 10, 2026 | 신경 스타일 전이 | Deep Learning | Neural Style Transfer(Gatys et al., 2015)의 원리를 분석한다. 콘텐츠 손실과 스타일 손실의 수학적 정의, Gram Matrix의 의미, 그리고 실시간 스타일 전이 모델까지 다룬다. | |
| May 10, 2026 | CNN의 세 동기 – 희소 연결, 매개변수 공유, 등변성 | Deep Learning | CNN이 완전 연결 네트워크 대비 갖는 세 가지 핵심 이점 – 희소 연결(sparse connectivity), 매개변수 공유(parameter sharing), 등변 표현(equivariant representation) – 의 수학적 정의와 직관적 해석, 파라미터 효율성 분석을 다룬다. | |
| May 10, 2026 | 풀링과 불변성, 다중 채널, 1x1 합성곱 | Deep Learning | 최대 풀링과 평균 풀링의 수학적 정의와 이동 불변성 효과, 다중 입출력 채널 합성곱의 텐서 연산, 1x1 합성곱의 채널 혼합 역할을 다룬다. | |
| May 10, 2026 | 패딩, 스트라이드, 출력 크기 공식 | Deep Learning | 패딩(padding)과 스트라이드(stride)의 수학적 정의, 출력 크기 공식, valid/same/full 패딩의 차이, 전치 합성곱의 크기 관계, 실무적 설계 원칙을 다룬다. | |
| May 10, 2026 | LeNet – CNN의 원형과 현대적 구현 | Deep Learning | LeCun(1998)의 LeNet-5 아키텍처의 구조, 설계 철학, 역사적 의의를 분석하고, 현대적 도구(PyTorch)로 구현하여 Fashion-MNIST에서 학습시킨다. | |
| May 10, 2026 | AlexNet – 2012 ImageNet 혁명 | Deep Learning | AlexNet(Krizhevsky et al., 2012)의 아키텍처와 혁신 요소를 분석한다. ReLU 도입, GPU 병렬 학습, 데이터 증강, Dropout의 역할과 ImageNet 대규모 시각 인식 대회(ILSVRC)에서의 돌파구를 다룬다. | |
| May 10, 2026 | VGG, NiN, GoogLeNet – 깊은 네트워크의 세 갈래 | Deep Learning | VGGNet의 일관된 3×3 커널 전략, Network in Network(NiN)의 1×1 합성곱과 Global Average Pooling, GoogLeNet(Inception v1)의 다중 경로 구조를 비교한다. 각 아키텍처가 후속 네트워크에 미친 영향도 분석한다. | |
| May 10, 2026 | ResNet, ResNeXt – 잔차 연결의 힘 | Deep Learning | ResNet(He et al., 2015)의 잔차 블록 설계, 수학적 원리, 기울기 고속도로 효과를 분석한다. Bottleneck 구조, ResNet-18/34/50/101/152 변형, ResNeXt의 그룹 합성곱까지 다룬다. | |
| May 10, 2026 | DenseNet, RegNet – 특성 재사용과 설계 공간 탐색 | Deep Learning | DenseNet(Huang et al., 2017)의 Dense Block과 특성 재사용 메커니즘, RegNet(Radosavovic et al., 2020)의 설계 공간(design space) 탐색 방법론을 분석한다. 두 아키텍처의 효율성과 실무 적용 전략을 비교한다. | |
| May 10, 2026 | 생성 모델 분류 — Explicit·Implicit·Tractable | Deep Learning | 생성 모델의 전체 분류 체계를 다룬다. Explicit density(tractable/approximate)와 Implicit density 모델의 구분, 각 범주의 대표 모델(VAE, GAN, Flow, Diffusion), 생성 모델의 평가 방법(FID, IS, likelihood)을 개관한다. | |
| May 10, 2026 | Linear Factor Models — PCA·ICA·Sparse Coding | Deep Learning | 생성 모델의 기초인 선형 인자 모델을 다룬다. 확률적 PCA, 인자 분석, ICA, Sparse Coding의 수학적 원리와 이들이 딥 생성 모델(VAE 등)의 선형 전신임을 설명한다. | |
| May 10, 2026 | Autoencoder 기초 — Undercomplete와 표현 학습 | Deep Learning | Autoencoder의 기본 구조와 원리를 다룬다. Undercomplete autoencoder의 인코더-디코더 구조, 재구성 손실, PCA와의 관계, 깊은 오토인코더의 표현 학습 능력을 설명한다. | |
| May 10, 2026 | Denoising·Sparse·Contractive Autoencoder | Deep Learning | 정규화된 오토인코더 변형을 다룬다. Denoising AE(노이즈 주입), Sparse AE(KL 희소 페널티), Contractive AE(야코비안 정규화)의 원리와 구현을 설명한다. | |
| May 10, 2026 | VAE — ELBO와 재매개변수화 트릭 | Deep Learning | Variational Autoencoder(VAE)의 수학적 원리를 다룬다. 잠재 변수 모델, 변분 추론, ELBO 유도, 재매개변수화 트릭, KL divergence 정규화, 그리고 MNIST에서의 구현을 설명한다. | |
| May 10, 2026 | GAN 원리 — Minimax 게임과 Nash 균형 | Deep Learning | Generative Adversarial Network(GAN)의 게임 이론적 원리를 다룬다. Generator와 Discriminator의 minimax 게임, JS divergence 최소화, 최적 판별자 증명, 학습 불안정성과 Mode Collapse 문제를 설명한다. | |
| May 10, 2026 | DCGAN — 전치 합성곱과 안정적 학습 | Deep Learning | Deep Convolutional GAN(DCGAN)의 아키텍처와 학습 안정화 기법을 다룬다. 전치 합성곱(Transposed Convolution)의 원리, DCGAN 아키텍처 가이드라인, LeakyReLU·BatchNorm의 역할, 이미지 생성 구현을 설명한다. | |
| May 10, 2026 | Diffusion 기초 — DDPM과 DDIM | Deep Learning | Denoising Diffusion Probabilistic Model(DDPM)의 수학적 원리를 다룬다. 전방 확산(forward diffusion), 역방향 생성(reverse process), 변분 하한 유도, 단순화된 학습 목표, DDIM 가속 샘플링을 설명한다. | |
| May 10, 2026 | 텍스트-이미지 생성 — Stable Diffusion·DALL-E | Deep Learning | 텍스트 프롬프트로부터 이미지를 생성하는 최신 모델을 개관한다. CLIP의 멀티모달 정렬, Latent Diffusion Model(Stable Diffusion), Classifier-Free Guidance, DALL-E 시리즈의 아키텍처를 설명한다. | |
| May 10, 2026 | LLM 이란 무엇인가 — Ch.1 Overview | Deep Learning | Raschka “Build a Large Language Model (From Scratch)” Ch.1의 내용을 기반으로 LLM의 정의, 주요 응용, 구축의 3단계(사전학습/파인튜닝/RLHF), Transformer 기반 GPT 아키텍처의 큰 그림, 그리고 이 시리즈 전체의 로드맵을 제공한다. | |
| May 10, 2026 | LLM 정의와 구축 3단계 | Deep Learning | 대규모 언어 모델(LLM)의 정의, 주요 응용 분야(번역, 요약, QA, 코딩), 그리고 LLM 구축의 3단계(사전학습 → supervised fine-tuning → RLHF)를 상세히 다룬다. | |
| May 10, 2026 | Transformer와 GPT 아키텍처 개관 | Deep Learning | Transformer 아키텍처의 기원(Vaswani et al. 2017)에서 GPT 계열의 Decoder-only 구조로의 발전을 기술한다. GPT-2 124M의 구체적 하이퍼파라미터, 파라미터 수 계산, 그리고 이 시리즈에서 이 모델을 처음부터 구현하는 전체 로드맵을 제공한다. | |
| May 10, 2026 | 텍스트 데이터 처리 파이프라인 — Ch.2 Overview | Deep Learning | LLM 학습을 위한 텍스트 데이터 처리의 전체 파이프라인을 개관한다. 원시 텍스트에서 토큰화, 토큰 ID 변환, 특수 토큰 추가, BPE 인코딩, 슬라이딩 윈도우 데이터 샘플링, 토큰 임베딩, 위치 임베딩까지의 과정을 다룬다. | |
| May 10, 2026 | Word Embeddings와 텍스트 토큰화 | Deep Learning | LLM 입력 처리의 첫 두 단계인 단어 임베딩의 개념과 텍스트 토큰화를 다룬다. 분포 의미론의 직관, 원-핫 인코딩의 한계, 밀집 벡터 표현의 이점, 그리고 정규표현식 기반 토큰화의 구현을 기술한다. | |
| May 10, 2026 | Token IDs, 특수 토큰, BPE | Deep Learning | 토큰을 정수 ID로 변환하는 과정, 특수 토큰(<|endoftext|>, <|unk|>)의 역할, 그리고 GPT-2가 사용하는 Byte Pair Encoding(BPE) 토큰화를 다룬다. tiktoken 라이브러리의 사용법과 BPE의 내부 동작을 설명한다. | |
| May 10, 2026 | 슬라이딩 윈도우와 토큰/위치 임베딩 | Deep Learning | LLM 사전학습을 위한 데이터 샘플링(슬라이딩 윈도우), PyTorch DataLoader 구현, 토큰 임베딩과 위치 임베딩의 합산으로 최종 입력 텐서를 구성하는 과정을 다룬다. GPT-2의 학습 가능한 절대 위치 임베딩을 구현한다. | |
| May 10, 2026 | Attention 메커니즘 단계별 구축 — Ch.3 Overview | Deep Learning | Attention 메커니즘의 핵심 구성 요소를 단계적으로 구축하는 과정을 개관한다. 단순 self-attention에서 시작하여 학습 가능한 QKV 가중치, 인과 마스킹, 드롭아웃, 그리고 멀티헤드 attention까지 GPT에 사용되는 완전한 형태를 구현한다. | |
| May 10, 2026 | 단순 Self-Attention (학습 가중치 없이) | Deep Learning | 가장 단순한 형태의 self-attention을 단계별로 구현한다. 단일 쿼리에 대한 어텐션 점수 계산, 소프트맥스 정규화, 컨텍스트 벡터 생성을 다루며, 이후 학습 가능한 가중치가 필요한 이유를 직관적으로 설명한다. | |
| May 10, 2026 | 학습 가능한 QKV와 인과 어텐션 | Deep Learning | 학습 가능한 Query, Key, Value 가중치 행렬을 도입하고, 스케일링된 내적 어텐션을 구현한다. 자기회귀 생성을 위한 인과 마스킹(미래 토큰 차단)과 드롭아웃 정규화를 추가한다. | |
| May 10, 2026 | Multi-Head Attention (가중치 분할) | Deep Learning | 단일 어텐션 헤드를 다중 헤드로 확장하는 두 가지 방법을 구현한다. MultiHeadAttentionWrapper(헤드 스택)와 MultiHeadAttention(가중치 분할) 방식을 비교하고, GPT-2의 12-헤드 구현을 완성한다. | |
| May 10, 2026 | GPT-2 124M 아키텍처 — Ch.4 Overview | Deep Learning | GPT-2 124M 모델의 전체 아키텍처를 개관한다. LayerNorm, GELU 활성화, Shortcut connection, Transformer 블록, 최종 GPTModel 클래스 조립, 그리고 텍스트 생성까지의 구현을 다룬다. | |
| May 10, 2026 | LLM 아키텍처와 Layer Normalization | Deep Learning | GPT 모델의 전체 아키텍처 구조를 설명하고, 핵심 구성요소인 Layer Normalization의 수학적 원리와 구현을 다룬다. BatchNorm과의 차이, Pre-LN 배치의 이점을 기술한다. | |
| May 10, 2026 | GELU 활성화와 Feed-Forward Network, Shortcut Connection | Deep Learning | GPT의 Feed-Forward Network에서 사용하는 GELU 활성화 함수의 수학적 원리, 4배 확장-축소 구조의 FFN 설계, 그리고 Shortcut(Residual) Connection이 깊은 네트워크에서 그래디언트 흐름을 보장하는 원리를 다룬다. | |
| May 10, 2026 | Transformer Block 조립과 GPT 모델 완성 | Deep Learning | 개별 구성요소(MultiHeadAttention, FFN, LayerNorm, Shortcut)를 TransformerBlock으로 조립하고, 12개 블록을 쌓아 완전한 GPTModel을 구현한다. 최종적으로 greedy decoding 기반 텍스트 생성 함수를 작성한다. | |
| May 10, 2026 | 사전학습 전 과정 — Ch.5 Overview | Deep Learning | GPT 모델의 사전학습 전 과정을 개관한다. 손실 함수(Cross-Entropy), 평가 지표(Perplexity), 학습 루프 구현, 디코딩 전략(temperature, top-k), 모델 저장/로딩, OpenAI 가중치 변환을 다룬다. | |
| May 10, 2026 | Cross-Entropy Loss와 GPT 학습 루프 | Deep Learning | GPT 사전학습의 핵심인 Cross-Entropy 손실 함수의 수학적 원리, Perplexity 평가 지표, 그리고 완전한 학습 루프를 구현한다. 배치 처리, 그래디언트 업데이트, 학습/검증 손실 모니터링을 다룬다. | |
| May 10, 2026 | 디코딩 전략과 모델 저장·OpenAI 가중치 로딩 | Deep Learning | 텍스트 생성의 디코딩 전략(temperature scaling, top-k sampling)을 구현하고, 학습된 모델의 저장/로딩, 그리고 OpenAI의 GPT-2 사전학습 가중치를 우리 모델에 로딩하는 과정을 다룬다. | |
| May 10, 2026 | 분류 파인튜닝 — Ch.6 Overview | Deep Learning | 사전학습된 GPT 모델을 텍스트 분류에 파인튜닝하는 전체 과정을 개관한다. 분류 헤드 설계, 마지막 토큰 표현 활용, SMS Spam 데이터셋 처리, 학습 루프, 평가 파이프라인을 다룬다. | |
| May 10, 2026 | SMS Spam 분류 — 데이터 준비부터 평가까지 | Deep Learning | GPT 모델을 SMS Spam 분류에 파인튜닝하는 전체 파이프라인을 구현한다. 데이터셋 다운로드, 전처리, 토큰화/패딩, DataLoader 구성, 분류 헤드 추가, 학습 루프, 정확도 평가까지 end-to-end로 다룬다. | |
| May 10, 2026 | Instruction Fine-tuning — Ch.7 Overview | Deep Learning | 사전학습된 GPT 모델을 instruction-following 모델로 변환하는 전체 과정을 개관한다. Instruction 데이터 포맷, Alpaca 프롬프트 템플릿, instruction 부분의 loss 마스킹, 학습 파이프라인, 그리고 Ollama를 활용한 자동 평가를 다룬다. | |
| May 10, 2026 | Alpaca 스타일 Instruction Tuning 구현 | Deep Learning | Alpaca 스타일의 1,100쌍 instruction 데이터셋을 활용하여 GPT 모델을 instruction-following 모델로 파인튜닝하는 전체 파이프라인을 구현한다. 프롬프트 포맷팅, 가변 길이 배치 처리, loss 마스킹, Ollama 자동 평가를 다룬다. | |
| May 10, 2026 | Cosine Annealing, LR Warmup, Gradient Clipping | Deep Learning | LLM 학습의 안정성과 성능을 높이는 세 가지 핵심 기법을 구현한다. Cosine annealing 학습률 스케줄, Linear warmup, Gradient clipping의 수학적 원리와 PyTorch 구현, 효과 시각화를 다룬다. | |
| May 10, 2026 | LoRA — Low-Rank Adaptation | Deep Learning | 대형 모델의 효율적 파인튜닝 기법인 LoRA의 수학적 원리와 구현을 다룬다. 가중치 행렬의 Low-Rank 분해, LoRA 레이어 설계, GPT 모델 적용, 학습 가능 파라미터 수 비교, 그리고 실제 파인튜닝 결과를 기술한다. | |
| May 10, 2026 | 자연어 처리(NLP) 개요 | Deep Learning | 자연어 처리(Natural Language Processing)의 전체 그림을 제공한다. NLP의 정의, 역사적 발전(규칙 기반 → 통계적 → 신경망), 주요 태스크(분류, 번역, QA, 요약), 언어의 계층적 구조(음운 → 형태소 → 구문 → 의미 → 화용), 그리고 현대 NLP의 핵심인 사전학습-파인튜닝 패러다임을 개관한다. | |
| May 10, 2026 | LLM의 구조적 한계 | Deep Learning | 대규모 언어 모델(LLM)의 구조적·본질적 한계를 체계적으로 분석한다. 환각 (hallucination), 제한된 컨텍스트 윈도우, 정렬(alignment) 문제, 추론 능력의 한계, 지식 최신성 문제, 그리고 안전성과 편향 문제를 다루며, 각 한계에 대한 현재의 해결 시도를 함께 기술한다. | |
| May 10, 2026 | 토큰화와 텍스트 전처리 | Deep Learning | NLP 파이프라인의 첫 단계인 토큰화(tokenization)를 다룬다. 단어 단위, 서브워드 단위, 문자 단위 토큰화의 장단점을 비교하고, BPE, WordPiece, Unigram LM, SentencePiece 알고리즘의 작동 원리를 수식과 코드로 기술한다. | |
| May 10, 2026 | Word2Vec — Skip-gram과 CBOW | Deep Learning | 단어를 밀집 벡터(dense vector)로 표현하는 Word2Vec의 두 가지 아키텍처인 Skip-gram과 CBOW를 다룬다. 분포 가설(distributional hypothesis), softmax 목적함수, negative sampling 근사, 서브샘플링 기법의 수학적 유도와 직관적 해석을 제공하며, 학습된 임베딩의 의미 산술(king - man + woman ≈ queen)을 코드로 검증한다. | |
| May 10, 2026 | GloVe — Global Vectors for Word Representation | Deep Learning | Global Vectors for Word Representation(GloVe)의 원리를 다룬다. 전역 동시출현 행렬(co-occurrence matrix)로부터 단어 벡터를 학습하는 가중 최소제곱 목적함수를 유도하고, Word2Vec(local context)과 GloVe(global statistics)의 이론적 관계를 분석한다. 가중 함수 f(X_ij)의 설계 원리, bias 항의 역할, 그리고 analogy/similarity 벤치마크에서의 성능을 비교한다. | |
| May 10, 2026 | FastText와 서브워드 임베딩 | Deep Learning | Facebook AI Research의 FastText 모델을 다룬다. 단어를 문자 n-gram의 합으로 표현하는 서브워드(subword) 접근법, OOV(Out-of-Vocabulary) 처리 능력, 형태소가 풍부한 언어(한국어, 터키어 등)에서의 이점, 그리고 Word2Vec/GloVe와의 성능·특성 비교를 기술한다. | |
| May 10, 2026 | 문맥적 임베딩 개요 — Static에서 Contextual로 | Deep Learning | 정적 임베딩(Word2Vec, GloVe)에서 문맥적 임베딩(ELMo, BERT)으로의 패러다임 전환을 다룬다. 정적 임베딩의 다의어(polysemy) 한계, ELMo의 biLSTM 기반 문맥 벡터, CoVe(Contextualized Vectors), 그리고 사전학습-파인튜닝 (pretrain-finetune) 패러다임이 NLP를 어떻게 변화시켰는지 설명한다. | |
| May 10, 2026 | 사전학습 언어 모델(PLM) 개요 | Deep Learning | 사전학습 언어 모델(Pretrained Language Model, PLM)의 전체적 체계를 다룬다. PLM의 세 가지 아키텍처 유형(Encoder-only, Decoder-only, Encoder-Decoder), 사전학습 목적함수(MLM, CLM, Denoising), 그리고 사전학습 → 파인튜닝 → 프롬프팅의 패러다임 변천을 기술한다. | |
| May 10, 2026 | BERT — 양방향 사전학습의 혁명 | Deep Learning | Bidirectional Encoder Representations from Transformers(BERT)를 상세히 다룬다. Masked Language Modeling(MLM)과 Next Sentence Prediction(NSP)의 사전학습 목적함수, WordPiece 토큰화, 입력 표현(토큰+세그먼트+위치), 파인튜닝 전략, 그리고 GLUE/SQuAD 벤치마크에서의 성과를 기술한다. | |
| May 10, 2026 | XOR과 비선형 변환 – 왜 은닉층이 필요한가 | Deep Learning | XOR 문제를 통해 선형 모델의 근본적 한계를 보이고, 은닉층과 비선형 활성화 함수가 어떻게 입력 공간을 변환하여 선형 분리 불가능한 문제를 해결하는지 수학적으로 유도한다. | |
| May 10, 2026 | 기울기 소실/폭발과 Saddle Points | Deep Learning | 기울기 소실(vanishing gradient)과 기울기 폭발(exploding gradient)의 수학적 원인을 분석하고, 고차원 손실 표면에서 saddle point의 빈번성, gradient clipping, skip connection 등 해결 전략을 다룬다. | |
| May 10, 2026 | SGD, 모멘텀, Nesterov 가속 | Deep Learning | 확률적 경사 하강법(SGD), 모멘텀(Momentum), Nesterov 가속 경사법(NAG)의 수학적 유도와 직관적 해석, 수렴 속도 분석, 하이퍼파라미터 선택 가이드를 다룬다. | |
| May 10, 2026 | AdaGrad, RMSProp, Adam, AdamW | Deep Learning | 파라미터별 학습률을 자동 조절하는 적응적 옵티마이저의 계보를 추적한다. AdaGrad의 누적 제곱합, RMSProp의 지수 감쇠, Adam의 1차-2차 모멘트 결합, AdamW의 분리된 가중치 감쇠까지 수학적 유도와 직관적 해석을 다룬다. | |
| May 10, 2026 | 배치 정규화 (Batch Normalization) | Deep Learning | 배치 정규화(Batch Normalization)의 수학적 원리, 학습/추론 모드의 차이, Internal Covariate Shift 가설, 손실 표면 평활화 관점의 현대적 해석, Layer Normalization 등 변형까지 다룬다. | |
| May 10, 2026 | 활성화 함수 – ReLU, Sigmoid, GELU, Maxout | Deep Learning | 신경망의 비선형성을 제공하는 활성화 함수들을 체계적으로 분류하고, 각 함수의 수학적 정의, 도함수, 장단점을 비교한다. ReLU 계열, 시그모이드 계열, GELU, Maxout까지 다루며 실제 네트워크에서의 선택 기준을 제시한다. | |
| May 10, 2026 | 출력 유닛 – Linear, Sigmoid, Softmax | Deep Learning | 회귀, 이진 분류, 다중 분류 문제에 적합한 출력 유닛을 정의하고, 각 출력 유닛이 어떤 확률 분포를 가정하며 왜 특정 손실 함수와 결합되는지 MLE 관점에서 유도한다. | |
| May 10, 2026 | 범용 근사 정리와 깊이의 의미 | Deep Learning | 범용 근사 정리(Universal Approximation Theorem)의 의미와 한계를 설명하고, 깊이가 표현력과 효율성에 미치는 영향을 분석한다. 넓은 얕은 네트워크 vs 좁은 깊은 네트워크의 파라미터 효율 비교와 깊이의 지수적 표현력 이점을 수학적으로 보인다. | |
| May 10, 2026 | 역전파 알고리즘 유도 – 계산 그래프와 chain rule | Deep Learning | 역전파(backpropagation) 알고리즘을 계산 그래프와 chain rule에서 단계별로 유도한다. 순전파로 손실을 계산하고, 역전파로 기울기를 효율적으로 구하는 과정을 수식과 코드로 완전히 분해한다. PyTorch autograd와의 대응도 보인다. | |
| May 10, 2026 | L1/L2 정규화와 Weight Decay | Deep Learning | L2 정규화(Ridge)와 L1 정규화(Lasso)의 수학적 정의, 기울기에 미치는 영향, 고유값 분해를 통한 해석, MAP 추정과의 연결, 그리고 AdamW에서의 decoupled weight decay까지 체계적으로 다룬다. | |
| May 10, 2026 | Dropout, 데이터 증강, Label Smoothing | Deep Learning | Dropout의 앙상블 해석, inverted dropout 구현, 데이터 증강의 종류와 원리, label smoothing의 교정 효과를 다룬다. 각 기법이 과적합을 방지하는 메커니즘을 수학적으로 분석한다. | |
| May 10, 2026 | Early Stopping과 Adversarial Training | Deep Learning | Early stopping의 메커니즘, L2 정규화와의 수학적 동치성, patience 기반 구현을 설명하고, adversarial example의 정의, FGSM 공격, 적대적 훈련의 정규화 효과를 다룬다. | |
| May 10, 2026 | 가중치 초기화 – Xavier, He, 대칭성 깨뜨리기 | Deep Learning | 가중치 초기화가 왜 중요한지, 대칭성 깨뜨리기의 필요성, Xavier(Glorot)과 He 초기화의 수학적 유도, 그리고 다양한 활성화 함수에 맞는 초기화 전략을 다룬다. | |
| May 10, 2026 | 학습 알고리즘의 정의 | Deep Learning | 머신러닝 알고리즘이란 무엇인가? Tom Mitchell의 형식적 정의부터 지도·비지도·강화학습의 구분, 디자인 행렬과 데이터 표현까지, 딥러닝의 전제가 되는 머신러닝의 기본 프레임워크를 정리한다. | |
| May 10, 2026 | Capacity, 과적합, 편향-분산 트레이드오프 | Deep Learning | 모델이 학습 데이터에서는 완벽하지만 새로운 데이터에서 실패하는 이유는 무엇인가? 이 글에서는 모델 용량(capacity), 과적합/과소적합, 편향-분산 분해, VC 차원, 정규화의 역할까지, 일반화의 수학적 프레임워크를 정리한다. | |
| May 10, 2026 | MLE와 MAP — DL 손실 함수의 확률적 해석 | Deep Learning | MLE와 MAP를 확률론적 관점에서 정의하고, DL 손실 함수(MSE, Cross-Entropy)가 어떻게 MLE의 특수 사례인지 유도한다. MAP와 정규화의 관계를 통해 weight decay의 확률적 근거를 제시한다. | |
| May 10, 2026 | SGD와 미니배치 – 차원의 저주와 매니폴드 가설 | Deep Learning | SGD와 미니배치의 수학적 기초를 다루고, 차원의 저주가 왜 전통 ML을 어렵게 만드는지 설명한다. 매니폴드 가설을 통해 딥러닝이 고차원에서도 작동하는 이유를 직관적으로 이해한다. | |
| May 10, 2026 | 선형 회귀를 신경망으로 이해하기 | Deep Learning | 선형 회귀를 단일 뉴런 신경망으로 재해석하고, MSE 손실의 유도, 정규방정식(Normal Equation), 경사하강법 학습, Weight Decay(L2 정규화)를 DL 프레임워크 관점에서 통합적으로 설명한다. | |
| May 10, 2026 | 소프트맥스 회귀와 분류 – 교차 엔트로피 유도 | Deep Learning | 소프트맥스 함수의 수학적 정의와 직관적 해석, Cross-Entropy 손실의 유도, 수치적으로 안정한 LogSumExp 트릭, 그리고 분류 신경망의 전체 파이프라인을 NumPy와 PyTorch로 구현한다. | |
| May 10, 2026 | Distribution Shift와 공정성 | Deep Learning | 학습 데이터와 배포 환경의 분포 차이(distribution shift)를 유형별로 분류하고, 각 이동에 대한 탐지와 대응 전략을 설명한다. ML 공정성(fairness)의 수학적 정의와 실무 적용을 다룬다. | |
| May 10, 2026 | HPO – Random Search, Successive Halving, ASHA | Deep Learning | 하이퍼파라미터 최적화(HPO)의 필요성과 주요 알고리즘을 다룬다. Grid Search의 한계, Random Search의 이점, Successive Halving의 자원 효율성, ASHA의 비동기 병렬화를 수학적 근거와 함께 설명한다. | |
| May 10, 2026 | DL을 위한 선형대수 | Deep Learning | 딥러닝의 모든 연산은 선형대수 위에서 작동한다. 이 글에서는 스칼라, 벡터, 행렬, 텐서의 정의부터 노름, 고유값 분해, 특이값 분해(SVD)까지, 딥러닝에서 실제로 사용되는 선형대수 개념을 수식과 PyTorch 코드로 정리한다. | |
| May 10, 2026 | DL을 위한 확률과 통계 | Deep Learning | 딥러닝의 손실 함수, 생성 모델, 베이지안 추론은 모두 확률론에 기반한다. 이 글에서는 확률 변수, 주요 분포, 기대값과 분산, 베이즈 정리, KL 발산까지 딥러닝에서 실제로 사용되는 확률·통계 개념을 수식과 PyTorch 코드로 정리한다. | |
| May 10, 2026 | 정보이론 기초 | Deep Learning | 딥러닝의 크로스 엔트로피 손실은 정보이론에서 유래한다. 이 글에서는 정보량, 엔트로피, 교차 엔트로피, KL 발산, 상호 정보량의 정의와 직관을 정리하고, 이들이 딥러닝의 학습 목표와 어떻게 연결되는지 설명한다. | |
| May 10, 2026 | 수치계산 — 오버플로, 조건수, 소프트맥스 안정화 | Deep Learning | 부동소수점 연산의 한계를 이해하지 못하면, 학습 중에 NaN이 발생하거나 기울기가 폭발/소멸하는 문제를 해결할 수 없다. 이 글에서는 오버플로/언더플로, 수치 안정적 소프트맥스, 조건수, 수치적 기울기 검증까지 딥러닝 실무에 필수적인 수치계산 개념을 정리한다. | |
| May 10, 2026 | 경사 기반 최적화와 라그랑주 승수법 | Deep Learning | 딥러닝 학습은 곧 최적화이다. 이 글에서는 경사 하강법의 원리, 모멘텀·Adam 등 적응적 옵티마이저, 학습률 스케줄링, 라그랑주 승수법과 정규화의 연결까지, 딥러닝 최적화의 수학적 기초를 정리한다. | |
| May 10, 2026 | PyTorch 텐서와 자동미분 실습 | Deep Learning | 딥러닝 이론을 코드로 구현하려면 텐서 연산과 자동미분을 이해해야 한다. 이 글에서는 PyTorch의 텐서 생성·조작·브로드캐스팅, 자동미분(autograd)의 동작 원리, 계산 그래프, 커스텀 역전파까지 실습 중심으로 정리한다. | |
| May 10, 2026 | DL 수학 도구 종합 가이드 | Deep Learning | 딥러닝에 필요한 수학 도구를 한눈에 조감하는 종합 가이드이다. 각 수학 분야가 딥러닝의 어떤 구성 요소와 연결되는지를 정리하고, 이 시리즈와 Math·Statistics 카테고리의 관련 포스트를 체계적으로 cross-link한다. | |
| May 10, 2026 | 강화학습 문제 정의 — Agent·Environment·Policy·Value | Deep Learning | 강화학습의 기본 문제 정의를 다룬다. Agent와 Environment의 상호작용, 보상 신호, 정책(Policy), 가치 함수(Value Function), 모델(Model)의 개념을 설명하고, Tic-Tac-Toe 예제로 RL의 핵심 아이디어를 직관적으로 전달한다. | |
| May 10, 2026 | Policy Gradient 정리와 REINFORCE | Deep Learning | 정책을 직접 매개변수화하여 최적화하는 Policy Gradient 방법을 다룬다. Policy Gradient Theorem의 유도, REINFORCE 알고리즘, Baseline을 통한 분산 감소를 구현한다. | |
| May 10, 2026 | Actor-Critic과 Average Reward | Deep Learning | Actor-Critic 구조의 원리와 구현을 다룬다. TD error를 활용한 1-step Actor-Critic, Advantage function, Average Reward 설정, 연속 행동 공간의 정책 매개변수화를 설명한다. | |
| May 10, 2026 | DQN — Replay Buffer·Target Network·DDQN | Deep Learning | 딥러닝과 Q-learning을 결합한 Deep Q-Network(DQN)을 다룬다. Experience Replay, Target Network의 안정화 기법, Double DQN의 과대추정 해결, Atari 게임 적용을 구현한다. | |
| May 10, 2026 | A3C·PPO — Clipped Surrogate Objective | Deep Learning | 심층 정책 경사 알고리즘의 핵심인 A3C와 PPO를 다룬다. 비동기 병렬 학습(A3C), Generalized Advantage Estimation(GAE), Trust Region(TRPO), Clipped Surrogate(PPO)를 구현한다. | |
| May 10, 2026 | AlphaGo·AlphaZero — MCTS + Policy/Value Network | Deep Learning | DeepMind의 AlphaGo에서 AlphaZero까지의 발전을 다룬다. MCTS와 딥러닝의 결합, 자기대전(self-play)을 통한 초인적 바둑 AI, 도메인 지식 없는 AlphaZero의 범용성을 설명한다. | |
| May 10, 2026 | Multi-Armed Bandit — Exploration vs Exploitation | Deep Learning | Multi-Armed Bandit 문제를 통해 exploration과 exploitation의 근본적 딜레마를 소개한다. Action-value 추정, 증분 구현, 비정상(nonstationary) 환경에서의 적응을 다룬다. | |
| May 10, 2026 | Bandit 알고리즘 비교 — UCB·Gradient Bandit | Deep Learning | ε-greedy를 넘어서는 고급 Bandit 알고리즘을 다룬다. Upper Confidence Bound(UCB), Gradient Bandit 알고리즘, Associative Search(Contextual Bandit)를 구현하고 성능을 비교한다. | |
| May 10, 2026 | 유한 마르코프 결정 과정 (Finite MDP) — 상태·행동·보상 | Deep Learning | 강화학습의 수학적 프레임워크인 유한 마르코프 결정 과정(MDP)을 정의한다. 상태, 행동, 보상의 형식적 정의, 에피소드/연속 과제 구분, 할인 보상, 정책과 가치 함수의 개념을 다룬다. | |
| May 10, 2026 | 벨만 방정식 — 기대 방정식과 최적 방정식 유도 | Deep Learning | 강화학습의 수학적 핵심인 벨만 방정식을 유도한다. 벨만 기대 방정식(v_π, q_π)과 벨만 최적 방정식(v, q)의 관계, 최적 정책의 존재와 특성, 그리고 근사의 필요성을 다룬다. | |
| May 10, 2026 | 정책 반복 — 평가·개선 | Deep Learning | 동적 프로그래밍의 핵심 알고리즘인 정책 반복을 다룬다. 정책 평가(iterative policy evaluation), 정책 개선 정리(policy improvement theorem), 정책 반복(policy iteration)의 수렴성을 증명하고 구현한다. | |
| May 10, 2026 | 가치 반복과 일반화된 정책 반복 (GPI) | Deep Learning | 가치 반복(Value Iteration)과 일반화된 정책 반복(GPI) 프레임워크를 다룬다. 정책 평가를 한 번의 스윕으로 축소하는 아이디어, 비동기 DP, 그리고 모든 RL 방법의 통합 관점인 GPI를 설명한다. | |
| May 10, 2026 | 몬테카를로 예측과 제어 | Deep Learning | 모델 없이 경험으로부터 학습하는 몬테카를로(MC) 방법을 다룬다. MC 예측(가치 추정), MC 제어(정책 최적화), Exploring Starts, ε-soft 정책을 통한 exploration 보장을 구현한다. | |
| May 10, 2026 | 오프폴리시 몬테카를로와 중요도 샘플링 | Deep Learning | 행동 정책과 목표 정책이 다른 오프폴리시 학습의 핵심인 중요도 샘플링(Importance Sampling)을 다룬다. 일반 IS와 가중 IS의 차이, 분산 특성, 오프폴리시 MC 제어를 구현한다. | |
| May 10, 2026 | TD(0) — 부트스트래핑의 본질 | Deep Learning | 시간차 학습(Temporal-Difference Learning)의 가장 기본 형태인 TD(0)를 다룬다. 부트스트래핑의 핵심 아이디어, MC와 DP의 결합으로서의 TD, TD의 수렴 특성과 배치 TD의 최적성을 설명한다. | |
| May 10, 2026 | Sarsa와 Q-learning — 온폴리시 vs 오프폴리시 TD | Deep Learning | TD 제어 알고리즘의 두 축인 Sarsa(온폴리시)와 Q-learning(오프폴리시)를 다룬다. Expected Sarsa, Maximization Bias 문제와 Double Q-learning, Cliff Walking 환경에서의 비교 실험을 구현한다. | |
| May 10, 2026 | 적격 흔적 — TD(λ)의 두 관점 | Deep Learning | n-step TD에서 시작하여 TD(λ)까지의 적격 흔적(Eligibility Traces) 이론을 다룬다. 전방 관점(λ-return)과 후방 관점(eligibility trace)의 동치성, TD(0)와 MC를 잇는 스펙트럼으로서의 TD(λ)를 설명한다. | |
| May 10, 2026 | 적격 흔적 제어 알고리즘 | Deep Learning | 적격 흔적을 제어(Control) 문제에 적용하는 알고리즘들을 다룬다. Sarsa(λ), Watkins Q(λ), 오프폴리시 적격 흔적, 안정적 오프폴리시 방법을 구현한다. | |
| May 10, 2026 | 모델 기반 + 모델 프리 통합 — Dyna 아키텍처 | Deep Learning | 모델 기반과 모델 프리 학습을 통합하는 Dyna 아키텍처를 다룬다. 환경 모델 학습, Dyna-Q의 계획(planning) + 직접 학습(direct RL), Prioritized Sweeping으로의 확장을 구현한다. | |
| May 10, 2026 | MCTS — RL 관점에서 본 휴리스틱 탐색 | Deep Learning | 결정 시점의 계획(planning at decision time)을 다룬다. Heuristic Search, Rollout 알고리즘, Monte Carlo Tree Search(MCTS), UCT(UCB for Trees)를 RL 이론 관점에서 설명하고 구현한다. | |
| May 10, 2026 | 함수 근사 — Tile Coding·RBF·신경망 | Deep Learning | 대규모 상태 공간에서 가치 함수를 근사하는 방법을 다룬다. SGD 기반 가치 함수 근사, 선형 방법(Tile Coding, RBF), 비선형 근사(신경망), 반경사(semi-gradient) 제어를 구현한다. | |
| May 10, 2026 | 오프폴리시 + 함수 근사 + 부트스트래핑 = 발산 | Deep Learning | 오프폴리시 학습에서 함수 근사와 부트스트래핑이 결합될 때 발생하는 발산(divergence) 문제를 다룬다. Deadly Triad, Baird 반례, Gradient-TD 계열 해법을 설명한다. | |
| May 10, 2026 | 시퀀스 데이터와 자기회귀 모델 | Deep Learning | 시퀀스 데이터의 특성과 모델링 전략을 다룬다. 자기회귀(autoregressive) 모델의 정의, 마르코프 가정에 의한 단순화, 잠재 변수 모델, 그리고 언어 모델 평가 지표인 perplexity를 포함한다. | |
| May 10, 2026 | RNN 구조와 계산 그래프 펼침 | Deep Learning | 순환 신경망(RNN)의 핵심 구조를 다룬다. 계산 그래프의 시간 방향 펼침(unfolding), 매개변수 공유(parameter sharing)의 이유, 은닉 상태(hidden state)의 역할, 그리고 다양한 RNN 아키텍처 패턴을 기술한다. | |
| May 10, 2026 | RNN 언어 모델 | Deep Learning | 언어 모델의 기본 개념과 RNN 기반 언어 모델을 다룬다. n-gram 모델의 한계에서 출발하여 RNN이 가변 길이 문맥을 처리하는 방식, 퍼플렉서티(perplexity) 평가 지표, 그리고 문자 수준(character-level) 언어 모델의 구현까지 기술한다. | |
| May 10, 2026 | 시간 역전파(BPTT)와 기울기 클리핑 | Deep Learning | RNN 학습의 핵심 알고리즘인 시간 역전파(Backpropagation Through Time, BPTT)를 상세히 유도한다. 기울기 소실(vanishing gradient)과 기울기 폭발(exploding gradient) 문제의 수학적 원인을 분석하고, 기울기 클리핑 등 실용적 해결책을 제시한다. | |
| May 10, 2026 | LSTM: 장단기 기억 네트워크 | Deep Learning | Long Short-Term Memory(LSTM) 네트워크의 구조와 원리를 다룬다. 셀 상태(cell state)를 통한 기울기 고속도로, 세 가지 게이트(망각·입력·출력)의 역할, 그리고 LSTM이 기울기 소실 문제를 어떻게 해결하는지 수학적으로 분석한다. 1997년 Hochreiter와 Schmidhuber가 제안한 이래, LSTM은 시퀀스 모델링의 사실상 표준으로 자리잡았으며, 2017년 Transformer 등장 이전까지 NLP, 음성, 시계열 분야를 지배했다. | |
| May 10, 2026 | GRU: 게이트 순환 유닛 | Deep Learning | Gated Recurrent Unit(GRU)의 구조와 원리를 다룬다. LSTM의 3개 게이트를 2개로 통합한 설계, 리셋 게이트와 업데이트 게이트의 역할, LSTM과의 수학적·실용적 비교를 기술한다. Cho et al. (2014)가 제안한 GRU는 LSTM과 동등한 성능을 유지하면서 더 적은 파라미터로 효율적인 학습을 가능하게 한다. Chung et al. (2014)의 실험에서 GRU와 LSTM의 성능이 대부분의 태스크에서 통계적으로 유의미한 차이를 보이지 않음이 확인되었다. | |
| May 10, 2026 | ELMo: 문맥 임베딩의 시작 | Deep Learning | ELMo(Embeddings from Language Models)의 구조와 원리를 다룬다. 기존 정적 단어 임베딩(Word2Vec, GloVe)의 한계에서 출발하여, 양방향 LSTM 기반 언어 모델로 문맥 의존적 단어 표현을 생성하는 방법, 계층별 표현의 서로 다른 언어적 특성, 그리고 다운스트림 태스크에 ELMo를 적용하는 방식을 기술한다. Peters et al. (2018)의 ELMo는 사전학습-미세조정 패러다임의 시초로, 이후 GPT와 BERT로 이어지는 흐름의 출발점이다. | |
| May 10, 2026 | Seq2Seq: 인코더-디코더 구조 | Deep Learning | 시퀀스-투-시퀀스(Seq2Seq) 모델의 인코더-디코더 구조를 다룬다. 가변 길이 입력을 고정 크기 문맥 벡터로 압축하는 인코더, 문맥 벡터로부터 가변 길이 출력을 생성하는 디코더, Teacher Forcing 학습 전략, 그리고 Seq2Seq의 한계와 Attention 메커니즘으로의 발전을 기술한다. Sutskever et al. (2014)와 Cho et al. (2014)의 선구적 연구를 기반으로 한다. | |
| May 10, 2026 | Transformer 디코더 블록 | Deep Learning | Transformer 디코더의 세 가지 핵심 구성 요소를 분해한다. Masked Self-Attention으로 미래 토큰 차단, Cross-Attention으로 인코더 출력 참조, FFN으로 비선형 변환을 수행하는 과정을 기술한다. 인코더-디코더 간 정보 흐름, 학습 시 Teacher Forcing과 추론 시 Auto-Regressive 생성의 차이, KV 캐시 최적화를 설명한다. | |
| May 10, 2026 | Transformer 전체 아키텍처 | Deep Learning | Transformer의 전체 아키텍처를 통합적으로 설명한다. 인코더 N층과 디코더 N층의 연결 구조, 입력 임베딩과 위치 인코딩, 출력 소프트맥스 층, 학습 시의 label smoothing과 learning rate warmup, 추론 시의 빔 서치와 KV 캐시를 기술한다. “Attention Is All You Need” 원본 설정(d=512, h=8, N=6, dff=2048)의 설계 근거를 분석한다. | |
| May 10, 2026 | Layer Normalization과 Pre-LN vs Post-LN | Deep Learning | Transformer의 학습 안정성을 담당하는 Layer Normalization을 다룬다. BatchNorm과의 구조적 차이, LN의 수학적 정의, Pre-LN과 Post-LN 배치의 기울기 흐름 차이, RMSNorm의 단순화된 정규화, 그리고 현대 LLM에서의 정규화 전략을 기술한다. | |
| May 10, 2026 | Vision Transformer (ViT) | Deep Learning | 이미지를 패치 시퀀스로 변환하여 Transformer에 입력하는 Vision Transformer(ViT)를 다룬다. 패치 임베딩의 구조, CLS 토큰의 역할, 위치 임베딩의 학습, CNN 대비 장단점, 데이터 규모에 따른 성능 변화, 그리고 DeiT, Swin Transformer 등 후속 발전을 기술한다. | |
| May 10, 2026 | BERT, GPT, T5 개관: Transformer의 세 갈래 | Deep Learning | Transformer 아키텍처에서 파생된 세 가지 주요 모델 패밀리를 개관한다. 인코더 전용(BERT), 디코더 전용(GPT), 인코더-디코더(T5)의 구조적 차이, 사전 학습 목표(MLM, CLM, Span Corruption), 파인튜닝 전략, 그리고 각 패밀리의 강점과 적합한 태스크를 비교 분석한다. Phase G(NLP Pretraining)의 진입점으로서 전체 그림을 제공한다. | |
| May 10, 2026 | 위치 인코딩: 사인-코사인과 학습 기반 방식 | Deep Learning | Self-Attention의 순열 등변성(permutation equivariance) 문제를 해결하는 위치 인코딩을 다룬다. 사인-코사인 기반 절대 위치 인코딩의 수학적 설계, 학습 가능한 위치 임베딩과의 비교, 상대 위치 인코딩(RoPE, ALiBi)의 원리, 그리고 외삽(extrapolation) 문제와 해결 방안을 기술한다. | |
| May 10, 2026 | Transformer 인코더 블록 | Deep Learning | Transformer 인코더의 내부 구조를 상세히 분해한다. Multi-Head Self-Attention, Position-wise Feed-Forward Network, Layer Normalization, Residual Connection의 네 가지 구성 요소가 어떻게 결합되는지 수식과 코드로 기술한다. N개 블록 스택의 정보 흐름, 차원 불변성, Pre-LN vs Post-LN 배치의 영향을 설명한다. | |
| May 10, 2026 | Confounding — 역학 인과 추론의 구조적 이해 | Experimentation | 교란(confounding)의 구조적 정의를 DAG, 교환 가능성, 백도어 기준으로 정리한다. SWIG를 통해 반사실과 그래프의 통합을 보이고, 역학 실무(소방관·약물·흡연)에 적용한다. | |
| May 10, 2026 | Selection Bias — 역학 인과 추론에서의 선택 편향 | Experimentation | 선택 편향(selection bias)의 구조적 정의를 DAG의 충돌체 조건화로 정리한다. 추적 탈락, 자기 선택, 건강 근로자 편향, 환자-대조군 연구 등 역학 실무 사례를 다루고, IP 가중을 통한 보정 방법을 제시한다. | |
| May 10, 2026 | 인과-행동 프레임워크 — 역학과 비즈니스 인과 분석의 통합 | Experimentation | 인과-행동 프레임워크(Causal-Behavioral Framework)의 핵심 구조를 소개한다. 기술·예측·인과 세 유형의 분석을 비교하고, 회귀에서 교란과 과잉 변수 투입의 위험을 역학 사례와 비즈니스 사례로 설명한다. | |
| May 10, 2026 | 인과 다이어그램 — Chain·Fork·Collider의 정식 분류 | Experimentation | 인과 다이어그램(Causal Diagrams)의 세 가지 기본 구조인 chain, fork, collider를 정식으로 분류한다. DAG의 축소·확장·분할·집계 변환과 순환 구조 처리를 다루고, 각 구조의 역학 사례와 분석적 함의를 설명한다. | |
| May 10, 2026 | Deconfounding — DCC와 Backdoor Criterion | Experimentation | 교란 제거(deconfounding)를 위한 두 가지 변수 선택 기준을 비교한다. 비선택적 원인 기준(DCC)은 안전하지만 보수적이고, 백도어 기준(BC)은 정밀하지만 DAG 정확도에 의존한다. M-패턴과 역학 사례를 통해 실무적 적용을 다룬다. | |
| May 10, 2026 | Missing Data — 인과 다이어그램 기반 결측 분석 | Experimentation | 결측 데이터를 인과 다이어그램(DAG)의 관점에서 진단하고 처리하는 체계적 방법론을 다룬다. Rubin의 MCAR/MAR/MNAR 분류를 DAG로 표현하고, 각 유형에 적합한 처리법(완전 사례, 다중 대체, 보조 변수)을 비교한다. 역학 연구에서 결측이 인과 추론에 미치는 영향과 실무적 대응을 논의한다. | |
| May 10, 2026 | Bootstrap — 비모수 불확실성 측정과 인과 추론 응용 | Experimentation | Bootstrap은 분포 가정 없이 불확실성을 측정하는 컴퓨터 시뮬레이션 도구이다. 소표본·비정규·이상치 데이터에서 전통적 방법보다 강건한 신뢰구간과 p-value를 제공한다. 역학 관찰 연구와 실험 설계에서의 Bootstrap 활용을 비교 분석한다. | |
| May 10, 2026 | 인과 추론 종합 — 5권 교재 통합 프레임워크 | Experimentation | 역학 인과 추론의 다섯 교재(Schulz, Gordis, Woodward, Hernan, Buisson)가 제시하는 인과성 판단 체계를 통합 비교한다. Hill Criteria에서 DAG 기반 Backdoor Criterion과 DCC까지의 발전 과정을 정리하고, 역학과 비즈니스 인과 분석의 공통점과 차이점을 분석한다. | |
| May 10, 2026 | 개입 연구 개관 — Parallel Group, Cross-over, Sequential Design | Experimentation | 역학에서 개입 연구(임상시험)의 전체 구조를 개관한다. Parallel group, cross-over, sequential, stepped wedge, cluster randomised 등 다양한 설계 유형과 무작위 배정 기법(완전 무작위, 블록, 편향 동전, 최소화)을 수식과 직관적 설명으로 정리한다. | |
| May 10, 2026 | 개입 연구 심화 — 윤리, 편향 방지, 교차 분석, 축차 설계, 배정 기법 | Experimentation | 개입 연구의 심화 주제를 다룬다. Helsinki 선언 기반 윤리 프로토콜, 편향 방지 5원칙의 실제 적용, cross-over 시험의 선호도·이항 데이터 분석(Prescott·Gart 검정), 축차 설계의 삼각 검정·Haybittle-Peto·적응적 설계, 그리고 4가지 전역 배정 + 2가지 층화 배정 기법을 상세히 정리한다. | |
| May 10, 2026 | 표본 크기 결정 — 검정력, 평균·비율·상대위험·환자-대조군 | Experimentation | 역학 연구의 표본 크기 결정 방법을 체계적으로 정리한다. 검정력(power)의 개념과 결정 요인, 단일 평균·두 평균 비교·비율·상대위험·환자-대조군 연구별 표본 크기 공식, 최소 탐지 차이(MDD), 짝짓기 연구의 표본 크기, 복합 표집 설계의 설계 효과(deff)까지 수식과 직관적 해석을 통해 정리한다. | |
| May 10, 2026 | 양적 결과변수 모형 — ANOVA, 회귀, 상관, 일반선형모형 | Experimentation | 역학 데이터 분석에서 양적 결과변수(continuous outcome)를 모형화하는 기초를 체계적으로 다룬다. 일원 ANOVA의 SS 분해와 F 검정, 단순선형회귀의 최소제곱법, Pearson·Spearman 상관, 이원 ANOVA와 교호작용, Type I·III 제곱합, 최소제곱 평균(LS means), 비선형 회귀 변환, 결정계수(R²)의 의미와 한계를 수식, 직관적 해석, Python 코드와 함께 정리한다. | |
| May 10, 2026 | 양적 결과변수 모형 — 변수선택, 잔차진단, 교란, 스플라인, 패널 데이터 | Experimentation | 역학 회귀 모형의 고급 주제를 다룬다: 변수선택(전진·후진·단계적), AIC·BIC 정보기준, 잔차·영향력 진단, 교란 보정, 선형·제한 삼차 스플라인, GEE 패널 데이터 분석, Kruskal-Wallis 비모수 검정. | |
| May 10, 2026 | 이분형 결과변수 모형 — 로지스틱 회귀의 원리와 해석 | Experimentation | 이분형 결과변수(질병 유무)를 모형화하는 로지스틱 회귀의 기초를 다룬다: 표준 회귀의 세 가지 문제, 로지스틱 함수와 로짓, 이분·양적·범주형·서열 위험인자의 OR 해석, 일반(generic) 자료 형식, 다중 로지스틱 회귀, 편차(deviance) 기반 적합도·효과 검정. | |
| May 10, 2026 | 로지스틱 회귀 응용 — 교란, 교호작용, 양적 변수 처리, 모형 진단 | Experimentation | 로지스틱 회귀의 응용 주제를 다룬다: 교란 변수의 보정과 판단, 범주형×범주형·양적×범주형·양적×양적 교호작용, 양적 설명변수의 선형·범주형·스플라인 처리, 편차 잔차와 레버리지를 이용한 모형 진단, 측정 오차와 회귀 희석 보정. | |
| May 10, 2026 | 생존 모형 기초 — 위험 함수, 확률 모형, 비례 위험 회귀 | Experimentation | 추적 관찰 자료의 생존 모형을 다룬다: 생존 함수와 위험 함수의 정의, KM·인-시간·보험수리 추정법, 누적 위험과 Nelson-Aalen 추정, 지수 분포와 Weibull 분포, 비례 위험 가정과 회귀 모형의 구성(범주형·양적·다중 변수). | |
| May 10, 2026 | Cox 모형·Weibull 회귀·Poisson 회귀 — 생존 모형 실전 | Experimentation | 생존 모형의 실전 적용을 다룬다: Cox 비례 위험 모형의 부분 우도와 해석, 시간 의존 공변량, 반복 사건, Weibull PH 회귀의 모수 변환, LCH 플롯과 Schoenfeld 잔차를 이용한 모형 진단, 경쟁 위험과 Fine-Gray 모형, Poisson 회귀의 인-시간·SMR 분석, 풀링 로지스틱 회귀. | |
| May 10, 2026 | 메타분석 — 체계적 문헌 고찰, 효과 통합, 이질성, 출판 편향 | Experimentation | 역분산 가중, 고정·랜덤 효과 모형, Q·I² 이질성 지표, 메타회귀, 출판 편향 보정을 다룬다. | |
| May 10, 2026 | 위험 점수 모형 — 판별력, ROC, C-통계량, 보정력 | Experimentation | 위험 점수의 구축(로지스틱·Cox), 판별력(AUC/C-통계량), 민감도·특이도, OR과 판별력의 관계를 다룬다. | |
| May 10, 2026 | 위험 점수 응용 — 재보정, 재분류, 검증, Brier 점수 | Experimentation | 위험 점수의 재보정(평균·절편·로지스틱·Cox), 재분류 지표(NRI, IDI), 내부·외부 검증, Brier 점수, 포인트 스코어링을 다룬다. | |
| May 10, 2026 | Bootstrap — 재표본 신뢰구간과 순열 검정 | Experimentation | 역학 데이터에서 이론적 공식이 없거나 정규 분포 가정이 의심스러울 때 활용하는 컴퓨터 집약적 추론 방법을 다룬다. 부트스트랩 재표본 원리, 네 가지 신뢰구간 유형, 잭나이프 가속 계수, 순열 검정, 그리고 Monte Carlo 검정의 실전 적용을 상세히 설명한다. | |
| May 10, 2026 | 결측값과 다중 대입 — MCAR·MAR·NMAR, Rubin 공식, MICE | Experimentation | 역학 데이터에서 피할 수 없는 결측값을 체계적으로 처리하는 방법을 다룬다. 결측 메커니즘(MCAR, MAR, NMAR)의 정의와 판별, 완전 사례 분석과 단순 대입의 한계, 그리고 다중 대입(MI)의 이론과 실전 적용을 Rubin 공식, PMM, MICE를 중심으로 상세히 설명한다. | |
| May 10, 2026 | 역학의 기초 — 정의, Doll-Hill 연구, 인과성의 원칙 | Experimentation | 역학의 정의(분포와 결정 인자), Doll-Hill의 흡연-폐암 연구 (환자-대조군 1950 + 코호트 1951~2004), 모집단·표본, 발생률·유병률, 위험 인자 측정, Hill의 인과성 7원칙, 연구 설계 계층을 다룬다. Woodward (2014) Ch.1을 기반으로 한다. | |
| May 10, 2026 | 역학 응용 — 모집단·표본·발생률·유병률·일상 자료 | Experimentation | 역학의 실용적 측면을 다룬다. 모집단·표본 설계(층화·군집), 발생률·유병률의 정의·측정·관계, 질병 빙산의 실무 함의, 위험 인자 측정의 편향, 일상 자료(사망 증명서, 질병 등록, NHANES, GLOBOCAN)의 활용과 한계, 생태학적 분석의 장단점을 다룬다. Woodward (2014) Ch.1 §1.3~1.9를 기반으로 한다. | |
| May 10, 2026 | 기본 분석 절차 — 변수 유형, 빈도표, 카이제곱 검정 | Experimentation | 역학 자료의 기본 분석 절차를 다룬다. 변수 유형 계층(연속→서열→범주→이진), 빈도표·막대그래프 작성 규칙, 카이제곱 독립성 검정, 비율의 신뢰구간과 가설검정, 두 비율 비교(z-검정)를 SHHS 데이터로 예시한다. Woodward (2014) Ch.2 §2.1~2.5를 기반으로 한다. | |
| May 10, 2026 | 양적 변수 분석 — 기술 통계, 정규성, 변환, 비모수, 일치도 | Experimentation | 양적 변수의 기술적 요약(5수 요약, 상자그림, 평균·표준편차), 정규성 평가(왜도, 정규 플롯, 히스토그램), 데이터 변환(로그·제곱근), 비모수 검정(Wilcoxon), 일치도 측정(Bland-Altman, Cohen’s kappa)을 다룬다. Woodward (2014) Ch.2 §2.6~2.9를 기반으로 한다. | |
| May 10, 2026 | 위험 측정 — Risk, Relative Risk, Odds Ratio, 선형 추세 검정 | Experimentation | 2×2 표에서 위험(risk), 상대 위험(relative risk), 오즈비(odds ratio)를 계산하고 신뢰구간을 구성하는 방법을 다룬다. 희귀 질병 근사, 유병률 연구의 주의점, 연속 위험 요인의 그룹화, 선형 추세 검정, 비선형 검정을 포함한다. Woodward (2014) Ch.3 §3.1~3.6을 기반으로 한다. | |
| May 10, 2026 | 귀속 위험, 율, 율비, 차이 척도 | Experimentation | 귀속 위험(attributable risk)의 정의와 해석, 질병 율(rate)과 상대 율(relative rate), 위험 차이(risk difference)와 절대적·상대적 척도의 비교를 다룬다. Woodward (2014) Ch.3 §3.7~3.9를 기반으로 한다. | |
| May 10, 2026 | 교란의 개념 — 정의, 식별, 경로 다이어그램, 평가 전략 | Experimentation | 교란(confounding)의 정의, 가짜 연관과 숨겨진 연관의 사례, 경로 다이어그램을 통한 교란 변수 식별 조건, 층화 분석과 교란 평가 전략을 다룬다. Woodward (2014) Ch.4 §4.1~4.4를 기반으로 한다. | |
| May 10, 2026 | 표준화 — 직접 표준화, 간접 표준화, SMR | Experimentation | 교란 보정의 고전적 기법인 표준화를 다룬다. 직접 표준화(연구 인구의 연령별 율을 표준 인구에 적용), 간접 표준화(표준 인구의 연령별 율을 연구 인구에 적용 → SMR), 위험의 표준화를 포함한다. Woodward (2014) Ch.4 §4.5를 기반으로 한다. | |
| May 10, 2026 | Mantel-Haenszel 보정과 교호작용 검정 | Experimentation | 층화 분석에서 교란을 보정하는 Mantel-Haenszel 요약 추정치(OR, RR), Cochran-Mantel-Haenszel 검정, 교호작용(interaction)의 개념과 검정을 다룬다. 승법 모형과 가법 모형의 차이, 교호작용 다이어그램 해석을 포함한다. Woodward (2014) Ch.4 §4.6~4.8을 기반으로 한다. | |
| May 10, 2026 | 코호트 연구 설계와 생존 분석 — 생명표, Kaplan-Meier, Log-Rank | Experimentation | 코호트 연구의 설계 원리(장단점, 대안 설계, 고정·가변 코호트), 생명표(actuarial method), Kaplan-Meier 추정, log-rank 검정을 다룬다. 중도절단(censoring)과 철회(withdrawal)의 처리를 포함한다. Woodward (2014) Ch.5 §5.1~5.5를 기반으로 한다. | |
| May 10, 2026 | 경쟁 위험과 인구-시간 분석 — Competing Risk, Person-Years, SMR | Experimentation | 경쟁 위험(competing risk)과 원인별 추정, 인구-시간(person-years) 발생률, 연령별 율, SMR, MH 율비 추정과 동질성 검정을 다룬다. Woodward (2014) Ch.5 §5.5~5.8을 기반으로 한다. | |
| May 10, 2026 | 환자-대조군 연구 — 설계, 분석, 짝짓기, 중첩 설계 | Experimentation | 환자-대조군(case-control) 연구의 기본 설계, OR 추정의 논리, 편향 유형(Berkson’s bias, 기억 편향), 환자와 대조군 선정, 짝짓기(1:1, 1:c) 분석과 McNemar 검정, 중첩 CC 설계를 다룬다. Woodward (2014) Ch.6을 기반으로 한다. | |
| May 10, 2026 | 타당도 4유형 — 실험 설계의 논리와 역학 적용 | Experimentation | 실험 설계에서 추론의 타당도를 위협하는 요인을 4가지 유형(통계적 결론 타당도, 내적 타당도, 구성 타당도, 외적 타당도)으로 분류하고, 각 유형의 역학 연구 적용을 분석한다. Maxwell Ch.1과 Schulz Ch.3의 비뚤림 분류를 통합하여 역학-실험 설계의 공통 기반을 정리한다. | |
| May 10, 2026 | ANCOVA와 Lord’s Paradox — 공변량 보정의 역학 적용 | Experimentation | 공분산분석(ANCOVA)은 사전 측정이나 개인차를 통계적으로 보정하여 처리 효과를 더 정밀하게 추정하는 방법이다. Lord’s Paradox를 통해 비무작위 연구에서 ANCOVA와 변화 점수 분석이 왜 다른 결론을 내릴 수 있는지를 이해하고, 역학 관찰 연구에서의 시사점을 분석한다. | |
| May 10, 2026 | Random/Nested Factors와 Cluster RCT — 군집 수준 분석의 역학 적용 | Experimentation | 실험 설계에서 요인의 수준이 관심 모집단의 표본인 경우 무선 효과 모형을 적용한다. 군집 무작위 시험(Cluster RCT)에서 개체가 군집에 내포된 구조를 이해하고, 급내 상관 계수(ICC)와 설계 효과가 표본 크기와 검정력에 미치는 영향을 분석한다. | |
| May 10, 2026 | 5권 통합 종합 — Schulz·Gordis·Woodward·Hernan·Maxwell의 역학 매핑 | Experimentation | Epidemiology 카테고리의 5권 교재(Schulz, Gordis, Woodward, Hernan/Robins, Maxwell/Delaney)가 역학의 각 영역을 어떻게 다루는지를 체계적으로 매핑한다. Phase A부터 G까지의 전체 학습 구조를 조감하고, 5권의 강점·한계·보완 관계를 정리한다. | |
| May 10, 2026 | 3 Lens 메타 종합 — 역학·인과추론·실험설계의 통합 조망 | Experimentation | Epidemiology 카테고리 전체(Phase A~G, 69편)를 역학·인과추론·실험설계의 3개 렌즈로 메타 수준에서 조망한다. 각 렌즈의 고유한 질문·방법론·한계를 비교하고, 3개 렌즈의 교차 영역에서 생기는 통찰을 정리한다. 시리즈의 마지막 포스트이다. | |
| May 10, 2026 | Overview of Supervised Learning — 지도 학습의 전체 구조 | Machine Learning | Hastie et al. ESL Ch.2의 전체 구조를 개관한다. 지도 학습의 형식적 정의(입력, 출력, hypothesis class), 최소제곱과 KNN이라는 두 극단의 알고리즘, 통계적 결정이론에서의 최적 예측, 차원의 저주, 그리고 Bias-Variance Trade-off까지를 하나의 흐름으로 연결한다. | |
| May 10, 2026 | Introduction and Variable Types — 지도 학습의 기본 구조와 변수 유형 | Machine Learning | ESL Ch.2의 첫 두 절을 다룬다. 지도 학습이란 무엇인지 형식적으로 정의하고, 변수 유형(양적/질적/순서형)에 따라 회귀와 분류가 어떻게 구분되는지 이해한다. 더미 코딩, 표기법(X, Y, G, N, p), 학습 데이터의 구조를 정립한다. | |
| May 10, 2026 | Least Squares, KNN, and Statistical Decision Theory — 두 극단의 알고리즘과 최적 예측 | Machine Learning | ESL Ch.2의 핵심 두 절을 다룬다. 최소제곱(Least Squares)과 K-최근접 이웃(KNN)이라는 두 극단의 알고리즘을 수식으로 유도하고, 통계적 결정이론을 통해 “최적의 예측이란 무엇인가?”를 형식적으로 답한다. | |
| May 10, 2026 | Curse of Dimensionality and Statistical Models — 고차원의 저주와 통계적 모형화 | Machine Learning | ESL Ch.2의 핵심 전환점을 다룬다. §2.5에서 차원의 저주가 KNN을 무력화하는 메커니즘을 정량적으로 분석하고, §2.6에서 이 문제의 해결책으로서 통계적 모형 (가법 오차 모형, 기저 확장, 최대 우도)을 도입한다. | |
| May 10, 2026 | Structured Regression and Restricted Estimators — 구조적 회귀와 제한 추정 | Machine Learning | ESL Ch.2의 실무적 전환점을 다룬다. §2.7에서 “왜 구조적 가정이 필요한가?”를 형식화하고, §2.8에서 세 가지 주요 제한 추정 클래스 — 조도 벌점, 커널/국소 회귀, 기저 확장/사전 방법 — 을 소개한다. | |
| May 10, 2026 | Model Selection and Bias-Variance Trade-off — 모형 선택과 편향-분산 상충 | Machine Learning | ESL Ch.2의 최종 결론을 다룬다. §2.9에서 Bias-Variance trade-off를 KNN을 통해 형식적으로 유도하고, 모형 복잡도와 테스트 오차의 U자형 관계를 확립한다. 이 원리가 모든 ML 알고리즘의 하이퍼파라미터 선택을 관통한다. | |
| May 10, 2026 | Machine Learning 카테고리 개관 — 14 Phase 학습 로드맵 | Machine Learning | Machine Learning 카테고리의 진입점이다. 14개 Phase로 구성된 학습 로드맵을 제시하고, 10권의 표준 교재가 각 Phase에서 어떤 역할을 하는지 매핑한다. 독자의 배경과 목표에 따라 최적의 학습 경로를 안내한다. | |
| May 10, 2026 | Linear Methods for Regression — 선형 회귀의 전체 구조 | Machine Learning | ESL Ch.3의 전체 구조를 개관한다. 선형 회귀의 최소제곱 추정에서 출발하여, 부분집합 선택(subset selection)과 축소 방법(shrinkage methods)이라는 두 가지 정규화 전략으로 확장하고, Ridge, Lasso, Elastic Net, LARS의 관계를 정리한다. | |
| May 10, 2026 | Introduction and Linear Regression — 선형 회귀의 기초 이론 | Machine Learning | 선형 회귀의 완전한 이론적 기초를 다룬다. 최소제곱의 두 가지 기하학적 해석, 정규 방정식의 유도, z-검정과 F-검정, Gauss-Markov 정리와 그 한계, 그리고 그람-슈미트 직교화를 통한 다중 회귀의 이해를 상세히 전개한다. | |
| May 10, 2026 | Subset Selection and Shrinkage — 부분집합 선택과 축소 방법 | Machine Learning | 변수 선택의 두 전략을 대비한다. 부분집합 선택(Best Subset, Forward/Backward Stepwise)의 이산적 접근과, 축소 방법(Ridge, Lasso, Elastic Net)의 연속적 접근을 비교하고, 직교 해, 기하학적 해석, 베이즈 관점을 상세히 전개한다. | |
| May 10, 2026 | Derived Input Directions and Method Comparison — PCR, PLS, 방법 비교 | Machine Learning | 유도 입력 방향(derived input directions)을 이용한 차원 축소 회귀를 다룬다. 주성분 회귀(PCR)와 편최소제곱(PLS)의 알고리즘과 수학적 원리를 전개하고, Ridge, Lasso, Best Subset, PCR, PLS의 축소 행동을 체계적으로 비교한다. | |
| May 10, 2026 | Multiple Output Shrinkage and Lasso Path Algorithms — 다중 출력 축소와 경로 알고리즘 | Machine Learning | 다중 출력 회귀에서의 축소와 선택(축소-랭크 회귀, CCA), 그리고 Lasso 경로를 효율적으로 계산하는 LARS 알고리즘과 그 변형(FS₀, Grouped Lasso, Dantzig Selector)을 상세히 다룬다. | |
| May 10, 2026 | Computational Considerations — 선형 회귀의 계산적 고려 사항 | Machine Learning | 선형 회귀의 다양한 추정 방법에 대한 계산적 고려 사항을 총정리한다. Cholesky, QR, SVD 분해의 비용과 수치 안정성을 비교하고, Ridge/Lasso/LARS의 계산 전략, 그리고 대규모 데이터에서의 확장성을 다룬다. | |
| May 10, 2026 | Linear Methods for Classification — 선형 분류 방법 개관 | Machine Learning | ESL Ch.4는 분류를 위한 선형 방법들을 다룬다. 지시행렬 회귀, 선형 판별 분석(LDA), 로지스틱 회귀, 분리 초평면의 네 가지 접근법을 비교하고, 각각의 강점과 한계를 통합적으로 조망한다. | |
| May 10, 2026 | Introduction and Indicator Matrix — 분류 도입과 지시행렬 회귀 | Machine Learning | 분류를 위한 선형 방법의 기본 개념을 정립한다. 결정 경계의 선형성, 판별 함수 접근법을 도입하고, 지시행렬에 대한 OLS 회귀가 왜 K≥3에서 실패하는지(마스킹 문제)를 상세히 분석한다. | |
| May 10, 2026 | LDA and Logistic Regression — 선형 판별 분석과 로지스틱 회귀 | Machine Learning | 선형 분류의 두 핵심 방법인 LDA와 로지스틱 회귀를 상세히 다룬다. 가우시안 생성 모형에서 판별 함수를 유도하고, Fisher의 판별 분석으로 차원 축소를 수행하며, IRLS를 통한 로지스틱 회귀 최적화와 L₁ 정규화, 그리고 두 방법의 근본적 차이를 비교한다. | |
| May 10, 2026 | Separating Hyperplanes — 퍼셉트론과 최적 분리 초평면 | Machine Learning | 확률 모형을 세우지 않고 결정 경계를 직접 탐색하는 두 가지 방법을 다룬다. Rosenblatt의 퍼셉트론 학습 알고리즘과 Vapnik의 최적 분리 초평면을 유도하고, 라그랑주 쌍대 문제, 서포트 벡터, KKT 조건을 통해 서포트 벡터 머신(SVM)의 수학적 기초를 완성한다. | |
| May 10, 2026 | Model Assessment and Selection — 모형 평가와 선택 개관 | Machine Learning | ESL Ch.7 전체를 조감한다. 훈련 오류와 테스트 오류의 괴리에서 출발하여, 편향-분산 분해, 낙관주의, 정보 기준(AIC/BIC/MDL), 교차 검증, 부트스트랩까지 모형 선택과 평가의 핵심 이론과 실무 방법을 통합적으로 정리한다. | |
| May 10, 2026 | Introduction and Bias-Variance — 테스트 오류의 정의와 편향-분산 분해 | Machine Learning | ESL §7.1–7.2를 다룬다. 모형의 일반화 성능을 어떻게 정의하고 측정하는지, 테스트 오류와 훈련 오류의 관계, 손실 함수의 선택, 그리고 모형 선택과 모형 평가의 근본적 차이를 상세히 설명한다. | |
| May 10, 2026 | Bias-Variance Decomposition and Optimism — 편향-분산 분해와 낙관주의 | Machine Learning | ESL §7.3–7.4를 다룬다. 기대 예측 오류를 편향², 분산, 불가약 오류로 분해하고, KNN과 선형 회귀에서의 구체적 형태를 유도한다. 훈련 오류의 낙관주의를 Cov(ŷᵢ,yᵢ)로 정량화하고, 유효 파라미터 수와 Cp 통계량으로 연결한다. | |
| May 10, 2026 | AIC and Effective Parameters — AIC와 유효 파라미터 수 | Machine Learning | ESL §7.5–7.6을 다룬다. 낙관주의를 보정하여 표본 내 예측 오류를 추정하는 Cp 통계량과 AIC를 유도하고, 정규화 모형에서 파라미터 수를 대체하는 유효 파라미터 수(effective degrees of freedom)의 정의와 계산을 상세히 설명한다. | |
| May 10, 2026 | 표본 내 예측 오차 추정과 유효 파라미터 수 | Machine Learning | 낙관성 공식을 바탕으로 표본 내 예측 오차를 추정하는 \(C_p\) 통계량과 AIC를 유도한다. 파라미터 수 \(d\) 를 정칙화 및 비선형 모형으로 확장하는 ‘유효 파라미터 수’ 개념을 스무더 행렬의 대각합으로 정의하고, 릿지 회귀·평활 스플라인·신경망에서의 구체적 형태를 다룬다. \(C_p\) 와 AIC의 동치 관계를 보이고, 적응적 기저 선택 시 유효 파라미터가 명목 \(d\) 를 초과하는 현상을 설명한다. | |
| May 10, 2026 | BIC and MDL — 베이지안 정보 기준과 최소 기술 길이 | Machine Learning | ESL §7.7–7.8을 다룬다. BIC의 베이지안 유도(라플라스 근사, 사후 확률)와 AIC와의 차이를 분석한다. MDL(최소 기술 길이)을 정보 이론의 관점에서 설명하고, BIC와의 수학적 동치를 보인다. 두 기준의 실무 적용을 코드로 시연한다. | |
| May 10, 2026 | VC Dimension and Cross-Validation — VC 차원과 교차 검증 | Machine Learning | ESL §7.9–7.10을 다룬다. VC 차원으로 모형의 복잡도를 분포 무관하게 측정하고, 구조적 위험 최소화(SRM)를 설명한다. 이어서 교차 검증의 K-fold, LOOCV, GCV를 유도하고, 올바른 CV와 잘못된 CV를 대비하여 데이터 누출의 위험을 경고한다. | |
| May 10, 2026 | Bootstrap Methods and Conditional vs Expected Error — 부트스트랩과 조건부 오류 | Machine Learning | ESL §7.11–7.12를 다룬다. 부트스트랩을 이용한 예측 오류 추정의 다양한 변형 (순진한 부트스트랩, leave-one-out, .632, .632+)을 유도하고, 각각의 편향을 분석한다. 마지막으로 교차 검증이 추정하는 것이 조건부 오류인지 기대 오류인지를 밝히고, Ch.7 전체를 정리한다. | |
| May 10, 2026 | Boosting and Additive Trees — Ch.10 전체 조감 | Machine Learning | ESL Ch.10의 전체 구조를 조감한다. 약한 학습기를 순차적으로 결합하여 강한 학습기를 만드는 부스팅의 원리, 가법 모형으로서의 해석, 지수 손실과 AdaBoost의 동치, 그래디언트 부스팅으로의 일반화, 트리 크기·축소·서브샘플링을 통한 정규화, 변수 중요도와 부분 의존성을 통한 해석까지 전체 흐름을 정리한다. | |
| May 10, 2026 | Boosting과 가법 모형 | Machine Learning | 부스팅의 핵심 알고리즘인 AdaBoost.M1을 상세히 분석한다. 약한 학습기를 순차적으로 결합하는 가중 투표 메커니즘, 가중치 갱신 규칙의 수학적 의미, 그리고 부스팅이 기저 함수의 가법 전개(additive expansion)와 동일함을 보인다. Forward stagewise additive modeling의 프레임워크를 도입하고, 다양한 학습 기법(신경망, 웨이블릿, MARS, 트리)이 모두 이 틀에 속함을 설명한다. | |
| May 10, 2026 | Boosting Methods and Additive Model — AdaBoost와 가법 모형 | Machine Learning | ESL §10.1–10.2를 다룬다. 부스팅의 기원인 AdaBoost.M1 알고리즘의 모든 단계를 상세히 분석하고, 약한 분류기가 어떻게 강한 분류기로 변환되는지 직관적으로 설명한다. 이어서 부스팅을 기저 함수의 가법 확장으로 해석하고, 이 관점이 이후의 모든 부스팅 변형으로 이어지는 이론적 토대임을 보인다. | |
| May 10, 2026 | Forward Stagewise Additive Modeling and Exponential Loss — 순차 가법 모형과 지수 손실 | Machine Learning | ESL §10.3–10.4를 다룬다. 가법 모형의 전체 최적화를 순차적으로 근사하는 Forward Stagewise Additive Modeling의 원리를 설명하고, 지수 손실 함수 L(y,f) = exp(-yf)를 사용하면 이것이 정확히 AdaBoost.M1과 동치임을 단계별로 증명한다. | |
| May 10, 2026 | 지수 손실의 의미와 손실 함수의 강건성 | Machine Learning | 지수 손실의 모집단 최소해가 로그 오즈의 절반임을 증명하고, 이것이 분류에서 왜 의미 있는지 해석한다. 이항 편차(binomial deviance)와 지수 손실이 같은 모집단 최소해를 공유하지만 유한 표본에서 강건성이 크게 다름을 보인다. 분류 손실(지수, 이항 편차, 제곱 오차, Hinge)과 회귀 손실(제곱, 절대, Huber)을 마진/잔차 관점에서 체계적으로 비교하고, 각 손실의 이상치 민감도를 분석한다. 다중 클래스로의 확장(다항 편차)도 함께 다룬다. | |
| May 10, 2026 | Why Exponential Loss and Loss Functions for Robustness — 지수 손실의 의미와 로버스트 손실 | Machine Learning | ESL §10.5–10.6을 다룬다. 지수 손실의 모집단 최소화자가 로그 오즈의 절반 임을 증명하고, 이항 편차와의 관계를 분석한다. 분류와 회귀 각각에서 다양한 손실 함수의 로버스트성을 마진과 잔차 관점에서 비교하고, 실무에서의 손실 함수 선택 지침을 제시한다. | |
| May 10, 2026 | Off-the-Shelf Procedures and Spam Data Example — 데이터 마이닝의 범용 도구 | Machine Learning | ESL §10.7–10.8을 다룬다. 데이터 마이닝 환경에서 결정 트리가 이상적인 기저 학습기인 이유를 다양한 학습 방법과 비교하여 분석하고, 트리의 유일한 약점인 예측 정확도를 부스팅이 어떻게 해결하는지 설명한다. Spam 데이터 예시를 통해 GBM의 실전 성능과 해석 도구를 시연한다. | |
| May 10, 2026 | Boosting Trees and Gradient Boosting — 부스팅 트리와 그래디언트 부스팅 | Machine Learning | ESL §10.9–10.10을 다룬다. 결정 트리를 형식적으로 정의하고 부스팅 트리의 순차 최적화 문제를 설정한다. 이어서 이 문제를 함수 공간의 수치 최적화로 재해석하여, 임의의 미분 가능 손실 함수에 적용 가능한 그래디언트 부스팅 알고리즘(Algorithm 10.3)을 유도한다. | |
| May 10, 2026 | Right-Sized Trees and Regularization — 적정 트리 크기와 정규화 | Machine Learning | ESL §10.11–10.12를 다룬다. 부스팅에서 개별 트리의 적절한 크기 J를 ANOVA 분해를 통해 분석하고, 정규화 전략(반복 수 M 제어, 축소 ν, 확률적 서브샘플링 η)이 부스팅의 일반화 성능에 미치는 영향을 상세히 다룬다. | |
| May 10, 2026 | Interpretation and Illustrations — 해석과 실제 적용 | Machine Learning | ESL §10.13–10.14를 다룬다. 부스팅 트리 앙상블의 해석 도구인 변수 중요도와 부분 의존성 그림(PDP)을 정의하고, California Housing, New Zealand Fish, Demographics 세 데이터셋을 통해 그래디언트 부스팅의 실제 적용을 예시한다. | |
| May 10, 2026 | Random Forests — 랜덤 포레스트 개관 | Machine Learning | ESL Ch.15 전체를 조감한다. 배깅의 한계를 넘어 트리 간 상관을 줄이는 랜덤 포레스트의 핵심 아이디어, Algorithm 15.1, 분산 감소의 수학적 기반 (ρσ² 공식), OOB 추정, 변수 중요도, 부스팅과의 성능 비교를 다룬다. | |
| May 10, 2026 | Random Forests — Definition and Algorithm — 정의와 알고리즘 | Machine Learning | ESL §15.1–15.2를 다룬다. 배깅의 분산 감소 한계를 ρσ² 공식으로 정량화하고, 트리 간 상관을 줄이기 위해 각 분할에서 변수를 무작위 선택하는 랜덤 포레스트 알고리즘(Algorithm 15.1)을 정의한다. | |
| May 10, 2026 | Random Forests — Details and Analysis — 세부 사항과 이론 분석 | Machine Learning | ESL §15.3–15.4를 다룬다. OOB 오류 추정, 변수 중요도의 두 방법(Gini·순열), 근접 그림, 과적합 논의(§15.3), 그리고 분산의 비상관화 효과, 편향 분석, 적응적 최근접 이웃과의 연결(§15.4)을 상세히 다룬다. | |
| May 10, 2026 | Ensemble Learning — 앙상블 학습 개관 | Machine Learning | ESL Ch.16 전체를 조감한다. 앙상블 학습의 통합 관점에서 부스팅의 L1 정규화 해석, “Bet on Sparsity” 원칙, 정규화 경로와 마진 극대화, 그리고 Lasso 후처리를 통한 학습 앙상블(ISLE)을 다룬다. | |
| May 10, 2026 | Boosting and Regularization Paths — 부스팅과 정규화 경로 | Machine Learning | ESL §16.1-16.2를 상세히 다룬다. 오류 수정 출력 코드(ECOC)를 통한 다중 분류, 부스팅의 L1 정규화 경로 해석, Forward Stagewise와 Lasso의 등가성, “Bet on Sparsity” 원칙, 그리고 마진 극대화 수렴을 다룬다. | |
| May 10, 2026 | Introduction and Boosting as Regularization Paths | Machine Learning | 앙상블 학습의 도입부(ECOC)와 부스팅을 고차원 트리 사전에서의 L1 정규화 회귀로 재해석하는 통합 관점을 다룬다. Forward Stagewise와 Lasso의 대응, “Bet on Sparsity” 원칙, 정규화 경로의 마진 극대화 수렴을 상세히 기술한다. | |
| May 10, 2026 | Learning Ensembles and Rule Ensembles | Machine Learning | 학습 앙상블(ISLE)의 2단계 접근 — 사전 생성(Stage 1)과 Lasso 후처리(Stage 2)를 다룬다. Algorithm 16.2의 서브샘플링과 메모리 파라미터, 폭 \(\sigma\)의 역할, 규칙 앙상블(Rule Ensemble)의 트리→규칙 변환과 해석 가능한 모형 구축을 기술한다. | |
| May 10, 2026 | Learning Ensembles — 학습 앙상블 | Machine Learning | ESL §16.3을 상세히 다룬다. Friedman-Popescu의 학습 앙상블(ISLE) 프레임워크, 수치 적분과 중요도 표본으로서의 앙상블 해석, 규칙 앙상블(Rule Ensemble)과 RuleFit, 그리고 Lasso 후처리를 통한 앙상블 압축을 다룬다. | |
| May 10, 2026 | Klein § 13.5 — Multivariate Survival Analysis 연습문제 풀이 | Statistics, Survival Analysis | Klein Ch.13 의 5 개 연습문제를 두 데이터셋 중심으로 통합한다. Skin allograft (Batchelor-Hackett 1970, 16 환자 × 1-4 grafts) 에 score test (Ex.13.1) · gamma frailty EM (Ex.13.3) · marginal model (Ex.13.5) 을 차례로 적용해 환자 random effect 의 강도와 HLA matching 효과를 분석한다. Kidney catheter (McGilchrist-Aisbett 1991, 38 환자 × 2 recurrent times) 에는 5 공변량을 가진 Cox 모형의 score test (Ex.13.2) 와 marginal model + ANOVA (Ex.13.4) 를 적용한다. Mantel rat (§ 13.2-13.4 의 Example 13.1) 과 달리 두 데이터에서 환자 효과가 실제로 유의한 패턴을 보여준다. | |
| May 10, 2026 | Strategy Frameworks 학습 로드맵 | Strategy Frameworks | 전략적 사고(Strategic Thinking)를 체계적으로 학습하기 위한 로드맵이다. 논리학 기초, 경쟁 전략, 인지과학, 게임이론, 멘탈 모델까지 10권의 교재를 기반으로 13개 Phase의 학습 경로를 설계한다. | |
| May 10, 2026 | 논증의 기본 구조 | Strategy Frameworks | 논리학의 가장 기본적인 단위인 논증(Argument)의 구조를 이해한다. 전제와 결론의 식별, 논증과 비논증의 구분, 설명과 논증의 차이, 조건문과 논증의 관계를 체계적으로 학습한다. | |
| May 10, 2026 | 전제와 결론의 식별 + 논증 인식 | Strategy Frameworks | 논증에서 전제(Premise)와 결론(Conclusion)을 식별하는 실전적 방법론을 다룬다. 지시어(Indicator Words)의 활용, 지시어 없는 논증의 분석, 논증과 비논증(설명, 예시, 조건문)의 구분 기준을 상세히 학습한다. | |
| May 10, 2026 | 연역과 귀납의 구분 + 타당성과 건전성 | Strategy Frameworks | 연역 논증(Deductive Argument)과 귀납 논증(Inductive Argument)의 구분 기준을 상세히 학습한다. 타당성(Validity), 건전성(Soundness), 강도(Strength), 설득력(Cogency)의 정확한 정의와 상호 관계, 그리고 데이터 과학에서의 적용을 다룬다. | |
| May 10, 2026 | 논증 형식과 반례 + 확장 논증 | Strategy Frameworks | 연역 논증의 타당성이 형식(Form)에 의해 결정된다는 원리를 학습한다. 반례법(Counterexample Method)으로 부당성을 증명하는 기법, 그리고 확장 논증(Extended Arguments)의 수직/수평 패턴 분석을 다룬다. | |
| May 10, 2026 | 언어의 의미와 정의 — Ch.2 Overview | Strategy Frameworks | Hurley Ch.2 (Language: Meaning and Definition)의 전체적 개요를 다룬다. 인지적 의미와 감정적 의미의 구분, 모호성(Vagueness)과 애매성(Ambiguity)의 차이, 내포(Intension)와 외연(Extension), 정의의 유형과 기법, 정의의 규칙을 학습한다. | |
| May 10, 2026 | 의미의 종류: 인지적 의미와 감정적 의미 + 내포와 외연 | Strategy Frameworks | 논증 평가의 전제 조건인 언어의 의미 분석을 다룬다. 인지적 의미와 감정적 의미의 구분, 가치 주장의 식별, 모호성과 애매성의 구별, 그리고 용어의 내포(intension)와 외연(extension) 개념을 체계적으로 학습한다. | |
| May 10, 2026 | 정의의 유형과 정의 기법 | Strategy Frameworks | 논리학에서 사용되는 다섯 가지 정의 유형(규약적, 사전적, 명확화, 이론적, 설득적)과 일곱 가지 정의 기법(외연적 3종 + 내포적 4종)을 체계적으로 학습한다. 각 정의 유형과 기법의 특성, 적용 조건, 한계를 데이터 과학 맥락에서 실무적으로 분석한다. | |
| May 10, 2026 | 사전적 정의의 8가지 규칙 | Strategy Frameworks | 좋은 정의와 나쁜 정의를 판별하는 체계적 기준을 학습한다. Hurley가 제시하는 사전적 정의의 8가지 규칙을 각각 분석하고, 데이터 과학 맥락에서 실무적으로 적용하는 방법을 다룬다. 기술 문서, 분석 보고서, API 문서 작성 시 정의의 품질을 체계적으로 검증하는 능력을 갖춘다. | |
| May 10, 2026 | 비형식적 오류 개요: 22가지 오류의 분류 체계 | Strategy Frameworks | 논증에서 발생하는 비형식적 오류(informal fallacy)의 전체 분류 체계를 개관한다. 형식적 오류와 비형식적 오류의 차이, 22가지 비형식적 오류의 5개 그룹(관련성 오류, 약한 귀납 오류, 가정 오류, 애매성 오류, 문법적 유추 오류), 그리고 각 오류의 핵심 메커니즘을 데이터 과학 맥락에서 분석한다. | |
| May 10, 2026 | 관련성 오류와 약한 귀납 오류: 논증 실패의 두 가지 메커니즘 | Strategy_Frameworks, Logic, Critical Thinking, Informal Fallacies | 비형식적 오류의 첫 두 범주인 관련성 오류(Fallacies of Relevance) 8가지와 약한 귀납 오류(Fallacies of Weak Induction) 6가지를 상세히 분석한다. 각 오류의 정의, 메커니즘, 구분 기준, 데이터 과학 적용 사례를 체계적으로 다룬다. | |
| May 10, 2026 | 가정, 애매성, 문법적 유추 오류: 숨겨진 전제와 언어의 함정 | Strategy_Frameworks, Logic, Critical Thinking, Informal Fallacies | 비형식적 오류의 마지막 세 범주인 가정 오류(Fallacies of Presumption) 4가지, 애매성 오류(Fallacies of Ambiguity) 2가지, 문법적 유추 오류(Fallacies of Grammatical Analogy) 3가지를 상세히 분석한다. 각 오류의 메커니즘, 식별 기준, 데이터 과학 적용 사례를 체계적으로 다룬다. | |
| May 10, 2026 | 정언명제의 체계: A, E, I, O 네 가지 명제 유형 | Strategy_Frameworks, Logic, Formal Logic, Categorical Propositions | 정언명제(Categorical Proposition)의 네 가지 유형(A/E/I/O)을 체계적으로 분석한다. 표준형식의 구성 요소(양화사, 주어항, 계사, 술어항), 질(quality)과 양(quantity), 주연(distribution)의 개념을 정의하고, 데이터 과학에서의 범주적 추론에 적용한다. | |
| May 10, 2026 | 정언명제의 벤 다이어그램과 현대적 대당관계 | Strategy Frameworks | 정언명제 A/E/I/O를 벤 다이어그램으로 시각화하는 방법과, Boolean 관점에서의 존재적 함의(existential import) 문제를 다룬다. 현대 대당사각형(Modern Square of Opposition)의 모순 관계와 직접추리(immediate inference) 검사를 학습한다. | |
| May 10, 2026 | 대당관계와 환질·환위·이환 | Strategy Frameworks | Aristotelian 관점의 전통적 대당사각형(Traditional Square of Opposition)에서 반대(contrary), 소반대(subcontrary), 대소(subalternation), 모순(contradictory) 관계를 학습한다. 환질(conversion), 환위(obversion), 이환(contraposition) 연산의 원리와 타당성 조건을 분석한다. | |
| May 10, 2026 | 일상언어의 정언명제 번역: 10가지 번역 패턴 | Strategy Frameworks | 일상언어의 다양한 문장 형태를 표준형식 정언명제(A/E/I/O)로 번역하는 10가지 패턴을 학습한다. 명사 없는 항, 비표준 동사, 단칭명제, 부사·대명사, 비표준 양화사, 조건문, 배타명제, “the only”, 예외명제 등의 번역 전략과 흔한 실수를 분석한다. | |
| May 10, 2026 | 정언 삼단논법의 구조: 기분, 격, 표준형식 | Strategy Frameworks | 정언 삼단논법(categorical syllogism)의 정의와 구조를 학습한다. 대항(major term), 소항(minor term), 매개항(middle term)의 역할, 기분(mood)과 격(figure)의 결합으로 생성되는 256가지 형식, 그리고 Boolean/Aristotelian 관점에서의 타당한 형식 분류를 다룬다. | |
| May 10, 2026 | 정언삼단논법의 벤 다이어그램 검사 | Strategy Frameworks, Logic, Formal Logic | 세 개의 겹치는 원으로 삼단논법의 전제를 도식화하고, 결론이 필연적으로 따라 나오는지 검사하는 벤 다이어그램 기법을 다룬다. 불 관점과 아리스토텔레스 관점을 구분하고, 음영과 X 표기의 체계적 규칙, 경계선 배치의 논리적 근거, 존재 가정 검사까지 학습한다. | |
| May 10, 2026 | 삼단논법의 규칙 검사와 생략삼단논법 | Strategy Frameworks, Logic, Formal Logic | 벤 다이어그램 없이 삼단논법의 타당성을 판별하는 5가지 규칙을 학습한다. 주연 개념에 기반한 규칙 1-2, 질에 기반한 규칙 3-4, 양에 기반한 규칙 5를 체계적으로 적용하고, 생략삼단논법(enthymeme)과 연쇄삼단논법(sorites)의 복원·검증 기법까지 다룬다. | |
| May 10, 2026 | 명제논리의 체계 | Strategy Frameworks, Logic, Formal Logic | 정언논리의 한계를 넘어 명제논리(propositional logic)의 체계를 개관한다. 단순 명제와 복합 명제의 구분, 5가지 논리 연결사(∼, ∧, ∨, →, ↔︎)의 의미, 진리함수적(truth-functional) 분석의 원리, 그리고 명제논리가 제공하는 새로운 타당성 판별 도구들의 전체 구도를 학습한다. | |
| May 10, 2026 | 논리 연결사와 진리표 | Strategy Frameworks, Logic, Formal Logic | 명제논리의 5가지 논리 연결사(~, ∧, ∨, →, ↔︎)를 진리표로 엄밀하게 정의하고, 복합 명제의 진리값을 체계적으로 계산하는 절차를 학습한다. 항진명제·모순명제· 우연명제의 분류, 논리적 동치의 기초, 그리고 일상 언어와 진리함수의 괴리까지 다룬다. | |
| May 10, 2026 | 타당성 판별과 간접 진리표 | Strategy Frameworks, Logic, Formal Logic | 진리표를 사용하여 논증의 타당성·부당성을 체계적으로 판별하는 절차를 학습한다. 완전 진리표의 한계를 극복하는 간접 진리표(indirect truth table) 기법, 명제의 논리적 관계(동치·모순·일관성) 판별, 그리고 논증 형식과 반례의 관계까지 다룬다. | |
| May 10, 2026 | 논리적 동치와 일상언어 번역 | Strategy Frameworks, Logic, Formal Logic | 명제논리의 핵심 동치 법칙 10가지를 체계적으로 학습하고, 복잡한 일상 언어 표현을 명제논리 기호로 정확하게 번역하는 전략을 다룬다. 드 모르간 법칙, 질료적 함축, 수출·전환, 동치 교환 등 자연연역의 대치 규칙으로 이어지는 핵심 개념을 실전 예시와 Python 코드로 검증한다. | |
| May 10, 2026 | 자연연역의 체계 | Strategy Frameworks, Logic, Formal Logic | 명제논리의 타당성 증명 방법으로 진리표의 한계를 넘어서는 자연연역(Natural Deduction) 체계를 소개한다. 8가지 추론규칙(rules of implication)과 10가지 대치규칙(rules of replacement)의 전체 구조, 증명 전략, 그리고 조건증명· 귀류법까지 아우르는 완전한 증명 시스템의 청사진을 다룬다. | |
| May 10, 2026 | 추론규칙과 대치규칙 | Strategy Frameworks, Logic, Formal Logic | 자연연역 시스템의 8가지 추론규칙(함축규칙)과 10가지 대치규칙(교체규칙)을 상세히 다룬다. 각 규칙의 형식 정의, 직관적 이해, 유효·무효 적용 사례, 그리고 규칙들을 조합하여 복합 증명을 구성하는 전략을 실전 예시와 Python 코드로 검증한다. | |
| May 10, 2026 | 조건증명과 귀류법 | Strategy Frameworks, Logic, Formal Logic | 자연연역의 두 가지 특수 증명 기법인 조건증명(Conditional Proof, CP)과 귀류법(Indirect Proof, IP)을 상세히 다룬다. 가정 도입과 방출의 논리적 근거, 중첩 증명 구조, 논리적 참(항진명제) 증명, 그리고 이 두 기법이 증명 시스템의 완전성을 보장하는 원리를 실전 예시와 코드로 검증한다. | |
| May 10, 2026 | 인과성과 필요·충분 조건 | Strategy Frameworks, Logic, Causality, Inductive Logic | 인과관계에서 ’원인’이 의미하는 충분조건, 필요조건, 필요충분조건의 구분을 분석한다. 인과 추론의 논리적 기초, 밀의 방법론의 토대가 되는 조건 개념, 그리고 데이터 과학에서의 인과 추론 적용을 다룬다. | |
| May 10, 2026 | 밀의 5가지 방법 | Strategy Frameworks, Logic, Causality, Mill's Methods, Inductive Logic | John Stuart Mill의 인과 추론 5가지 방법 — 일치법, 차이법, 일치차이 병용법, 잔여법, 공변법 — 을 상세히 분석한다. 각 방법이 식별하는 조건의 유형(필요/충분/필요충분), 제거 규칙, 한계, 그리고 데이터 과학에서의 적용을 다룬다. | |
| May 10, 2026 | 인과추론의 오류와 한계 | Strategy Frameworks, Logic, Causality, Fallacies, Inductive Logic | 밀의 5가지 방법 적용 시 발생하는 오류와 한계를 체계적으로 분석한다. 간과된 조건, 복합 원인, 일반화의 한계, 상관-인과 혼동, 그리고 현대 데이터 과학에서의 인과 추론 함정과 대처법을 다룬다. | |
| May 10, 2026 | 확률의 세 이론 | Strategy Frameworks, Logic, Probability, Inductive Logic | 확률의 세 가지 이론 — 고전적(선험적) 이론, 상대빈도 이론, 주관적 이론 — 의 정의, 계산 방법, 가정, 한계를 분석한다. 각 이론이 적용되는 맥락과 데이터 과학에서의 확률 해석을 다룬다. | |
| May 10, 2026 | 확률 계산법 | Strategy Frameworks, Logic, Probability, Bayes Theorem, Inductive Logic | 확률 계산법의 6가지 규칙 — 제한적 결합, 일반적 결합, 제한적 선택, 일반적 선택, 부정, 베이즈 정리 — 을 체계적으로 분석한다. 각 규칙의 공식, 적용 조건, 계산 예시, 그리고 데이터 과학에서의 활용을 다룬다. | |
| May 10, 2026 | 베이즈 정리와 조건부 확률 | Strategy Frameworks, Logic, Bayes Theorem, Conditional Probability, Inductive Logic | 베이즈 정리의 수학적 증명, 다중 가설 확장, 연쇄 업데이트, 그리고 데이터 과학에서의 핵심 응용을 심층 분석한다. 조건부 확률의 직관적 의미에서 출발하여 베이즈 추론의 철학적 함의까지 다룬다. | |
| May 10, 2026 | 통계적 추론 개관 | Strategy Frameworks, Logic, Statistics, Statistical Reasoning, Inductive Logic | 통계적 추론의 핵심 개념 — 표본 추출의 편향, 평균의 세 종류(평균값, 중앙값, 최빈값), 산포(범위, 분산, 표준편차) — 을 분석한다. 통계적 증거를 비판적으로 평가하는 논리적 기초를 다룬다. | |
| May 10, 2026 | 통계의 오용과 비판적 평가 | Strategy Frameworks, Logic, Statistics, Critical Thinking, Inductive Logic | 통계적 추론에서 발생하는 대표적 오용 — 그래프 왜곡, 픽토그램의 착시, 백분율 기저 바꾸기, 억압된 증거 — 을 분석한다. 각 속임수의 메커니즘을 이해하고 비판적으로 평가하는 방법을 익힌다. | |
| May 10, 2026 | 과학적 추론과 가설적 방법 | Strategy Frameworks, Logic, Scientific Reasoning, Hypothesis, Inductive Logic | 과학적 추론의 핵심 방법인 가설적 방법(hypothetical method)의 4단계 — 문제 발생, 가설 형성, 함의 도출, 검증 — 을 분석한다. 라듐, 해왕성, 대기압, 자연발생설의 4가지 역사적 사례를 통해 가설적 추론의 논리적 구조를 이해한다. | |
| May 10, 2026 | 가설 평가의 네 기준 | Strategy Frameworks, Logic, Scientific Reasoning, Hypothesis Evaluation, Inductive Logic | 가설이 증명되기 전에 잠정적으로 수용할 수 있는 네 가지 기준 — 적절성(adequacy), 내적 일관성(internal coherence), 외적 정합성(external consistency), 풍부성(fruitfulness) — 을 분석한다. 과학적 가설의 비교 평가 방법과 이론 선택의 논리를 다룬다. | |
| May 10, 2026 | 과학과 미신의 구분 — 구획 문제와 반증 가능성 | Strategy Frameworks, Logic, Inductive Reasoning, Philosophy of Science | 과학과 미신(사이비과학)을 구분하는 기준을 체계적으로 분석한다. 증거적 지지, 객관성, 정직성의 세 기준을 중심으로, 포퍼의 반증 가능성 원리, 라카토슈의 진보적 연구 프로그램, 쿤의 퍼즐 풀이 전통을 통해 구획 문제(demarcation problem)를 탐구한다. 데이터 과학에서 모델 검증과 사이비 분석의 구분에 이 기준들이 어떻게 적용되는지 살펴본다. | |
| May 10, 2026 | 술어논리 개관 — 명제논리를 넘어서 | Strategy Frameworks, Logic, Formal Logic, Predicate Logic | 술어논리(predicate logic)의 기본 구조와 필요성을 설명한다. 삼단논법과 명제논리만으로는 포착할 수 없는 논증의 타당성을 술어논리가 어떻게 분석하는지 보인다. 술어 기호, 개체 상항·변항, 양화사(보편·존재)의 체계를 소개하고, 자연어 문장을 술어논리로 번역하는 기본 방법을 학습한다. 데이터 과학의 논리적 질의와 집합 연산에 이 개념이 어떻게 연결되는지 탐구한다. | |
| May 10, 2026 | 양화사와 번역 — 복합 문장의 술어논리적 분석 | Strategy Frameworks, Logic, Formal Logic, Predicate Logic | 술어논리에서 복합 문장의 번역을 심화 학습한다. 복수 술어의 복합, 양화사의 관할 범위, only/unless의 번역, 양화사 교환 규칙(Change of Quantifier Rule)을 체계적으로 다룬다. 번역 시 흔히 범하는 오류를 분석하고, 데이터 과학의 SQL과 프로그래밍에서 이 개념이 어떻게 구현되는지 연결한다. | |
| May 10, 2026 | 술어논리의 추론규칙 — 양화사 도입과 제거 | Strategy Frameworks, Logic, Formal Logic, Predicate Logic | 술어논리에서 양화사를 다루는 네 가지 추론규칙을 학습한다. 보편 예화(UI), 보편 일반화(UG), 존재 예화(EI), 존재 일반화(EG)의 정의, 적용 조건, 제약 사항을 체계적으로 다루고, 이 규칙들을 사용한 자연 연역 증명의 실례를 보인다. 데이터 과학에서 for-all/exists 패턴의 프로그래밍적 구현과의 연결을 탐구한다. | |
| May 10, 2026 | 유비추론과 논증 평가 | Strategy Frameworks, Logic, Inductive Reasoning | 유비추론(analogical reasoning)의 구조와 6가지 평가 기준을 체계적으로 학습한다. 유비 논증의 귀납적 성격, 일반화와의 관계, 그리고 일상·법률· 도덕·데이터 과학 맥락에서의 실전 적용을 다룬다. Python 코드로 유비 논증의 강도를 정량적으로 평가하는 프레임워크를 구현한다. | |
| May 10, 2026 | 법률 추론과 도덕적 추론 | Strategy Frameworks, Logic, Legal Reasoning, Moral Reasoning, Inductive Logic | 판례 기반 법률 추론과 도덕적 유비 논증의 구조를 분석한다. 선례 구속의 원칙, 관습법과 성문법의 관계, 법률 유비의 6원칙 적용, 도덕적 대화에서의 유비와 반유비 기법, 그리고 데이터 과학에서의 윤리적 추론 적용 사례를 다룬다. | |
| May 10, 2026 | 최선의 설명으로의 추론(IBE) 개관 | Strategy Frameworks, Logic, Inductive Reasoning, Philosophy of Science | Gilbert Harman이 1965년 제안한 ‘최선의 설명으로의 추론’(IBE)의 핵심 논증을 분석한다. 열거적 귀납이 IBE의 특수 사례임을 보이고, 탐정의 추론, 과학적 이론 추론, 증언 신뢰의 사례를 통해 IBE의 구조와 작동 방식을 설명한다. 데이터 과학에서 모델 선택과 가설 평가에 IBE가 어떻게 적용되는지 탐구한다. | |
| May 10, 2026 | IBE의 평가와 적용 — 설명의 질을 판단하는 기준 | Strategy Frameworks, Logic, Inductive Reasoning, Philosophy of Science | 최선의 설명으로의 추론(IBE)에서 ’최선’을 판단하는 구체적 기준을 심화 분석한다. 설명적 미덕(단순성, 통합성, 메커니즘 제공, 예측 정밀성)을 정의하고, 경쟁 가설 제거의 방법론을 체계화한다. 데이터 과학의 모델 선택, 근본 원인 분석, 이상 탐지에 IBE가 어떻게 구체적으로 적용되는지 실전 사례로 설명한다. | |
| May 10, 2026 | 산업 구조 분석 — Five Forces 프레임워크 | Strategy Frameworks, Industry Analysis, Porter, Five Forces | Michael Porter의 Five Forces 프레임워크를 체계적으로 학습한다. 산업의 경쟁 강도와 수익성을 결정하는 다섯 가지 구조적 세력 (신규 진입 위협, 대체품 위협, 구매자 교섭력, 공급자 교섭력, 기존 경쟁자 간 경쟁)의 메커니즘을 분석하고, AI/클라우드 산업에의 적용 사례를 다룬다. | |
| May 10, 2026 | 진입 장벽과 기존 경쟁자 간 경쟁 | Strategy Frameworks, Industry Analysis, Porter, Entry Barriers | Porter Five Forces의 첫 두 세력을 심층 분석한다. 진입 장벽의 6대 원천(규모의 경제, 제품 차별화, 자본 소요, 전환 비용, 유통 채널 접근, 규모 무관 비용 우위)과 기존 경쟁자 간 경쟁 강도를 결정하는 구조적 요인을 다루고, 기술 산업에의 적용을 탐구한다. | |
| May 10, 2026 | 대체품 위협과 교섭력 — 수익의 천장과 분배 | Strategy Frameworks, Industry Analysis, Porter, Bargaining Power | Five Forces의 나머지 세 가지 세력을 심층 분석한다. 대체품이 산업 수익의 천장을 설정하는 원리, 구매자가 가격을 끌어내리는 조건, 공급자가 수익을 흡수하는 조건을 체계적으로 다루고, AI/SaaS 산업에서의 실제 사례를 통해 응용한다. | |
| May 10, 2026 | 전략적 포지셔닝과 산업 정의 | Strategy Frameworks, Industry Analysis, Porter, Strategic Positioning | Five Forces 분석의 전략적 결론을 다룬다. 분석 결과를 바탕으로 방어적·공격적 포지셔닝 전략을 수립하는 방법, 산업 진화의 예측, 다각화 결정에의 활용, 그리고 산업 정의의 본질과 한계를 체계적으로 학습한다. 정부의 역할과 구조 분석의 실무 적용 프로세스를 포함한다. | |
| May 10, 2026 | 본원적 경쟁 전략 — 원가 우위, 차별화, 집중 | Strategy Frameworks, Industry Analysis, Porter, Generic Strategies | Porter의 세 가지 본원적 전략(Generic Strategies)을 학습한다. 원가 우위(Cost Leadership), 차별화(Differentiation), 집중(Focus) 전략의 정의, 작동 메커니즘, 요구 자원, 조직 요건을 다루고, ‘중간에 낀’(Stuck in the Middle) 기업의 위험과 각 전략의 리스크를 분석한다. | |
| May 10, 2026 | 본원적 전략의 리스크 — 원가 우위·차별화·집중 전략의 실패 조건 | Strategy_Frameworks, Competitive Strategy, Risk Analysis | 원가 우위, 차별화, 집중 전략 각각에 내재하는 구조적 리스크를 분석한다. 기술 변화, 모방, 비용 격차, 시장 수렴 등 전략 실패를 유발하는 메커니즘을 체계적으로 정리하고 데이터 과학 맥락에서의 시사점을 도출한다. | |
| May 10, 2026 | 경쟁자 분석 프레임워크 — 4가지 진단 구성 요소 | Strategy_Frameworks, Competitive Strategy, Competitor Analysis | 경쟁자의 행동을 예측하기 위한 체계적 분석 프레임워크를 다룬다. 미래 목표, 가정, 현재 전략, 역량의 4가지 진단 구성 요소를 통합하여 경쟁자 반응 프로파일을 구축하는 방법론을 제시한다. | |
| May 9, 2026 | Kohavi Ch.22 개관 — Leakage·Interference (Variant 간 누수와 간섭) | Experimentation, A/B Test | Kohavi (2020) Ch.22 의 흐름을 한 편으로 압축한다. SUTVA 정의 와 위반 시나리오, direct connection (Facebook, Skype) · indirect connection (Airbnb, Uber, eBay, ad campaign, relevance training, CPU, sub-user unit), rule-of-thumb (ecosystem value), isolation 4 갈래 (splitting resources, geo, time, network-cluster·ego-centric), edge-level analysis, detecting & monitoring 의 전체 지도를 정리한다. | |
| May 9, 2026 | Kohavi Ch.22.1~22.2 — Direct·Indirect Connection 6 사례 의 leakage 메커니즘 | Experimentation, A/B Test | Kohavi (2020) Ch.22 의 6 가지 leakage 사례 를 mechanism 단위 로 분해한다. Direct connection 2 사례 (사회 engagement, 양방향 통신) 와 indirect connection 6 사례 (marketplace 재고, 양면 시장, auction, ad budget, relevance training, CPU contention, sub-user randomization) 의 채널 · bias direction · 실측 가능성을 정리한다. | |
| May 9, 2026 | Kohavi Ch.22.3 — Rule-of-Thumb · Ecosystem Value · Practical Solutions | Experimentation, A/B Test | Kohavi (2020) Ch.22 의 첫 번째 실무 해결책 인 Rule-of-Thumb 접근을 정리한다. 1차 action 과 downstream metric 의 측정, ecosystem multiplier 의 추정 (Instrumental Variable 외삽), Bernoulli randomization 와 의 호환성, 한계 (rule 의 평균 화), LinkedIn / Bing 의 실제 사례를 다룬다. | |
| May 9, 2026 | Kohavi Ch.22.4~22.6 — Isolation 4 갈래 · Edge-Level · Detection·Monitoring | Experimentation, A/B Test | Kohavi (2020) Ch.22 의 두 번째 실무 해결책 인 Isolation 4 갈래 (splitting resources, geo-based, time-based, network-cluster, ego-centric) 와 Edge-Level Analysis, Detection & Monitoring (ramp 단계, alert system) 를 정리한다. 각 isolation 의 trade-off (sample size·variance·bias) 를 비교 매트릭스로 제시한다. | |
| May 9, 2026 | Kohavi Ch.23 개관 — Long-Term Treatment Effects (장기 처리 효과) | Experimentation, A/B Test | Kohavi (2020) Ch.23 의 흐름을 한 편으로 압축한다. 단기 와 장기 effect 가 다른 6 가지 메커니즘 (user-learned, network, delayed, ecosystem change, concept drift, software rot), 측정 목적 3 가지 (attribution, institutional learning, generalization), 4 가지 측정 method (Cohort Analysis, Post-Period Analysis, Time-Staggered Treatment, Holdback/Reverse) 의 전체 지도. | |
| May 9, 2026 | Kohavi Ch.23.1~23.3 — Long-Term Effect 의 정의 · 단기/장기 차이의 6 갈래 · 측정 목적 3 가지 | Experimentation, A/B Test | Kohavi (2020) Ch.23 의 도입부 — long-term effect 의 정의, short-term 과 다른 6 가지 메커니즘, 측정 의 3 가지 목적 (Attribution, Institutional Learning, Generalization) 을 사례·인용·직관 으로 풀어 정리한다. | |
| May 9, 2026 | Kohavi Ch.23.4 — Long-Running Experiments 의 4 가지 한계 | Experimentation, A/B Test | Kohavi (2020) Ch.23 의 단순 long-running experiment 가 부딪히는 4 가지 근본 한계 — Treatment 효과 dilution (multi-device, cookie churn, network leakage), survivorship bias, 새 feature 와 의 interaction, time-extrapolated effect 해석 의 함정 — 을 정리한다. 측정 의 왜 어려운가 를 명확히 하여 다음 글 의 4 가지 method 의 동기를 이해하게 한다. | |
| May 9, 2026 | Kohavi Ch.23.5 — Long-Term Effect 측정 4 method (Cohort · Post-Period · Time-Staggered · Holdback) | Experimentation, A/B Test | Kohavi (2020) Ch.23 의 4 가지 long-term 측정 method 를 단계 별 절차·강점·한계 ·결합 패턴·인용 으로 정리한다. Method #1 Cohort Analysis (stable cohort + dilution 보정), Method #2 Post-Period Analysis (user-learned vs system-learned 분리), Method #3 Time-Staggered Treatments (수렴 시점 명시 판단), Method #4 Holdback & Reverse (launch 후 monitoring) 의 디테일. | |
| May 9, 2026 | Adaptive Trial — 개관 | Experimentation, Clinical Trial | Adaptive trial 의 큰 그림. (1) Adaptive design 의 정의 — pre-specified rule 에 따라 trial 진행 중 protocol 변경, (2) 4 대 카테고리 — Group sequential, Sample size re-estimation, Response-adaptive randomization (RAR), Adaptive enrichment, (3) FDA Adaptive Designs Guidance (2019), (4) Bayesian adaptive trial — Berry et al. (2010), (5) Platform trial — multiple arm, multiple sub-question, (6) 응용 — COVID-19 (RECOVERY, ACTT-1), 후속 3 글 안내. | |
| May 9, 2026 | RAR + Play-the-Winner | Experimentation, Clinical Trial | Response-Adaptive Randomization (RAR). (1) 동기 — 효과 좋은 arm 에 더 많은 환자 배정 (윤리), (2) Wei (1979) 의 Play-the-Winner — Urn model 기반, (3) Berry (2015) 의 Bayesian RAR — posterior probability 기반, (4) RAR 의 통계적 도전 — type I, estimator bias, (5) Korn & Freidlin (2011) 비판 — RAR 의 통계 효율성, (6) ECMO trial (Bartlett 1985) 사례 — 1 arm 만 randomize 받음, (7) 시뮬레이션. | |
| May 9, 2026 | Bayesian Adaptive + Platform Trials | Experimentation, Clinical Trial | Bayesian adaptive trial 과 platform trial 의 결합. (1) Bayesian inference 의 임상 trial 적합성 — Berry et al. (2010), (2) Platform trial 의 master protocol 구조, (3) I-SPY 2 의 biomarker-driven adaptive enrichment, (4) REMAP-CAP 의 community- acquired pneumonia + COVID-19, (5) RECOVERY 의 효율성 — dexamethasone, baricitinib, (6) Master protocol 의 운영적 도전 — DSMB, IRB, 통계, (7) 시뮬레이션. | |
| May 9, 2026 | FDA Adaptive Designs | Experimentation, Clinical Trial | FDA Adaptive Designs Guidance (2019) 의 정통. (1) Adaptive design 의 4 카테고리에 대한 FDA 입장, (2) Pre-specification 의 절대 필수성 — protocol 에 명시, (3) Type I error control 의 표준 — alpha spending function (Lan-DeMets 1983), (4) Trial integrity — blinding 유지, interim 결과 leak 방지, DSMB 역할, (5) Estimator bias 의 처리 — adjusted estimator, IPW, (6) FDA Critical Path Initiative + Project Optimus, (7) 시뮬레이션 — alpha spending boundary. | |
| May 9, 2026 | Switchback / Geo / Spillover — 개관 | Experimentation, A/B Testing | 표준 A/B 가 어려운 시나리오의 design 우회. (1) Network spillover 의 정의 — unit 간 영향 으로 SUTVA 위반, (2) Switchback design (Bojinov, Simchi-Levi, Zhao 2023) — 시간 단위 무작위 배정, (3) Geo Holdout — 지역 단위 무작위 배정, (4) Spillover detection — 접촉/노출 기반 분석. 후속 3 글 안내. | |
| May 9, 2026 | Switchback Design | Experimentation, A/B Testing | Switchback experiment 의 정통. (1) 동기 — 2-sided market 의 spillover, (2) 시간 단위 무작위 배정의 메커니즘, (3) Carry-over effect 의 정의와 처리, (4) Bojinov, Simchi-Levi, Zhao (2023) 의 estimator + variance, (5) Block randomization vs individual randomization, (6) Uber 의 실제 적용 사례, (7) 시뮬레이션. | |
| May 9, 2026 | Geo Holdout | Experimentation, A/B Testing | Geo holdout 의 정통. (1) 동기 — 광고/마케팅의 지역 spillover, (2) Vaver & Koehler (2011) 의 Google 지역 광고 설계, (3) Synthetic control 시각의 지역 분석, (4) CausalImpact (Brodersen et al. 2015) — Bayesian structural time series, (5) Matched market design — pre-period 유사 도시 선택, (6) Lyft / Pinterest 의 응용 사례, (7) 시뮬레이션. | |
| May 9, 2026 | Spillover Detection | Experimentation, A/B Testing | Spillover 의 분석 단계 처리. (1) Hudgens & Halloran (2008) 의 partial interference framework — 2-stage randomization, (2) Aronow & Samii (2017) 의 exposure mapping — spillover 의 일반화, (3) Direct effect vs Indirect (spillover) effect, (4) Total effect 와 Average Direct/Indirect Effect 의 정의, (5) Eckles, Karrer, Ugander (2017) 의 network experiment, (6) 시뮬레이션 — friend-of-friend 효과. | |
| May 9, 2026 | Difference-in-Differences (DiD) — 개관 | Experimentation, Causal Inference | Difference-in-Differences (DiD) 의 큰 그림. (1) 정의 — 처치 group 의 처치 전·후 변화 와 대조 group 의 같은 시점 변화 의 차이, (2) Parallel Trends Assumption (PTA) 의 중심성, (3) Card & Krueger (1994) 의 최저 임금 vs 고용 고전 사례, (4) Two-way Fixed Effects (TWFE) regression 표현, (5) Staggered adoption 의 도전과 최근 연구 (Goodman-Bacon 2021, Callaway-Sant’Anna 2021), (6) Synthetic Control 과의 관계. 후속 3 글 안내. | |
| May 9, 2026 | 병행 추세 가정과 TWFE — DiD 의 핵심 | Experimentation, Causal Inference | DiD 의 가장 중요한 가정 Parallel Trends Assumption (PTA) 와 Two-Way Fixed Effects (TWFE) regression 의 깊이. (1) PTA 의 counterfactual 표현, (2) Pre-trend test 의 메커니즘과 한계 (Roth 2022 의 비판), (3) TWFE regression 의 표준 형태와 cluster-robust SE, (4) Anticipation effects 의 위협, (5) Common support 가정, (6) 실무 권장 — event study + pre-trend visualization. 시뮬레이션 풍부. | |
| May 9, 2026 | Staggered Adoption — TWFE 의 함정과 새 추정량 | Experimentation, Causal Inference | Staggered DiD — 처치 시점이 unit 마다 다른 경우의 도전. (1) Forbidden Comparison 함정, (2) Goodman-Bacon (2021) 의 TWFE 분해 — 일부 negative weights, (3) Callaway & Sant’Anna (2021) 의 Group-Time ATT 추정량, (4) Sun & Abraham (2021) 의 interaction- weighted estimator, (5) Borusyak, Jaravel, Spiess (2024) 의 imputation estimator, (6) de Chaisemartin & D’Haultfœuille (2020) 의 DID-multiple, (7) 실무 권고. | |
| May 9, 2026 | 합성 통제와 비교 — Synthetic Control | Experimentation, Causal Inference | Synthetic Control Method (SCM) — Abadie 등의 단일 처치 unit + 다수 대조 unit 의 합성 대조 구성. (1) Abadie & Gardeazabal (2003) 의 바스크 사례, (2) Abadie, Diamond, Hainmueller (2010) 의 California Tobacco 사례, (3) 가중치 결정 — pre-period outcome 일치, (4) Generalized Synthetic Control (Xu 2017), Matrix Completion (Athey et al. 2021), (5) DiD 와의 trade-off, (6) Card-Krueger 재방문 — 후속 분석. | |
| May 9, 2026 | Regression Discontinuity Design (RDD) — 개관 | Experimentation, Causal Inference | Regression Discontinuity Design (RDD) 의 큰 그림. (1) Running variable + cutoff 의 정의, (2) Thistlethwaite & Campbell (1960) 의 첫 RDD 적용, (3) Sharp RDD vs Fuzzy RDD 의 차이, (4) Local randomization 직관, (5) Local linear regression (Imbens & Lemieux 2008), (6) Bandwidth 선택의 결정성, (7) McCrary density test, (8) 응용 영역 — 교육, 정치, 의료, 사회 정책. 후속 3 글 안내. | |
| May 9, 2026 | Sharp vs Fuzzy RDD | Experimentation, Causal Inference | Sharp RDD vs Fuzzy RDD 의 깊은 비교. (1) Sharp 의 결정론적 처치 vs Fuzzy 의 확률적 처치, (2) Hahn, Todd, Van der Klaauw (2001) 의 식별 정리, (3) Fuzzy RDD = IV special case, LATE 추정, (4) Compliance type — complier, always-taker, never-taker, defier, (5) Wald estimator 와 RDD 의 연결, (6) Card, Dobkin, Maestas (2009) 의 Medicare 사례, (7) 시뮬레이션. | |
| May 9, 2026 | Local Linear Regression + Bandwidth | Experimentation, Causal Inference |
RDD 의 표준 추정 방법. (1) Local linear regression (Imbens & Lemieux 2008) — 양쪽 별도 linear fit, (2) Kernel weighting 의 옵션, (3) Bandwidth 의 bias-variance trade-off, (4) Imbens-Kalyanaraman (2012) MSE-optimal bandwidth, (5) Calonico, Cattaneo, Titiunik (2014) bias-corrected + robust SE, (6) rdrobust 패키지의 표준화, (7) Higher-order polynomial 의 위험 (Gelman & Imbens 2019), (8) 시뮬레이션.
|
|
| May 9, 2026 | McCrary Density Test + 진단 | Experimentation, Causal Inference | RDD 의 가정 검증. (1) McCrary (2008) density test — running variable manipulation 탐지, (2) Cattaneo, Jansson, Ma (2020) 의 local polynomial density test — 개선 방법, (3) Covariate balance — cutoff 양쪽의 다른 변수 연속성, (4) Placebo cutoff — 가짜 cutoff 에서의 jump 검증, (5) Bandwidth sensitivity 분석, (6) 응용 사례 — test score manipulation, age cutoff 등. | |
| May 9, 2026 | 임상 연구 분류학 — 실험 vs 관찰의 두 왕국 | Experimentation | 임상 연구를 실험적(Experimental)과 관찰적(Observational)이라는 두 왕국으로 분류하고, 각 연구 설계의 해부학적 구조가 무엇을 할 수 있고 할 수 없는지를 결정하는 원리를 정리한다. Schulz & Grimes (2019) Ch.1과 Woodward (2014) Ch.1을 기반으로 한다. | |
| May 9, 2026 | 측정 지표 — RR·OR·RD·NNT와 혼동되는 분수들 | Experimentation | 역학 연구에서 노출과 결과의 관계를 정량화하는 핵심 지표 — Relative Risk, Odds Ratio, Risk Difference, Number Needed to Treat, Attributable Risk — 의 정의, 수학적 유도, 신뢰구간 산출, 그리고 흔히 혼동되는 Rate·Proportion·Ratio의 구분을 정리한다. Schulz & Grimes (2019) Ch.1 후반과 Woodward (2014) Ch.3을 기반으로 한다. | |
| May 9, 2026 | 기술 연구의 한계 — Case Report부터 Ecological까지 | Experimentation | 비교군 없이 질병의 분포를 기술하는 기술적 연구(descriptive study)의 유형, 역할, 그리고 근본적 한계를 정리한다. Case Report, Case Series, Cross-sectional Study, Surveillance, Ecological Study의 구조와 함정을 다루며, 데이터를 넘어서는 추론(overstepping)의 위험을 경고한다. Schulz & Grimes (2019) Ch.2를 기반으로 한다. | |
| May 9, 2026 | 5W·추세 분석·데이터를 넘어서는 추론 | Experimentation | 기술 역학의 5W 프레임워크를 실무에 적용하는 방법, 추세 분석(trend analysis)의 역할, 그리고 비교군 없이 인과를 주장하는 “데이터 넘어서기(overstepping)” 오류의 구체적 사례와 예방 전략을 정리한다. Schulz & Grimes (2019) Ch.2 후반부를 기반으로 한다. | |
| May 9, 2026 | Bias 3 유형 — Selection·Information·Confounding + DAG | Experimentation | 관찰 연구의 내적 타당도를 위협하는 세 가지 편향(선택 편향, 정보 편향, 교란 편향)의 구조와 사례를 정리하고, 교란 변수의 인과 구조를 시각화하는 DAG(Directed Acyclic Graph)를 소개한다. Schulz & Grimes (2019) Ch.3 전반부를 기반으로 한다. | |
| May 9, 2026 | Hill의 인과 9 기준 + Confounding 통제 7 방법 | Experimentation | 통계적 연관성이 인과관계인지 판단하는 Hill의 9 기준(temporal sequence, strength, consistency, biological gradient, specificity, plausibility, coherence, experiment, analogy)과 교란 변수를 통제하는 7 방법(restriction, matching, stratification, multivariable, propensity scores, sensitivity analysis, instrumental variables)을 정리한다. Schulz & Grimes (2019) Ch.3 후반부를 기반으로 한다. | |
| May 9, 2026 | 코호트 연구 개관 — 결과를 향해 행군하다 | Experimentation | 코호트 연구의 정의, 방향성(전향적·후향적·양방향), 장단점, 분석 보고 프레임워크(STROBE), 그리고 변형(전후 연구·내재 환자-대조군)을 정리한다. 로마 군단의 어원에서 시작하여 Framingham Heart Study, British Physicians’ Study 등 핵심 사례를 다룬다. Schulz & Grimes (2019) Ch.4 전체를 압축한 overview 포스트이다. | |
| May 9, 2026 | 코호트 설계 심화 — Person-Years·생존 분석·Cox PH | Experimentation | 코호트 연구의 실무적 설계 요소를 심화한다. 가변 추적 기간에 대한 Person-Years 접근법, Kaplan-Meier 생존 곡선, log-rank 검정, Cox 비례위험모형, 경쟁 위험(competing risks), 그리고 STROBE 보고 가이드라인의 핵심 항목을 정리한다. Schulz & Grimes (2019) Ch.4 + Woodward (2014) Ch.5를 기반으로 한다. | |
| May 9, 2026 | 환자-대조군 연구 — 결과에서 노출로 거슬러 올라가다 | Experimentation | 환자-대조군(Case-Control) 연구의 기본 설계를 다룬다. 코호트 연구와의 방향 차이, OR(odds ratio)이 왜 필요한지, 환자군·대조군 선정의 핵심 원칙, 회상 편향과 정보 편향, 교란 통제 전략, 그리고 희귀 질환 가정(rare disease assumption)을 정리한다. Schulz & Grimes (2019) Ch.5를 기반으로 한다. | |
| May 9, 2026 | CC 대조군 선정·짝짓기 — 비교 대상을 찾는 기술 | Experimentation | 환자-대조군 연구에서 가장 어려운 대조군 선정 전략을 심화한다. 알려진 모집단 vs 미지 모집단, 병원 대조군·이웃 대조군·친구 대조군의 장단점, 짝짓기(matching)의 원리와 과잉짝짓기 위험, 대조군 수 결정(1:1~4:1), 그리고 Berkson의 입원률 편향을 정리한다. Schulz & Grimes (2019) Ch.5 후반~Ch.6를 기반으로 한다. | |
| May 9, 2026 | CC 변형 — Nested·Case-Cohort·Case-Crossover | Experimentation | 환자-대조군 연구의 세 가지 변형 설계를 다룬다. 코호트 내에서 효율적으로 수행하는 Nested Case-Control, 하위코호트를 공유하는 Case-Cohort, 그리고 각 환자가 자신의 대조가 되는 Case-Crossover 설계의 원리·장단점·분석 방법을 비교한다. Schulz & Grimes (2019) Ch.6 + Woodward (2014) Ch.6.7~6.9를 기반으로 한다. | |
| May 9, 2026 | 관찰 연구의 함정 — 거짓 주장·약한 연관·사기 | Experimentation | 관찰 역학 연구의 구조적 한계를 다룬다. 대부분의 관찰 연구 결과가 재현되지 않는 이유, 약한 연관성(RR 0.5~2.0)이 편향의 산물일 수 있는 이유, 행정 DB 연구의 함정, 동료 심사의 한계, 그리고 증가하는 연구 사기 문제를 정리한다. Schulz & Grimes (2019) Ch.7을 기반으로 한다. | |
| May 9, 2026 | 스크리닝 검사 — 양날의 검 | Experimentation | 스크리닝(screening)의 정의, 윤리적 함의, WHO 기준, 검사 타당성(민감도·특이도·예측도), 유병률이 예측도에 미치는 극적인 영향, 절단점 설정의 트레이드오프, 그리고 연속 검사 전략을 정리한다. Schulz & Grimes (2019) Ch.8을 기반으로 한다. | |
| May 9, 2026 | 스크리닝 편향 — Lead-Time·Length Bias·검증 편향 | Experimentation | 스크리닝 프로그램의 효과를 왜곡하는 핵심 편향을 정리한다. Lead-time bias(선행 시간 편향)는 생존 기간의 착시를 만들고, Length bias(기간 편향)는 느린 암이 과대표집되는 문제를 일으킨다. 검증 편향, 스펙트럼 편향, 그리고 STARD·QUADAS 가이드라인까지 포괄한다. Schulz & Grimes (2019) Ch.8 후반을 기반으로 한다. | |
| May 9, 2026 | Likelihood Ratios — Fagan Nomogram으로 진단 확률 갱신하기 | Experimentation | 민감도·특이도를 넘어선 진단 도구인 Likelihood Ratio(LR)의 정의, 계산법, Fagan Nomogram을 이용한 사전 확률→사후 확률 변환, ROC 곡선과의 관계, 그리고 McGee의 간편 암산법을 정리한다. Schulz & Grimes (2019) Ch.9 전반을 기반으로 한다. | |
| May 9, 2026 | 다단계 LR·진단 역치·LR의 한계 | Experimentation | 다단계(multiple-level) 검사 결과에 대한 구간별 LR(interval LR) 계산법, 사전 확률의 중요성, Test/Treat Threshold 모델, 그리고 LR의 구조적 한계 (비선형성, 극단값 불안정성, 사전 확률 불확실성)를 정리한다. Schulz & Grimes (2019) Ch.9 후반을 기반으로 한다. | |
| May 9, 2026 | RCT 핵심 개관 — 모집·표본 크기·배정·은폐 | Experimentation | 무작위 배정 대조 시험(RCT)의 핵심 5 챕터를 압축한다. 모집(Recruitment)부터 표본 크기 산출, 배정 순서 생성, 비이중맹검 배정, 배정 은폐까지의 전체 흐름을 한 편에 담는다. Schulz & Grimes (2019) Ch.10~14를 기반으로 한다. | |
| May 9, 2026 | RCT 모집 — Lasagna’s Law와 모집 강화 전략 | Experimentation | RCT에서 가장 흔한 실패 원인인 모집(recruitment) 문제를 정리한다. Lasagna’s Law, 적격성·등록 분율, 4가지 근거 기반 모집 전략, 그리고 Zelen 설계·cmRCT 등 대안 설계의 장단점을 다룬다. Schulz & Grimes (2019) Ch.10을 기반으로 한다. | |
| May 9, 2026 | 표본 크기 산출 — α·검정력·효과 크기와 Sample Size Samba | Experimentation | RCT 표본 크기 산출의 4대 구성 요소(α, 검정력, 대조군 사건률, 효과 크기), 효과 크기와 표본 크기의 역제곱 관계, Sample Size Samba(역공학적 정당화), 사후 검정력 계산의 무의미함, 그리고 Chalmers의 “소규모 시험도 윤리적”이라는 역설적 주장을 정리한다. Schulz & Grimes (2019) Ch.11을 기반으로 한다. | |
| May 9, 2026 | 배정 순서 생성 — Fisher에서 항아리 무작위화까지 | Experimentation | RCT에서 참여자를 비교 군에 배정하는 순서를 생성하는 방법을 정리한다. Fisher의 농업 실험에서 Hill의 결핵 시험까지의 역사, 비무작위 방법의 위험, 단순·블록·층화·편향 동전·항아리 무작위화의 원리와 트레이드오프, 그리고 생성과 구현의 분리 원칙을 다룬다. Schulz & Grimes (2019) Ch.12를 기반으로 한다. | |
| May 9, 2026 | 비맹검 시험의 배정 추측 방지 — 혼합 무작위화 전략 | Experimentation | 비맹검 RCT에서 배정 순서의 예측 가능성이 선택 편향을 유발하는 메커니즘을 분석한다. 블록 무작위화의 예측성 문제, ‘미용적 신뢰성(cosmetic credibility)’ 함정, 혼합 무작위화(mixed randomisation)의 설계, 그리고 비예측성 보존 전략을 다룬다. Schulz & Grimes (2019) Ch.13을 기반으로 한다. | |
| May 9, 2026 | 배정 은폐 — 해독 방지의 기술과 기준선 비교 | Experimentation | 배정 순서의 은폐가 왜 RCT의 핵심인지, 부적절한 은폐가 효과 추정치를 어떻게 왜곡하는지를 분석한다. SNOSE 봉투, 약국 통제, 중앙 무작위화, 자동화 시스템의 최소·확장 기준, 해독(deciphering)의 실제 사례, 그리고 기준선 특성 비교의 올바른 접근법을 다룬다. Schulz & Grimes (2019) Ch.14를 기반으로 한다. | |
| May 9, 2026 | 배제와 탈락 — ITT 원칙과 참여자 유지 전략 | Experimentation | RCT에서 무작위화 전후의 배제와 추적 탈락이 편향을 유발하는 메커니즘을 분석한다. ITT(intent-to-treat) 분석의 원칙, mITT의 위험, 배제의 역설, 프로토콜 이탈 처리, 추적률 향상 전략, 그리고 CONSORT 흐름도를 다룬다. Schulz & Grimes (2019) Ch.15를 기반으로 한다. | |
| May 9, 2026 | 맹검의 개념 — 용어 혼란에서 편향 방지 원리까지 | Experimentation | RCT에서 맹검(blinding)의 역사, 용어 혼란(single/double/triple blind), 맹검이 방지하는 편향의 유형, 위약과 이중 위약(double-dummy), 맹검과 배정 은폐의 구분, 그리고 맹검 성공 평가의 한계를 다룬다. Schulz & Grimes (2019) Ch.16을 기반으로 한다. | |
| May 9, 2026 | 맹검 구현 — 위약, 이중 위약, 가장 수술의 실전 전략 | Experimentation | RCT에서 맹검을 실제로 어떻게 구현하는지 다룬다. 단일 맹검(참여자·평가자), 가장 수술(sham surgery), 이중 맹검의 3가지 옵션(동일 재포장, 캡슐 포장, 이중 위약), 이중 위약의 실전 사례, 그리고 위약에 대한 오해를 정리한다. Schulz & Grimes (2019) Ch.17을 기반으로 한다. | |
| May 9, 2026 | 대리 결과와 복합 결과 — 알 수 없는 목적지로 가는 지름길 | Experimentation | 대리 결과(surrogate endpoint)가 왜 위험한지, 어떤 조건에서만 유효한지, 그리고 복합 결과(composite outcome)의 함정을 다룬다. 항부정맥제 사망 사건, 불소-골밀도 역설, rosiglitazone 사태, DREAM 시험의 오도 사례, Fleming-Powers 4단계 분류를 중심으로 Schulz & Grimes (2019) Ch.18을 기반으로 정리한다. | |
| May 9, 2026 | 다중성 I — 결과 변수와 치료군의 다중 비교 함정 | Experimentation | RCT에서 다중 결과 변수, 다중 치료군으로 인한 다중성(multiplicity) 문제를 다룬다. 제1종 오류 누적, Bonferroni 보정의 한계, 데이터 준설(data dredging), 복합 결과의 다중성 해결, 다군 시험의 비교 전략, 그리고 보정이 필요한 경우와 불필요한 경우의 구분을 정리한다. Schulz & Grimes (2019) Ch.19를 기반으로 한다. | |
| May 9, 2026 | 다중성 II — 하위군 분석과 중간 분석의 함정 | Experimentation | 하위군 분석(subgroup analysis)의 다중성 문제와 올바른 교호작용 검정, 중간 분석(interim analysis)의 α 팽창, 군순차설계(group sequential design), O’Brien-Fleming·Peto 정지 규칙, 조기 종료 편향, 그리고 무익성/유해성 중단을 다룬다. Schulz & Grimes (2019) Ch.20을 기반으로 한다. | |
| May 9, 2026 | 전향적 메타분석 — 다기관 시험과 근거 통합의 전략 | Experimentation | 전향적 메타분석(PMA)의 개념, 다기관 RCT(MCRCT)와의 비교, 메타분석의 통계적 기초(역분산 가중, 고정효과·랜덤효과, I² 이질성), 체계적 문헌고찰, 그리고 IT에서의 분산 실험 통합을 다룬다. Schulz & Grimes (2019) Ch.21과 Woodward (2014) Ch.12를 기반으로 한다. | |
| May 9, 2026 | RCT 보고와 종합 — CONSORT에서 EQUATOR까지 | Experimentation | RCT 보고의 결함(결핍 보고, 선택적 보고), CONSORT 성명서의 25개 항목 체크리스트와 참여자 흐름도, 보고 지침의 실증적 효과, STROBE·STARD·PRISMA, 그리고 IT 실험 보고 표준화를 다룬다. Schulz & Grimes (2019) Ch.22를 기반으로 한다. | |
| May 9, 2026 | Effect Modification — Hernan Ch.4 개관 | Experimentation, Causal Inference | Hernan & Robins Causal Inference: What If Ch.4 Effect Modification 의 큰 그림. (1) 평균 처치 효과 0 이지만 sub-group 별로 효과가 반대 방향 일 수 있는 충격적 사례, (2) Effect Modifier \(V\) 의 공식 정의 — Additive vs Multiplicative scale, (3) Qualitative vs Non-qualitative effect modification, (4) Stratification 으로 식별, (5) 왜 effect modification 이 transportability·targeting·mechanism 의 핵심인가, (6) Surrogate vs Causal effect modifier 구분. 후속 3 글 안내. | |
| May 9, 2026 | 이질성과 층화로 식별 — Hernan Ch.4.1 + 4.2 | Experimentation, Causal Inference | Hernan & Robins Ch.4.1 + 4.2 의 깊이. (1) Table 4.1 (20 명) 의 sub-group 분석으로 qualitative effect modification 발견, (2) Additive vs Multiplicative effect modification 의 4 가지 시나리오 — 둘 다 있음 / 둘 다 없음 / 하나만 있음 (방향성 분석), (3) Stratification 의 메커니즘 — Marginal Randomization 의 단순 conditional 비교, (4) Conditional Randomization (Greek/Roman 사례) 에서 2 단계 — stratify by V + standardize by L, (5) Observational study 에서 conditional exchangeability 가정 + 동일 절차. | |
| May 9, 2026 | EM 의 의의와 층화 보정 — Hernan Ch.4.3 + 4.4 | Experimentation, Causal Inference | Hernan & Robins Ch.4.3 + 4.4 의 깊이. (1) Effect modification 의 3 가지 응용 가치 — Transportability (모집단 간 일반화), Targeting (정밀 의학), Mechanism (인과 작용 hint), (2) 4.4 의 Stratification 의 두 얼굴 — 효과 modification 식별 도구이자 confounding 보정 도구, (3) 두 목적의 충돌과 명확화, (4) Effect modifier vs Adjustment variable 의 미묘한 구분, (5) 실제 임상·정책 사례. 사례 풍부. | |
| May 9, 2026 | 매칭으로서의 보정 — Hernan Ch.4.5 | Experimentation, Causal Inference | Hernan & Robins Ch.4.5 Matching as Adjustment 의 깊이. (1) Matching 의 정의 — confounder 가 같은 환자끼리 짝짓기, (2) Stratification 의 극한적 형태 로서의 matching, (3) Propensity Score Matching (Rosenbaum & Rubin 1983), (4) Greedy vs Optimal matching, (5) Matched analysis 의 통계 — McNemar test, conditional logistic regression, (6) IP weighting 과의 비교, (7) Matching 의 한계 — 추정 가능한 모집단 의 변화. | |
| May 9, 2026 | Interaction — Hernan Ch.5 개관 | Experimentation, Causal Inference | Hernan & Robins Causal Inference: What If Ch.5 Interaction 의 큰 그림. (1) Joint intervention — 두 처치를 동시에 조작하는 counterfactual \(Y^{a,e}\), (2) Interaction 의 공식 정의 — Additive vs Multiplicative scale, (3) Effect Modification vs Interaction 의 결정적 차이 — V (modifier, 통제 안 됨) vs E (처치, 통제 가능), (4) 16 가지 counterfactual response types, (5) Sufficient cause framework 의 보완적 관점, (6) 두 framework 의 통합 (5.6). | |
| May 9, 2026 | 공동 개입과 상호작용 식별 — Hernan Ch.5.1 + 5.2 | Experimentation, Causal Inference | Hernan & Robins Ch.5.1 + 5.2 의 깊이. (1) Joint intervention \(Y^{a,e}\) 의 정의와 Vitamins + Transplant 사례, (2) Interaction 정의의 두 등가 표현 — A 의 효과가 E 에 따라 다름 = E 의 효과가 A 에 따라 다름, (3) Additive vs Multiplicative interaction 의 정확한 수식 (Technical Point 5.1), (4) 4 가지 식별 시나리오 — Marginal random· Joint random·Observational·일부 random, (5) Combined treatment AE (4 levels) 로 보는 관점, (6) Effect modification 과의 미묘한 분리 재방문. | |
| May 9, 2026 | 반사실 반응 유형과 충분원인 — Hernan Ch.5.3 + 5.4 | Experimentation, Causal Inference | Hernan & Robins Ch.5.3 + 5.4 의 깊이. (1) 단일 처치의 4 response types 에서 두 처치의 16 response types 으로 확장, (2) 각 type 의 의미와 분포 — one-sided / two-sided effects, (3) Sufficient Cause Framework (Rothman 1976) 의 정의 — Component cause, Sufficient cause, Causal pies, (4) 한 결과의 여러 sufficient causes, (5) Counterfactual framework 와의 관계, (6) 두 framework 의 강점 비교. | |
| May 9, 2026 | 충분원인 상호작용 — Hernan Ch.5.5 + 5.6 | Experimentation, Causal Inference | Hernan & Robins Ch.5.5 + 5.6 의 깊이. (1) Sufficient Cause Interaction 의 정의 — 두 처치가 같은 sufficient cause 의 component, (2) VanderWeele & Robins (2008) 의 empirical/counterfactual 조건, (3) Counterfactual interaction 과 Sufficient cause interaction 의 정확한 관계 — 부분적 일치, (4) Biologic interaction 의 의미와 한계, (5) Hernan 의 통합 입장 (5.6) — Counterfactual 우선, Sufficient Cause 보조, (6) Phase J Ch.4·5 시리즈 의 종합. | |
| May 9, 2026 | ML 기반 HTE — 개관 | Experimentation, Causal Inference, Machine Learning | Machine Learning 기반 Heterogeneous Treatment Effect (HTE) 추정의 큰 그림. (1) 전통적 stratification 의 차원 한계, (2) Conditional Average Treatment Effect (CATE) 의 정의, (3) 3 가지 주요 접근 — Meta-learners (S/T/X), Causal Forest, Double Machine Learning, (4) ML 도구 — econml (Microsoft), causalml (Uber) 패키지, (5) 인과 추론 + ML 의 교차점 — Identifiability + Predictive accuracy 의 tradeoff. 후속 3 글 안내. | |
| May 9, 2026 | Meta-Learners — S/T/X-Learner | Experimentation, Causal Inference, Machine Learning | Meta-learners — 기존 ML 회귀 알고리즘을 재사용 하여 CATE 추정. (1) S-learner (Single) 의 단순성과 한계, (2) T-learner (Two) 의 분리 학습과 imbalanced data 함정, (3) X-learner (Künzel et al. 2019) 의 정교화 — propensity weighting + cross-pseudo-outcome, (4) 각 learner 의 권장 사용 맥락, (5) DR-learner 의 doubly-robust 변형. CausalML 패키지 + 시뮬레이션. | |
| May 9, 2026 | Causal Forest — Athey & Imbens | Experimentation, Causal Inference, Machine Learning | Causal Forest — Random Forest 의 인과 변형. (1) Athey & Imbens (2016) 의 recursive partitioning for heterogeneous causal effects, (2) Wager & Athey (2018) 의 honest trees + asymptotic normality, (3) Splitting criterion 의 차이 — 결과 예측이 아닌 처치 효과 heterogeneity 최대화, (4) Honest estimation 의 train/estimation split, (5) 점근 정규성 + 신뢰구간 추정, (6) EconML 사례 코드. 시뮬레이션과 직관. | |
| May 9, 2026 | Double/Debiased ML — Chernozhukov et al. | Experimentation, Causal Inference, Machine Learning | Double/Debiased Machine Learning (DML, Chernozhukov et al. 2018) — ML 추정의 bias 를 통계적으로 제거. (1) Naive plug-in 의 regularization bias 와 overfitting bias, (2) Neyman orthogonality 의 정의 — score function 의 nuisance parameter derivative = 0, (3) Cross-fitting 의 메커니즘 — K-fold 로 nuisance ML 추정과 target parameter 추정 분리, (4) ATE 의 DML 추정량 + asymptotic normality, (5) CATE 로의 확장 — DR-Learner with cross-fitting, (6) EconML LinearDML, SparseLinearDML 사례 코드. | |
| May 9, 2026 | Multi-Armed Bandit 문제 정의 — Exploration vs Exploitation | Experimentation, MAB | Multi-Armed Bandit (MAB) 의 정통 정의와 핵심 trade-off. (1) Slot machine 비유에서 출발한 탐색-활용 딜레마, (2) Reward 분포 가정 (stationary i.i.d., bounded support), (3) Cumulative regret vs Simple regret 의 차이와 응용 맥락, (4) Lai-Robbins 의 log N 하한 정리, (5) A/B Test 와의 본질적 차이 — 학습 후 의사결정 대 학습과 최적화 동시. 직관과 수식, 시뮬레이션을 함께 제시한다. | |
| May 9, 2026 | MAB vs A/B Test — Decision Framework | Experimentation, MAB | Multi-Armed Bandit 과 A/B Testing 의 본질적 차이. (1) 두 도구가 답하는 서로 다른 질문 — 효과의 통계적 추정 vs 누적 보상 최적화, (2) 5 가지 결정 기준 (실험 horizon, 결과 평가의 시점, 통계 정밀성 요구, 윤리·규제 제약, 비즈니스 맥락), (3) 흔한 오해와 함정, (4) Hybrid 접근 (탐색 단계 → A/B, 채택 단계 → MAB), (5) 실무 의사결정 플로차트. | |
| May 9, 2026 | Best Arm Identification — Pure Exploration | Experimentation, MAB | Best Arm Identification (BAI) — 학습 종료 후 1 개의 팔만 추천 하는 pure exploration 문제. (1) Cumulative regret 과의 본질적 차이 — 학습 중 보상 무관, (2) Two formulations — Fixed Budget vs Fixed Confidence, (3) Sample Complexity 의 lower bound (Mannor & Tsitsiklis 2004), (4) UCB-E (Audibert, Bubeck, Munos 2010) 와 Successive Rejects 의 메커니즘, (5) Successive Halving 의 직관과 실증, (6) A/B test 와의 정확한 위치 — fixed-horizon hypothesis test 의 일반화. 풍부한 시뮬레이션과 직관. | |
| May 9, 2026 | Contextual Bandit — LinUCB | Experimentation, MAB | Contextual Bandit — 각 결정 시점에 context (사용자 특성·시간·환경) 관찰 후 최선의 팔 선택. (1) Stochastic vs Contextual MAB 의 본질적 차이, (2) Linear payoff 가정과 ridge regression, (3) LinUCB 알고리즘 (Li, Chu, Langford, Schapire 2010) 의 의사코드, (4) Yahoo! 의 news article recommendation 실증, (5) HTE (heterogeneous treatment effect) 와의 연결, (6) 실무 응용 — 광고, 추천, 동적 가격. | |
| May 9, 2026 | Non-stationary Bandit — Sliding Window · Discounted | Experimentation, MAB | Non-stationary MAB — 팔의 진짜 보상 분포가 시간에 따라 변함. (1) Stationary 가정의 비현실성 (광고 trend, 추천 변화, 시즌 효과), (2) Sliding Window UCB — 최근 W 개 데이터만 사용, (3) Discounted UCB — 과거 데이터 가중치 감소, (4) Garivier & Moulines (2011) 의 regret bound, (5) Change Detection 접근 (CUSUM 등) 과 Switching Bandit, (6) 실무 응용 — 동적 광고, 시즌 추천. 시뮬레이션과 권고. | |
| May 9, 2026 | Epsilon-Greedy — Fixed · Decaying 의 한계 | Experimentation, MAB | Epsilon-greedy 알고리즘 — Multi-Armed Bandit 의 가장 직관적 출발점. (1) 알고리즘 의사코드 (확률 ε 로 무작위 탐색, 1-ε 로 greedy), (2) Fixed ε 의 선형 regret 함정, (3) Decaying ε ∝ 1/t 의 log N regret, (4) Optimistic initialization 같은 변형, (5) ε 의 hyperparameter 민감도와 실무적 권고. UCB·Thompson 으로 넘어가기 전 ε-greedy 의 정통 정리. | |
| May 9, 2026 | UCB1 — 신뢰구간 기반 탐색 | Experimentation, MAB | Upper Confidence Bound (UCB1) 알고리즘 — 불확실성 앞에서의 낙관 원리. (1) UCB1 공식의 두 항 — 평균 (exploitation) + 신뢰구간 폭 (exploration), (2) Hoeffding 부등식의 직관 — 왜 √(log t / n) 형태인가, (3) Auer-Cesa-Bianchi-Fischer (2002) 의 log N regret 정리, (4) 결정론적 알고리즘의 매력 — hyperparameter 거의 없음, (5) Thompson Sampling 과의 비교. 시뮬레이션과 의사코드. | |
| May 9, 2026 | Thompson Sampling — Beta-Bernoulli · Gaussian | Experimentation, MAB | Thompson Sampling — posterior 사후 분포에서 표본 추출 후 각 표본의 최대값에 해당하는 팔 선택. (1) Thompson (1933) 원논문의 역사, (2) Beta-Bernoulli 업데이트의 conjugate 성질, (3) Gaussian variant — 연속 reward, (4) Russo et al. (2018) 의 log N regret 정리, (5) UCB 와의 비교 — 결정론적 vs 확률적 탐색. 시뮬레이션과 실무 권고. | |
| May 9, 2026 | Klein § 13.3-13.4 — Gamma Frailty EM Estimation & Marginal Model | Statistics, Survival Analysis | Klein Ch.13 의 두 핵심 추정 방법을 깊이 다룬다. § 13.3 에서 gamma frailty 모형의 EM 알고리즘 (E-step 의 conjugate posterior \(u_i \mid \text{data} \sim \text{Gamma}(A_i, C_i)\), M-step 의 Cox partial likelihood + frailty offset) 을 단계별로 유도하고 Nielsen profile EM 의 가속을 설명한다. § 13.4 에서 Lee et al. (1992) marginal model 의 independence working model 추정과 샌드위치 분산 \(\widetilde{V} = \widehat{V} C \widehat{V}\) (식 13.4.3) 의 구조를 score 잔차 직관으로 풀어낸다. Mantel litter rat 예제로 두 접근의 결과를 직접 비교한다. | |
| May 9, 2026 | 시계열 데이터란 | Statistics, Time Series | 시계열 데이터가 횡단면 데이터와 근본적으로 다른 이유를 확률 과정의 관점에서 정의한다. 시간적 의존 구조가 기존 통계 방법을 왜 무력화하는지, 시계열 분석이 추구하는 두 가지 목적(이해와 예측)을 Shumway & Stoffer, Cryer & Chan, Hyndman FPP3 의 관점으로 통합한다. | |
| May 9, 2026 | 평균 함수, 자기공분산, 자기상관 | Statistics, Time Series | 시계열 확률 과정의 1차·2차 모멘트 함수(평균, 자기공분산, 자기상관, 교차공분산, 교차상관)를 정의하고, 백색잡음·이동평균·랜덤 워크의 자기공분산을 유도하여 의존 구조의 차이를 직관적으로 비교한다. | |
| May 9, 2026 | 정상성, 에르고딕성, 백색잡음 | Statistics, Time Series | 강 정상성과 약 정상성의 정의와 관계, 에르고딕성이 시계열 추론에서 수행하는 역할, 백색잡음의 세 가지 계층(WN, iid, iidN)을 정의하고, 정상성이 깨지는 예와 회복 전략(차분)을 직관적으로 비교한다. | |
| May 9, 2026 | ACF와 PACF | Statistics, Time Series | 표본 자기상관 함수(ACF)의 정의, 표본 분포, 신뢰 대역을 설명하고, 편자기상관 함수(PACF)의 조건부 상관 해석, Levinson-Durbin 재귀, 그리고 ACF/PACF 패턴을 이용한 ARMA 모형 식별 전략을 다룬다. | |
| May 9, 2026 | 시계열 시각화 | Statistics, Time Series | 시계열 데이터의 시각적 탐색 도구인 time plot, seasonal plot, seasonal subseries plot, lag plot, 산점도 행렬, ACF plot 을 정의하고, 각 도구가 드러내는 패턴(추세, 계절성, 순환, 이상치)을 실제 데이터 예시와 함께 직관적으로 해석한다. | |
| May 9, 2026 | 시계열 분해 | Statistics, Time Series | 시계열을 추세-순환, 계절, 잔차 성분으로 분해하는 가산/승산 모형을 정의하고, 고전적 분해의 절차와 한계, STL과 X-11/SEATS의 개선 원리, 그리고 계절 조정 데이터의 해석 방법을 다룬다. | |
| May 9, 2026 | 단위근 검정 | Statistics, Time Series | 시계열의 정상성을 공식적으로 판단하는 세 가지 단위근 검정(ADF, KPSS, PP)의 모형 구조, 귀무가설, 검정 통계량, 점근 분포를 정의하고, 세 검정의 귀무가설 차이가 실무 해석에 미치는 영향을 직관적으로 비교한다. | |
| May 9, 2026 | 백색잡음 검정 | Statistics, Time Series | 시계열 모형의 잔차가 백색잡음인지를 검정하는 포트만토 검정(Box-Pierce, Ljung-Box)의 통계량, 점근 분포, 시차 선택, 자유도 조정을 정의하고, ACF 시각 검사와의 관계, 그리고 잔차 진단 워크플로우를 직관적으로 설명한다. | |
| May 9, 2026 | 정상화 변환 | Statistics, Time Series | 비정상 시계열을 정상 시계열로 변환하는 세 가지 핵심 도구 — 차분(differencing), 로그 변환, Box-Cox 변환 — 의 수학적 정의, 직관, 후방 이동 연산자(backshift operator) 표현, 그리고 실전 적용 전략을 체계적으로 정리한다. 계절 차분, 분수 차분, Guerrero 방법에 의한 자동 lambda 선택까지 다루며, 과도 차분의 위험성과 변환 순서의 원칙을 직관적으로 설명한다. | |
| May 9, 2026 | AR(p) 모델 — 자기회귀 과정의 정상성 조건과 ACF/PACF 패턴 | Statistics, Time Series | 자기회귀(AR) 모델은 시계열의 현재 값을 자신의 과거 값으로 설명하는 가장 기본적인 시계열 모델이다. AR(1)과 AR(2)의 정상성 조건, 인과성(causality)의 의미, 단위원과의 관계, 그리고 ACF와 PACF의 식별 패턴을 수학적으로 유도하고 R/Python 코드로 확인한다. | |
| May 9, 2026 | SARIMAX — 외생 변수(X) 추가의 효과와 한계 | Statistics, Time Series | SARIMAX 는 SARIMA 에 외생 변수(exogenous variables)를 추가한 모형으로, 시계열 자체의 자기상관 구조와 외부 요인의 효과를 동시에 모형화한다. ARIMA 오차를 가진 회귀(regression with ARIMA errors)의 수학적 구조, 추정 시 주의사항, 예측의 핵심 제약(외생 변수의 미래 값 필요), 그리고 SARIMA 와의 성능 비교를 체계적으로 다룬다. | |
| May 9, 2026 | auto.arima 와 자동 모델 선택의 실무 — 한계와 함정 | Statistics, Time Series | auto.arima 는 단위근 검정 + 정보 기준 최적화 + 단계적 탐색을 결합하여 ARIMA 차수를 자동으로 결정한다. 그러나 이 자동화에는 숨겨진 가정, 근사 오류, 지역 최적 함정이 존재한다. Hyndman-Khandakar 알고리즘의 내부 구조, R fable 과 Python pmdarima 의 구현 차이, 그리고 자동 선택이 실패하는 대표적 시나리오를 다룬다. | |
| May 9, 2026 | MA(q) 모델 — 이동평균 과정의 가역성과 ACF 끊김 | Statistics, Time Series | 이동평균(MA) 모델은 현재 관측값을 백색잡음의 유한 선형 결합으로 표현한다. MA(q) 의 ACF 가 lag q 이후 정확히 0 이 되는 성질, 가역성(invertibility) 조건, AR 모델과의 쌍대(duality) 관계를 수학적으로 유도하고 R/Python 코드로 확인한다. | |
| May 9, 2026 | ARMA(p,q) 혼합 모델과 인과성·가역성 조건 | Statistics, Time Series | ARMA(p,q) 모델은 AR(p) 의 자기회귀 구조와 MA(q) 의 이동평균 구조를 결합한 일반적 정상 시계열 모델이다. 인과성(causality)과 가역성(invertibility) 조건을 동시에 만족해야 하는 이유, 매개변수 중복(parameter redundancy)의 위험, psi-가중치와 pi-가중치의 유도, ACF/PACF 의 혼합 패턴, 그리고 AR·MA 단독 모델과의 비교를 다룬다. | |
| May 9, 2026 | Yule-Walker 방정식 — ACF 와 AR 계수의 직접 관계 | Statistics, Time Series | Yule-Walker 방정식은 AR(p) 모델의 자기상관함수(ACF)와 자기회귀 계수 사이의 선형 관계를 명시적으로 표현한다. 이 방정식은 적률 추정(method of moments)의 토대이며, AR 계수의 초기 추정, 차수 결정, PACF 계산에 핵심적으로 활용된다. 행렬 표현, Durbin-Levinson 재귀 알고리즘, 그리고 Innovations 알고리즘과의 관계를 다룬다. | |
| May 9, 2026 | ARIMA(p,d,q) — 차분 통합과 비정상 시계열 모델링 | Statistics, Time Series | ARIMA(p,d,q) 모델은 비정상 시계열에 차분(differencing)을 적용하여 정상성을 확보한 후 ARMA(p,q) 를 적합시키는 통합 모델이다. 차분 연산자, 단위근(unit root)과의 관계, ARIMA 의 연산자 표현, 차분 차수 d 의 결정 방법, 그리고 Nile 데이터 적용 사례를 다룬다. | |
| May 9, 2026 | Box-Jenkins 방법론 — 명세, 추정, 진단, 예측 | Statistics, Time Series | Box-Jenkins 방법론은 ARIMA 모델링의 표준 워크플로이다. 모델 명세(identification), 매개변수 추정(estimation), 잔차 진단(diagnostic checking), 예측(forecasting)의 4단계 반복 순환 절차를 체계적으로 설명하고, 각 단계에서 사용하는 도구와 판단 기준을 다룬다. | |
| May 9, 2026 | 모델 선택 — AIC, BIC, AICC 와 정보 기준의 시계열 적용 | Statistics, Time Series | AIC, BIC, AICC 는 시계열 모델의 차수 결정에 핵심적인 정보 기준이다. 각 기준의 수학적 정의, 편향-분산 트레이드오프에서의 역할, 시계열 맥락에서의 실무적 적용, 그리고 AIC vs BIC 선택 가이드를 다룬다. | |
| May 9, 2026 | MLE vs 조건부/비조건부 최소제곱 — ARMA 추정의 비교 | Statistics, Time Series | ARMA 모델의 매개변수 추정에는 최대우도(MLE), 조건부 최소제곱(CSS), 비조건부 최소제곱(ULS) 세 가지 주요 방법이 있다. 각 방법의 수학적 원리, 초기값 처리의 차이, 소표본/대표본에서의 행동, 실무에서의 선택 기준, 그리고 R/Python 구현에서의 차이를 상세히 비교한다. | |
| May 9, 2026 | SARIMA — 계절 ARIMA 의 곱셈 모델 구조 | Statistics, Time Series | 계절 시계열은 단순 ARIMA 로는 포착할 수 없는 주기적 패턴을 갖는다. SARIMA(p,d,q)(P,D,Q)_s 는 비계절 ARIMA 와 계절 ARIMA 를 곱셈 구조로 결합하여, 짧은 시차의 의존과 계절 시차의 의존을 동시에 모형화한다. 계절 차분, 곱셈 모델의 이론적 근거, ACF/PACF 패턴, 그리고 유명한 airline model 사례를 포함하여 체계적으로 다룬다. | |
| May 9, 2026 | Forecaster’s Toolbox | Statistics, Time Series | 시계열 예측의 기본 워크플로우와 네 가지 벤치마크 방법(Mean, Naive, Seasonal Naive, Drift)을 소개한다. 적합값과 잔차의 개념, Box-Cox 변환을 이용한 예측, 분해 기반 예측 전략까지 Forecaster’s Toolbox 전체를 다룬다. | |
| May 9, 2026 | Simple Exponential Smoothing 과 Holt 의 추세 추가 | Statistics, Time Series | 단순 지수 평활(SES)의 가중 평균 구조와 성분 형태(component form)를 유도하고, Holt의 선형 추세 방법과 감쇠 추세(damped trend) 확장을 다룬다. 평활 모수의 직관적 의미와 SSE 기반 최적화를 설명한다. | |
| May 9, 2026 | Holt-Winters — 계절성의 두 표현 (가법과 승법) | Statistics, Time Series | ||
| May 9, 2026 | ETS State-Space Framework — 오차, 추세, 계절의 18가지 조합 | Statistics, Time Series | ||
| May 9, 2026 | 예측 정확도 지표 | Statistics, Time Series | 시계열 예측 모형의 성능을 평가하는 핵심 지표를 다룬다. 척도 의존(MAE, RMSE), 비율(MAPE), 척도 독립(MASE, RMSSE) 지표의 정의, 직관, 장단점을 비교하고, 분포 예측 평가 지표(Quantile Score, Winkler Score, CRPS)까지 확장한다. | |
| May 9, 2026 | 잔차 진단, 예측 구간, 시계열 교차검증 | Statistics, Time Series | 예측 모형의 적합도를 잔차(residual) 분석으로 검증하고, 예측 구간(prediction interval)으로 불확실성을 정량화하며, 시계열 교차검증(time series cross-validation)으로 진정한 사전 예측 성능을 평가하는 전체 워크플로를 다룬다. | |
| May 9, 2026 | 스펙트럼 밀도 함수 — 자기공분산의 Fourier 쌍대 | Statistics, Time Series | 정상 시계열의 자기공분산 함수와 스펙트럼 밀도 함수가 Fourier 변환 쌍을 이루는 관계를 다룬다. 시간 영역의 상관 구조를 주파수 영역에서 분산의 분해로 재해석하고, 백색잡음, MA, AR, ARMA 과정의 스펙트럼 밀도를 유도한다. | |
| May 9, 2026 | 주기도와 DFT — 표본 스펙트럼 추정의 출발점 | Statistics, Time Series | 이산 Fourier 변환(DFT)의 정의와 주기도(periodogram)를 다룬다. 주기도가 스펙트럼 밀도의 표본 버전임을 보이고, 분산의 주파수별 분해(Spectral ANOVA) 관점을 설명한다. 주기도가 일관 추정량이 아닌 이유와 그 한계를 논의한다. | |
| May 9, 2026 | 비모수 스펙트럼 추정 — 커널·multitaper·windowing | Statistics, Time Series | 주기도의 극심한 변동성(비일관성)을 해결하기 위한 비모수 스펙트럼 추정 기법을 다룬다. Daniell 커널과 수정 Daniell 커널을 이용한 주기도 평활, 편향-분산 트레이드오프, 대역폭(bandwidth)의 역할, 카이제곱 신뢰구간, 누출(leakage)과 테이퍼링, 그리고 다중테이퍼(multitaper) 방법까지 체계적으로 설명한다. | |
| May 9, 2026 | 코히런스·위상 — 다중 시계열의 주파수별 관계 | Statistics, Time Series | 두 시계열 간의 주파수별 선형 관계를 측정하는 도구인 코히런스(coherence)를 다룬다. 교차 스펙트럼의 정의와 교차공분산과의 Fourier 쌍대성, 코스펙트럼과 쿼드스펙트럼, 제곱 코히런스의 해석, 위상 스펙트럼을 통한 시차 관계 추정, 그리고 코히런스의 추정과 통계적 검정을 체계적으로 설명한다. | |
| May 9, 2026 | 선형 필터의 스펙트럼 해석 — 저역/고역/대역 | Statistics, Time Series | 선형 필터가 시계열의 스펙트럼을 어떻게 변형하는지를 다룬다. 시간 영역의 합성곱이 주파수 영역에서 곱셈으로 변환되는 핵심 원리를 설명하고, 주파수 응답 함수의 정의와 해석, 전달 함수의 진폭과 위상, 저역·고역·대역 통과 필터의 설계와 응용, 차분 필터와 이동평균 필터의 비교, 그리고 필터 설계 시 테이퍼링의 역할을 체계적으로 다룬다. | |
| May 9, 2026 | AR 스펙트럼 추정 — 모수적 접근 | Statistics, Time Series | 모수적 스펙트럼 추정의 핵심인 자기회귀(AR) 스펙트럼을 다룬다. AR(p) 과정의 스펙트럼 밀도가 왜 닫힌 형태를 가지는지, 추정된 AR 계수를 대입하여 스펙트럼을 구하는 방법, AIC/BIC에 의한 차수 선택, AR 스펙트럼 근사 정리의 의미, 비모수 추정과의 장단점 비교, 래그 윈도 추정량, 그리고 Whittle 우도를 체계적으로 설명한다. | |
| May 9, 2026 | 상태공간 모델 — 관측 방정식과 상태 방정식 | Statistics, Time Series | 상태공간 모델(SSM)의 일반 형태를 정의하고, 관측 방정식과 상태 방정식의 구조를 설명한다. 선형 가우시안 SSM의 가정, 마르코프 성질, 그리고 ARIMA/ETS/VAR 등 다양한 시계열 모델이 SSM의 특수 사례임을 보인다. | |
| May 9, 2026 | Kalman 필터 — 예측-보정 단계의 재귀 알고리즘 | Statistics, Time Series | 선형 가우시안 상태공간 모델에서 잠재 상태를 추정하는 Kalman 필터의 재귀 알고리즘을 유도한다. 예측 단계와 보정 단계의 구조, Kalman 이득의 역할, 혁신(innovation)의 통계적 성질, 정상 상태 수렴, 그리고 최대우도 추정과의 연결을 다룬다. | |
| May 9, 2026 | Kalman smoother — Rauch-Tung-Striebel 회귀 평활 | Statistics, Time Series | Kalman 필터가 과거→현재 방향의 순방향 추정이라면, Kalman smoother는 미래 정보를 역방향으로 반영하여 과거 상태 추정을 개선하는 알고리즘이다. Rauch-Tung-Striebel (RTS) smoother의 재귀 구조, smoother 이득의 직관, lag-one 공분산 smoother, 그리고 EM 알고리즘과의 연결을 다룬다. | |
| May 9, 2026 | ARIMA와 ETS의 상태공간 표현 — 통합 framework | Statistics, Time Series | ARIMA 모델과 ETS 지수평활법은 겉보기에 전혀 다른 접근이지만, 상태공간 모델(SSM)이라는 통합 framework 안에서 각각 특수한 경우로 표현된다. Local level 모델과 ARIMA(0,1,1)의 동치, ARMA의 companion form SSM 표현, ETS의 innovation 상태공간 모델, 구조적 시계열 분해, 그리고 SARIMAX의 SSM 표현을 다루며 모델 간 연결을 체계화한다. | |
| May 9, 2026 | 비선형 필터링 — EKF, UKF, Particle Filter | Statistics, Time Series | 선형 가우시안 가정이 깨지면 Kalman 필터는 더 이상 최적이 아니다. 비선형 또는 비가우시안 상태공간 모델을 다루는 세 가지 주요 접근법 — Extended Kalman Filter(EKF), Unscented Kalman Filter(UKF), Particle Filter(PF) — 의 원리, 직관, 비교를 다룬다. | |
| May 9, 2026 | Markov Switching 모형 — regime change 추론 | Statistics, Time Series | 시계열의 구조가 시간에 따라 질적으로 변하는 현상(regime switching)을 다루는 Markov Switching 모형을 소개한다. Hidden Markov Model(HMM)의 필터와 smoother, Hamilton 필터, 전이 확률의 추정, EM 알고리즘, 그리고 경기 순환 분석과 금융 변동성 응용을 다룬다. | |
| May 9, 2026 | Ch.1 — 시계열 데이터의 특성 개관 | Statistics, Time Series | Shumway & Stoffer Ch.1 전체를 조감한다. 시계열 데이터의 본질(§1.1), 확률 모형(§1.2), 종속성 측도(§1.3), 정상성(§1.4), 상관 함수 추정(§1.5), 벡터 시계열(§1.6)을 하나의 흐름으로 정리하고, 후속 챕터와의 연결 고리를 제시한다. | |
| May 9, 2026 | §1.1~1.2 — 시계열 데이터의 본질과 통계 모형 | Statistics, Time Series | Shumway & Stoffer §1.1 의 7 가지 실험 데이터 예시를 통해 시계열 분석의 핵심 과제를 파악하고, §1.2 의 5 가지 기본 모형(백색잡음·이동 평균·자기회귀·확률 보행·신호+잡음)을 수식과 시뮬레이션으로 깊이 있게 다룬다. | |
| May 9, 2026 | §1.3~1.4 — 종속성 측도와 정상 시계열 | Statistics, Time Series | 시계열의 종속 구조를 수량화하는 세 가지 도구 — 평균 함수·자기공분산 함수·자기상관 함수 — 를 정의하고, 이 도구들이 “시간 불변”이 되는 조건인 정상성(stationarity)의 엄밀 정의와 함의를 다룬다. 교차공분산·교차상관, 선형 과정, 가우스 과정까지 확장한다. | |
| May 9, 2026 | §1.5~1.6 — 상관 함수 추정과 벡터 시계열 | Statistics, Time Series | 표본 자기공분산·표본 ACF·표본 CCF 의 정의와 대표본 분포를 다루고, ACF 를 이용한 백색잡음 검정과 예백색화(prewhitening) 기법을 소개한다. 벡터 시계열과 다차원 시계열로의 자연스러운 확장을 다룬다. | |
| May 9, 2026 | Ch.2 개관 — 시계열 회귀와 탐색적 분석 | Statistics, Time Series | 시계열에 고전 회귀를 적용할 때의 특수성 — 추세·계절성 모형화, 잔차 자기상관 — 을 다루고, 차분·로그 변환·이동 평균 평활·커널 평활·비모수 회귀 등 탐색적 분석(EDA) 도구의 원리와 목적을 조감한다. | |
| May 9, 2026 | §2.1~2.2 — 고전 회귀와 탐색적 분석 | Statistics, Time Series | 시계열에 OLS 회귀를 적용할 때의 수학적 구조, 잔차 자기상관의 진단과 대응, 차분·로그 변환·후방 이동 연산자, 산점도 행렬과 삼각함수 회귀를 상세히 다룬다. | |
| May 9, 2026 | §2.3 — 시계열 평활 기법 | Statistics, Time Series | 시계열의 추세와 계절 성분을 추출하기 위한 비모수 평활 방법을 상세히 다룬다. 이동 평균, 커널 평활, 평활 스플라인, LOWESS 의 수학적 원리, 편향-분산 트레이드오프, 대역폭 선택, 경계 효과를 포함한 실무적 고려사항을 전개한다. | |
| May 9, 2026 | Ch.3 개관 — ARMA·ARIMA·SARIMA 체계 | Statistics, Time Series | 시계열 분석의 핵심 모형군인 ARMA, ARIMA, SARIMA 의 전체 구조를 조감한다. 각 모형의 정의, 정상성·인과성·가역성 조건, Box-Jenkins 방법론, ACF/PACF 패턴 판별, 추정, 예측, 진단의 흐름을 개관 수준에서 제시한다. | |
| May 9, 2026 | §3.1~3.2 — ARMA 모형과 차분 방정식 | Statistics, Time Series | 자기회귀(AR), 이동 평균(MA), 자기회귀 이동 평균(ARMA) 모형의 정의와 성질, 인과성·가역성·정상성 조건을 다항식 근의 관점에서 체계적으로 전개한다. 차분 방정식의 해법과 계수 매칭 기법, 모수 중복 문제를 상세히 다룬다. | |
| May 9, 2026 | §3.3~3.4 — ACF/PACF 와 예측 | Statistics, Time Series | ARMA 모형의 자기상관 함수(ACF)와 편자기상관 함수(PACF)의 이론적 형태를 유도하고, 모형 식별의 핵심 도구로서의 역할을 상세히 전개한다. 최적 예측의 정의, 예측 오차 분산, 예측 구간을 다룬다. | |
| May 9, 2026 | 다변량 시계열 개관 — CCF, Granger 인과성, 벡터 백색잡음 | Statistics, Time Series | 다변량(벡터) 시계열의 정상성, 공분산 행렬 함수, 교차상관 함수(CCF), 벡터 백색잡음, 다변량 Portmanteau 검정, Granger 인과성까지 다변량 분석의 기초 개념을 통합한다. | |
| May 9, 2026 | VAR(p) 모형 — 정상성 조건, OLS 추정, 예측 | Statistics, Time Series | K차원 VAR(p) 모형의 정의, 인과성(정상성) 조건, OLS 추정, 정보 기준을 이용한 차수 선택, 잔차 진단, 예측까지 다변량 시계열 모형의 핵심 워크플로를 다룬다. | |
| May 9, 2026 | VAR의 임펄스 응답 함수(IRF)와 분산 분해(FEVD) | Statistics, Time Series | VAR 모형의 VMA 표현에서 도출하는 임펄스 응답 함수(IRF), 누적 응답, 예측 오차 분산 분해(FEVD), Cholesky 분해의 역할과 한계, 직교 임펄스 응답 함수(OIRF)를 다룬다. | |
| May 9, 2026 | 구조적 VAR (SVAR)과 식별 문제 | Statistics, Time Series | 축약형 VAR에서 구조형 VAR(SVAR)로의 전환, 동시적 상관의 구조적 해석, 단기 제약(A-model/B-model), 장기 제약(Blanchard-Quah), 부호 제약, 식별의 차수 조건과 계수 조건을 다룬다. | |
| May 9, 2026 | 공적분 – Engle-Granger와 Johansen 검정 | Statistics, Time Series | 비정상 시계열 간의 장기 균형 관계인 공적분의 정의, 허위 회귀 문제, I(d) 과정, Engle-Granger 2단계 검정, Johansen 최대우도 검정(trace/max-eigenvalue), 공적분 랭크 결정과 실무 적용을 다룬다. | |
| May 9, 2026 | VECM – 벡터 오차 수정 모형 | Statistics, Time Series | 공적분 관계를 내재한 I(1) VAR 과정의 오차 수정 표현, 적재 행렬(alpha)과 공적분 행렬(beta)의 해석, VECM 추정 절차와 결정론적 항의 처리를 다룬다. | |
| May 9, 2026 | VARMAX – 외생 변수와 이동평균을 포함하는 다변량 모형 | Statistics, Time Series | VARMA(p,q) 모형의 정의와 인과성/가역성 조건, 외생 변수를 포함하는 VARMAX 확장, 식별 문제와 차원의 저주, 실무적 사용 지침을 다룬다. | |
| May 9, 2026 | 금융 시계열의 Stylized Facts | Statistics, Time Series | 금융 수익률 시계열은 일반적인 ARIMA 모형이 가정하는 등분산 정규성과 체계적으로 다른 경험적 특성을 보인다. Heavy tail, volatility clustering, leverage effect, long memory in volatility 등 금융 시계열의 핵심 stylized facts를 정의하고, 이를 진단하는 통계적 도구 (Jarque-Bera, McLeod-Li, ARCH-LM)를 R과 Python 코드로 실습한다. 이 글은 후속 ARCH/GARCH 모형의 동기를 제공한다. | |
| May 9, 2026 | ARCH(q) — 조건부 분산의 이질성 | Statistics, Time Series | ARCH(q) 모형은 금융 수익률의 조건부 분산이 과거 제곱 수익률에 의존하는 구조를 포착한다. Engle (1982)이 제안한 ARCH(1)의 정의와 핵심 성질 (백색잡음이면서 heavy tail, 변동성 군집) 을 수학적으로 유도하고, ARCH(q) 일반화, 조건부 MLE, ARCH 효과 검정, R과 Python 구현을 다룬다. | |
| May 9, 2026 | GARCH(p,q) — Bollerslev 일반화 | Statistics, Time Series | GARCH(p,q) 모형은 ARCH(q)의 조건부 분산 방정식에 과거 조건부 분산의 시차값을 추가하여, 적은 모수로 변동성의 긴 지속성을 포착한다. Bollerslev (1986)의 일반화 정의, 제곱 수익률의 ARMA(max(p,q), p) 표현, 정상성 조건, MLE 추정, EACF 기반 모형 식별, h 단계 앞 변동성 예측, IGARCH와 RiskMetrics를 R과 Python으로 다룬다. | |
| May 9, 2026 | 비대칭 GARCH — EGARCH, TGARCH, GJR | Statistics, Time Series | 표준 GARCH(p,q)는 양의 충격과 음의 충격이 동일한 크기만큼 조건부 분산에 기여한다고 가정한다. 그러나 금융 시장에서는 음의 수익률이 양의 수익률보다 변동성을 더 크게 증가시키는 레버리지 효과가 관찰된다. 이를 포착하는 세 가지 비대칭 GARCH 모형 — EGARCH (Nelson 1991), TGARCH/ZGARCH (Zakoian 1994), GJR-GARCH (Glosten et al. 1993) — 의 정의, 뉴스 충격 곡선 비교, 추정, 모형 선택을 R과 Python으로 다룬다. | |
| May 9, 2026 | 다변량 GARCH — DCC, BEKK, CCC | Statistics, Time Series | 단변량 GARCH는 개별 자산의 변동성 동학을 포착하지만, 포트폴리오 위험 관리와 자산 배분에는 자산 간 조건부 공분산의 시간 가변 구조가 필요하다. CCC (Bollerslev 1990), DCC (Engle 2002), BEKK (Engle-Kroner 1995) 세 가지 다변량 GARCH 모형의 정의, 모수 수, 추정 전략, 장단점 비교를 R과 Python으로 다룬다. | |
| May 9, 2026 | VaR와 Expected Shortfall — 위험 지표의 GARCH 추정 | Statistics, Time Series | 금융 위험 관리의 핵심 지표인 VaR(Value-at-Risk)와 ES(Expected Shortfall)를 정의하고, 이를 GARCH 모형의 조건부 분산 추정과 결합하여 시간 가변적 위험을 측정하는 방법을 다룬다. 분산-공분산법, 역사적 시뮬레이션, GARCH-VaR의 세 가지 접근을 비교하고, ES가 VaR의 한계를 어떻게 보완하는지, 백테스팅으로 모형의 사후 검증을 어떻게 수행하는지를 R과 Python 코드로 다룬다. | |
| May 9, 2026 | Time Series Analysis | Statistics, Time Series |
Shumway & Stoffer — Time Series Analysis and Its Applications (With R Examples) 를 정통 backbone 으로, Hyndman FPP3 (실무 예측), Hamilton (계량경제), Cryer-Chan / Huang / Peixeiro / Korstanje / Cerqueira / Ljung 의 8 교재 보강을 통합한 시계열 분석 전체 학습 로드맵이다. 작성 핸드오프는 handoff/Statistics-TimeSeries/ 의 13 Phase 매트릭스가 담당하며, 본 index 의 글 # 와 Phase 매핑은 맨 끝 표 참조.
|
|
| May 8, 2026 | Experimentation 학습 로드맵 — 역학에서 인과추론·A/B Test 까지 | Experimentation | Experimentation 카테고리는 역학(epidemiology)의 RCT 전통에서 출발하여 현대 IT 의 A/B Test 와 인과추론·MAB 까지 다룬다. 이 글은 11 Phase 학습 경로와 7 교재 매핑을 정리하여 독자가 자기 배경에 맞는 진입점을 5 분 안에 결정할 수 있게 한다. | |
| May 8, 2026 | RCT 모집의 현실 — Ch.10 개관 | Experimentation, Epidemiology | 무작위 대조 시험에서 가장 빈번한 실패 원인은 모집(recruitment) 부진이다. UK 공공자금 시험의 31% 만 목표 표본 크기에 도달한 실태, 부진이 야기하는 4 가지 결과 (시험 포기 · 검정력 저하 · 외적 타당도 훼손 · 윤리적 문제), eligibility · enrolment · recruitment fraction 의 정의, Lasagna 법칙 · Muench 제3법칙 · π 규칙 의 직관, Cochrane 메타리뷰가 입증한 4 전략 (open-label · opt-out · 전화 · 금전 보상) 을 한 챕터의 흐름으로 압축한다. 각 수식과 통계 뒤에 일상어 비유 · 반사실 시나리오를 두텁게 붙여 통계 비전공자도 곧바로 체감할 수 있도록 작성했다. | |
| May 8, 2026 | Allocation Concealment — Ch.14 개관 | Experimentation, Epidemiology | Schulz Ch.14 Allocation Concealment in Randomised Trials 의 큰 그림을 다룬다. (1) Allocation concealment 가 무엇이며 왜 sequence generation 과 분리해야 하는가, (2) 부적절 concealment 의 40% 효과 과대 추정 실증, (3) 임상 인력의 deciphering 시도 사례 (반투명 봉투를 빛에 비춤·중앙 무작위 전화 사기 등), (4) 4 가지 적절 방법 (SNOSE, pharmacy controlled, sequentially numbered containers, central randomisation), (5) Baseline comparison 의 hypothesis test 함정. 후속 글의 안내. | |
| May 8, 2026 | 은폐의 중요성과 해독 시도 — Ch.14.1 | Experimentation, Epidemiology | Schulz Ch.14 의 첫 deep dive — 부적절 concealment 가 야기하는 selection·confounding 편향의 정량적 메커니즘과, 임상 인력이 sequence 를 해독한 anonymous 사례들. (1) Schulz 외 (1995) 의 40% 효과 과대 추정 발견의 직관적 분해, (2) 게시판·반투명 봉투·hot light· 중앙 무작위 사기 전화·라벨 외관 비교·사무실 잠입 사례들의 메커니즘 분석, (3) Oscar Wilde 의 “유혹을 없애는 유일한 방법은 굴복하는 것” 인용에 담긴 인식론적 통찰. 각 사례에 반사실 시나리오와 대응책을 풍부히 붙인다. | |
| May 8, 2026 | Concealment 평가 기준과 사례 — Ch.14.2 | Experimentation, Epidemiology | Schulz Ch.14 의 두 번째 deep dive — 4 가지 적절한 allocation concealment 방법의 메커니즘, 사례, 그리고 minimum vs expanded criteria 를 비교. (1) SNOSE (Sequentially Numbered, Opaque, Sealed Envelopes) 의 carbon paper · 알루미늄 호일 보강, (2) Pharmacy controlled 의 약사 훈련 필요성, (3) Sequentially numbered containers 의 외관·무게 동일성, (4) Central randomisation 의 직원 훈련과 등록 후 배정 원칙. Panel 14.1 의 실제 RCT 보고 사례 9 건과 Panel 14.2 의 평가 매트릭스를 함께 분석한다. | |
| May 8, 2026 | 기저선 비교의 함정 — Ch.14.3 | Experimentation, Epidemiology | Schulz Ch.14 의 마지막 deep dive — RCT 보고의 첫 표 (Baseline Characteristics Table) 의 적절·부적절 관행. (1) 무작위 배정 RCT 에서 baseline 의 hypothesis test 가 정의상 부조리한 이유 — Altman “clearly absurd”, (2) Hypothesis test 사용의 부작용 — 보고 억제 메커니즘 (Schulz 외 1994 의 유의 결과 비율 < 5%), (3) 적절한 baseline 보고 — 평균·SD· 중앙값·IQR·percentage 의 사용 원칙, (4) Chance imbalance 의 사전 계획적 adjustment. 각 통계 도구에 직관 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | Exclusions and Losses — Ch.15 개관 (Intent-to-Treat 절대 원칙) | Experimentation, Epidemiology | Schulz Ch.15 Exclusions and Losses in Randomised Trials 의 큰 그림을 다룬다. (1) 무작위 배정 후 제외의 위험 — Sulfinpyrazone 시험의 FDA audit 충격적 발견 (32% 효과가 21% 로 약화), (2) Intent-to-Treat (ITT) 원칙 — “once randomised, always analysed”, (3) Per-Protocol · As-Treated · mITT 의 위험성, (4) Exclusion paradox — 보고하지 않는 시험이 더 편향, (5) 5-and-20 rule (loss to follow-up), 후속 글의 안내. | |
| May 8, 2026 | 무작위 전 제외 — Ch.15.1 | Experimentation, Epidemiology | Schulz Ch.15.1 — 무작위 배정 전 제외의 영향 분석. (1) 무작위 전 제외는 내적 타당도 를 해치지 않으나 외적 타당도 를 해친다, (2) Eligibility criteria 의 적정 범위 — Peto 의 “large and simple trial” 철학, (3) Run-in period 와 enrichment 의 함정, (4) Sackett 의 “qualitative differences are rare” 통찰 — 시험 결과의 robustness, (5) Reviewer·독자가 eligibility 를 평가하는 체크리스트. 각 개념에 일상어 비유 풍부. | |
| May 8, 2026 | 무작위 후 제외와 ITT — Ch.15.2 | Experimentation, Epidemiology | Schulz Ch.15.2 — 무작위 후 제외의 결정적 위험과 ITT 원칙의 정당화. (1) 무작위 후 ineligibility 발견의 selection bias 메커니즘 (Sulfinpyrazone 재방문), (2) Last possible moment randomisation 원칙, (3) mITT (modified ITT) 의 misnomer 비판 — 사실은 PP 분석, (4) Schulz 외 (1996) 의 “단 2% 만 명시적 ITT 보고” 충격, (5) Reviewer 가 ITT 적절성을 평가하는 체크리스트. | |
| May 8, 2026 | 사후 제외와 추적 손실 — Ch.15.3 | Experimentation, Epidemiology | Schulz Ch.15.3 — 무작위 후 제외의 세 시나리오 깊이 + Panel 15.2 의 retention 전략. (1) Post-randomisation pretreatment outcome 의 함정 (7-day rule 사례), (2) Protocol deviation 처리 — dental antibiotic 25% 비순응 사례의 단계별 분석, (3) Loss to follow-up 의 differential rates 위험, (4) Panel 15.2 의 13 가지 retention 전략 — follow-up 클리닉 다수 운영, 모바일 폰 제공, 텍스트 메시지, 소셜 미디어. (5) “5%/20% + outcome event rate” 통합 평가 기준. | |
| May 8, 2026 | Blinding — Ch.16 개관 (Hiding Who Got What) | Experimentation, Epidemiology | Schulz Ch.16 Blinding in Randomised Trials 의 큰 그림을 다룬다. (1) Blinding 과 allocation concealment 의 결정적 차이, (2) Blinding 의 잠재 효과 — 참여자·연구자·평가자 세 그룹별 (Panel 16.1), (3) Lexicon 의 혼란 — single/double/triple/quadruple blind 의 17 가지 해석, (4) Masking vs Blinding (Franklin 1785 mesmerism 시험), (5) Placebo 와 double-dummy 의 역할, (6) “Double blinding 이 trial quality 의 sine qua non 이 아님” Schulz 의 강한 주장. 후속 글의 안내. | |
| May 8, 2026 | 맹검의 효과와 용어 — Ch.16.1 | Experimentation, Epidemiology | Schulz Ch.16.1 — Blinding 의 잠재 효과를 세 대상 그룹 (참여자·연구자·평가자) 별로 분해. 각 그룹이 blind 되지 않을 때 발생하는 편향 메커니즘. (1) Multiple sclerosis trial 의 비맹검 신경과 의사만 효과 보고 사례, (2) Panel 16.1 의 효과 매트릭스 깊이, (3) Lexicon 의 혼란 — Devereaux 외 (2001) 의 17 가지 해석, (4) Haahr & Hrobjartsson 의 156 시험 분석. 각 메커니즘에 일상어 비유. | |
| May 8, 2026 | RCT 모집 어려움의 정량화 — Lasagna · Muench · π · Fractions | Experimentation, Epidemiology | RCT 모집 부진을 측정 하기 위한 도구를 깊이 다룬다. Lasagna 1979 외과 진통제 일화의 단계별 분해 (8000 → 100 의 multiplicative funnel), Muench 제3법칙의 1/10 이 왜 자연수처럼 등장하는가, π 규칙의 세 가지 지연 요인 (램프업·계절성·꼬리 길이) 곱, Eligibility · Enrolment · Recruitment fraction 의 진단 매트릭스, Gross 외 (2002) 172 개 보고서의 실증 분포 (1.8 ~ 68 명 심사), CONSORT flow diagram 의 보고 양식까지. 각 수치가 왜 그 값으로 떨어지는지 일상어 비유와 단계별 분해로 풀어낸다. | |
| May 8, 2026 | Masking vs Blinding · 위약과 Double-Dummy — Ch.16.2 | Experimentation, Epidemiology | Schulz Ch.16.2 — Blinding 도구 두 흐름. (1) Masking vs Blinding 용어 선택 — Franklin 1785 mesmerism 시험의 역사적 기원, 시각 장애 환자 시험에서의 적합성, ICH 가이드라인의 blinding 채택, (2) Placebo 와 active placebo 의 역할, (3) Double-dummy method 의 메커니즘과 활용 사례. 각 도구에 일상어 비유와 임상 사례. | |
| May 8, 2026 | Blinding 의 편향 방지 효과와 평가 — Ch.16.3 | Experimentation, Epidemiology | Schulz Ch.16.3 — Blinding 이 언제 결정적이고 언제 그렇지 않은가 의 nuanced 평가. (1) “Double blind 가 RCT quality 의 sine qua non 이 아님” Schulz 의 강한 주장, (2) Multiple sclerosis trial 사례 깊이 (Noseworthy 1994), (3) Test of blindness 의 한계 — 부작용·효과로 인한 추측의 해석 어려움, (4) CONSORT 2010 의 test of blindness 제외 결정, (5) Subjective vs objective outcome 별 blinding 권장. 사례 풍부. | |
| May 8, 2026 | Blinding Implementation — Ch.17 개관 | Experimentation, Epidemiology | Schulz Ch.17 Implementation of Treatment Blinding 의 큰 그림. (1) Single blinding 의 세 그룹별 (참여자·연구자·평가자) 실행 방법, (2) Double blinding 의 약물 시험에서의 세 옵션 — 동일 prepackaging, 큰 캡슐 encapsulation, double-dummy, (3) 효과적 표준 치료 존재 시 처치 옵션, (4) Sham surgery 의 윤리적 기준 (Albin 2002), (5) 후속 글의 안내. | |
| May 8, 2026 | 단일 맹검 구현 — Ch.17.1 | Experimentation, Epidemiology | Schulz Ch.17.1 — Single blinding 의 세 그룹별 실행. 참여자 blinding 의 sham procedure (drape, sham 위치, sham injection), 외과 시험에서의 sham surgery 두 사례 (Moseley 2002 무릎 관절경, Freed 2001 파킨슨 burr hole), 평가자 blinding 의 거의-항상-가능성과 HIV·DMPA 시험 사례. Albin 2002 의 sham surgery 윤리 기준 5 가지. | |
| May 8, 2026 | 이중 맹검 구현 옵션 — Ch.17.2 | Experimentation, Epidemiology | Schulz Ch.17.2 — 효과적 표준 치료가 있을 때 double blind 구현. 세 옵션 (1) 동일 prepackaging, (2) 큰 캡슐 encapsulation, (3) double-dummy 의 비교. Bioavailability 검증·비용·복잡성·순응도의 trade-off. 약사 의존도와 ICU·infusion 시험의 특수 사례. | |
| May 8, 2026 | Double-Dummy 와 Placebo 의 중요성 — Ch.17.3 | Experimentation, Epidemiology | Schulz Ch.17.3 — Double-dummy 의 challenging situations (서로 다른 dosing schedule, IV·oral mixture, inhaler 등) 깊이. 그리고 Placebo 의 과학적 중요성 과 윤리 — Senn 의 “placebo misconception” 비판, active vs placebo control 의 균형. | |
| May 8, 2026 | Surrogate · Composite Outcomes — Ch.18 개관 (Shortcuts to Unknown Destinations) | Experimentation, Epidemiology | Schulz Ch.18 Surrogate Endpoints and Composite Outcomes 의 큰 그림. 임상 연구의 결과 측정 의 두 가지 흔한 지름길 이 어떻게 환자에게 실제 해를 끼치는가. (1) Surrogate endpoint 의 정의와 위험 — Encainide·Flecainide 사망률 3 배 사례, (2) Composite outcome 의 정의와 함정 — DREAM trial 의 60% 감소 misrepresentation, (3) 두 도구의 공통 동기 (효율) 와 공통 위험 (validity 부재). 후속 글의 안내. | |
| May 8, 2026 | Surrogate 정의와 장단점 — Ch.18.1 | Experimentation, Epidemiology | Schulz Ch.18.1 — Surrogate endpoint 의 정의·장점·단점 깊이. (1) Surrogate 의 효율적 매력 (sample size·기간·비용 감소), (2) 9 가지 surrogate 실패 사례 — 항부정맥제, fluoride, DMPA, rosiglitazone, bedaquiline, (3) “임상적 직관 (clinical hunch) 의 fallibility” Schulz 의 강한 입장, (4) Surrogate ≠ True endpoint 의 메커니즘 — 평행 trajectory, 측정 불가능한 부작용, downstream effects. | |
| May 8, 2026 | Surrogate Validation 과 Evidence Levels — Ch.18.2 | Experimentation, Epidemiology | Schulz Ch.18.2 — Surrogate 의 validation 메커니즘. (1) Fleming & DeMets 의 두 검증 기준 — correlation + full effect capture, (2) Levels of Evidence — 4 단계 분류 (Panel 18.3), (3) 검증된 surrogate 의 드묾 (HIV viral load, HbA1c, LDL 만), (4) Surrogate 검증 자체의 어려움 — large prospective trial 필요. | |
| May 8, 2026 | 결과 변수 용어 정리 — Ch.18.3 | Experimentation, Epidemiology | Schulz Ch.18.3 — Surrogate 와 endpoint 의 용어 혼란을 해결하는 BEST Resource (FDA-NIH 2016) 의 6 가지 분류. (1) Endpoint, Clinical Endpoint, Intermediate Clinical Endpoint, Surrogate Endpoint, Validated · Reasonably Likely · Candidate Surrogate, (2) Schulz 의 BEST 비판 (bedaquiline 사례), (3) Way Forward — 언제 surrogate 사용 정당, 연구 자원 배분의 윤리. | |
| May 8, 2026 | RCT 모집 개선 전략 — Zelen · cmRCT · Cochrane 4 전략 | Experimentation, Epidemiology | RCT 모집 부진을 해결 하기 위한 두 갈래 전략을 다룬다. 첫째, 전통 RCT 의 대안 설계 (Zelen single/double randomised consent · Partially Randomised Patient-Preference Trial · Cohort Multiple RCT) 의 메커니즘과 윤리적 한계. 둘째, Cochrane 메타리뷰 (Treweek 외) 가 입증한 4 가지 모집 개선 전략 (open-label · opt-out · 전화 · 금전 보상) 의 행동학적 메커니즘과 효과 크기. 마지막으로 hard-to-reach 인구 모집 · 소셜미디어 · 비즈니스 모델 같은 미래 방향까지. 각 전략에 직관 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | Composite Outcomes 의 함정 — Ch.18.4 | Experimentation, Epidemiology | Schulz Ch.18.4 — Composite outcome 의 정의·장단점·함정. (1) 4 가지 동등성 기준 (seriousness, frequency, direction, importance to participants), (2) DREAM trial 의 “60% 감소” 함정 분석, (3) Lim 외 (2008) 304 시험 메타분석 — composite 사용 패턴, (4) 사후 composite 구성 (p-hacking) 의 위험, (5) Magnesium sulphate 시험의 “death or cerebral palsy” 정당화. | |
| May 8, 2026 | Multiplicity II — Ch.20 개관 (Subgroup · Interim 다중성) | Experimentation, Epidemiology | Schulz Ch.20 Multiplicity II — Subgroup and Interim Analyses 의 큰 그림. (1) Subgroup analysis 의 다중성 함정 — Gemini·Libra 별자리 아스피린 사례 (ISIS-2), (2) Interim analysis 의 α inflation — 매번 0.05 검정 시 누적 α = 0.19 (10 회), (3) 그룹순차 중단 방법 (O’Brien-Fleming, Peto, Pocock) 의 세 옵션, (4) Stopping for harm·futility 와 random high 함정. 후속 글의 안내. | |
| May 8, 2026 | Subgroup 분석과 별자리 사례 — Ch.20.1 | Experimentation, Epidemiology | Schulz Ch.20.1 — Subgroup analysis 의 함정 깊이. (1) ISIS-2 별자리 사례 분석, (2) Test of Interaction 의 메커니즘과 사용법, (3) Pocock 외 (2002) 의 50 RCT 메타분석, (4) Subgroup analysis 의 4 가지 정당 사용 조건, (5) Cherry-picking 함정과 NEJM 의 보고 정책 강화. | |
| May 8, 2026 | Interim Analysis · Group Sequential — Ch.20.2 | Experimentation, Epidemiology | Schulz Ch.20.2 — Interim analysis 의 다중성 문제와 해결책. (1) α inflation 의 수학 (10 회 검정 시 19%), (2) Group sequential stopping methods — Pocock, Peto, O’Brien-Fleming 비교 (Panel 20.2), (3) DMC (Data Monitoring Committee) 의 역할, (4) Schulz 의 권고 — O’Brien-Fleming + 2~3 회 interim. 실증 시뮬레이션 포함. | |
| May 8, 2026 | Stopping for Harm · Futility · 기타 방법 — Ch.20.3 | Experimentation, Epidemiology | Schulz Ch.20.3 — Stopping rules 의 추가 분류와 함정. (1) Random High — 조기 중단의 effect 과대 추정 (Bassler 외 2010), (2) Asymmetric stopping (benefit vs harm 비대칭), (3) Conditional power · Stochastic curtailment, (4) Lan-DeMets alpha spending function, (5) Bayesian monitoring 의 신중. CONSORT 의 stopping 보고 권고. | |
| May 8, 2026 | Prospective Meta-Analysis — Ch.21 개관 | Experimentation, Epidemiology | Schulz Ch.21 Conducting a Randomised Trial as Part of a Prospective Meta-Analysis 의 큰 그림. (1) PMA (Prospective Meta-Analysis) 의 정의와 동기, (2) MCRCT (다기관 RCT) 와의 비교, (3) PMA 의 장단점 — 전향적 가설·통일 outcome·다양한 statistics 강점 vs 운영 복잡성·기관 협조 어려움, (4) PMA 의 기본 단계, (5) 후속 글 안내. | |
| May 8, 2026 | PMA vs MCRCT 비교 — Ch.21.1 | Experimentation, Epidemiology | Schulz Ch.21.1 — PMA 와 MCRCT 의 정밀 비교. (1) 운영 복잡성 — 통일 양식 vs 분산 양식, (2) IRB 승인 timing, (3) Sample size·검정력, (4) Outcome 통일성, (5) Publication 권한, (6) Heterogeneity 처리. 사례별 trade-off 분석. | |
| May 8, 2026 | MCRCT 와 PMA 의 단점 비교 — Ch.21.2 | Experimentation, Epidemiology | Schulz Ch.21.2 — MCRCT 와 PMA 의 흔한 단점. (1) MCRCT 의 통일 양식 부담·IRB 지연· 최저 기관 의존, (2) PMA 의 기관 협조 어려움·heterogeneity·publication 정치, (3) 두 모델의 공통 단점 — 자원, 인력, 통계 복잡성. 권고 사항. | |
| May 8, 2026 | PMA 실행 단계 — Ch.21.3 | Experimentation, Epidemiology | Schulz Ch.21.3 — PMA 의 실제 실행 단계. (1) 협력 그룹 형성과 Steering Committee, (2) Common protocol 합의 절차, (3) 기관별 시험 시작과 운영, (4) Individual Patient Data (IPD) 통합 분석, (5) 통합 출판과 협력 후속. | |
| May 8, 2026 | CONSORT 보고 지침 — Ch.22 개관 | Experimentation, Epidemiology | Schulz Ch.22 Reporting Studies in Medical Journals 의 큰 그림. (1) 의학 연구 보고의 결함 — Schulz 의 통계 (sequence/concealment/blinding 보고 누락 비율), (2) Selective Reporting — Outcome switching 의 함정 (40~62% 일차 결과 불일치), (3) CONSORT 의 발전과 영향, (4) RCT 이외 연구의 보고 지침 (STARD, STROBE, PRISMA), (5) 후속 글의 안내. | |
| May 8, 2026 | 무작위 배정 순서 — Ch.12 개관 | Experimentation, Epidemiology | 무작위 배정 순서 (allocation sequence) 의 생성은 RCT 의 가장 기본이면서도 가장 이해도가 낮은 부분이다. 이 글은 Schulz Ch.12 의 큰 그림을 다룬다. (1) 왜 chance, not choice 인가의 직관, (2) 무작위화의 세 가지 이점 (편향 제거 · 맹검 가능 · 확률 이론), (3) 흔한 유사 무작위 (quasirandom) 의 함정, (4) 7 가지 무작위화 방법의 위계 (Simple → Restricted → Biased Coin → Urn → Stratified), (5) 생성과 구현의 분리 원칙. 후속 글에서 각 항목을 깊이 다룬다. | |
| May 8, 2026 | Deficient · Selective Reporting — Ch.22.1 | Experimentation, Epidemiology | Schulz Ch.22.1 — RCT 보고의 두 가지 만성 함정. (1) Deficient reporting — 핵심 방법론 항목의 누락 통계, (2) Selective reporting — outcome switching, post-hoc 변경, publication bias, (3) AllTrials 운동과 trial registration 의 강제, (4) 메타분석에서의 publication bias 차단 도구 (funnel plot, Egger’s test). | |
| May 8, 2026 | CONSORT 2010 Checklist 깊이 — Ch.22.2 | Experimentation, Epidemiology | Schulz Ch.22.2 — CONSORT 2010 의 25 항목 checklist 와 Flow Diagram 깊이. (1) Title · Abstract · Introduction · Methods · Results · Discussion · Other 의 7 섹션, (2) 각 섹션의 핵심 항목과 권고, (3) Flow Diagram 의 4 단계 (enrollment, allocation, follow-up, analysis), (4) 보고 사례 분석. | |
| May 8, 2026 | RCT 이외 연구 보고 지침 — Ch.22.3 | Experimentation, Epidemiology | Schulz Ch.22.3 — RCT 이외의 연구 보고 지침. (1) STARD (진단 정확도), (2) STROBE (관찰 연구 — 코호트·환자대조·단면), (3) PRISMA (체계적 문헌고찰·메타분석), (4) EQUATOR Network 의 통합 hub, (5) 연구 유형별 적합한 지침 선택. Phase C 시리즈의 종합 결론. | |
| May 8, 2026 | 무작위화의 역사와 세 가지 이점 | Experimentation, Epidemiology | 무작위화 (randomisation) 의 역사적 기원과 세 가지 본질적 이점을 다룬다. R.A. Fisher 가 1920 년대 Rothamsted 농업 연구에서 무작위화를 통계 설계의 기본 원리로 정립한 과정, Austin Bradford Hill 이 1940 년대 후반 결핵 streptomycin 시험에서 의학에 적용한 역사적 전환, 그리고 Panel 12.2 에 정리된 세 이점 (편향 제거 · 맹검 가능 · 확률 이론 적용) 의 깊이. 마지막으로 quasirandom (날짜·번호·교대) 의 함정과 Schulz 외 (1995) 의 충격적 메타분석 결과까지. 각 개념에 일상어 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | 무작위 배정 방법 비교 — Simple · Block · Urn · Stratified | Experimentation, Epidemiology | 무작위 배정의 7 가지 방법 (Simple, Random Allocation Rule, Blocking, Biased Coin, Urn, Replacement, Stratified) 의 메커니즘과 trade-off 를 비교한다. 각 방법이 어떤 시험 특성에 적합한지 (sample size, 맹검 여부, multicentre 여부, prognostic factor 분포) 매트릭스로 정리하고, 시뮬레이션으로 imbalance·predictability 분포를 시각화한다. Minimisation 의 논쟁과 generation/implementation 분리 원칙까지. | |
| May 8, 2026 | 비맹검 RCT 의 추측 위험 — Ch.13 개관 | Experimentation, Epidemiology | Schulz Ch.13 Guarding Against Guessing 의 큰 그림을 다룬다. (1) “RCT 는 두 군이 정확히 같아야 한다” 는 cosmetic credibility 미신, (2) 비맹검 시험에서 permuted-block 의 predictability 함정, (3) 16% 의 임상 인력이 배정 추측을 시도한다는 실증, (4) Schulz 의 세 가지 권고 (n>200 simple, n<200 urn, mixed randomisation), (5) 후속 두 글의 안내. 각 개념에 일상어 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | 비맹검 RCT 의 위험과 방어 — Block 함정 깊이 | Experimentation, Epidemiology | 비맹검 RCT 에서 흔히 발생하는 두 가지 함정을 깊이 다룬다. (1) “RCT 는 정확히 같은 sample size 를 가져야 한다” 는 cosmetic credibility 미신의 실증과 위험 (Schulz 2002 의 54~71% 발견), (2) Permuted-Block 의 예측 가능성 메커니즘을 수학적으로 분석 (작은 고정 블록의 결정성, Random 변동의 부분적 한계, Blackwell-Hodges 모형). Kahan 외 (2015) 의 “16% 임상 인력이 추측 시도” 실증을 메커니즘 분해와 함께 제시. 각 분석에 일상어 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | Urn 과 Mixed Randomisation — 비맹검 RCT 의 진정한 방어 | Experimentation, Epidemiology | 비맹검 RCT 에서 Block 의 한계를 넘어서는 무작위 배정 방법을 깊이 다룬다. (1) Urn Randomisation UD(α, β) 의 적응적 균형 메커니즘, (2) Schulz 가 제안한 Mixed Randomisation 의 단계별 절차 (Panel 13.2~13.3), (3) Big Stick · Maximal Procedure · Ehrenfest Urn 같은 우수하지만 잘 안 쓰이는 방법들, (4) Schulz 외 (1995) 의 41% effect overestimation 발견의 비맹검 시험 함의 재방문. 각 방법의 수학적 메커니즘과 시뮬레이션, 일상어 비유와 반사실 시나리오를 풍부히 붙인다. | |
| May 8, 2026 | Kohavi Ch.12 개관 — 클라이언트 사이드 실험 (Thin vs Thick Client) | Experimentation, A/B Test | Kohavi (2020) Ch.12 의 흐름을 한 편으로 압축한다. Thin client (웹 브라우저) 와 thick client (네이티브 앱·데스크톱) 의 본질적 차이 (release process, data communication), 이로부터 파생되는 7 가지 실험 함의 (anticipate-parameterize, delayed logging, failsafe, triggered analysis, guardrails, quasi-experimental, multiple devices) 의 지도를 제시한다. 각 함의의 메커니즘과 반사실 시나리오를 풀이한다. | |
| May 8, 2026 | Server vs Client 차이 — Release Process · Data Communication | Experimentation, A/B Test | Kohavi (2020) Ch.12.1~12.2 를 깊게 다룬다. Thin client (web) 와 thick client (mobile app) 의 본질적 두 차이 — release process 와 data communication — 의 메커니즘, 3 자 협력 (app owner, app store, end user), staged rollout 의 분석 한계, 5 가지 communication 제약 (connectivity, bandwidth, battery, CPU, memory) 의 trade-off 를 코드와 사례로 풀이한다. | |
| May 8, 2026 | 함의 1~3 — Parameterize · Delayed Logging · Failsafe | Experimentation, A/B Test | Kohavi (2020) Ch.12.3 의 첫 3 함의를 깊게 다룬다. 모든 variant 사전 ship + feature flag, Windows 10 search box text 의 millions-of-dollars 사례, delayed logging 과 effective starting time 의 selection bias, offline·startup 시 default variant 와 stable randomization ID 의 failsafe 설계를 코드와 사례로 풀이한다. | |
| May 8, 2026 | 함의 4~5 — Triggered Analysis · Device·App-Level Guardrails | Experimentation, A/B Test | Kohavi (2020) Ch.12.3 의 함의 4~5 를 깊게 다룬다. Triggered analysis 시 client-side 의 실제 사용 시점 tracking 의 필요성과 over-triggering 함정, device·app-level guardrail (battery, CPU, app size, crash rate, notification disablement) 의 메커니즘과 추적 기법을 코드와 사례로 풀이한다. | |
| May 8, 2026 | 함의 6~7 + Ch.12 결론 — Quasi-Experimental · Multi-Device 분석 | Experimentation, A/B Test | Kohavi (2020) Ch.12.3 의 마지막 두 함의 + 결론을 깊게 다룬다. 새 app version 전체를 A/B 가 아닌 quasi-experimental 로 분석하는 방법 (Xu and Chen 2016 의 adoption bias 보정), 사용자가 desktop·mobile app·mobile web 다중 사용 시 발생하는 ID 불일치와 cross-platform interaction 의 처리 (Dmitriev et al. 2016), 그리고 thick·thin 차이의 진화 전망을 정리한다. | |
| May 8, 2026 | Kohavi Ch.13 개관 — Instrumentation (계측) | Experimentation, A/B Test | Kohavi (2020) Ch.13 의 흐름을 한 편으로 압축한다. Instrumentation 의 정의 (사용자·시스템 행동 의 영구 기록), 실험·OEC·MAB 가 모두 의존하는 prerequisite, client·server 양면의 trade-off, 멀티소스 로그의 통합, 그리고 “비행기 계기판” 비유로 본 instrumentation 문화의 핵심을 정리한다. | |
| May 8, 2026 | Client-Side vs Server-Side Instrumentation — 양면 계측의 메커니즘 | Experimentation, A/B Test | Kohavi (2020) Ch.13.1 을 깊게 다룬다. Client·Server 계측의 본질적 시각 차이, malware detection 의 client-only 가치, web beacon 의 race condition 과 lossiness 메커니즘 (async vs sync 의 trade-off, ad click compliance 사례), client clock 신뢰 불가의 위험, server 의 internal scoring·cache hit rate·load balancing 의 unique 가치를 코드와 사례로 풀이한다. | |
| May 8, 2026 | 멀티소스 로그 처리와 계측 문화 | Experimentation, A/B Test | Kohavi (2020) Ch.13.2~13.3 을 깊게 다룬다. 다양한 source (client, server, user state) 의 log 를 join key 로 통합하는 방법, 표준 schema 와 segment 정의의 기초, 그리고 instrumentation 을 “비행기 계기판” 으로 비유한 cultural norm 의 핵심 — “nothing ships without instrumentation”, testing 투자, raw log monitoring 의 3 가지 운영 원칙을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Kohavi Ch.14 개관 — 무작위 배정 단위 (Randomization Unit) | Experimentation, A/B Test | Kohavi (2020) Ch.14 의 흐름을 한 편으로 압축한다. Randomization unit 의 선택이 user experience 와 metric에 동시 영향을 주는 메커니즘, granularity spectrum (page, session, user, tenant, advertiser, social cluster), 두 핵심 질문 (consistency, metric), SUTVA·페이지 의존성·통계 검정력 의 trade-off, 그리고 user-level randomization 의 3 가지 ID 선택을 정리한다. | |
| May 8, 2026 | Randomization Unit vs Analysis Unit · User-level ID 선택 | Experimentation, A/B Test | Kohavi (2020) Ch.14.1~14.2 를 깊게 다룬다. Randomization unit 과 analysis unit 의 매칭 원칙 (i.i.d. 보장), coarser-randomization-finer-analysis 시의 bootstrap 과 delta method, bot 영향과 boundary, user-level randomization 의 3 가지 ID (signed-in/pseudonymous/device) 의 trade-off, IP address 의 비추천 이유, sub-user level 의 적용 조건을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Kohavi Ch.15 개관 — Ramping 과 SQR Framework | Experimentation, A/B Test | Kohavi (2020) Ch.15 의 흐름을 한 편으로 압축한다. Ramping 의 정의와 Healthcare.gov 사례, Speed-Quality-Risk (SQR) framework 의 본질, 4 ramp 단계 (Pre-MPR / MPR / Post-MPR / Long-term holdout) 의 지도, MPR (Maximum Power Ramp) 의 통계적 유래, post-final ramp 의 cleanup 까지 ramping 의 lifecycle 을 정리한다. | |
| May 8, 2026 | Ramping 의 정의와 SQR Framework | Experimentation, A/B Test | Kohavi (2020) Ch.15.1 을 깊게 다룬다. Ramping (controlled exposure) 의 정의, 너무 빠른 ramp 과 너무 느린 ramp 의 양극단 함정, ramp up vs ramp down 의 비대칭, controlled experiment 의 3 가지 목적 (measure, reduce risk, learn), Speed·Quality·Risk (SQR) 의 trade-off, MPR (Maximum Power Ramp) 의 통계적 유래와 의미를 풀이한다. | |
| May 8, 2026 | Four Ramp Phases — Pre-MPR · MPR · Post-MPR | Experimentation, A/B Test | Kohavi (2020) Ch.15.2~15.3 을 깊게 다룬다. 4 ramp 단계의 design rationale, Pre-MPR 의 ring 구조 (whitelist/employee/beta/data center), 자동 dial-up 과 real-time guardrail 의 메커니즘, MPR 의 1 주 권고 와 time-dependent factors (heavy/light user, weekday/weekend), Post-MPR 의 operational concerns 의 깊이 있는 풀이. | |
| May 8, 2026 | Long-Term Holdout · Replication · Post Final Ramp | Experimentation, A/B Test | Kohavi (2020) Ch.15.3~15.4 를 깊게 다룬다. Long-term holdout 의 3 가지 사용 시나리오 (novelty, early indicator, variance reduction), 90/10 vs MPR holdout 의 trade-off, Uber holdout 과 Bing 의 global 10% holdout (Kohavi 2013), reverse experiment 의 메커니즘, replication 의 selection bias 보정, post-final-ramp 의 cleanup (dead code path 위험) 을 풀이한다. | |
| May 8, 2026 | Kohavi Ch.16 개관 — Scaling Experiment Analyses | Experimentation, A/B Test | Kohavi (2020) Ch.16 의 흐름을 한 편으로 압축한다. 실험 maturity 의 Run·Fly 단계에서 분석 파이프라인의 platform 통합 필요성, 3 단계 (Data Processing → Computation → Visualization), Bing/Google/LinkedIn 의 terabyte/day 처리 사례, near-real-time vs batch 의 dual path, multiple testing 과 metric tiering 까지 scaling 의 lifecycle 을 정리한다. | |
| May 8, 2026 | Data Processing 와 Computation — Cooking · Cleaning · Enriching · Materialization | Experimentation, A/B Test | Kohavi (2020) Ch.16.1~16.2 를 깊게 다룬다. Data cooking 의 3 단계 (sort+group, clean, enrich), bot detection 의 heuristic, materialization vs virtual join 의 trade-off, per-user stats architecture vs integrated computation, terabyte 단위의 scaling, common metric definition 과 change management 의 governance 를 코드와 사례로 풀이한다. | |
| May 8, 2026 | Results Summary 와 Visualization — Scorecard · Segment Drill · Multiple Testing | Experimentation, A/B Test | Kohavi (2020) Ch.16.3 을 깊게 다룬다. Scorecard 시각화의 4 가지 원칙 (trust signal, OEC highlight, statistical indicator, color coding), accessibility 의 audience 별 layered view, per-metric vs per-experiment pivot, LinkedIn 의 3-tier 와 Microsoft 의 4-tier categorization, multiple testing (Benjamini-Hochberg), metrics of interest 자동 highlight, related metrics 의 분석을 정리한다. | |
| May 8, 2026 | Kohavi Ch.18 개관 — Variance 추정과 Sensitivity 개선 (CUPED) | Experimentation, A/B Test | Kohavi (2020) Ch.18 의 흐름을 한 편으로 압축한다. Variance 가 p-value·CI·power 의 핵심임을 정리, 3 가지 흔한 함정 (Delta vs Delta%, Ratio metrics, Outliers) 의 메커니즘, 7 가지 sensitivity 개선 기법 (smaller variance metric, transformation, triggering, CUPED, granular randomization, paired design, pooled control) 의 지도를 제시한다. | |
| May 8, 2026 | Variance 추정의 흔한 함정 — Delta % · Ratio Metrics · Outliers | Experimentation, A/B Test | Kohavi (2020) Ch.18.1 을 깊게 다룬다. Delta % 의 잘못된 variance 추정과 올바른 delta method 유도, ratio metrics 의 i.i.d. 위반 메커니즘, user-level vs page-level 의 분산 차이, 90th percentile 같은 non-ratio metric 의 bootstrap 활용, outlier 의 mean·variance 비대칭 영향을 코드와 사례로 정밀 풀이한다. | |
| May 8, 2026 | Sensitivity 개선 — CUPED 와 7 가지 분산 감소 기법 | Experimentation, A/B Test | Kohavi (2020) Ch.18.2 를 깊게 다룬다. CUPED (Deng et al. 2013) 의 수학적 유도와 분산 감소 메커니즘 (1 - ρ²), pre-experiment data 의 활용, control variate 의 일반화, stratification·post- stratification 의 trade-off, interleaving design (Chapelle 2012), pooled control 의 power 공유, percentile metric 의 density estimation 까지 7 가지 기법을 풀이한다. | |
| May 8, 2026 | Kohavi Ch.19 개관 — A/A Test (Null Test) | Experimentation, A/B Test | Kohavi (2020) Ch.19 의 흐름을 한 편으로 압축한다. A/A test 의 정의 (B = A 인 실험), Type I error · variance · bias · system of record 검증의 5 가지 목적, 산업 사례 5 가지 (CTR i.i.d. violation, Optimizely peeking, browser redirect, unequal split, hardware difference), 1000 A/A simulation 의 메커니즘, fail 시 3 가지 원인 분석을 정리한다. | |
| May 8, 2026 | A/A Test 의 5 가지 목적 · CTR i.i.d. Violation · Optimizely Peeking | Experimentation, A/B Test | Kohavi (2020) Ch.19.1~19.2 를 깊게 다룬다. A/A test 의 5 가지 목적 (Type I error, variance, bias, system of record, power calculation), Example 1 의 CTR i.i.d. 위반의 정밀 메커니즘 (CTR_1 vs CTR_2 의 차이), Example 2 의 Optimizely peeking 함정과 always-valid p-value 의 해결을 코드와 사례로 풀이한다. | |
| May 8, 2026 | A/A Test Examples 3~5 · 운영 절차 | Experimentation, A/B Test | Kohavi (2020) Ch.19.4~19.5 를 깊게 다룬다. Browser redirect 의 3 가지 함정 (performance, bots, bookmarks), unequal split 의 LRU cache bias, Facebook 의 hardware difference 사례, 1000 A/A simulation 의 replay 기법, goodness-of-fit test (KS, Anderson-Darling), continuous A/A 의 운영을 코드와 사례로 풀이한다. | |
| May 8, 2026 | P-value Distribution 의 본질 · A/A Fail 의 3 가지 진단 | Experimentation, A/B Test | Kohavi (2020) Ch.19.6~19.7 을 깊게 다룬다. Null hypothesis 하의 p-value 의 uniform distribution 이론, 3 가지 A/A fail 패턴 (skewed, mass at 0.32, discrete values) 의 root cause 와 fix, Continuous A/A 의 운영, drift detection 의 실무 적용을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Kohavi Ch.20 개관 — Triggering 의 본질과 구조 | Experimentation, A/B Test | Kohavi (2020) Ch.20 의 흐름을 한 편으로 압축한다. Triggering 의 정의 (counterfactual difference 의 user identification), 5 가지 사례 패턴 (partial, conditional, coverage increase/change, counterfactual ML), numerical example 의 sample size 절감, optimal vs conservative triggering, trustworthy 검증 (SRM, complement), 3 가지 함정의 지도를 제시한다. | |
| May 8, 2026 | Triggering Examples 1~3 — Partial · Conditional · Coverage Increase | Experimentation, A/B Test | Kohavi (2020) Ch.20.2~20.4 의 첫 3 사례를 깊게 다룬다. Partial exposure (geo, browser, segment), conditional exposure (checkout, collaboration, unsubscribe), coverage increase (free shipping threshold lowering) 의 메커니즘, mixed users 의 처리, trigger condition 의 timing 의 critical 성, Venn diagram 의 set 연산, residual effect 의 inclusion 을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Triggering Examples 4~5 — Coverage Change · ML Counterfactual | Experimentation, A/B Test | Kohavi (2020) Ch.20.4 의 Examples 4~5 를 깊게 다룬다. Coverage change (Treatment 영역 의 simple expansion 이 아닌 condition 추가) 의 symmetric difference, ML model A/B 의 counterfactual triggering (V1 vs V2 recommendations), 2x model inference 의 cost, latency 영향, computational trade-off, shared control 의 한계를 코드와 사례로 풀이한다. | |
| May 8, 2026 | Triggering Numerical Example · Optimal vs Conservative · Diluted Impact | Experimentation, A/B Test | Kohavi (2020) Ch.20.5~20.7 을 깊게 다룬다. Sample size formula 의 derivation 과 trigger 의 numerical 가치, optimal vs conservative triggering 의 trade-off, multiple treatment 시의 conservative bias, post-hoc analysis 의 fallback, diluted impact 의 정밀 formula (Equation 20.3, 20.4, 20.5), Simpson’s paradox 의 위험을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Trustworthy Triggering · 3 가지 Common Pitfalls | Experimentation, A/B Test | Kohavi (2020) Ch.20.8~20.9 를 깊게 다룬다. Triggered analysis 의 trustworthy 검증 (triggered SRM, complement A/A), 3 가지 함정 — Pitfall 1 (tiny segment 의 MSN 사례), Pitfall 2 (lifetime tracking), Pitfall 3 (counterfactual logging 의 performance hidden cost), A/A’/B experiment 의 latency detection 메커니즘을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Triggering 의 Open Questions — Triggering Unit · Time-series Plotting | Experimentation, A/B Test | Kohavi (2020) Ch.20.10 의 미해결 문제를 깊게 다룬다. Triggering unit 의 결정 (triggered activity 만 vs whole session vs whole day vs experiment start), computational vs statistical 의 trade- off, time-series plotting 의 false trend (decreasing Treatment effect 의 inevitable 패턴), Chen, Liu and Xu (2019) 의 권고 패턴을 정리한다. | |
| May 8, 2026 | Kohavi Ch.21 개관 — SRM (Sample Ratio Mismatch) 과 Trust Guardrails | Experimentation, A/B Test | Kohavi (2020) Ch.21 의 흐름을 한 편으로 압축한다. SRM 의 정의 (sample ratio 의 design 과 mismatch), Bing 의 실제 scorecard 사례, 5 가지 SRM cause (buggy randomization, pipeline, residual, bad trigger, Treatment-affected attribute), 6 가지 debugging 절차, 4 가지 추가 trust guardrail (telemetry fidelity, cache hit, cookie clobbering, quick queries) 의 지도를 정리한다. | |
| May 8, 2026 | SRM 의 통계적 정의와 2 가지 시나리오 — Bing 의 Real Scorecard | Experimentation, A/B Test | Kohavi (2020) Ch.21.1~21.2 를 깊게 다룬다. SRM 의 통계적 정의 (chi-square 또는 t-test), Law of Large Numbers 의 적용, Scenario 1 의 simple SRM, Scenario 2 의 Bing real scorecard 의 browser bug + bot reclassification, segment exclusion 후 의 재분석, 5 metric 의 false significance 의 detection 을 코드와 사례로 풀이한다. | |
| May 8, 2026 | SRM 의 5 가지 Cause 와 6 가지 Debugging 단계 | Experimentation, A/B Test | Kohavi (2020) Ch.21.3~21.4 를 깊게 다룬다. 5 가지 SRM 의 root cause (buggy randomization, data pipeline, residual effects, bad trigger condition, Treatment-affected attribute), 6 가지 debugging 단계 (upstream, randomization, pipeline, initial period, segments, intersection), Bing 의 Image team 사례, MSN 의 bot 함정, ML attribute 의 자동 update 위험을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Other Trust-Related Guardrails — Telemetry · Cache · Cookie · Quick Queries | Experimentation, A/B Test | Kohavi (2020) Ch.21.5 를 깊게 다룬다. SRM 외의 4 가지 trust guardrail — telemetry fidelity (web beacon 의 lossiness), cache hit rate (shared resource 의 SUTVA 위반), cookie clobbering (browser bug 의 distortion), quick queries (Google/Bing 의 미해결 anomaly), 각 guardrail 의 메커니즘과 detection 방법, Bing 의 cookie 사례 의 실제 영향을 코드와 사례로 풀이한다. | |
| May 8, 2026 | Kohavi Ch.5 개관 — Speed Matters End-to-End | Experimentation, A/B Test | Kohavi (2020) Ch.5 의 흐름을 한 편으로 압축한다. 사이트 속도가 매출·참여 지표에 미치는 실증적 영향, slowdown 실험으로 ROI 를 정량화하는 방법, 국소 선형 근사 가정과 그 검증, PLT 측정의 실무적 복잡성, 페이지 요소별 영향 차이, 그리고 과장된 외삽 결과를 경계하는 법을 지도화한다. | |
| May 8, 2026 | 국소 선형 근사와 사이트 속도 측정 | Experimentation, A/B Test | Kohavi (2020) Ch.5.1~5.2 를 깊게 다룬다. Slowdown 실험에서 측정한 effect 를 1ms 당 ROI 로 외삽하는 근거인 국소 선형 근사 (Taylor 1차 전개) 의 수학적 기반·검증 방법·한계를 정리한다. 이어서 PLT (Page Load Time) 측정의 7 단계 시점, 클라이언트 시계 부정확 문제, 서버 시간만으로 PLT 를 추정하는 trick 을 풀이한다. | |
| May 8, 2026 | 의도적 지연 실험 설계 + 페이지 요소별 영향 차이 | Experimentation, A/B Test | Kohavi (2020) Ch.5.3~5.4 를 깊게 다룬다. Slowdown 을 어디에 삽입할지 (Chunk1 vs Chunk2), 지연 길이 결정의 3 가지 trade-off, Bing 의 시행착오, 페이지 요소별 영향 차이 (메인 vs right-pane 의 250ms 무영향), window.onload 의 한계와 perceived performance 측정 (AFT, Speed Index, Page Phase Time, Time to User Action) 을 정리한다. | |
| May 8, 2026 | 극단적 결과 주의 — 외삽의 함정과 Null Result 의 함정 | Experimentation, A/B Test | Kohavi (2020) Ch.5.5 를 깊게 다룬다. 자주 인용되는 두 가지 “극단적” 결과 — Google 의 30 results 실험에서 latency 만으로 -20% 매출이라는 주장, Etsy 의 200ms 지연이 “전혀 영향 없음” 주장 — 의 통계적 결함을 분석한다. 외삽의 함정, null result 의 함정, replication 의 과학적 가치를 정리한다. Ch.5 시리즈의 마무리 글이다. | |
| May 8, 2026 | Kohavi Ch.6 개관 — 조직 지표 (Organizational Metrics) | Experimentation, A/B Test | Kohavi (2020) Ch.6 의 흐름을 한 편으로 압축한다. 조직이 사용하는 지표의 표준 분류 (Goal / Driver / Guardrail), 지표를 형성하는 원칙, 인과 관계 검증, 시간 경과에 따른 진화, 그리고 gameability 의 역사적 사례를 지도화한다. Ch.7 (OEC) 의 선행이며, 모든 후속 챕터의 지표 논의의 기반을 제공한다. | |
| May 8, 2026 | 지표 분류 체계 — Goal · Driver · Guardrail | Experimentation, A/B Test | Kohavi (2020) Ch.6.1 의 핵심 분류 체계를 깊게 다룬다. Goal · Driver · Guardrail 의 정의·역할· 사용 시점을 비교하고, HEART · AARRR · 사용자 funnel 같은 driver 프레임워크의 구조를 분석한다. Asset vs Engagement, Business vs Operational 같은 다른 taxonomy 와의 관계, 그리고 같은 metric 이 팀마다 다른 분류일 수 있는 이유를 정리한다. | |
| May 8, 2026 | 지표 형성·평가·진화 — Formulating, Evaluating, Evolving | Experimentation, A/B Test | Kohavi (2020) Ch.6.2~6.4 를 깊게 다룬다. 추상적 mission 을 정량 지표로 전환하는 5 가지 기법 (less-scalable hypothesis 검증, quality 내장, interpretable model, negative metrics, proxy 한계 인지), 인과 관계 검증의 5 가지 접근, 시간 경과에 따른 진화의 3 가지 이유, 그리고 진화 시스템의 인프라 요건을 정리한다. | |
| May 8, 2026 | 가드레일과 Gameability — 역사적 사례와 디지털 함정 | Experimentation, A/B Test | Kohavi (2020) Ch.6 의 두 sidebar 를 다룬다. 조직 가드레일 metric 의 5 가지 사례 (latency, HTML response size, JavaScript errors, revenue-per-user, pageviews-per-user, client crashes) 와 game-resistant metric 설계의 7 가지 역사적 사례 (Alexeyev, fast-food chicken, NHS, Hanoi 쥐, Canadian orphans, fire department) 를 정리하고, 디지털 영역의 함정과 constraint 설계 원칙을 풀이한다. | |
| May 8, 2026 | Kohavi Ch.7 개관 — OEC (Overall Evaluation Criterion) | Experimentation, A/B Test | Kohavi (2020) Ch.7 의 흐름을 한 편으로 압축한다. Business metric 과 experimentation metric 의 차이 (measurable, attributable, sensitive, timely), 다중 metric 을 단일 OEC 로 합성하는 방법, Amazon E-mail 과 Bing Search 의 OEC 진화 사례, 그리고 Goodhart·Campbell·Lucas 법칙의 OEC 설계 함의를 지도화한다. | |
| May 8, 2026 | OEC 구성 방법과 사례 — Amazon E-mail · Bing Search | Experimentation, A/B Test | Kohavi (2020) Ch.7.1~7.3 을 다룬다. 다중 metric 을 단일 OEC 로 합성하는 정규화·가중 합 방법, Otis Redding problem (지표 과다의 인지 부담), 4 시나리오 분류 기반 가중치 추출, Amazon E-mail OEC 의 LTV loss 차감 진화, Bing Search OEC 의 sessions-per-user 분해를 깊게 풀이한다. | |
| May 8, 2026 | Goodhart·Campbell·Lucas 법칙 — OEC 설계의 인식론적 함정 | Experimentation, A/B Test | Kohavi (2020) Ch.7.4 의 세 가지 법칙을 깊게 다룬다. Goodhart 법칙 (측정이 목표가 되면 더 이상 좋은 측정이 아니다), Campbell 법칙 (지표가 사회 의사결정에 사용될수록 distortion 압력), Lucas Critique (historical correlation 은 policy 변경 시 깨진다), 그리고 Phillips Curve 와 Fort Knox 비유를 통해 OEC 설계 시 correlation ≠ causation 의 깊은 함의를 풀이한다. | |
| May 8, 2026 | Kohavi Ch.8 개관 — 제도적 기억(Institutional Memory)과 메타분석 | Experimentation, A/B Test | Kohavi (2020) Ch.8 의 흐름을 한 편으로 압축한다. Institutional memory 의 정의 (모든 실험의 디지털 저널), 왜 Fly 단계에서 기하급수적 가치가 발생하는지, 그리고 5 가지 메타분석 카테고리 (Culture, Best Practices, Future Innovations, Metrics, Empirical Research) 의 지도를 제시한다. | |
| May 8, 2026 | Institutional Memory — 정의와 가치 (5 카테고리 메타분석) | Experimentation, A/B Test | Kohavi (2020) Ch.8.1~8.2 의 institutional memory 본문을 깊게 다룬다. 디지털 저널의 필수 capture 필드, 그리고 5 가지 메타분석 카테고리 — Experiment Culture / Best Practices / Future Innovations / Metrics / Empirical Research — 각각의 LinkedIn·Microsoft·Airbnb·Bing 사례를 정리한다. | |
| May 8, 2026 | Kohavi Ch.9 개관 — 통제 실험의 윤리 | Experimentation, A/B Test | Kohavi (2020) Ch.9 의 흐름을 한 편으로 압축한다. Belmont Report 의 3 원칙 (Respect for Persons, Beneficence, Justice), Facebook 감정 전염 실험과 OKCupid 사례, A/B illusion, equipoise, 그리고 Risk·Benefits·Choices·Data Collection·Culture·User Identifiers 의 6 영역 윤리 점검 지도를 제시한다. | |
| May 8, 2026 | 윤리의 배경 · 위험 · 이익 — Belmont Report부터 401k Peer Effect까지 | Experimentation, A/B Test | Kohavi (2020) Ch.9.1~9.3 을 깊게 다룬다. Tuskegee·Milgram 역사로부터 Belmont Report·Common Rule 의 3 원칙 정립, minimal risk 의 정의, A/B illusion 의 직관, equipoise 의 의료·온라인 적용, 그리고 401k peer effect 사례에서 본 의도-결과 gap 을 분석한다. | |
| May 8, 2026 | 선택권 제공과 데이터 수집 — Switching Cost · Privacy by Design | Experimentation, A/B Test | Kohavi (2020) Ch.9.4~9.5 를 깊게 다룬다. 사용자 choice 의 spectrum (검색 엔진의 zero switching cost 부터 의료의 death 까지), 데이터 수집의 6 영역 점검 (무엇·민감도·식별성·목적·필요성·삭제), Privacy by Design framework, 그리고 internal safeguards (access log, audit, breach handling) 를 실무 perspective 로 정리한다. | |
| May 8, 2026 | 윤리 문화·프로세스와 사용자 식별자 — IRB · HIPAA · GDPR · k-Anonymity · Differential Privacy | Experimentation, A/B Test | Kohavi (2020) Ch.9.6 + User Identifiers Sidebar 를 깊게 다룬다. 윤리 문화 정착의 4 단계 (cultural norm, IRB, tooling, escalation), HIPAA 18 identifiers 와 GDPR 의 personal data 정의, identified/ pseudonymous/anonymous/anonymized 의 정밀 구분, 그리고 Safe Harbor·k-anonymity·differential privacy 의 메커니즘과 한계를 실무 perspective 로 풀이한다. | |
| May 8, 2026 | 왜 모형이 필요한가 — Ch.11 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.11의 5개 소챕터를 한눈에 잇는 개관이다. 데이터가 스스로 말할 수 없는 이유, 모수적 조건부 평균 모형이 정보를 빌려주는 방식, saturated 모형으로 정의되는 비모수 추정량, 평활(smoothing)의 정도, 그리고 편향-분산 트레이드오프까지 Part II 의 모든 추정 기법이 공유하는 통계적 토대를 하나의 흐름으로 정리한다. | |
| May 8, 2026 | 데이터는 스스로 말하지 않는다 + 모수적 조건부 평균 추정량 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.11.1~11.2 를 다룬다. 16 명 HIV 표본에서 처치 \(A\) 의 형태가 이항·다범주·연속으로 변할 때 표본 평균의 한계가 어떻게 드러나는지, 그리고 선형 조건부 평균 모형 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 가 OLS 로 추정되어 데이터에 없는 영역의 모수를 어떻게 빌려오는지 정리한다. | |
| May 8, 2026 | 비모수적 조건부 평균 추정량 + 평활 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.11.3~11.4 를 다룬다. 모수 수와 추정 대상 수가 같은 saturated 모형이 사실상 표본 평균과 같다는 점, Fisher 일치 추정량의 정의, 다항식 항을 추가하면 곡선이 더 구불구불해지는 평활(smoothing) 의 메커니즘, 그리고 평활의 정도가 추정량의 성격을 어떻게 바꾸는지 정리한다. | |
| May 8, 2026 | 편향-분산 트레이드오프 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.11.5 의 편향-분산 트레이드오프를 다룬다. 모수가 적은 매끄러운 모형은 분산이 작지만 model misspecification 시 편향이 크고, 모수가 많은 유연한 모형은 편향에 강건하지만 분산이 크다. Wald 신뢰구간의 calibration 이 옳은 모형에서만 유효하며, MSE 분해를 통해 두 비용을 통합하는 시각을 제시한다. | |
| May 8, 2026 | IP 가중과 marginal structural model — Ch.12 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.12 의 6 개 소챕터를 한 흐름으로 정리한다. NHEFS 사례에서 흡연 중단 효과를 IP 가중으로 추정하는 절차, propensity score 의 의미, marginal structural model 의 정의, 안정화 가중치의 효율성, 효과 수정의 처리, censoring 보정까지의 전 과정을 압축한다. | |
| May 8, 2026 | NHEFS 인과 질문과 IP 가중치 모델링 추정 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.12.1~12.2 를 다룬다. NHEFS 데이터에서 흡연 중단 \(A\) 의 체중 변화 \(Y\) 에 대한 평균 인과 효과를 정의하고, 9 개 보정 변수의 logistic 회귀로 propensity score \(\Pr(A=1|L)\) 를 추정한 후, IP 가중치 \(W^A = 1/f(A|L)\) 를 가중 회귀에 적용해 점추정 3.4kg 을 얻는 전 과정을 정리한다. | |
| May 8, 2026 | 안정화 IP 가중치와 Marginal Structural Model | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.12.3~12.4 를 다룬다. 비안정화 가중치 \(W^A = 1/f(A|L)\) 와 안정화 가중치 \(SW^A = f(A)/f(A|L)\) 의 차이, 안정화가 분산을 줄이는 메커니즘, Marginal Structural Mean Model 의 정의, 이항·다범주·연속 처치에서의 MSM 적용, 그리고 가중 회귀 OLS 가 MSM 모수의 일치 추정량이 되는 이유를 정리한다. | |
| May 8, 2026 | 효과 수정 MSM과 censoring 보정 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.12.5~12.6 을 다룬다. Marginal structural model 에 효과 수정 변수 \(V\) 를 추가하는 방법, 안정화 가중치 \(SW^A(V) = f(A|V)/f(A|L)\) 의 효율 이득, faux MSM 의 개념, 그리고 결과 변수의 censoring 으로 인한 선택 편향을 \(W^{A,C} = W^A \times W^C\) 의 결합 가중으로 보정하는 절차를 정리한다. | |
| May 8, 2026 | 표준화와 parametric g-formula — Ch.13 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.13 의 5 개 소챕터를 한 흐름으로 정리한다. NHEFS 사례에서 표준화로 흡연 중단 효과를 추정하는 절차, 결과 모형 추정, 4 단계 plug-in g-formula 알고리즘, IPW 와의 비교, doubly robust 추정량의 미리보기, bootstrap 신뢰구간을 압축한다. | |
| May 8, 2026 | 표준화 절차와 결과 모형 추정 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.13.1~13.2 를 다룬다. 표준화의 정의와 IPW 와의 비교, censoring 을 결합한 표준화의 식별식, NHEFS 데이터에서 9 개 보정 변수 + 처치-흡연량 상호작용을 포함한 선형 회귀로 결과 모형 \(\mathrm{E}[Y|A,L]\) 을 적합하는 절차를 정리한다. | |
| May 8, 2026 | 4 단계 g-formula 알고리즘과 IPW vs 표준화 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.13.3~13.4 를 다룬다. 데이터 확장 → 결과 모형 적합 → 가상 시나리오 예측 → 평균화의 4 단계 plug-in g-formula 알고리즘, NHEFS 사례에서 5.18 - 1.66 = 3.5kg 추정, IP 가중과 표준화의 비교, doubly robust 추정량의 도입 배경을 정리한다. | |
| May 8, 2026 | 추정값을 얼마나 신뢰할 것인가 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.13.5 를 다룬다. NHEFS 분석 결과 3.5kg (95% CI 2.5~4.5) 의 신뢰성을 어떻게 평가하는가. Bootstrap 의 작동 원리, 식별 가정의 sensitivity 분석, 미관측 교란에 대한 E-value, target trial emulation 의 보호 장치까지 정리한다. | |
| May 8, 2026 | G-estimation과 구조적 중첩 모형 — Ch.14 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.14 의 6 개 소챕터를 한 흐름으로 정리한다. IPW·표준화에 이어 세 번째 g-method 인 g-estimation 의 개념, 구조적 중첩 평균 모형 (SNMM) 의 semiparametric 정의, rank preservation 의 의미, 검색 또는 닫힌형 추정 절차, 그리고 다중 모수 SNMM 의 효과 수정 표현을 압축한다. | |
| May 8, 2026 | 조건부 효과와 교환가능성의 logistic 표현 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.14.1~14.2 를 다룬다. ATE 가 아닌 조건부 효과 \(\mathrm{E}[Y^{a=1} - Y^{a=0} | L]\) 의 추정 동기, 그리고 조건부 교환가능성을 \(Y^{a=0}\) 을 공변량으로 포함한 logistic 회귀의 회귀 계수 0 으로 재표현하는 g-estimation 의 핵심 trick 을 정리한다. | |
| May 8, 2026 | 구조적 중첩 평균 모형(SNMM)과 rank preservation | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.14.3~14.4 를 다룬다. 구조적 중첩 평균 모형(SNMM)의 semiparametric 정의, IPW·표준화 모형과의 비교, censoring 보정의 통합, 가법 조건부 rank preservation 의 정의와 비현실성, 그리고 g-estimation 이 rank preservation 없이도 작동하는 이유를 정리한다. | |
| May 8, 2026 | G-estimation 절차와 다중 모수 SNMM | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.14.5~14.6 을 다룬다. G-estimation 의 격자 검색 절차, \(\widehat{\alpha}_1 = 0\) 을 만족하는 후보 찾기, 신뢰구간의 inversion 형식, 다중 모수 SNMM 의 효과 수정 표현, closed-form 추정량의 행렬 형식, 그리고 doubly robust g-estimation 의 미리보기를 정리한다. | |
| May 8, 2026 | 결과 회귀와 성향점수 — Ch.15 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.15 의 5 개 소챕터를 한 흐름으로 정리한다. 가장 흔히 쓰이는 outcome regression 과 propensity score 방법의 정의, PS 의 balancing 성질, 층화·표준화· 매칭의 4 가지 활용, propensity 모형과 structural 모형의 차이, 그리고 단일 시점 처치에는 강력하지만 시간변동에서는 한계가 명확한 이유를 압축한다. | |
| May 8, 2026 | 결과 회귀와 성향점수 정의 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.15.1~15.2 를 다룬다. Outcome regression 의 직접 추정 절차, faux marginal structural model 과의 동등성, 성향점수의 정의와 balancing 성질, Rosenbaum-Rubin 정리, 그리고 PS 가 다차원 \(L\) 의 정보를 1 차원으로 압축하는 메커니즘을 정리한다. | |
| May 8, 2026 | PS 층화·표준화·매칭 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.15.3~15.4 를 다룬다. PS deciles 로 층화 후 효과 추정, PS 를 continuous 변수로 회귀에 포함, PS 매칭의 다양한 알고리즘과 closeness 정의의 bias-variance trade-off, 자동 positivity 와 ill-characterized 모집단 문제까지 정리한다. | |
| May 8, 2026 | Propensity·Structural·Predictive 모형의 차이 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.15.5 를 다룬다. Propensity 모형, structural 모형, predictive 모형의 본질적 차이, 모수의 인과적 의미, 변수 선택 절차의 위험 (예측 ≠ 인과), ML 알고리즘 적용 시 주의점, 그리고 충돌자·매개자 포함의 자기파괴적 위험을 정리한다. | |
| May 8, 2026 | 도구변수 추정 — Ch.16 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.16 의 6 개 소챕터를 한 흐름으로 정리한다. IV 가 다른 도구와 근본적으로 다른 이유 (미관측 교란 보정 가능), 3 가지 instrumental conditions, Wald 추정량, homogeneity vs monotonicity 의 동치 조건, LATE 의 의미와 한계를 압축한다. | |
| May 8, 2026 | 세 가지 IV 조건과 Wald 추정량 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.16.1~16.2 를 다룬다. 세 가지 instrumental conditions 의 형식적 정의, 각 조건의 검증 가능성, Wald 추정량의 해석과 NHEFS 적용, 2SLS 의 계산 메커니즘, 그리고 이 추정량이 왜 추가 가정 (iv) 없이는 ATE 가 아닌지를 정리한다. | |
| May 8, 2026 | Homogeneity와 Monotonicity·LATE | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.16.3~16.4 를 다룬다. IV 추정량이 ATE 가 되기 위한 4 번째 가정, homogeneity 의 4 가지 강도, monotonicity 의 정의와 4 가지 compliance type, LATE (compliers 평균 효과) 의 의미와 정책적 한계를 정리한다. | |
| May 8, 2026 | 약한 IV와 다른 도구와의 비교 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.16.5~16.6 을 다룬다. 약한 IV 의 분산 폭발과 점추정 편향, F-statistic 임계값 10 의 기원, weak IV 진단의 다른 도구, 그리고 IV 가 g-method 의 대안으로 사용될 때의 가정 묶음 차이와 보완적 사용 전략을 정리한다. | |
| May 8, 2026 | 인과 생존 분석 — Ch.17 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.17 의 6 개 소챕터를 한 흐름으로 정리한다. 시간-사건 결과의 특수성, 행정 censoring 의 처리, hazard ratio 의 함정, Kaplan-Meier vs 모수 모형, IPW MSM·g-formula·g-estimation 의 생존 분석 적용을 압축한다. | |
| May 8, 2026 | Hazard·Risk·Survival과 변환 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.17.1~17.2 를 다룬다. 시간-사건 결과의 세 측정 단위 (survival, risk, hazard) 의 정의, hazard ratio 의 함정 (시간 의존, built-in selection bias), Kaplan-Meier 추정량, logistic hazard 모형, person-time 데이터 형식, 그리고 hazard 에서 survival 로의 곱셈 변환 공식을 정리한다. | |
| May 8, 2026 | Censoring의 중요성과 IPW MSM | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.17.3~17.4 를 다룬다. 행정 censoring 과 비행정 censoring 의 본질적 차이, 단순 잔존 비율이 잠재 결과 생존을 추정하지 못하는 이유, IPW 가중치를 적용한 marginal structural logistic hazard 모형, NHEFS 의 흡연 중단 효과 추정, 그리고 시간변동 censoring 에 대한 IPW 의 일반화를 정리한다. | |
| May 8, 2026 | Parametric g-formula와 SNMM의 생존 분석 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.17.5~17.6 을 다룬다. Parametric g-formula 의 생존 분석 적용 — 결과 모형 (hazard) 적합 + 가상 시나리오 표준화 + 시점별 survival 도출. 그리고 Structural Nested Cumulative Failure Time Models 와 G-estimation 의 인과 생존 추정. 세 도구 (IPW MSM, g-formula, SNMM) 의 결과 비교와 도구 선택 가이드. | |
| May 8, 2026 | 변수 선택과 고차원 데이터 — Ch.18 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.18 의 5 개 소챕터를 한 흐름으로 정리한다. 인과 분석과 예측 분석의 변수 선택 기준이 본질적으로 다른 이유, 충돌자·매개자·도구가 만드는 새 편향, Z-bias 와 bias amplification, doubly robust machine learning 추정량의 sample splitting + cross-fitting, 그리고 변수 선택의 본질적 어려움을 압축한다. | |
| May 8, 2026 | 인과 vs 예측의 변수 선택과 편향 유발 변수 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.18.1~18.2 를 다룬다. 인과 분석과 예측 분석의 변수 선택 기준이 본질적으로 다른 이유, ML 알고리즘의 black-box 위험, 5 종류의 편향 유발 변수 (충돌자, 매개자, 충돌자 후손, M-bias, Z-bias) 의 정의와 메커니즘, 그리고 시간 순서만으로 변수의 인과적 역할을 결정할 수 없는 이유를 정리한다. | |
| May 8, 2026 | 인과 추론과 머신러닝 + Doubly Robust ML | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.18.3~18.4 를 다룬다. 고차원 보정 변수에서 단순 ML 적용의 위험, Doubly Robust 추정량의 second-order bias 가 ML 의 느린 수렴을 보완하는 메커니즘, sample splitting 의 통계적 정직성 확보, cross-fitting 으로 효율 회복, 그리고 Chernozhukov et al. (2018) 의 Double/Debiased ML 표준 절차를 정리한다. | |
| May 8, 2026 | 변수 선택은 어려운 문제이다 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.18.5 를 다룬다. DR ML 도 풀지 못하는 세 문제 — 도메인 지식 한계, 시간변동 처치의 구현 어려움, 분산-편향 trade-off. Confounder 추가가 분산을 폭발시키는 메커니즘, 변수 throw out 의 통계적 함정, 다중 분석 + sensitivity analysis 의 우선, 그리고 Hernan 의 마지막 메시지를 정리한다. | |
| May 8, 2026 | 시간변동 처치 — Ch.19 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.19 의 6 개 소챕터를 한 흐름으로 정리한다. Part III 의 시작점으로 시간변동 처치의 개념적 도전, 처치 전략 (static·dynamic, deterministic·random) 의 정의, sequentially randomized experiment, sequential exchangeability, 일부 전략에서만 식별 가능한 시나리오, 그리고 시간변동 confounder 의 본질을 압축한다. | |
| May 8, 2026 | 시간변동 처치의 인과 효과와 처치 전략 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.19.1~19.2 를 다룬다. 시간변동 처치의 표기 (overbar notation), 처치 history 의 차원 폭발 (\(2^K\)), 두 전체 history 의 잠재 결과 비교로 인과 효과 정의, 처치 전략의 4 분류 (static·dynamic × deterministic·random), 의학에서 dynamic 의 자연성, optimal strategy 의 개념을 정리한다. | |
| May 8, 2026 | Sequentially Randomized Experiment과 Sequential Exchangeability | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.19.3~19.4 를 다룬다. Sequentially randomized experiment 의 정의와 3 가지 DAG 시나리오 (Figure 19.1-19.3), sequential conditional exchangeability 의 형식적 정의, 매 시점 가정의 누적 효과, 관찰 연구의 unobserved confounding 위험, 그리고 positivity 와 consistency 의 시간변동 일반화를 정리한다. | |
| May 8, 2026 | 일부 전략 하의 식별 가능성과 시간변동 Confounder | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.19.5~19.6 을 다룬다. 같은 데이터에서 strategy 종류에 따라 식별 가능성이 달라지는 이유, SWIG 분석으로 부분 식별 시나리오 검토, 시간변동 confounder 의 형식적 정의와 단일 시점 confounder 와의 결정적 차이, 처치-confounder feedback 의 메커니즘, 그리고 단순 회귀가 시간변동 분석에 실패하는 이유를 정리한다. | |
| May 8, 2026 | Treatment-Confounder Feedback — Ch.20 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.20 의 5 개 소챕터를 한 흐름으로 정리한다. Treatment-confounder feedback 의 정의와 Figure 20.3 의 단순 DAG, 32,000 명 가상 sequentially randomized 시험에서 전통 stratification·outcome regression·matching 모두 실패하는 메커니즘 (sharp null 인데도 -8 이라는 비영 추정), 그리고 g-method 의 도입 필연성을 압축한다. | |
| May 8, 2026 | TC Feedback의 Elements와 Table 20.1의 4 도구 실패 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.20.1~20.2 를 다룬다. Treatment-confounder feedback 의 정확한 DAG 구조 (Figure 20.1-20.4), Hernan 의 Table 20.1 의 32,000 명 가상 sequentially randomized 시험, 4 가지 분석 (각 시점 conditional, 비보정 비교, L1 층화, 회귀) 의 결과 비교, 그리고 처치 효과가 0 인데도 stratification 이 -8 을 추정하는 정량적 메커니즘을 정리한다. | |
| May 8, 2026 | 왜 전통 도구가 실패하는가 + Fix 시도의 실패 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.20.3~20.4 를 다룬다. \(L_1\) 층화가 collider conditioning 으로 selection bias 도입하는 정확한 메커니즘 (Figure 20.5), \(A_0 \leftrightarrow U_1\) 의 가짜 연관 형성 과정, 더 정교한 도구 (회귀 with cum(A), matching) 도 동일 메커니즘으로 실패하는 이유, 그리고 이 deadlock 이 본질적으로 g-method 를 요구하는 이유를 정리한다. | |
| May 8, 2026 | 과거 처치 보정의 필요성과 Mismeasurement 위험 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.20.5 를 다룬다. 과거 처치 \(\bar{A}_{k-1}\) 가 항상 sequential exchangeability 의 보정 변수에 포함되어야 하는 이유 (Figure 20.8-20.10), 단일 시점 처치 분석에서 new-user design 의 의미, 시간변동 처치의 mismeasurement 가 단일 시점과 다른 새 위험을 만드는 메커니즘 (bias under null), 그리고 단순 도구가 시간변동 deadlock 해결 못 하는 마지막 측면을 정리한다. | |
| May 8, 2026 | G-methods for Time-Varying Treatments — Ch.21 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.21 의 6 개 소챕터를 한 흐름으로 정리한다. Ch.20 의 deadlock 의 해결책 — g-formula·IPW MSM·g-estimation 의 시간변동 일반화. Hernan 의 Table 21.1 (= Table 20.1) 에서 3 도구 모두 정확히 0 추정 (전통 도구 -8 와 대비). 매 시점 conditional 보정 대신 marginal frame 의 본질, 그리고 doubly robust ML 결합의 미래를 압축한다. | |
| May 8, 2026 | Time-Varying G-Formula와 IPW MSM | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.21.1~21.2 를 다룬다. 시간변동 g-formula 의 정확한 식 (시점별 covariate 분포 모형 + 결과 모형 + 시뮬레이션), IPW MSM 의 시간변동 가중치 곱 형태, Hernan Table 21.1 의 32,000 명 사례에서 두 도구 모두 0 추정의 정량적 분해, parametric g-formula 의 Monte Carlo 절차, 그리고 stabilized weight 의 결정적 중요성을 정리한다. | |
| May 8, 2026 | Doubly Robust 추정량과 시간변동 G-Estimation | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.21.3~21.4 를 다룬다. 시간변동에서 doubly robust 추정량의 메커니즘 (g-formula + IPW 의 결합), 두 모형 중 한쪽만 옳아도 일치하는 second-order bias 의 시간 차원 일반화, Sequential Structural Nested Mean Models 의 정의, g-test 의 시점별 일반화, 그리고 TMLE (Targeted Maximum Likelihood) 같은 향후 발전 방향을 정리한다. | |
| May 8, 2026 | Censoring as Time-Varying Treatment과 Big G-Formula | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.21.5~21.6 을 다룬다. Censoring 을 시간변동 처치처럼 처리하는 통합 frame, \(\bar{c}=\bar{0}\) superscript 의 인과적 의미, 처치 + censoring 의 결합 IPW 가중치, Big G-Formula 의 단일 결합 모형 접근, Monte Carlo 시뮬레이션의 효율적 구현, 그리고 Part III 의 종합 결론과 향후 발전 방향을 정리한다. | |
| May 8, 2026 | Target Trial Emulation — Ch.22 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.22 의 5 개 소챕터를 한 흐름으로 정리한다. Target trial emulation framework, intention-to-treat vs per-protocol effect, 관찰 연구의 ITT 한계, sustained treatment strategies 의 인과 추정, eligibility·time zero·treatment strategies 의 정확한 명시, immortal time bias 회피, 그리고 Hernan & Robins (2016) 의 framework 가 21 세기 인과 분석의 표준이 된 이유를 압축한다. | |
| May 8, 2026 | ITT vs Per-Protocol Effect와 Sustained Strategies | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.22.1~22.2 를 다룬다. Intention-to-Treat (ITT) 와 Per-Protocol (PP) effect 의 정확한 정의, RCT 에서 두 도구의 강점·약점, ITT 의 흔한 오해 (보수성 가정의 실패), Sustained treatment strategies 의 target trial protocol, 시간변동 비순응의 누적 효과, pseudo-ITT, modified ITT, naive per-protocol 분석의 함정을 정리한다. | |
| May 8, 2026 | 지속 전략의 Emulation과 Time Zero | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.22.3~22.4 를 다룬다. Target trial protocol 의 8 components 를 관찰 데이터에 align 하는 절차, eligibility/time zero/treatment assignment 의 동시성, immortal time bias 의 정확한 메커니즘과 사례 (폐 이식, statin), 시간변동 처치의 emulation 복잡성, 그리고 Hernán & Robins (2016) 의 framework 가 인과 분석 표준이 된 이유를 정리한다. | |
| May 8, 2026 | What-If 질문에 대한 통합 접근 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.22.5 를 다룬다. Target Trial Framework 가 모든 인과 질문 (단일 시점, 시간변동, mediation, comparative effectiveness) 의 통합 표현 도구가 된 이유, 다양한 분석 도구 (RCT, observational, IV, DiD, RDD) 의 framework 매핑, 21 세기 인과 분석의 표준화 진행, ML + causal inference 의 향후 발전, 그리고 Hernán & Robins 의 30+ 년 발전사의 정리. | |
| May 8, 2026 | Causal Mediation — Ch.23 개관 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.23 의 4 개 소챕터를 한 흐름으로 정리한다. 매개 분석의 정의 (직접 효과 vs 간접 효과), Robins-Greenland (1992) 의 pure direct effect 와 total indirect effect, cross-world counterfactual 의 식별 불가능성, NPSEM-IE vs FFRCISTG 모형 차이, 개입주의 매개 이론 (Robins-Richardson 2010), separable effect \(N\)/\(O\) 의 경험적 검증 가능성, 그리고 매개 분석이 시간 변동 치료의 특수 사례로 보이는 이유를 압축한다. | |
| May 8, 2026 | 매개 분석의 비판과 옹호 — Hernan Ch.23.1-23.2 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.23.1-23.2 를 다룬다. Pure direct effect (PDE) 와 total indirect effect (TIE) 의 Robins-Greenland (1992) 형식화, mediation formula 의 유도, cross-world counterfactual \(\mathrm{E}[Y^{a=1, M^{a=0}}]\) 의 식별 가능성 논쟁, NPSEM-IE 가 가정하는 cross-world independencies 가 검증 불가능한 이유, FFRCISTG 하의 부분 식별 (sharp bounds), 그리고 NPSEM-IE 옹호자들의 separable effects 옹호 — 니코틴-free 담배 이야기로 PDE 의 정책적 의미를 옹호하는 시도와 그 한계를 다룬다. | |
| May 8, 2026 | 경험적 매개 + 개입주의 매개 이론 — Hernan Ch.23.3-23.4 | Experimentation, Causal Inference | Hernan & Robins (2020) Ch.23.3-23.4 를 다룬다. Separable effects 가정 (i)+(ii) 의 경험적 검증 절차 — 미래 3-arm 무작위 실험 (금연·계속 흡연·니코틴-free 담배) 으로 mediation formula 의 예측을 검증, 가정이 깨지면 (i) 니코틴 직접 효과 / (ii) 비-니코틴 매개자 효과 / (iii) 미측정 공통 원인 중 무엇이 문제인지 진단. 그리고 Robins-Richardson (2010) 의 interventionist mediation theory — cross-world counterfactual 없이 separable component effect 를 정의하는 자율 framework, 매개자에 대한 well-defined intervention 이 없어도 적용 가능, 6-arm 미래 실험으로 검증, surrogate mediator 와 path-specific effect 와 front-door formula 와의 연결을 다룬다. | |
| May 8, 2026 | 행동 데이터 인과분석 — 인과·행동·데이터 삼각 (Buisson Ch.1 overview) | Experimentation, Causal Inference | Buisson (2021) 의 Behavioral Data Analysis with R and Python Ch.1 전체 흐름을 압축한 overview. 분석 3유형 (descriptive / predictive / causal), 인간 행동의 5 특성, 차원의 저주와 Lucas 비판, 그리고 회귀를 예측 분석과 인과 분석에서 어떻게 다르게 사용하는가를 정리한다. | |
| May 8, 2026 | 인과 분석의 필요성과 분석 유형 (Buisson Ch.1.1~1.2) | Experimentation, Causal Inference | Buisson (2021) Ch.1 의 두 절 — “Why We Need Causal Analytics to Explain Human Behavior” 와 “The Different Types of Analytics” 를 합쳐 정리한다. 분석을 목적에 따라 3 유형 (descriptive / predictive / causal) 으로 나누고, 각 유형의 핵심 질문·도구·한계를 비교한 후 인과 분석이 인간 행동 설명에 왜 필수인지 논증한다. | |
| May 8, 2026 | 인간 행동의 복잡성과 교란 변수 — 회귀가 망가지는 이유 (Buisson Ch.1.3~1.4) | Experimentation, Causal Inference | Buisson (2021) Ch.1 의 두 절 — “Human Beings Are Complicated” 와 “Confound It!” 를 정리한다. 인간 행동의 5 특성 (다원성·맥락·비결정성·혁신성·전략성) 이 왜 단순 예측을 어렵게 하는지, 차원의 저주와 Lucas 비판이 그 수학적 근거임을 보인다. 후반부에서는 C-Mart 아이스크림 사례로 교란 변수(confounder) 가 회귀에서 어떻게 인과 계수를 망가뜨리는지를 직관적으로 시연한다. | |
| May 8, 2026 | 상관은 인과가 아니다 — 변수를 잘못 추가하면 분석이 더 망가지는 두 가지 이유 (Buisson Ch.1.5~1.6) | Experimentation, Causal Inference | Buisson (2021) Ch.1 의 마지막 두 절 — “Why Correlation Is Not Causation: A Confounder in Action” 과 “Too Many Variables Can Spoil the Broth” 를 정리한다. 교란 변수가 가짜 상관을 만드는 메커니즘을 C-Mart 아이스크림·생수 사례로 시연하고, 변수를 무분별하게 추가할 때 발생하는 두 함정 — 다중공선성과 collider 조건부 — 을 바닐라-초콜릿 선호도 사례로 보여준다. 회귀 변수 mix 가 인과 분석에서 왜 핵심 설계 결정인지를 직관적으로 다룬다. | |
| May 8, 2026 | 군집 무작위 배정 — Cluster-level 배정과 Hierarchical Modeling (Buisson Ch.10 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.10 의 전체 흐름을 압축한 overview. 군집 무작위 배정의 의의, AirCnC 의 콜센터 SOP 변경 사례, Cluster-level 배정의 logistics 근거, Compliance 와 Leakage 의 위험, ToC 적용, Hierarchical Linear Model (HLM) 의 도입과 nested variable 처리를 단계별로 시연한다. | |
| May 8, 2026 | 군집 사용 시점과 누출 — Compliance·Leakage·Permutation 의 실무 (Buisson Ch.10.1) | Experimentation, Causal Inference | Buisson (2021) Ch.10 의 random assignment 절을 자세히 정리한다. Cluster-level 배정을 선택하는 3 가지 logistic 사유 (cognitive load, leakage, compliance), AirCnC 콜센터 사례의 stratified cluster 배정, 제한된 cluster 수에서의 permutation-based simulation, 결정 임계값 (decision threshold) 의 조정을 단계별로 시연한다. | |
| May 8, 2026 | 계층 모형과 임의·고정 효과 — HLM 의 수식과 R/Python 구현 (Buisson Ch.10.2) | Experimentation, Causal Inference | Buisson (2021) Ch.10 의 hierarchical model 절을 자세히 정리한다. HLM 의 수식 (multi-level regression), Random Intercept 의 의미, Nested random effect 의 처리, Fixed Effect vs Random Effect 의 비교, R 의 lmer 와 Python 의 mixedlm 코드, 결과 해석을 단계별로 시연한다. | |
| May 8, 2026 | ICC 와 검정력 — Cluster Experiment 의 Effective N (Buisson Ch.10.3) | Experimentation, Causal Inference | Buisson (2021) Ch.10 의 power analysis 절을 자세히 정리한다. ICC 의 정의와 계산, Effective Sample Size 의 도출, Cluster 수 vs Cluster 크기의 trade-off, Permutation-based power simulation, 결정 임계값 조정 (decision threshold) 의 실무 적용을 단계별로 시연한다. | |
| May 8, 2026 | Moderation 개관 — Segmentation·Interaction·Nonlinearity 의 3 유형 (Buisson Ch.11 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.11 의 전체 흐름을 압축한 overview. Moderation (효과 수정) 의 정의와 3 유형 (Segmentation·Interaction·Nonlinearity), C-Mart PlayArea+Children 사례의 단계별 시연, 회귀의 interaction term (\(\beta_i\)) 의 의미, CD 표현, Self- moderation (quadratic), 마케팅 uplift analysis 와의 연결을 단계별로 시연한다. | |
| May 8, 2026 | 세분화 분석 — PlayArea × Children 사례 깊이 (Buisson Ch.11.1) | Experimentation, Causal Inference | Buisson (2021) Ch.11 의 segmentation 절을 자세히 정리한다. PlayArea × Children C-Mart 사례의 단계별 분석, 회귀의 interaction term 해석, Uplift 분석으로의 적용, 매장 우선순위 결정, Marketing 의 personalization 응용을 단계별로 시연한다. | |
| May 8, 2026 | 상호작용과 비선형 — Symmetric Interactions·Self-Moderation·Optimal Point (Buisson Ch.11.2) | Experimentation, Causal Inference | Buisson (2021) Ch.11 의 interaction + nonlinearity 절을 자세히 정리한다. Symmetric Interaction (시너지·substitution), Self-Moderation (quadratic), Decreasing/Increasing Returns, Linear Regression 의 정확한 정의, Optimal Point 의 미분 도출, Hidden Moderator 의 진단을 단계별로 시연한다. | |
| May 8, 2026 | 다중 조절 변수와 부트스트랩 — Parallel·Interacting Moderators 와 CI 검증 (Buisson Ch.11.3) | Experimentation, Causal Inference | Buisson (2021) Ch.11 의 Multiple Moderators + Bootstrap 절을 자세히 정리한다. Parallel Moderators 의 회귀 + 해석, Interacting Moderators (Moderated Moderation), 3-way interaction 의 정량화, Bootstrap CI 의 우월성, 다중 moderator 의 검증 절차를 단계별로 시연한다. | |
| May 8, 2026 | Mediation·IV 비즈니스 — 인과 메커니즘과 도구변수 (Buisson Ch.12 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.12 의 전체 흐름을 압축한 overview. Mediation 의 비즈니스 가치 (인과 메커니즘 이해, causal bias 방지), Total/Indirect/Direct effect 의 정의와 추정, Full vs Partial Mediation, Instrumental Variable (IV) 의 도입, AirCnC CSAT → M6Spend 사례를 단계별로 시연한다. | |
| May 8, 2026 | 매개 효과 3 단계 회귀 — Total·Indirect·Direct Effect 자세히 (Buisson Ch.12.1) | Experimentation, Causal Inference | Buisson (2021) Ch.12 의 mediation 측정 절을 자세히 정리한다. Total Effect 의 단순 회귀, Indirect Effect 의 product of coefficients 도출, Direct Effect 의 mediator 통제 회귀, Percentage Mediated 의 계산, Multicollinearity 함정과 대처, Multiple Mediator + Self-regulation 사례를 단계별로 시연한다. | |
| May 8, 2026 | 매개 비율과 이항 매개 — Logistic Mediator 의 처리 (Buisson Ch.12.2) | Experimentation, Causal Inference | Buisson (2021) Ch.12 의 이항 mediator 절을 자세히 정리한다. Mediator 가 binary 일 때의 logistic regression, sigmoid 함수의 비선형성, Reference Point 방법과 Per-row 평균 방법, 두 접근의 trade-off, AirCnC 사례의 단계별 적용을 시연한다. | |
| May 8, 2026 | 매개 × 조절 결합 — Moderated Mediation 의 분석 (Buisson Ch.12.3) | Experimentation, Causal Inference | Buisson (2021) Ch.12 의 mediation × moderation 결합 절을 자세히 정리한다. Moderated Mediation 의 정의와 CD, 두 변수가 mediator 의 효과를 modify 하는 시나리오, Conditional Indirect Effect 의 추정, C-Mart 사례의 단계별 시연을 다룬다. | |
| May 8, 2026 | 도구변수와 2SLS — IV 의 3 조건과 AirCnC CSAT 사례 (Buisson Ch.12.4) | Experimentation, Causal Inference | Buisson (2021) Ch.12 의 IV 절을 자세히 정리한다. Instrumental Variable 의 정의와 3 조건 (Relevance, Exclusion, Independence), 2SLS 추정의 단계별 도출, AirCnC 의 SOP 무작위 배정을 instrument 로 활용한 CSAT → M6Spend 인과 효과 추정, Weak Instrument 진단, IV 의 한계와 함정을 단계별로 시연한다. | |
| May 8, 2026 | 행동 데이터 이해 — 인간 행동의 5요소 모형 (Buisson Ch.2 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.2 의 전체 흐름을 압축한 overview. 인간 행동을 5 구성요소 (개인 특성·인지/감정·의도·행동·비즈니스 행동) 로 분해하는 모형을 도입하고, 데이터 변수를 이 5 요소에 어떻게 매핑하는지, 의도-행동 간극(intention-action gap) 이 분석을 어떻게 망가뜨리는지를 정리한다. 미드라이프 크라이시스·C-Mart·AirCnC 사례로 이론을 직관화한다. | |
| May 8, 2026 | 인간 행동의 5 구성요소 — Personal · Cognition · Intentions · Actions · Business (Buisson Ch.2.1) | Experimentation, Causal Inference | Buisson (2021) Ch.2 의 §“A Basic Model of Human Behavior” 를 5 요소 단위로 자세히 정리한다. 각 요소의 정의·관찰 가능성·시간 척도·수집 방법·윤리 고려를 모두 다룬다. C-Mart 와 AirCnC 의 변수 매핑 사례·미드라이프 크라이시스 인과 사슬·“behavioralize” 절차를 통해 추상 개념을 직관화한다. | |
| May 8, 2026 | 행동과 데이터 연결 — 변수의 5요소 매핑 절차 (Buisson Ch.2.2) | Experimentation, Causal Inference | Buisson (2021) Ch.2 의 §“How to Connect Behaviors and Data” 를 정리한다. 데이터에 수십~수백 개 변수가 있을 때 어디서부터 시작할지, “behavioralize” 절차로 모호한 변수를 행동 변수로 정제하는 방법, AirCnC 의 CSAT → M6Spend 사례로 변수의 5요소 매핑을 단계별로 시연한다. Sludge·Distrust and Verify·자기 진단 환자 함정 등 직관 풍부히 다룬다. | |
| May 8, 2026 | 행동적 무결성 마인드셋 — Distrust and Verify (Buisson Ch.2.3) | Experimentation, Causal Inference | Buisson (2021) Ch.2 의 마무리 절을 정리한다. 데이터 변수를 신뢰하기 전에 의심해야 할 7가지 패턴, 그 검증 절차, 분석 시작 전 체크리스트를 다룬다. AirCnC 의 CSAT·M6Spend 변수에 Distrust and Verify 를 적용하는 단계별 시연과 자동 변수 점검 코드를 포함한다. | |
| May 8, 2026 | 인과 다이어그램 도입 — Chains, Forks, Colliders 의 시각 언어 (Buisson Ch.3 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.3 의 전체 흐름을 압축한 overview. 인과 다이어그램(CD) 의 두 측면 — 행동 표현과 데이터 표현 — 을 정리하고, 세 기본 구조 (Chain, Fork, Collider) 를 도입한다. C-Mart 아이스드 커피·소금-혈압 사례·Joe-땅콩 비유를 통해 추상 개념을 직관화한다. | |
| May 8, 2026 | DAG 의 도구적 역할과 회귀 매핑 — CD 가 회귀의 시각 언어인 이유 (Buisson Ch.3.1) | Experimentation, Causal Inference | Buisson (2021) Ch.3 의 첫 절을 정리한다. 인과 다이어그램 (CD) 이 행동을 표현하는 동시에 데이터·회귀를 표현하는 두 측면을 가짐을 보이고, 단변수·다변수·로지스틱 회귀와의 매핑을 단계적으로 도출한다. C-Mart 의 Temperature → IcedCoffeeSales, Joe-땅콩 비유, 자석-자기장 비유로 추상 개념을 직관화한다. | |
| May 8, 2026 | 체인과 포크 — 매개와 공통 원인의 두 기본 구조 (Buisson Ch.3.2) | Experimentation, Causal Inference | Buisson (2021) Ch.3 의 두 번째 절을 정리한다. 인과 다이어그램의 두 기본 구조 — Chain (사슬) 과 Fork (포크) — 을 정의하고, 각 구조의 회귀 매핑·축약/확장·데이터 분석에서의 함의를 다룬다. C-Mart 의 Temperature → IcedCoffee → Donut, 아이스크림과 아이스커피의 공통 원인 (Temperature) 사례, 인구통계 변수의 fork 역할로 직관화한다. | |
| May 8, 2026 | 충돌 변수와 경로 — Collider, Paths, Cycles 의 함정과 처리 (Buisson Ch.3.3) | Experimentation, Causal Inference | Buisson (2021) Ch.3 의 마지막 절을 정리한다. Collider (충돌 변수) 의 정의·역설적 성질 (조건부 보정이 가짜 상관을 만든다) · selection bias 와의 연관, Paths (경로) 의 일반화된 정의, Cycles (순환) — substitution effect 와 feedback loop — 의 처리 방법을 다룬다. 아이스크림 맛 사례·매장 대기 줄 사례로 직관화한다. | |
| May 8, 2026 | DAG 를 0 부터 짓기 — 호텔 예약 사례로 보는 4 단계 레시피 (Buisson Ch.4 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.4 의 전체 흐름을 압축한 overview. 도메인 전문가가 없을 때 분석가가 0 에서 출발해 DAG 를 짓는 4 단계 레시피를 정리한다. 호텔 예약 사례 (NRDeposit → IsCanceled) 를 사용하여 후보 변수 식별, 데이터로 검증, 반복적 정제, 단순화의 흐름을 직관·시연한다. | |
| May 8, 2026 | 비즈니스 문제와 후보 변수 식별 — 호텔 예약 사례 깊이 들여다보기 (Buisson Ch.4.1) | Experimentation, Causal Inference | Buisson (2021) Ch.4 의 첫 두 절을 정리한다. 호텔 예약 사례에서 시작 CD (NRDeposit → IsCanceled) 를 정의하고, 데이터에 보이는 직관 위반 (보증금 시 95% 취소율) 을 confounder 로 해석한 후, 6 카테고리 (Past Actions, Intentions, Cognition, Personal, Business, Time) 에서 후보 변수를 brainstorm 하는 절차를 단계별로 시연한다. | |
| May 8, 2026 | 변수 6 범주 분류 — 각 카테고리의 인과 역할과 시점 결정 (Buisson Ch.4.2) | Experimentation, Causal Inference | Buisson (2021) Ch.4 의 variable identification 절을 자세히 정리한다. Personal characteristics 의 traits vs demographics 분리, Business behaviors 가 비즈니스 룰을 어떻게 표현하는가, Time trends 의 추세·주기·일회성 이벤트 — 각 카테고리에서 변수의 CD 내 역할 (confounder, mediator, proxy) 과 시점을 어떻게 결정하는지 호텔 사례로 분석한다. | |
| May 8, 2026 | 데이터 검증과 반복 정제 — DAG 의 단계 3·4 (Buisson Ch.4.3-4.5) | Experimentation, Causal Inference | Buisson (2021) Ch.4 의 마지막 세 절을 정리한다. 후보 변수를 데이터로 검증하는 도구 (Pearson 상관, Cramer’s V, group means + Bootstrap CI), 미관측 변수의 proxy 식별, 외부 변수의 추가 원인 탐색, 그리고 단순화 (chain 축약·slicing·aggregating·cycle breaking) 의 절차를 호텔 예약 사례로 자세히 시연한다. | |
| May 8, 2026 | Deconfounding 개관 — 두 가지 처방의 균형 (Buisson Ch.5 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.5 의 전체 흐름을 압축한 overview. CD 가 주어졌을 때 어떤 변수를 회귀에 포함해 confounding 을 제거할지 결정하는 두 가지 규칙 (DCC, BC) 의 정의· trade-off·적용 사례를 정리한다. C-Mart 의 아이스크림·생수 매출 사례로 두 규칙을 비교 시연. | |
| May 8, 2026 | DCC — 분리적 원인 기준의 정의·강점·한계 (Buisson Ch.5.1) | Experimentation, Causal Inference | Buisson (2021) Ch.5 의 첫 번째 변수 선택 규칙인 Disjunctive Cause Criterion (DCC) 을 자세히 정리한다. DCC 의 정의를 4 부분으로 분해하고, sufficient 의 통계적 의미, CD 부정확성에 대한 robust 함, redundancy 의 비용, 미관측 변수의 한계를 C-Mart 사례와 시뮬레이션으로 시연한다. | |
| May 8, 2026 | 백도어 기준과 M-패턴 — 정밀한 confounder 식별의 두 얼굴 (Buisson Ch.5.2) | Experimentation, Causal Inference | Buisson (2021) Ch.5 의 두 번째 변수 선택 규칙인 Backdoor Criterion (BC) 을 자세히 정리한다. Path·causal vs noncausal·blocked 의 정의, BC 의 절차, M-pattern (fork -collider-fork 구조) 의 함정, 2006 년 토바코 소송의 안전벨트-흡연 사례, BC vs DCC 의 trade-off 를 시뮬레이션으로 시연한다. | |
| May 8, 2026 | 결측 데이터 처리 개관 — 빅데이터 시대의 함정과 Rubin 분류 (Buisson Ch.6 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.6 의 전체 흐름을 압축한 overview. 빅데이터 시대에 결측 데이터를 단순 filter 하면 발생하는 편향, Rubin 의 결측 분류 (MCAR/MAR/MNAR) 의 정의와 직관, Multiple Imputation 의 도입을 정리한다. AirCnC 가상 데이터 (2000 명, 7 변수) 로 단계별 시연. | |
| May 8, 2026 | 결측 데이터 시각화 — Pattern Matrix 와 Missingness 상관 (Buisson Ch.6.1) | Experimentation, Causal Inference | Buisson (2021) Ch.6 의 첫 번째 절을 자세히 정리한다. mice 패키지의 md.pattern() 행렬을 두 관점 (양 / 상관) 으로 분해해 분석하는 방법, Min/Max sensitivity test 로 결측 영향 평가, Tampa-Tacoma 면접 사례로 missingness 상관의 두 극단 비교, AirCnC 데이터의 중간 패턴 진단을 단계별로 시연한다. | |
| May 8, 2026 | 결측 분류와 진단 — MCAR·MAR·MNAR 의 CD 표현과 logistic regression 진단 (Buisson Ch.6.2) | Experimentation, Causal Inference | Buisson (2021) Ch.6 의 진단 절을 자세히 정리한다. Missingness 변수를 CD 에 추가하는 Buisson 의 컨벤션, Wrong/False values vs Missing 의 구분, Rubin 분류 (MCAR/MAR/MNAR) 의 CD 표현, logistic regression 으로 결측 indicator 회귀하는 진단 방법, “Cautious is not biased” 원칙을 AirCnC 사례로 시연한다. | |
| May 8, 2026 | 다중 대체 — PMM·Normal Imputation 의 메커니즘과 적용 (Buisson Ch.6.3) | Experimentation, Causal Inference | Buisson (2021) Ch.6 의 Multiple Imputation 절을 자세히 정리한다. 단일 대체의 한계, m 번 대체로 결측 불확실성 표현, Predictive Mean Matching (PMM) 과 Normal Imputation 의 차이, mice 패키지의 호출 방법, deterministic MNAR (Neuro 의 임계값 결측) 의 특수 처리를 단계별로 시연한다. | |
| May 8, 2026 | 보조 변수와 대체 수 결정 — MNAR 처리와 m 의 선택 (Buisson Ch.6.4) | Experimentation, Causal Inference | Buisson (2021) Ch.6 의 마무리 절을 자세히 정리한다. 분석에는 사용 안 하지만 결측 대체 정확도를 높이는 보조 변수의 정의와 활용, MNAR 처리에서 child variable 을 보조 변수로 활용하는 방법, 대체 수 m 의 결정 기준 (FMI, 결측 비율, Rubin 권장), 분석 보고서의 결측 처리 명시 의무를 단계별로 시연한다. | |
| May 8, 2026 | 실험 설계의 기초 — Theory of Change 와 4 단계 절차 (Buisson Ch.8 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.8 의 전체 흐름을 압축한 overview. 실험 설계의 4 단계 (Plan + Random Assignment + Sample Size + Analyze), Theory of Change (ToC) framework 의 4 구성 요소 (Intervention·Business Goal·Target Metric·Behavioral Logic) 의 정의· 연결·CD 표현, AirCnC 의 “1-click booking” 실험 사례를 단계별로 시연한다. | |
| May 8, 2026 | 변화 이론·목표 지표·개입의 정의 — Plan 단계의 deep dive (Buisson Ch.8.1) | Experimentation, Causal Inference | Buisson (2021) Ch.8 의 첫 절을 자세히 정리한다. Theory of Change 의 4 구성 요소 중 Business Goal·Target Metric·Intervention 의 정의, Goal vs Metric 분리의 통계적 근거, Leading Indicator 의 trade-off, Target Metric 의 3 가지 함정 (측정 불가· Laundry list·사후 결정), OEC 논쟁, Behavioral Logic 의 사전 검증을 단계별로 시연한다. | |
| May 8, 2026 | 무작위 배정 — 시점과 수준의 두 도전 (Buisson Ch.8.2) | Experimentation, Causal Inference | Buisson (2021) Ch.8 의 Random Assignment 절을 자세히 정리한다. Random Assignment 의 단순한 이론과 실무의 두 도전 (timing 과 level), Treatment 노출자만 배정하는 원칙, customer-level vs visit-level 의 trade-off, cookie 기반 추적, A/A test 검증, centralized 배정 시스템의 구조를 단계별로 시연한다. | |
| May 8, 2026 | 검정력 분석 — 전통 공식과 Bootstrap 시뮬레이션 (Buisson Ch.8.3) | Experimentation, Causal Inference | Buisson (2021) Ch.8 의 마지막 절을 자세히 정리한다. Power analysis 의 통계 이론 (true/false positive·negative), 전통 공식 (Test of Proportions, ES.h), Bootstrap 시뮬레이션의 5 단계 절차, Power curve 시각화, AirCnC 사례의 단계별 적용, 실험 결과 분석 (logistic regression + 평균 effect) 을 시연한다. | |
| May 8, 2026 | 층화 무작위 배정 — Pre-experiment 정보로 표본 균형 보장 (Buisson Ch.9 overview) | Experimentation, Causal Inference | Buisson (2021) Ch.9 의 전체 흐름을 압축한 overview. 층화 무작위 배정 (Stratified Randomization) 의 의의, 단순 무작위의 작은 표본 imbalance 문제, AirCnC 의 청소 정책 사례 (24 시간 → 8 시간 무료 청소 vs 1 박 최소 booking), 거리 기반 매칭의 직관, rescaling·one-hot encoding 의 필요성을 단계별로 시연한다. | |
| May 8, 2026 | 층화 형성과 거리 척도 — Distance·Rescaling·One-Hot 의 깊이 (Buisson Ch.9.1) | Experimentation, Causal Inference | Buisson (2021) Ch.9 의 층화 형성 절을 자세히 정리한다. 거리 척도 (Manhattan, Euclidean, Mahalanobis), Rescaling 방법 (Min-Max, Z-score, Quantile), Categorical 변수의 처리 (one-hot, ordered, target encoding), Pair Matching 알고리즘 (Optimal, OptGreedy, NaiveGreedy) 의 비교, 5,000 owner 규모의 실무 적용을 단계별로 시연한다. | |
| May 8, 2026 | Bootstrap 검정력 + ITT/CACE — 층화 후 분석의 두 추정량 (Buisson Ch.9.2) | Experimentation, Causal Inference | Buisson (2021) Ch.9 의 power simulation + 결과 분석을 자세히 정리한다. 층화의 자연스러운 false positive 감소 효과, power 곡선의 자세한 해석, 신뢰 수준 trade-off, Encouragement Design 의 의미, ITT (Intention-to-Treat) 추정량, CACE (Complier Average Causal Effect) 추정량의 도출과 IV 접근을 단계별로 시연한다. | |
| May 8, 2026 | 임의 효과·중첩 설계 개관 — 분산 성분의 추정과 일반화 범위 | Experimentation, DOE | 요인의 levels 가 무작위 표본일 때 (random effect), 또는 한 요인이 다른 요인 안에 중첩될 때 (nested design) 의 분석 lens 를 정리한다. 고정 효과 vs 임의 효과의 본질적 차이, Expected Mean Squares (EMS) 의 의미와 검정 분모 결정의 원리, ICC (intraclass correlation) 의 활용, multilevel model (G-MAX15) 으로의 자연스러운 확장을 통합적으로 개관한다. Maxwell Ch.10 은 Phase G 의 중요한 전환점 — 명목 fixed factor 의 ANOVA 세계에서 random/multilevel 세계로 이행하는 다리. | |
| May 8, 2026 | 고정 효과 vs 임의 효과와 EMS — 검정 분모를 결정하는 원리 | Experimentation, DOE | 요인이 고정인지 임의인지에 따라 ANOVA 의 검정 분모 (error term) 가 달라진다. Expected Mean Squares (EMS) 표를 작성해 각 효과의 분모를 정확히 결정하는 절차, one-way random model 에서 mixed model 까지 단계적 도출, restricted vs unrestricted parameterization 의 차이, REML 과 ANOVA-based 추정의 비교를 정리한다. 통계 패키지의 default 점검 절차도 포함한다. | |
| May 8, 2026 | Two-Way Mixed Model 의 오차항 선택 — fixed × random 의 검정 절차 | Experimentation, DOE | fixed 요인과 random 요인이 함께 있는 mixed model 의 ANOVA 검정 절차를 정리한다. EMS 표 기반 분모 결정, restricted vs unrestricted parameterization 의 차이, 패키지 default 점검, Satterthwaite approximation, 실무 적용까지 단계적으로 다룬다. 다센터 임상시험·교육 multilevel 연구의 정통 분석 절차다. | |
| May 8, 2026 | 중첩 설계와 분산 성분 — Multilevel 의 시작 | Experimentation, DOE | 요인 \(B\) 의 levels 가 요인 \(A\) 의 각 level 마다 다르게 정의되는 nested design 의 ANOVA 모형, EMS, 분산 성분 추정 절차, ICC 의 다층 정의, 깊은 nesting (3+ 단계) 으로의 확장을 정리한다. multilevel model (G-MAX15) 의 직접적 ANOVA 표현. | |
| May 8, 2026 | Within-Subjects 단변량 분석 개관 — 검정력의 이득과 구형성의 함정 | Experimentation, DOE | 같은 피험자에게 여러 처치를 반복 적용하는 within-subjects (repeated measures) design 의 분석 lens 를 정리한다. 개인 간 분산 통제로 인한 검정력 이득의 통계적 메커니즘, 구형성 (sphericity) 가정의 의미와 위반 시 ε 조정, 순서 효과 (carryover, fatigue) 통제의 필요성, Maxwell Ch.11 의 5 단계 분석 흐름을 통합 개관한다. | |
| May 8, 2026 | Within-Subjects 의 세 가지 상황과 차이 점수 — 사전·사후, 다처치, 시계열 | Experimentation, DOE | Within-subjects design 의 전형적 세 시나리오 — pre/post, multi-treatment crossover, longitudinal time series — 의 정의, 통계 모형, 분석 절차를 정리한다. 차이 점수 (difference score) 분석의 직관, 각 시나리오의 가정과 한계, 임상·심리·IT 응용 사례를 통합 다룬다. | |
| May 8, 2026 | 혼합 모형 ANOVA 와 구형성 가정 — 공분산 구조의 핵심 | Experimentation, DOE | Within-subjects ANOVA 의 핵심 가정인 구형성 (sphericity) 의 정확한 정의, Mauchly 의 검정, 공분산 구조 (CS, AR(1), Toeplitz, Unstructured) 와의 관계, 위반 시 ε 조정의 필요성을 정리한다. ε 의 GG·HF 추정, multilevel model 의 통합 처리도 다룬다. | |
| May 8, 2026 | ε 조정과 순서 효과 — Greenhouse-Geisser, Huynh-Feldt, carryover | Experimentation, DOE | 구형성 가정 위반 시 자유도를 축소하는 Greenhouse-Geisser (GG), Huynh-Feldt (HF) 조정의 공식·차이·선택 기준, carryover · practice · fatigue 같은 순서 효과의 통계적 통제 방법, Order × Treatment interaction 검정으로 carryover 진단을 정리한다. | |
| May 8, 2026 | 라틴 방격 역균형화와 검정력 — within-subjects 의 순서 통제 | Experimentation, DOE | 처치와 시점 (순서) 효과를 직교 분리하는 Latin Square 설계의 정의·구성·분석 절차, Williams Square (비대칭 carryover 통제), within-subjects ANOVA 의 검정력·표본 크기 산출 (시점 간 상관 \(\rho\) 의 영향), 통계 패키지 적용을 정리한다. | |
| May 8, 2026 | 고차 within-subjects 단변량 분석 개관 — 2×3 와 split-plot | Experimentation, DOE | 두 within 요인을 가진 within-subjects design 과 within × between 의 split-plot design 의 분석 lens 를 정리한다. 효과 분해, 검정 분모 결정, sphericity 의 확장, multilevel model 로의 통합을 단계적으로 다룬다. 임상 longitudinal RCT 의 표준 분석 framework 와 직접 연결. | |
| May 8, 2026 | 2×3 within-subjects 설계와 7 효과 — 모든 요인이 within | Experimentation, DOE | 두 within 요인의 가장 단순한 형태인 \(2 \times 3\) 설계의 효과 분해를 정리한다. 주효과·이원 상호작용·subject 상호작용이 모두 별도 자유도를 가지며 각자의 분모로 \(F\) 검정한다. 직교 다항식 trend 분해, multilevel 통합 처리, 임상·심리 응용 사례까지 단계적으로 다룬다. | |
| May 8, 2026 | 분할구 (Split-Plot) 설계 — between × within 의 RCT 표준 형태 | Experimentation, DOE | 그룹 (between-subjects) 과 시점 (within-subjects) 을 결합한 split-plot design 의 ANOVA 분해, 검정 분모, 임상시험 RCT 분석에의 적용을 정리한다. 두 단계 randomization 의 통계 모형, 잘못된 검정 분모 사용의 위험, Mixed Model 의 표준 처리, MAX Ch.9 ANCOVA 와의 결합까지 통합 다룬다. | |
| May 8, 2026 | 구형성의 확장과 ε 조정 — 다요인 within 의 가정 점검 | Experimentation, DOE | 여러 within 요인의 ANOVA 에서 각 main effect 와 interaction 마다 별도로 검토해야 하는 sphericity 가정과 ε 조정의 적용 절차를 정리한다. multilevel model 의 등가 처리, 자유도 1 효과의 자동 만족, 작은 표본의 한계를 다룬다. | |
| May 8, 2026 | Within-Subjects 다변량 분석 개관 — 구형성 가정 회피의 표준 도구 | Experimentation, DOE | Within-subjects design 의 sphericity 가정을 회피하는 다변량 (multivariate) 접근의 개관. 시점들을 multivariate 응답으로 다루어 covariance 구조에 제약 없이 처치 효과를 검정한다. Univariate ANOVA + ε 조정 vs Multivariate (MANOVA, Hotelling) 의 trade-off, multilevel model 과의 통합, 임상·심리·IT 응용까지 정리한다. | |
| May 8, 2026 | D 변수와 Hotelling T² — 다변량 within 의 출발점 | Experimentation, DOE | Within-subjects 데이터를 차이 점수 vector (D variable) 로 변환하는 절차와 그에 대한 Hotelling T² 검정을 정리한다. univariate 의 paired t-test 의 다변량 일반화이다. Type 1 (첫 시점 기준) vs Type 2 (직교 contrast) 의 동치성, 직교 다항식 분해, 실무 적용까지 다룬다. | |
| May 8, 2026 | 다변량 검정 통계량 — Wilks Λ, Pillai trace, Hotelling-Lawley, Roy | Experimentation, DOE | MANOVA 와 다변량 within-subjects 분석에서 사용되는 4 가지 검정 통계량의 정의, 계산 공식, robustness 비교, 선택 기준을 정리한다. 각 통계량의 특성과 어느 상황에 어느 것을 써야 하는지의 가이드도 제공한다. | |
| May 8, 2026 | Univariate vs Multivariate within-subjects 의 선택 | Experimentation, DOE | Within-subjects 분석에서 univariate ANOVA + ε 조정과 multivariate MANOVA 의 선택 기준을 정리한다. sphericity, 표본 크기, 검정력, 결측 데이터 측면의 통합 비교, 결정 차트, 실무 권장을 다룬다. multilevel model (REML) 의 통합 처리도 함께. | |
| May 8, 2026 | 고차 within 의 다변량 분석 개관 — 다요인의 sphericity-free 처리 | Experimentation, DOE | 여러 within 요인의 ANOVA 를 multivariate 접근으로 분석하는 lens 를 정리한다. D variable 의 multi-dimensional 구성, 각 효과별 multivariate 검정, sphericity 가정의 완전 회피, split-plot 다변량의 응용까지 다룬다. 임상 longitudinal 에서 시점이 많고 공분산 구조가 복잡할 때 univariate ANOVA + ε 조정의 한계를 multivariate (MANOVA) 가 어떻게 보완하는지 단계적으로 설명한다. | |
| May 8, 2026 | 2×2 within 의 D 변수 형성 — 세 효과의 multivariate 검정 | Experimentation, DOE | \(2 \times 2\) within-subjects 설계의 세 효과 (\(A\) main, \(B\) main, \(A \times B\) interaction) 에 대한 D variable 의 형성 절차, paired t-test (자유도 1) 의 동치성, 직교 분해의 의미를 정리한다. 가장 단순한 2×2 사례에서 multivariate within 분석의 핵심 원리를 명확히 보여주며, 이는 일반 \(a \times b\) 확장 (G-MAX14-2) 의 직접 기반이다. | |
| May 8, 2026 | 일반 \(a \times b\) within design 의 multivariate 확장 | Experimentation, DOE | \(2 \times 2\) 의 단순 형태에서 일반 \(a \times b\) within design 으로의 확장. 각 효과의 D variable 차원, 검정 통계량 (Hotelling \(T^2\), Wilks Λ) 의 자유도와 적용 절차, 직교 다항식 기반 trend 분해와의 통합, 작은 표본에서의 multivariate 한계를 정리한다. Maxwell Ch.6 (G-MAX6) 의 trend analysis 가 within-subjects 의 양적 시점 변수에 어떻게 자연스럽게 확장되는지 단계적으로 보여 준다. | |
| May 8, 2026 | 분할구 다변량 분석과 univariate vs multivariate 결정 | Experimentation, DOE | Split-plot design (between × within) 의 within 효과를 multivariate (MANOVA) 로 분석 하는 절차와 univariate ANOVA 접근의 통합 비교. 임상 longitudinal RCT 의 표준 분석 framework, multilevel model 과의 동치성, 결정 차트, 실무 적용까지 정리한다. 본 시리즈 의 마지막으로, multivariate within 분석의 실무 결정 가이드를 제공한다. | |
| May 8, 2026 | 다층 모형 개관 — ANOVA 의 일반화 framework | Experimentation, DOE | Within-subjects ANOVA 와 nested design 을 통합하는 multilevel (mixed-effects) model 의 개관. Random intercept, random slope, 공분산 구조 선택, ML/REML 추정의 핵심 개념을 정리한다. ANOVA 의 모든 형태가 multilevel 의 special case 임을 보이고, 결측 데이터 처리·비균등 데이터·공분산 구조 유연성의 우위를 다룬다. | |
| May 8, 2026 | 다층 모형의 일반 형태 — Y = Xβ + Zu + ε | Experimentation, DOE | Mixed-effects model 의 행렬 표현 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} + \boldsymbol{\varepsilon}\) 과 그 의미, 분산 구조 \(\mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}^T + \mathbf{R}\) 의 분해, random intercept 와 random slope 모형의 행렬 형태, BLUP (Best Linear Unbiased Predictor) 까지 정리한다. ANOVA·회귀·panel data 의 모든 모형이 이 framework 의 special case. | |
| May 8, 2026 | ML 추정과 REML — 분산 성분 추정의 두 방법 | Experimentation, DOE | Mixed-effects model 의 추정 방법 — Maximum Likelihood (ML) 와 Restricted Maximum Likelihood (REML) 의 차이, 적용 상황, ANOVA 기반 추정과의 관계, LRT (Likelihood Ratio Test) 의 수행 방법, REML 의 작은 표본 우위를 단계적으로 정리한다. | |
| May 8, 2026 | 성장 곡선과 공분산 구조 — CS, AR(1), Unstructured | Experimentation, DOE | Growth curve modeling (random slope) 과 multilevel model 에서 사용되는 공분산 구조 (CS, AR(1), Toeplitz, Unstructured) 의 정의·선택 기준·AIC/BIC 기반 비교를 정리한다. intercept-slope 상관, 비선형 trajectory, 시변 공변량 결합까지 다룬다. | |
| May 8, 2026 | 다층 모형 비교 (LRT/AIC/BIC) 와 시변 공변량 | Experimentation, DOE | Multilevel model 의 모형 선택 도구 (LRT, AIC, BIC) 와 시변 (time-varying) 공변량의 처리 방법, between-subjects effect 와 within-subject effect 의 분리 (Hausman test) 를 정리한다. 모형 선택 절차와 실무 적용까지 다룬다. | |
| May 8, 2026 | 계층적 혼합 nested 모형 개관 — 다층 nested 의 확장 | Experimentation, DOE | 학교 within 학급 within 학생 같은 다층 nested 구조의 통계적 framework. ANOVA approach 의 균등 데이터 처리와 ML/REML approach 의 비균등·결측 처리의 비교, level 별 예측 변수의 도입, random slope 의 확장, ICC (intraclass correlation) 의 multilevel 정의, 실무 적용 (교육·임상 다센터·메타분석·IT longitudinal) 까지 정리한다. Maxwell Ch.16 은 Phase G 의 마무리로, 다음 Phase H (통계 모델링) 와 Statistics LDA 시리즈 (mixed effects) 로 이어지는 통합적 framework 를 제공한다. | |
| May 8, 2026 | Nested ANOVA 접근 — 균등 데이터의 EMS 기반 분석 | Experimentation, DOE | 3-level nested design 의 ANOVA 분해와 EMS 기반 검정 절차. 균등 데이터에서 ML 추정과 거의 동치인 결과를 산출하는 전통적 접근. 분산 성분 추정, ICC 의 정량화, ANOVA approach 의 한계와 ML 추정으로의 자연스러운 확장을 정리한다. | |
| May 8, 2026 | ML Approach 와 불균형 nested 데이터 | Experimentation, DOE | Nested 데이터가 불균형 (학교마다 다른 학급 수, 학급마다 다른 학생 수) 인 경우의 ML/REML 추정 절차. ANOVA approach 가 부정확한 상황에서 mixed model 의 우위, 결측 데이터 자동 처리, level-별 covariate 통합, 음의 분산 추정 처리, 수렴 문제까지 정리한다. | |
| May 8, 2026 | Level 별 예측 변수와 random slope — multilevel 의 fully expanded form | Experimentation, DOE | 3-level nested 모형에 각 level 의 예측 변수를 추가하고 random slope 를 포함한 형태. Cross-level interaction (level-2 의 covariate 가 level-1 의 slope 에 영향), centering 결정 (grand-mean vs group-mean), 사회과학·교육 응용까지 단계적 정리. Phase G 의 마지막 글로, multilevel 의 모든 도구를 통합한다. | |
| May 8, 2026 | 추세 분석 개관 — 양적 요인의 선형·비선형 패턴 분해 | Experimentation, DOE | 양적 요인(quantitative factor)의 levels 사이에 존재하는 선형·이차·고차 추세를 대비(contrast)로 분해해 검정하는 Trend Analysis 의 개관이다. 명목 ANOVA 가 놓치는 함수 형태 정보를 직교 다항식 대비로 추출하는 원리를 정리한다. | |
| May 8, 2026 | 양적 요인과 선형 추세 대비 — 회귀 기울기 = 단위 대비 | Experimentation, DOE | 양적 요인의 levels 사이에 선형 추세가 있는지 검정하는 절차를 정리한다. 최소제곱 기울기 \(\hat\beta_1\) 이 deviation contrast \(\hat\psi_{\text{linear}}\) 의 단위 변환과 동치라는 점, \(E_R - E_F = SS_{\psi_{\text{linear}}}\) 로 \(F\) 검정이 환원되는 구조를 Maxwell 학습 시간-회상 데이터로 단계별 유도한다. | |
| May 8, 2026 | 고차 추세와 직교 다항식 — 비선형성을 자유도 1 의 가산 조각으로 | Experimentation, DOE | 선형 추세를 분리한 뒤 남은 변동을 이차·삼차·고차 직교 다항식 대비로 분해하는 절차다. 직교성이 SS 의 가산성을 보장하므로 각 차수의 추세를 독립적으로 검정할 수 있다. Maxwell 학습 시간-회상 데이터에서 선형·이차·삼차 SS 를 계산하고 의사결정의 의미를 정리한다. | |
| May 8, 2026 | 불균등 간격·표본 크기와 추세 vs 회귀 — 언제 어느 분석을 쓰는가 | Experimentation, DOE | 양적 요인의 levels 가 등간격이 아니거나 그룹 표본 크기가 다른 경우의 추세 분석 절차다. unweighted vs weighted 대비의 편향-검정력 트레이드오프와, 추세 분석 vs 회귀 분석의 선택 기준 (이산 levels + 다수 관측 vs 연속 변수) 을 정리한다. | |
| May 8, 2026 | 이원 요인 설계 개관 — 주효과·상호작용·검정력의 이득 | Experimentation, DOE | 두 요인 (independent variables) 의 levels 조합으로 그룹을 구성해 주효과와 상호작용을 동시에 검정하는 factorial design 의 개관이다. 단일 요인 ANOVA 의 한계, 직교 분해의 자유도 가산, 상호작용 발견의 가치를 Maxwell 의 혈압 데이터로 정리한다. | |
| May 8, 2026 | 2×2 설계와 주효과·상호작용 — 직교 대비로 분해하는 셀 평균 | Experimentation, DOE | 2×2 factorial design 의 셀 평균을 주효과 두 개와 상호작용 하나로 직교 분해한다. effects model 의 모수 제약, 직교 대비 계수 (1,1,-1,-1)·(1,-1,1,-1)·(1,-1,-1,1) 이 자유도 1 의 가산 SS 를 산출하는 구조를 Maxwell 의 SBP 데이터로 단계별로 유도한다. | |
| May 8, 2026 | 단순 효과와 상호작용 대비 — 상호작용 유의 시 follow-up 절차 | Experimentation, DOE | factorial design 에서 상호작용이 유의할 때 main effect 의 marginal 평균 해석은 오도될 수 있다. 한 요인의 효과를 다른 요인 levels 별로 분리해 검정하는 simple effect 와, 특정 cell 패턴만 골라 검정하는 interaction contrast 를 정리한다. | |
| May 8, 2026 | 비직교 설계의 SS 유형 — Type I·II·III 의 차이와 선택 | Experimentation, DOE | factorial 의 셀 표본 크기가 다르면 주효과·상호작용 SS 가 직교 분해되지 않는다. Type I (sequential), Type II (hierarchical), Type III (marginal) SS 의 정의·차이·언제 어느 것을 쓸지를 정리한다. Type III + unweighted means 가 일반 권장이지만 가정에 따라 Type II 가 적절한 경우도 있다. | |
| May 8, 2026 | 요인 설계의 효과 크기·검정력 — η² · partial η² · Cohen’s f | Experimentation, DOE | factorial design 의 주효과·상호작용에 대한 효과 크기 (η², partial η², ω²) 와 검정력 분석 (Cohen’s f, sample size) 을 정리한다. 단일 요인 ANOVA 와 달리 factorial 에서는 partial η² 가 효과 크기의 표준이며, 검정력 산출 시 다른 효과의 변동을 어떻게 다룰지가 핵심 설계 결정이다. | |
| May 8, 2026 | 고차 요인 설계 개관 — 2×2×2 의 7 효과와 하향식 분석 전략 | Experimentation, DOE | 세 요인 이상의 factorial design 에서 주효과·이원 상호작용·삼원 상호작용으로 SS 를 분해하는 구조를 정리한다. 자유도 폭증, 해석의 복잡도, 하향식 (top-down) 분석 전략, simple interaction effect 의 의미를 Maxwell Ch.8 의 흐름으로 개관한다. | |
| May 8, 2026 | 2×2×2 설계와 7 효과 — 직교 대비로 분해하는 8 셀 | Experimentation, DOE | \(2 \times 2 \times 2\) 설계의 8 셀을 7 개 직교 대비 (3 주효과 + 3 이원 상호작용 + 1 삼원 상호작용) 로 분해하는 절차를 정리한다. ±1 부호 대비 표, SS 계산, 등표본 분석을 가상의 학습 시간 × 형식 × 동기 데이터로 단계적으로 유도한다. | |
| May 8, 2026 | 3 원 상호작용과 하향식 분석 전략 — 패턴이 패널마다 달라질 때 | Experimentation, DOE | 삼원 상호작용 \(A \times B \times C\) 의 의미와 시각화 (이원 상호작용 plot 의 panel 분리), 하향식 (top-down) 분석 전략 (가장 고차부터 검정 → 적절한 단계에서 분해 정지) 을 정리한다. 삼원 상호작용 검출의 검정력 한계와 사전 가설 설계의 중요성도 다룬다. | |
| May 8, 2026 | 단순 상호작용 효과와 비직교 삼원 설계 — 삼원 유의 시 follow-up | Experimentation, DOE | 삼원 상호작용 \(A \times B \times C\) 가 유의할 때 follow-up 으로 한 요인 levels 에서 나머지 두 요인의 이원 factorial 분석 (simple interaction effect) 을 한다. 비직교 삼원 설계의 Type I/II/III SS 처리도 포함하여 정리한다. | |
| May 8, 2026 | ANCOVA 개관 — 공변량으로 분산 감소·편향 보정 | Experimentation, DOE | 처치 전 측정한 공변량 (covariate) 의 영향을 제거하고 처치 효과를 검정하는 Analysis of Covariance (ANCOVA) 의 개관이다. ANOVA 의 분산 감소 (검정력 ↑) 와 비무작위 그룹의 편향 보정이라는 두 동기, 회귀 동질성 가정의 의미, IT 의 CUPED 와의 연결을 정리한다. | |
| May 8, 2026 | ANCOVA 모형과 회귀 동질성 가정 — 모형 비교 lens 의 정수 | Experimentation, DOE | ANCOVA 의 선형 모형, 모형 비교 (Full vs Restricted) 를 통한 처치 효과 SS 정의, 회귀 동질성 (homogeneity of regression slopes) 가정의 검정·시각적 점검 절차를 정리한다. 가정 위반 시 alternative analysis 의 진입점도 다룬다. | |
| May 8, 2026 | 보정 평균과 Lord 의 역설 — ANCOVA 가 change score 와 다른 결론을 줄 때 | Experimentation, DOE | ANCOVA 의 처치별 보정 평균 (adjusted means) 의 정의·해석을 정리하고, 비무작위 그룹의 사전-사후 비교에서 ANCOVA 와 change score 가 정반대 결론을 주는 Lord 의 역설을 설명한다. 무작위 vs 비무작위 설계의 차이가 핵심이다. | |
| May 8, 2026 | ANCOVA 의 대안 — Change Score · Residual ANOVA · Blocking | Experimentation, DOE | ANCOVA 의 가정 (회귀 동질성, 선형성) 이 깨질 때 사용하는 대안 — change score 분석, residual ANOVA, blocking design — 의 적용 조건과 함정을 정리한다. baseline 을 통제하는 네 가지 접근의 trade-off 를 통합 비교한다. | |
| May 8, 2026 | 완전 블록 설계 개관 — CRD, RBD, Latin Square 의 정통 분석 | Experimentation, DOE | Das & Giri 의 정통 DOE 체계에서 완전 블록 (Complete Block) 설계 — Completely Randomized Design (CRD), Randomized Block Design (RBD), Latin Square — 의 개관과 적용 영역, Fisher 의 3 대 원리 (replication, randomization, local control), 검정력 비교, 결측 처리까지 통합 정리한다. 정통 DOE 시리즈의 출발점. | |
| May 8, 2026 | 완전 무작위 설계 (CRD) — Randomization, Local Control, Analysis | Experimentation, DOE | CRD 의 모형, 무작위 배정 절차, Fisher 의 3 대 원리에서 local control 의 의미, ANOVA 분석, 사후 비교 (Tukey HSD), 검정력 분석, 가정 점검 절차를 통합 정리한다. 가장 단순한 실험설계로, 정통 DOE 학습의 출발점. | |
| May 8, 2026 | RBD 와 라틴 방격 — 블록 변수의 명시적 통제 | Experimentation, DOE | Randomized Block Design (RBD) 의 모형, 블록의 의미와 자유도, Latin Square 의 이중 블록 통제 절차와 ANOVA 분해, 검정력 비교 (CRD vs RBD), Latin Square 의 처치 수 제약과 응용 사례를 통합 정리한다. | |
| May 8, 2026 | 결측 관측의 처리와 사례 — RBD·LS 의 단일 결측 보정 | Experimentation, DOE | RBD 와 Latin Square 에서 결측 관측이 발생했을 때의 추정·보정 절차 (Yates 의 공식), 다중 결측의 처리, MCAR / MAR / MNAR 의 결측 메커니즘, multilevel model 의 자동 처리, 실무 농학적 사례를 통한 분석 흐름을 정리한다. | |
| May 8, 2026 | 정통 Factorial 실험 개관 — Das & Giri 의 분류 | Experimentation, DOE | Das & Giri (1986) 의 정통 DOE 체계에서 factorial 실험의 분류와 핵심 도구 — 2-level (\(2^k\)), 3-level (\(3^k\)), confounding, fractional factorial, finite field 기반 구성 — 의 개관. Maxwell 의 심리학 lens 와 Das/Giri 의 산업 lens 의 차이, 산업·농학·ML 응용 까지 통합 정리. | |
| May 8, 2026 | \(2^k\) Factorial 실험 — 2 수준 요인 설계의 정수 | Experimentation, DOE | \(2^k\) factorial 의 정의, ±1 코딩, 효과의 estimation (Yates 알고리즘), ANOVA 분해를 정리한다. \(k\) 가 커질수록 효과 수가 폭증 (\(2^k - 1\)) 하므로 산업 실험에서 정수형 설계 도구. ML hyperparameter screening 의 직접 응용도 다룬다. | |
| May 8, 2026 | 유한체와 교호작용 그룹화 — Galois Field 기반 직교 설계 | Experimentation, DOE | \(s^k\) factorial design 에서 직교 contrast 를 체계적으로 구성하는 finite field (Galois field) 의 사용을 정리한다. \(GF(s)\) 의 산술과 effect grouping 의 대수 구조, \(s = 2, 3\) 의 사례, confounding · fractional factorial 의 기반까지 다룬다. | |
| May 8, 2026 | 교락 (Confounding) — 블록과 효과의 의도적 동일시 | Experimentation, DOE | \(2^k\) factorial 에서 일부 효과 (보통 고차 상호작용) 를 block 효과와 의도적으로 confound 하여 블록 수와 셀 수를 줄이는 confounding 설계의 절차, defining contrast 의 결정, partial confounding 의 활용을 정리한다. | |
| May 8, 2026 | \(3^k\) Factorial 실험 — 3 수준 요인 설계 | Experimentation, DOE | \(3^k\) factorial 의 정의, 셀 구성, 효과 분해 (선형·이차 직교 다항식 또는 GF(3) 그룹화) 를 정리한다. 양적 요인의 비선형성 검출에 적합한 도구. ML hyperparameter sweep 에서 3 수준 검색의 정수형 응용. | |
| May 8, 2026 | 일반 \(s^k\) Factorial 의 구성과 최대 요인 수 | Experimentation, DOE | \(s^k\) factorial design 의 일반 구성 절차 (GF(s) 기반) 와 주어진 셀 수에서 다룰 수 있는 최대 요인 수의 결정 (Plackett-Burman, saturated design), Resolution 의 정의를 정리한다. 산업 screening 의 표준 도구와 확장 (foldover) 까지 다룬다. | |
| May 8, 2026 | 분수실시법 (Fractional Factorial) — Resolution 과 alias | Experimentation, DOE | \(2^{k-p}\) fractional factorial design 의 정의, defining relation, alias 구조, Resolution III/IV/V 의 의미를 정리한다. ML 의 grid search · 산업 screening 의 핵심 도구. Foldover, augmented design 의 활용까지 다룬다. | |
| May 8, 2026 | 비대칭 factorial 과 분할구 설계 개관 — 자원 제약 하의 효율 설계 | Experimentation, DOE | 요인의 levels 수가 다른 asymmetrical factorial design 과 whole-plot/sub-plot 의 두 randomization 단계를 가진 split-plot design 의 개관. 정통 DOE 에서 자원 제약과 균등 설계 불가능 시 사용하는 두 도구의 통계 모형, 분석 절차, 응용 영역을 정리한다. Maxwell Ch.12 의 split-plot (G-MAX12-2) 가 심리학 lens 였다면 Montgomery 는 농학·산업 lens 로 동일 framework 을 다룬다. | |
| May 8, 2026 | 비대칭 Factorial 과 Confounded Asymmetrical 설계 | Experimentation, DOE | 요인 levels 수가 다른 asymmetrical factorial 의 셀 구성과 confounded asymmetrical (일부 효과를 block 과 confound) 의 분할 절차, \(2 \times 3\) 사례, \(v \times 2^2\) design 의 실무 적용을 정리한다. | |
| May 8, 2026 | 균형 교락 비대칭 factorial 의 구성 | Experimentation, DOE | 비대칭 factorial 에서 효과를 균형 있게 부분 confound 하는 설계의 구성 절차. Partial confounding 의 정의와 자유도 분석, 여러 replicate 사이의 효과 분배, 실무 적용 사례를 통합 정리한다. | |
| May 8, 2026 | \(v \times 2^2\) 비대칭 설계와 분석 | Experimentation, DOE | \(v\) 개 levels 의 한 요인 + 두 개 2-수준 요인 의 비대칭 factorial 설계의 구성과 분석 절차를 정리한다. 양적 \(A\) 의 직교 다항식 분해, 산업 실험의 흔한 형태, ML 응용까지 통합 다룬다. | |
| May 8, 2026 | Split-Plot 설계와 분석 — 두 단계 randomization 의 분산 분해 | Experimentation, DOE | Whole-plot 과 sub-plot 두 단계의 무작위 배정을 가진 split-plot design 의 ANOVA 분해와 올바른 검정 분모 결정을 정리한다. 농학·산업의 표준 lens, Maxwell Ch.12 의 split-plot 과 통합 비교, ML 적용까지 다룬다. | |
| May 8, 2026 | 불완전 블록 설계 개관 — BIB, PBIB, Youden, Lattice | Experimentation, DOE | 처치 수가 블록 크기보다 클 때 사용하는 incomplete block design 의 분류 — Balanced Incomplete Block (BIB), Partially Balanced (PBIB), Youden, Lattice — 의 개관, 5 모수 \((v, b, r, k, \lambda)\) 의 의미, 산업·임상 응용을 정리한다. | |
| May 8, 2026 | BIB 도입 — Balanced Incomplete Block 의 정의와 존재 조건 | Experimentation, DOE | Balanced Incomplete Block design 의 5 모수 \((v, b, r, k, \lambda)\), 존재 조건 (Fisher’s inequality, 두 관계식), 기본 성질, Resolvable BIB, 임상시험 crossover 응용을 정리한다. | |
| May 8, 2026 | BIB 의 구성 방법 — 차분 집합·시리즈·기하학적 접근 | Experimentation, DOE | BIB design 을 체계적으로 구성하는 도구 — difference sets, cyclic series, finite geometry, Hadamard matrices — 의 개관. 각 방법의 대수적 구조, \((7, 3, 1)\), \((11, 5, 2)\) 등의 표준 사례, 컴퓨터 보조 BIB 검색까지 정리한다. | |
| May 8, 2026 | BIB 분석과 블록 간 정보 복구 | Experimentation, DOE | BIB design 의 처치 효과 추정과 ANOVA 분석. Intra-block analysis 의 절차, Inter-block (블록 간) 정보 복구의 의미와 intra-block 분석과의 결합, mixed model 의 자동 처리를 통합 정리한다. | |
| May 8, 2026 | Youden 과 Lattice 설계 — 두 차원 incomplete block | Experimentation, DOE | 행과 열 모두 블록인 Youden square 와 처치 수가 제곱수일 때의 lattice design 의 정의· 구성·분석을 정리한다. Resolvable BIB 의 변형, 농학 표준 도구. | |
| May 8, 2026 | Partially Balanced Incomplete Block (PBIB) 와 분석 | Experimentation, DOE | BIB 보다 약한 균형 조건의 PBIB design 과 그 분석 절차. 처치 쌍의 association scheme 에 따라 다른 \(\lambda\) 값, 2-class PBIB 의 사례, BIB 가 존재하지 않는 모수에서의 활용을 정리한다. | |
| May 8, 2026 | 블록 간 정보 복구와 설계의 최적성 | Experimentation, DOE | PBIB 의 inter-block 정보 복구 절차와 incomplete block design 의 최적성 기준 (A-, D-, E-optimality), 컴퓨터 보조 design 검색, BIB 의 최적성 정리를 통합 다룬다. | |
| May 8, 2026 | 직교 라틴 방격 개관 — Mutually Orthogonal Latin Squares (MOLS) | Experimentation, DOE | 서로 직교한 여러 Latin Square 의 모음 (MOLS) 의 정의, Graeco-Latin Square Design, 응용, 역사적 맥락 (Euler’s conjecture), 36 officers 문제의 양자 정보 연결까지 통합 개관한다. | |
| May 8, 2026 | MOLS 의 최대 수 — \(n - 1\) 이라는 상한 | Experimentation, DOE | \(n \times n\) Latin Square 에서 동시에 직교할 수 있는 squares 의 최대 수가 \(n - 1\) 이라는 결과의 증명 sketch 와 도달 가능 조건. Finite projective plane 과의 동치성, prime power 의 우위, \(n = 6\) 의 특이성을 정리한다. | |
| May 8, 2026 | MOLS 의 구성 — Order 4 와 Order 12 사례 | Experimentation, DOE | \(n = 4\) 의 3 MOLS 와 \(n = 12\) 의 다중 MOLS 구성 방법, Galois Field 와 직접 곱 (direct product) 의 활용, prime power 가 아닌 모수의 처리를 단계적으로 정리한다. | |
| May 8, 2026 | Pairwise Balanced Design 과 Euler 추측의 거짓 | Experimentation, DOE | \(n \equiv 2 \pmod 4\) 인 경우 두 직교 Latin Square 가 존재하지 않는다는 Euler 의 추측 (1782) 이 \(n = 6\) 을 제외하고 거짓임을 보인 Bose-Shrikhande-Parker 의 결과 (1959) 와 그 의미를 정리한다. Pairwise Balanced Design (PBD) 와의 연결도 다룬다. | |
| May 8, 2026 | 생물 검정과 반응표면 설계 개관 — 용량-반응 곡면의 정량화 | Experimentation, DOE | 자극의 강도 (자극변수) 가 생체 반응 (응답변수) 에 미치는 효과를 정량화하는 생물 검정 (Bio-assay) 과, 양적 요인의 응답 곡면을 모형화하는 반응표면 설계 (Response Surface Methodology, RSM) 의 개관이다. 두 영역은 Maxwell Ch.6 의 Trend Analysis 가 단변량 (단일 양적 요인) 인 것의 다변량 확장이며, 산업·약리학에서 정통 DOE 의 마무리 단계로 자리한다. | |
| May 8, 2026 | 생물 검정 — 직접·간접 검정의 분류와 절차 | Experimentation, DOE | 생물 검정 (Bio-assay) 의 정의, 분류 (직접 vs 간접, quantal vs quantitative response), 각 형태의 통계적 절차와 가정을 정리한다. Probit Analysis 와 Logit Analysis 의 시작점, 표준 약물 (standard) 과 검정 약물 (test) 의 상대 강도 (relative potency) 추정의 통계 논리, 약리학·독성학·비타민 검정 등 응용 영역을 모두 다룬다. Maxwell Ch.6 의 Trend Analysis 가 단일 약물의 dose-response 곡선이라면 bio-assay 는 두 약물 (또는 그 이상) 의 비교를 위한 도구다. | |
| May 8, 2026 | 평행선 검정과 기울기비 검정 — 두 약물의 상대 강도 추정 | Experimentation, DOE | Indirect bio-assay 의 두 표준 형태인 parallel line assay 와 slope ratio assay 의 모형, 가정, 추정 절차, 신뢰구간 (Fieller’s theorem), incomplete block design 의 bio-assay 적용을 정리한다. 두 약물이 같은 dose-response 곡선 형태를 가진다는 가정 하에 평행 vs 기울기비 가정의 선택, 각각의 상대 강도 추정량과 그 통계적 성질을 다룬다. ED50 비교, slope homogeneity 검정, 검정력 분석을 포함한다. | |
| May 8, 2026 | 반응표면의 1 차·2 차 모형 — Steepest Ascent 와 정상점 분석 | Experimentation, DOE | Response Surface Methodology (RSM) 의 두 핵심 모형 — 1 차 (선형 plane) 와 2 차 (곡면) — 의 정의, 적합 절차, 응답 분산 구조를 정리한다. 작동 영역에서 멀리 있는 단계의 1 차 모형 + steepest ascent 를 통한 최적 영역 탐색, 최적 영역에서의 2 차 모형 + 정상점 분석 (canonical form, eigenvalue 분류) 의 통합 framework 를 다룬다. | |
| May 8, 2026 | 회전 가능 설계와 중심합성 설계 — RSM 의 표준 도구 | Experimentation, DOE | Response Surface 의 2 차 모형 적합을 위한 표준 설계 — Rotatable Design, Central Composite Design (CCD), Box-Behnken Design — 의 정의·구성·분석 절차를 정리한다. Rotatability 의 의미, \(\alpha\) 의 선택 기준 (rotatable, orthogonal, face-centered), Box-Behnken 의 3 수준 대안, ANOVA 표 작성, 응답 분산의 등고선 (variance contour) 분석을 포함한다. | |
| May 8, 2026 | ANCOVA 와 변환 개관 — 정통 DOE 의 보정 도구 | Experimentation, DOE | Maxwell Ch.9 (G-MAX9) 가 ANCOVA 의 심리학적 lens 였다면 Montgomery Ch.8 은 농학·산업의 정통 DOE lens. RBD/CRD/Latin Square 의 incomplete 또는 비직교 설계에서 covariate 통제, 결측 처리, 응답 변환 (log, square root, Box-Cox) 을 통합적으로 정리한다. 분산 안정화 변환의 통계적 동기와 실무 적용도 다룬다. | |
| May 8, 2026 | ANCOVA 도입과 RBD 의 ANCOVA — 농학·산업 사례 | Experimentation, DOE | RBD 설계에 covariate 를 추가한 ANCOVA 모형의 적합 절차, ANOVA 표 해석, 보정 평균 (adjusted means) 계산, 검정력 비교를 농학적 사례로 정리한다. Maxwell Ch.9 의 임상 ANCOVA 와의 차이, 회귀 동질성 가정, 실무 적용까지 통합 다룬다. | |
| May 8, 2026 | CRD·Latin·비직교 Two-Way 의 ANCOVA | Experimentation, DOE | Completely Randomized Design (CRD), Latin Square, 비직교 two-way design 에 covariate 를 추가한 ANCOVA 의 적합·분석 절차, 각 설계의 모형, 자유도, ANOVA 표 차이와 검정력 비교를 산업·농학 사례로 통합 정리한다. | |
| May 8, 2026 | 비직교 설계와 다중 공변량의 ANCOVA | Experimentation, DOE | 여러 covariate 를 가진 ANCOVA (multiple covariate ANCOVA) 의 모형, 적합 절차, 다중 covariate 의 다중공선성 (multicollinearity) 검토, 비직교 two-way 설계의 보정 평균 계산, 실무 적용을 통합 정리한다. | |
| May 8, 2026 | 결측 처리와 변환 — 응답의 분산 안정화 | Experimentation, DOE | ANCOVA 의 결측 처리 (single missing, multiple missing, MCAR vs MAR) 와 응답 변환 (square root, log, arcsin, Box-Cox) 의 동기·적용 절차를 정리한다. 분산 안정화 변환과 ANOVA 가정의 만족, 잔차 분석을 통한 변환 선택을 다룬다. | |
| May 8, 2026 | 계량 설계 (Weighing Designs) 개관 — 동시 측정의 정통 DOE | Experimentation, DOE | 여러 물건의 무게를 한 저울로 동시에 측정할 때 어떻게 측정 횟수를 최소화하면서 정밀도를 최대화할 것인가를 다루는 계량 설계 (Weighing Design) 의 개관이다. Hotelling (1944) 의 원조 문제, Hadamard matrix 와의 연결, 1-pan vs 2-pan balance, BIB·PBIB 와의 동치성, Plackett-Burman design 의 정수형 형태, 산업·천문학·메타분석에서의 응용을 정리한다. 정통 DOE 시리즈 (Phase G) 의 마지막 챕터로, 정보 효율성 (information efficiency) 의 추상적 원리를 구체적 측정 문제로 보여 준다. | |
| May 8, 2026 | Weighing Design 의 정의·구성·추정 방법 | Experimentation, DOE | Hotelling (1944) 이 제기한 weighing 문제의 통계적 형식화, design matrix \(\mathbf{X}\) 의 구성 (chemical balance vs spring balance), 최소제곱 추정량과 그 분산, 정보 행렬 \(\mathbf{X}^T \mathbf{X}\) 의 의미, 효율 (efficiency) 의 정량화를 정리한다. Hadamard matrix 가 chemical balance 문제의 최적해이고, BIB 가 spring balance 문제와 동치임을 단계적으로 유도한다. | |
| May 8, 2026 | 1 접시 계량 — BIB 기반 spring balance design | Experimentation, DOE | Spring balance (한 접시 저울) 의 weighing design 이 BIB design 의 incidence matrix 와 동치임을 보이고, 그 추정량과 효율을 chemical balance 와 비교한다. BIB 의 모수 \((v, b, r, k, \lambda)\) 가 weighing 의 정보 효율에 어떻게 기여하는지 단계적으로 유도한다. | |
| May 8, 2026 | 2 접시 계량 (Reinforced) — Hadamard chemical balance 의 정수 | Experimentation, DOE | 양접시 저울을 사용하는 chemical balance design 의 통계적 정수. Hadamard matrix 와의 완전 동치성, \(\pm 1\) 부호 design 의 직교 분해, 정보 효율 최대화의 이론적 기반, Reinforced (\(\pm 1, 0\) 의 3 값) design 의 일반화를 정리한다. Plackett-Burman 의 weighing 적용도 다룬다. | |
| May 8, 2026 | PBIB · Truncated · 효율 — Phase G 의 마무리 | Experimentation, DOE | BIB 가 존재하지 않는 모수에서의 weighing — Two-associate PBIB, truncated incomplete block 의 활용, 효율의 정량화 (A-, D-, E-efficiency) 를 정리한다. Phase G 정통 DOE 시리즈 89 편의 마지막 글로, 정보 효율의 추상적 원리가 weighing 으로 구체화되는 전체 흐름을 통합 회고한다. | |
| May 8, 2026 | 기술 연구 개관 — 무엇을 할 수 있고 무엇을 할 수 없는가 | Experimentation, Epidemiology | 기술 연구(descriptive study)의 정의·5W 질문·5 유형·활용·한계를 통합 개관한다. 비교군 없는 연구가 인과 추론에 가지는 구조적 한계와 IT/실험 맥락에서의 대응(전후 비교, 단순 모니터링)을 함께 정리한다. | |
| May 8, 2026 | Woodward Ch.5 — 통계학자의 시각으로 본 코호트 | Experimentation, Epidemiology | Woodward 의 Ch.5 가 코호트 연구에 부여하는 통계학자의 렌즈를 개관한다. 설계 원칙·분석 단위(고정 vs 가변 코호트)·생명표·KM·경쟁 위험·인-년 방법·기간-코호트 분석을 한 번에 조망하고, Schulz 의 임상 시각과의 차이·보완 관계를 정리한다. 모든 핵심 정의·수식·가정에 추상 → 일상어 → 반사실의 3 단계 직관을 붙인다. | |
| May 8, 2026 | 코호트 설계와 분석적 고려 — 통계 lens | Experimentation, Epidemiology | Woodward Ch.5 의 첫 두 절(설계 고려·분석 고려)을 통계학자의 시각으로 풀어낸다. Single baseline design 의 통계적 효율, 외부 비교군의 함정, 시간 동질성 가정, censoring 의 정의와 처리를 추상 → 일상어 → 반사실의 3 단계 직관으로 보강한다. SHHS·EGAT·ALSPAC 사례를 통해 가변 코호트 분석의 실제를 본다. | |
| May 8, 2026 | 생명표와 Kaplan-Meier 추정 — 수식 유도와 직관 | Experimentation, Epidemiology | 코호트 생명표(actuarial method)와 Kaplan-Meier 추정량의 수식을 유도하고, Greenwood 공식으로 표준오차를 구하며, 신뢰구간 산출까지 본다. 두 방법의 관계, censoring 가정, 그리고 비례 위험 가정이 깨질 때의 함정을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 생존 곡선 비교와 경쟁 위험 — Log-Rank·CIF·Fine-Gray | Experimentation, Epidemiology | 두 KM 곡선의 통계적 차이를 검정하는 Log-Rank 검정(Mantel-Haenszel)의 수식과 직관, 그리고 KM 의 핵심 가정인 independent censoring 이 깨지는 경쟁 위험(competing risks) 상황을 다룬다. Naive 1-S(t) 의 편향, Cumulative Incidence Function (CIF), Fine-Gray subdistribution hazard 모형까지 추상 → 일상어 → 반사실 3 단계 직관으로 보강한다. | |
| May 8, 2026 | 인-년 방법과 기간-코호트 분석 | Experimentation, Epidemiology | 가변 추적 코호트의 표준 분석 단위인 person-year (인-년) 방법을 정의·수식·직관으로 풀어내고, 발생률·발생률 비(IRR)·신뢰구간을 산출하는 절차를 본다. 그 다음 Age-Period-Cohort (APC) 모형의 식별 문제와 부분 식별 전략을 추상 → 일상어 → 반사실 3 단계로 정리한다. | |
| May 8, 2026 | 환자-대조군 연구 개관 — Research in Reverse | Experimentation, Epidemiology | 결과에서 노출로 거꾸로 추적하는 case-control 연구의 정체성·강점·약점·5 가지 원칙(case definition, control selection, blinding, recall aid, confounding)을 통합 개관한다. AIDS 초기 연구의 성공 사례, 잘못된 control 선정으로 OR 이 52.0 ↔︎ 2.9 로 갈린 사례를 추상 → 일상어 → 반사실의 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Case-Control 기본 설계 + 강점·약점 | Experimentation, Epidemiology | Case-control 설계의 시간 흐름도, OR 의 산출 원리, 희귀 결과 가정의 의미를 수식과 함께 정리하고, cohort 와의 효율성 비교(언제 어느 설계가 우수한가)를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 30% 가 잘못 분류된 “case-control” 보고의 패턴과 그 회피도 다룬다. | |
| May 8, 2026 | Case·Control 군 선정 — Source Population 의 일치 | Experimentation, Epidemiology | Case 와 control 군 선정의 실무 원칙을 정리한다. Incident vs prevalent case, control 의 source population 일치, 노출과 독립인 control 선정의 의미, AIDS 초기 case-control 에서 OR 이 52.0 ↔︎ 2.9 로 갈린 실패 사례를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 노출 측정과 교란 통제 — Case-Control 의 두 번째 함정 | Experimentation, Epidemiology | Case-control 의 두 번째 핵심 함정인 회상 편향(recall bias)과 정보 편향(information bias)의 메커니즘과 회피 도구(memory aids), 그리고 confounding 통제의 4 가지 방법(restriction, matching, regression, Mantel-Haenszel)을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 대조군 찾기 개관 — Compared to What? | Experimentation, Epidemiology | Case-control 연구의 Achilles heel 인 control 선정의 전체 지형을 개관한다. Henny Youngman 의 “Compared to what?” 부터 다니엘서의 첫 비교군까지의 역사, known vs unknown group 의 구분, 그리고 RDD·neighbourhood·hospital·friend·relative control 5 가지 옵션의 비교 표를 한 번에 조망한다. | |
| May 8, 2026 | 기술 역학의 5W + So What | Experimentation, Epidemiology | 기술 연구가 신문 보도처럼 답해야 할 다섯 가지 W 질문(Who, What, Why, When, Where)과 암묵의 여섯 번째 질문(So what)을 정리한다. 각 질문이 실패할 때 발생하는 구체적 오류와 IT 분석 보고서에서의 대응을 함께 다룬다. | |
| May 8, 2026 | 대조군의 목적 + Known Group + Random-Digit Dialling | Experimentation, Epidemiology | Control 군의 핵심 목적(background exposure rate 추정), Known group 에서의 표집 전략, Random-Digit Dialling (RDD) 의 부상과 쇠퇴, 휴대폰 시대의 RDD 한계를 추상 → 일상어 → 반사실 3 단계 직관으로 다룬다. Lyme 병의 marketing database 활용 같은 현대 대안도 살펴본다. | |
| May 8, 2026 | Unknown Group 의 Control 옵션 — Neighbourhood·Hospital·Friend·Relative | Experimentation, Epidemiology | Case 의 source population 을 명확히 정의하기 어려울 때 사용하는 4 가지 control 옵션의 비교: neighbourhood (door-to-door, register), hospital (Berkson bias 경계), friend/associate (overmatching 위험), relative (유전 통제). 각 옵션의 강·약점을 추상 → 일상어 → 반사실 3 단계로 풀어낸다. | |
| May 8, 2026 | Control 의 수와 평가 기준 | Experimentation, Epidemiology | Case-control 연구에서 한 가지 vs 두 가지 이상의 control group 을 사용할 것인가, case 한 명당 몇 명의 control 이 적절한가 (1:4 의 검정력 한계점), 그리고 case-control 보고를 평가하는 핵심 기준을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Woodward Ch.6 — Case-Control Studies (통계 lens) | Experimentation, Epidemiology | Woodward Ch.6 의 case-control 통계 분석을 한 번에 조망한다. OR 의 수식적 기초, Mantel-Haenszel·conditional logistic 분석, 매칭 설계의 수식 정당화, 그리고 nested case-control·case-cohort·case-crossover 의 세 가지 변형 설계를 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. Schulz 의 임상 시각과의 보완 관계를 명시한다. | |
| May 8, 2026 | Case-Control 설계와 분석 방법 — OR·MH·Logistic | Experimentation, Epidemiology | Cumulative case-control 의 설계 정의, OR 의 수식적 산출, Mantel-Haenszel stratification, logistic regression 까지 분석 도구의 통계적 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 신뢰구간 산출과 표본 크기 계산도 함께 정리한다. | |
| May 8, 2026 | Cases·Controls 선정의 통계적 함의 | Experimentation, Epidemiology | Cases 와 controls 선정이 OR 추정에 어떻게 영향을 미치는지를 통계 lens 로 정리한다. Selection bias 의 수학적 표현, hospital vs population control 의 OR 편향 방향, 그리고 multiple control groups 의 정량적 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 매칭과 매칭 분석 — McNemar·Conditional Logistic | Experimentation, Epidemiology | Case-control 매칭 설계의 통계적 정당화, McNemar 검정 (paired 분석의 표준), conditional logistic regression (다중 confounder 매칭의 회귀) 의 수식 유도와 직관을 정리한다. Overmatching 의 함정과 회피, 매칭 vs 비매칭의 검정력 비교를 추상 → 일상어 → 반사실 3 단계로 풀어낸다. | |
| May 8, 2026 | Nested Case-Control 과 Case-Cohort | Experimentation, Epidemiology | Cohort 안에 case-control 을 배태하는 두 변형 설계: nested case-control (비-case 에서 매칭 control), case-cohort (baseline 시점 sub-cohort 를 control). 각 설계의 분석 (conditional logistic vs Prentice 가중)과 다중 결과 분석에서의 trade-off 를 추상 → 일상어 → 반사실 3 단계 직관으로 본다. | |
| May 8, 2026 | Case-Crossover — 같은 사람의 시점 비교 | Experimentation, Epidemiology | Case-crossover 설계의 핵심 발상 (within-person 비교로 시간 불변 confounder 자동 통제), 적합 노출 (acute, transient), 분석 (matched analysis), 그리고 IT 적용 (사고 직전 행동 분석) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 관찰 역학의 구조적 한계 — 개관 | Experimentation, Epidemiology | Ioannidis 의 “대부분의 연구 결과는 거짓” 논문을 출발점으로, 관찰 역학의 구조적 한계 5 가지(거짓 주장, 아마추어 연구자, 행정 DB, 약한 연관, 동료 심사 + 사기)를 개관한다. 매년 연구 투자의 85% 가 낭비된다는 추정과 그 함의를 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. | |
| May 8, 2026 | 기술 연구 5 유형 — Case Report부터 Ecological까지 | Experimentation, Epidemiology | 기술 연구의 다섯 가지 유형(Case Report, Case-Series, Cross-Sectional, Surveillance, Ecological)을 개인 단위 vs 집단 단위로 분류하고, 각 설계의 정의·강점·한계·대표 사례·IT 대응을 비교 정리한다. 특히 Cross-sectional 의 case-control 적 성격과 Ecological fallacy 의 구조적 위험을 강조한다. | |
| May 8, 2026 | 거짓 주장과 아마추어 연구자 | Experimentation, Epidemiology | 관찰 역학의 거짓 주장 9 가지 사례 (Panel 7.1) — 흡연-자살, 베타카로틴-폐암, 폐경기 호르몬-CHD, 경구피임약-뇌하수체 종양 등 — 의 메커니즘과 회피를 정리한다. 그리고 의학 연구자의 도제식 훈련 한계와 연구 자격증 부재의 함의를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 행정 데이터베이스와 약한 연관 | Experimentation, Epidemiology | 대규모 행정 DB 의 두 가지 본질적 한계(진단 코드 검증 부재, 교란 변수 정보 부재)와 mass significance 의 함정을 정리한다. 약한 연관(RR 0.5~2 cohort, OR 0.33~3 case-control)이 잔여 bias 로 설명 가능한 이유를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 동료 심사의 취약과 연구 사기 | Experimentation, Epidemiology | 동료 심사 (peer review) 가 quality control 도구로서 갖는 본질적 약점, inter-rater reliability 의 chance 수준, 그리고 의학 연구 사기의 증가하는 빈도와 발견 메커니즘을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 후속 보강 도구 (사전 등록, 재현성 점검, ORCID, retraction watch) 의 역할도 정리한다. | |
| May 8, 2026 | 선별 검사 (Screening) 개관 | Experimentation, Epidemiology | 선별 검사의 정의·5 가지 핵심 평가 차원 (validity, predictive value, combinations, lead-time/length bias, ethics) 을 한 번에 조망한다. 진단 검사와 선별 검사의 차이, WHO Wilson-Jungner 10 기준의 의미, 그리고 IT 분류기 평가 (precision/recall) 와의 직접 매핑을 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. | |
| May 8, 2026 | 선별의 윤리와 도입 기준 | Experimentation, Epidemiology | 무증상자에 대한 선별 검사의 윤리적 함의 (false positive 의 불안·침습 검사·overdiagnosis), Wilson-Jungner 10 기준의 인과 사슬 상세 분석, 그리고 high-risk strategy 의 PPV 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 다룬다. | |
| May 8, 2026 | Validity 와 Predictive Value | Experimentation, Epidemiology | 진단·선별 검사의 핵심 4 측도 (Sn, Sp, PPV, NPV) 의 수식 유도, Bayes 변환을 통한 PPV 의 prevalence 의존, 그리고 같은 검사가 인구에 따라 다른 PPV 를 갖는 이유를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. ROC 곡선과 cut-point 선택의 trade-off 도 함께 본다. | |
| May 8, 2026 | 검사 결합 — Sequential vs Parallel | Experimentation, Epidemiology | 여러 검사를 결합하는 두 가지 패턴: sequential (연속 양성자만 다음 검사) 와 parallel (한 검사라도 양성이면 양성). 각 패턴의 Sn/Sp/PPV 변화 수식, HIV·심근경색 사례, 그리고 IT 의 다중 분류기 ensemble 과의 매핑을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Lead-time / Length bias 와 선별 평가 지침 | Experimentation, Epidemiology | 선별 검사 평가의 두 가지 핵심 시간 편향 (lead-time bias, length bias) 의 메커니즘과 우회 방법(mortality 비교, RCT) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. USPSTF·WHO 등의 국제 평가 지침과 grade 시스템의 의미도 정리한다. | |
| May 8, 2026 | Likelihood Ratio (LR) 개관 | Experimentation, Epidemiology | 진단·선별 검사의 가장 정보가 풍부한 측도인 likelihood ratio (LR) 를 개관한다. LR 의 정의·prevalence 무관성·Bayes 변환·Fagan nomogram·다수준 검사 (multilevel) 에서의 일반화·임상 활용까지 추상 → 일상어 → 반사실 3 단계 직관으로 한 번에 조망한다. | |
| May 8, 2026 | 이분 검사 LR — 정의와 Why Bother | Experimentation, Epidemiology | 이분 검사 (양/음 결과) 의 likelihood ratio 정의, Sn/Sp 와의 수식적 동치 관계, 그리고 PPV 대신 LR 을 쓰는 이유 (prevalence 무관, 의사 결정 도구로서의 직접성) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. D-dimer·troponin 사례로 임상 활용을 본다. | |
| May 8, 2026 | 기술 연구의 활용·장단점·데이터 초월 위험 | Experimentation, Epidemiology | 기술 연구의 세 가지 핵심 활용(Trend Analysis, Planning, Clues About Cause)과 장단점, 그리고 가장 빈번한 오류인 “Overstepping the Data”(데이터 초월) 위험을 정리한다. 다상성 경구피임약 패닉과 전자 태아 모니터링 사례로 비교군 없는 시간 비교의 비용을 본다. | |
| May 8, 2026 | Cut-point 선택과 Fagan Nomogram | Experimentation, Epidemiology | 연속 검사의 cut-point 선택이 Sn/Sp 와 LR 에 미치는 영향, ROC 곡선의 활용, 그리고 1975 년 Fagan nomogram 의 발상과 사용법을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Cut-point 선택의 비용·이익 분석도 함께 다룬다. | |
| May 8, 2026 | LR 의 다양한 형태 — 0~1, 큰 LR, Multi-level | Experimentation, Epidemiology | LR 의 다양한 형태 — 0~1 사이 (음성 결과), 매우 큰 LR (강한 양성 정보), multi-level (다수준 검사) — 의 해석과 활용을 정리한다. 이분 검사의 정보 손실, Wells score 같은 multi-level 모범, 그리고 LR 의 결합 (다중 검사) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Pretest Probability + 진단 임계값 + LR 의 한계 | Experimentation, Epidemiology | 사전 확률 (pretest probability) 추정의 도구 (인구 baseline, 임상 단서, decision rule), Pauker-Kassirer 의 진단·치료 임계값 (test threshold, treatment threshold), 그리고 LR 의 본질적 한계를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 표준화와 Mantel-Haenszel 개관 | Experimentation, Epidemiology | 인구 간 비교 시 인구 구성 차이를 통제하는 표준화 (direct vs indirect) 와 stratified 자료의 통합 도구 Mantel-Haenszel 을 개관한다. 두 도구가 confounding 통제의 비모수 형태인 이유, SMR 과 MH OR/RR 의 수식 동치성을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Direct Standardisation — 표준 인구 가중치 활용 | Experimentation, Epidemiology | Direct standardisation 의 수식 유도, 표준 인구 선택의 영향, 표본 크기 요구 사항, 그리고 두 인구 간 직접 비교의 통계적 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. WHO 표준 인구·세계 표준 인구의 활용도 함께 본다. | |
| May 8, 2026 | Indirect Standardisation 과 SMR | Experimentation, Epidemiology | Indirect standardisation 의 수식, Standardised Mortality Ratio (SMR) 의 산출과 해석, 그리고 Direct vs Indirect 의 trade-off (작은 표본에서의 indirect 우위) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. SMR 신뢰구간 산출과 Healthy Worker Effect 의 잔존 위험도 다룬다. | |
| May 8, 2026 | Mantel-Haenszel 방법 | Experimentation, Epidemiology | Stratified 자료의 통합 효과 추정 도구인 Mantel-Haenszel 의 RR/OR/Rate Ratio 형태, 가중 메커니즘, 그리고 Breslow-Day 동질성 검정과 effect modification 의 식별을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Logistic regression 과의 일관성·차이도 함께 다룬다. | |
| May 8, 2026 | Hill 의 인과 9 기준 — 관찰 연구의 인과 추론 가이드 | Experimentation, Epidemiology | Bradford Hill (1965) 의 인과 9 기준 — strength, consistency, specificity, temporality, biological gradient, plausibility, coherence, experiment, analogy — 의 정의와 임상·역학·IT 적용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 9 기준 중 temporality 만이 필수 조건이며 나머지는 가이드라인이라는 점을 강조한다. | |
| May 8, 2026 | 코호트 연구 개관 — 노출에서 결과로 행진하다 | Experimentation, Epidemiology | 코호트 연구의 정의·시간 방향(prospective/retrospective/ambidirectional)·장단점·평가 기준·변형(before-after·nested case-control)·보고 표준(STROBE)을 통합 개관한다. 로마 군단의 cohort 어원에서 출발해 IT 코호트 분석과의 연결을 정리한다. | |
| May 8, 2026 | 전향·후향·양방향 코호트 + 코호트의 5 가지 강점 | Experimentation, Epidemiology | 코호트 연구의 세 가지 시간 방향(concurrent, retrospective, ambidirectional)을 그림과 직관으로 정리하고, 코호트가 가진 5 가지 핵심 강점(발생률·시간 선후·다중 결과·희귀 노출·Neyman 회피)을 각각의 수식과 반사실 시나리오로 보강한다. P-hacking 함정과 그 회피 절차도 함께 다룬다. | |
| May 8, 2026 | 생존 분석·Cox PH 모형 + 코호트의 약점 | Experimentation, Epidemiology | 코호트의 시간-사건 분석 도구(Kaplan-Meier 곡선, log-rank 검정, Cox 비례 위험 모형)의 수식과 직관을 정리하고, 코호트의 4 가지 약점(selection bias, 희귀 결과 부적합, 장기 비용, loss to follow-up)을 반사실 시나리오로 풍부하게 보강한다. | |
| May 8, 2026 | 코호트 평가 4 질문과 추적 손실 관리 | Experimentation, Epidemiology | 코호트 보고를 평가하는 4 가지 질문(at risk, exposed, control, outcome assessment)과 추적 손실(loss to follow-up)을 관리하는 실무 전략을 정리한다. Healthy worker effect, contamination, differential loss 의 직관과 IT 분석에서의 동일 패턴을 함께 다룬다. | |
| May 8, 2026 | 코호트 보고 표준(STROBE)과 변형 설계 — Before-After·Nested Case-Control | Experimentation, Epidemiology | 코호트 보고 표준 STROBE 22 항목의 구조와 의미를 풀어 정리하고, 코호트의 두 가지 변형(Before-After 시계열·Nested Case-Control)의 설계·강약·함정을 반사실 시나리오와 코드 예시로 풍부하게 보강한다. 각 함정의 IT 대응을 함께 다룬다. | |
| May 8, 2026 | Diagnostic & Screening Measures: 진단·분류 평가 지표 종합 | Epidemiology, Experimentation, Machine Learning | 진단검사 평가는 epidemiology 의 분류 lens 다. 동시에 ML 분류 모형 평가의 base 이기도 하다. Sensitivity, Specificity, PPV, NPV, Likelihood Ratio (LR±), Diagnostic Odds Ratio (DOR), Youden’s J, ROC AUC, Brier score, Calibration, NRI, IDI, 진단 메타분석 (Bivariate·HSROC), Bayesian update (Fagan nomogram) 까지 9 카테고리 중 진단·screening + 모형 진단 + 진단 메타분석을 통합 정리한다. | |
| May 8, 2026 | Effect Measures: 효과·영향·인과 추정량 종합 | Epidemiology, Experimentation, Causal Inference | Risk·RR·Odds·OR 외에 epidemiology·A/B test·study design 에서 의무적으로 함께 보고되는 효과 지표를 한 글에 정리한다. 절대 효과 (Risk Difference·NNT·NNH), 인구 귀속 (Attributable Risk·PAR), 인과 추정량 (ATE·ATT·ITT·LATE), 통계 검정·구간 (p·CI·power·Cohen’s d), 강건성 분석 (E-value·Rosenbaum), A/B 효과 lens (OEC·MDE·CUPED) 까지 9 카테고리 중 5 개를 다룬다. | |
| May 8, 2026 | Time-to-Event Measures: 시간-사건 분석 지표 종합 | Epidemiology, Experimentation, Causal Inference | Risk·RR 은 사건의 유무만 보지만, 코호트·생존 데이터는 사건이 “언제” 일어나는지가 핵심이다. Incidence Rate (IR), Incidence Rate Ratio (IRR), Hazard Ratio (HR), Kaplan-Meier (KM), log-rank, Cox PH, Standardized Mortality/Incidence Ratio (SMR/SIR), Causal Survival, 메타분석 (pooled HR·I²) 까지 시간-사건 지표를 한 글에 정리한다. | |
| May 8, 2026 | Bootstrap 도입 — Buisson Ch.7 overview | Experimentation, Fundamentals | Buisson Ch.7 의 부트스트랩 (Bootstrap) overview 를 정리한다. 부트스트랩의 원리, 복원 추출, 분포 가정 약화의 우월성, A/B 테스트와 비즈니스 분석에서의 활용을 다룬다. 분포 가정 기반 CI 의 한계와 부트스트랩 CI 의 장점을 비교한다. | |
| May 8, 2026 | Bootstrap 신뢰 구간 — Percentile 과 BCa | Experimentation, Fundamentals | Buisson Ch.7 의 부트스트랩 신뢰 구간 구성 방법을 정리한다. Percentile, BCa (Bias-Corrected accelerated), Normal, Bootstrap-t 의 도출, 편향과 비대칭 보정의 의미, 각 방법의 적합한 사용 시점을 다룬다. | |
| May 8, 2026 | 부트스트랩 표본 수 권고와 임의 통계량의 적용 | Experimentation, Fundamentals | 부트스트랩 시뮬레이션의 표본 수 \(B\) 결정 가이드, 평균을 넘어선 임의 통계량 (중앙값·분위수·상관 계수·ROC AUC·Gini 등) 의 적용, 계산 효율성과 병렬화 전략을 자세히 다룬다. 추정의 Monte Carlo 오차 정량화도 포함. | |
| May 8, 2026 | 회귀에서의 부트스트랩과 사용 결정 트리 | Experimentation, Fundamentals | 회귀 모형에서 부트스트랩의 두 가지 형태 (cases bootstrap, residual bootstrap), 계수의 CI 와 예측의 CI 구분, 가정 위반 시의 robust 추론, 부트스트랩 사용 결정 트리, A/B 테스트의 회귀 분석 응용을 자세히 다룬다. | |
| May 8, 2026 | Fisher 전통 개관 — 차 맛보기에서 분포 기반 검정까지 | Experimentation, Fundamentals | 실험 설계에서 가설검정이 어떻게 발생했는지를 Fisher 전통의 흐름으로 정리한다. 차 맛보기 실험과 무작위 배정 검정에서 출발하여 Fisher vs Neyman-Pearson 의 분기, 그리고 z·t·F 분포 기반 검정으로 이어지는 Maxwell Ch.2 의 4 단계 논리를 실험 설계 lens 로 압축 소개한다. | |
| May 8, 2026 | 차 맛보기 실험과 무작위 배정 검정 | Experimentation, Fundamentals | Maxwell Ch.2 의 두 핵심 사례인 Lady Tasting Tea 와 Randomization Test 를 정리한다. \(\binom{8}{4} = 70\) 의 조합론적 유도부터 Bayley twin 자료의 \(2^{10}\) 재배정 분포 구성, 그리고 현대 IT A/B 테스트 의 permutation 분석으로 이어지는 무작위 배정 추론의 원형을 다룬다. | |
| May 8, 2026 | p 값의 두 전통 — Fisher vs Neyman-Pearson | Experimentation, Fundamentals | Fisher 의 유의성 검정 (significance test) 과 Neyman-Pearson 의 가설 검정 (hypothesis test) 이 어떻게 분기되었고, 왜 현재 통계 실무는 두 전통의 혼합 (amalgam) 이 되었는지 정리한다. p 값의 정확한 정의, replication fallacy, inverse probability fallacy 와 \(\alpha\)·\(\beta\)·검정력의 역할을 실험 설계 lens 로 다룬다. | |
| May 8, 2026 | 분포 가정과 z·t·F 검정의 등장 | Experimentation, Fundamentals | z·t·F 검정의 정당성이 모집단 정규성에 있는 것이 아니라 randomization 분포로의 근사 에 있다는 Maxwell Ch.2 의 결론을 정리한다. 중심극한정리의 역할, 편의 표본 (convenience sample) 의 해석, 정규성 가정 위반에 대한 robust 대안, 효과 크기의 도입을 실험 설계 lens 로 다룬다. | |
| May 8, 2026 | ANOVA 를 모형 비교로 — Ch.3 overview | Experimentation, Fundamentals | 분산분석 (ANOVA) 을 모형 비교 (model comparison) 관점으로 재구성한 Maxwell Ch.3 의 흐름을 정리한다. 일반선형모형의 도입, 단일·두 그룹·일반 그룹 상황의 점진적 확장, F 검정의 도출, 효과 크기 측정과 가정 진단까지의 전체 골격을 압축 소개한다. | |
| May 8, 2026 | GLM 도입과 단일·두 그룹 모형 | Experimentation, Fundamentals | 일반선형모형 (General Linear Model) 의 구조와 단일 그룹·두 그룹 사례를 Maxwell Ch.3 의 모형 비교 관점으로 정리한다. 최소제곱 추정의 정당성, 표본 평균이 LSE 인 이유의 대수적 증명, one-sample t 검정과 two-sample t 검정이 모형 비교의 특수 사례라는 통찰을 다룬다. | |
| May 8, 2026 | 일반 J 그룹 ANOVA — Full vs Restricted Model | Experimentation, Fundamentals | Maxwell Ch.3 의 general case 를 정리한다. 임의의 J 그룹 ANOVA 의 모형 비교 형태, 전체 모형과 제한 모형의 SSE 차이가 그룹 간 제곱합 (SS_B) 임을 보이고, 이로부터 F 통계량과 자유도가 어떻게 자연스럽게 도출되는지 다룬다. | |
| May 8, 2026 | F 검정의 분포·임계값과 효과 크기 측정 | Experimentation, Fundamentals | F 검정의 분포 특성, 임계값 구하기, 그리고 ANOVA 결과 보고에서 필수인 효과 크기 측정 (η², ω², Cohen’s d, Cohen’s f) 의 정의·계산·해석을 정리한다. 표본 효과 크기와 모집단 효과 크기의 차이, 편향 보정, 신뢰 구간 구성까지 다룬다. | |
| May 8, 2026 | ANOVA 의 통계적 가정과 진단 (Levene) | Experimentation, Fundamentals | Maxwell Ch.3 의 통계적 가정 (정규성, 등분산성, 독립성) 을 정리한다. 각 가정이 F 검정에 미치는 영향, 위반 시 결과 해석의 변화, 그리고 시각적 진단 (Q-Q plot) 과 형식 검정 (Shapiro-Wilk, Levene, Brown-Forsythe) 의 실무 사용법을 다룬다. | |
| May 8, 2026 | ANOVA 의 Robust 대안 — Welch, Brown-Forsythe, Kruskal-Wallis | Experimentation, Fundamentals | ANOVA F 검정의 가정 (정규성, 등분산성) 이 깨졌을 때 사용 가능한 강건 (robust) 대안을 정리한다. Welch’s F, Brown-Forsythe F, Kruskal-Wallis 비모수 검정, permutation 과 bootstrap 의 원리·계산·검정력 비교를 다룬다. | |
| May 8, 2026 | 개별 비교와 대비 — Ch.4 overview | Experimentation, Fundamentals | ANOVA 의 옴니버스 F 검정 이후 어느 그룹 사이 차이가 있는지를 묻는 개별 비교 (individual comparisons) 와 대비 (contrast) 분석의 Maxwell Ch.4 흐름을 정리한다. 모형 비교 관점에서 t 와 F 의 관계 (\(F = t^2\)), 대비의 일반화, 직교 대비, 대비의 효과 크기 측정, 계획된 vs 사후 비교의 구분까지 다룬다. | |
| May 8, 2026 | 두 그룹 비교에서의 t·F 관계 — F = t² | Experimentation, Fundamentals | Maxwell Ch.4 의 두 집단 평균 비교를 모형 비교로 도출한다. Restricted model 에서 μ* = (Y₁ + Y₂)/2 가 LSE 임을 증명하고, E_R - E_F 가 (Y₁ - Y₂)² / (1/n₁ + 1/n₂) 로 단순화됨을 보인다. 이로부터 F = t² 의 동치성과 ANOVA 의 MS_W 사용의 정당성을 정리한다. | |
| May 8, 2026 | 대비 (Contrast) 의 일반화 — Complex Contrasts | Experimentation, Fundamentals | Maxwell Ch.4 의 대비 (contrast) 정의를 일반화한다. 합 0 제약을 가진 계수 조합으로 단순 비교 (1 vs 1), 복합 비교 (1 vs 평균), 추세 검정 (linear trend) 등 다양한 가설을 통합 표현한다. 대비 추정량의 분산, 표준 오차, t 통계량, 그리고 모형 비교와의 연결을 다룬다. | |
| May 8, 2026 | 직교 대비와 대비의 효과 크기 | Experimentation, Fundamentals | Maxwell Ch.4 의 직교 대비 (orthogonal contrasts) 와 대비의 효과 크기 측정을 정리한다. 직교성 정의, SS 가산성, J-1 개의 직교 대비로 SS_B 완전 분해, Cohen 의 d for contrast, partial η² 의 계산과 해석을 다룬다. | |
| May 8, 2026 | 다중 비교 문제 — Ch.5 overview | Experimentation, Fundamentals | 여러 대비 또는 사후 비교를 동시에 검정할 때 발생하는 다중 비교 문제 (multiple comparison problem) 의 Maxwell Ch.5 overview 를 정리한다. 3 종류의 오류율 (αPC, αEW, ENEPE), 동시 신뢰구간, Hsu 5 추론 강도, 주요 보정 절차 (Bonferroni, Tukey, Scheffé, Dunnett, FDR) 의 골격을 압축 소개한다. | |
| May 8, 2026 | 오류율 3 유형과 동시 신뢰 구간 | Experimentation, Fundamentals | Maxwell Ch.5 의 3 종류 오류율 (per-comparison, experimentwise, ENEPE) 의 정의·계산·통제 트레이드오프를 정리한다. 동시 신뢰 구간 (simultaneous CI) 의 구성, 보정의 출발점인 Bonferroni 부등식, 통제 선택의 의사결정 원칙을 다룬다. | |
| May 8, 2026 | Hsu 의 5 추론 강도와 Bonferroni | Experimentation, Fundamentals | Hsu (1996) 가 제안한 다중 비교 절차의 5 추론 강도 분류와, 가장 단순한 보정인 Bonferroni 의 수학적 도출, 검정력 손실, Holm 시퀀셜 변형까지 정리한다. Bonferroni 의 보수성이 어떤 시나리오에서 적절하고 어떤 시나리오에서 불필요한지 다룬다. | |
| May 8, 2026 | 주요 다중 비교 절차 — Tukey HSD, Scheffé, Dunnett | Experimentation, Fundamentals | Maxwell Ch.5 의 주요 다중 비교 절차를 정리한다. Tukey HSD (모든 쌍별 비교), Scheffé (모든 가능한 대비), Dunnett (대조군 vs 처치군) 의 임계값 도출, 검정력 비교, 실무 사용 가이드를 다룬다. | |
| May 8, 2026 | FDR 과 실무 조정 — 등분산 위반·균등 표본 | Experimentation, Fundamentals | Maxwell Ch.5 의 마지막 두 주제 — False Discovery Rate (FDR) 와 가정 위반 시의 다중 비교 보정을 정리한다. FDR 의 정의, BH 절차, 검정력 우위, 그리고 등분산 위반 또는 불균형 설계에서의 실무 권장을 다룬다. | |
| May 8, 2026 | 임상 연구의 통계 시각 — Schulz Ch.1 overview | Experimentation, Fundamentals | Schulz & Grimes (2019) Ch.1 의 임상 연구 분류와 통계적 결론의 한계 (p < 0.05 의 의학적 근거 없음) 를 Phase A 통계 lens 로 정리한다. RCT 가 gold standard 인 통계적 이유, descriptive vs analytical 구분, measures of association 의 통계적 의미를 다룬다. | |
| May 8, 2026 | 결과 측정과 분수 혼동 — 분모를 명확히 | Experimentation, Fundamentals | Schulz Ch.1 의 outcome measurement 와 confusing fractions 부분을 정리한다. 이진·연속·시간-사건 결과 변수의 통계 분석, 분수의 분모 모호성이 만드는 결론의 왜곡, ITT vs Per-protocol 분석의 차이를 다룬다. | |
| May 8, 2026 | 측정의 위험성과 p < 0.05 비판 | Experimentation, Fundamentals | Schulz Ch.1 의 measures of association (RR, OR, RD) 의 위험성과 p < 0.05 임계값의 의학적 근거 부재 비판을 정리한다. 베이스라인 효과, 상대 vs 절대 측정, ASA 권고와의 일관성, 신뢰 구간 우선 보고의 정당성을 다룬다. | |
| May 8, 2026 | 표본 크기 계산 — Schulz Ch.11 overview | Experimentation, Fundamentals | Schulz Ch.11 의 표본 크기 산정 (sample size calculation) overview. 4 요소 (α, power, event rate, effect size) 의 정의·관습·트레이드오프, 산정 절차의 mystical 측면 (Sample Size Samba), 사후 검정력 분석의 무용성을 정리한다. | |
| May 8, 2026 | 4 요소와 0.05/0.80 관습 비판 | Experimentation, Fundamentals | Schulz Ch.11 의 4 요소 (α, power, event rate, effect size) 의 자세한 정의와 0.05/0.80 관습이 의학적·통계적 근거 없는 이유를 정리한다. 효과 크기 추정의 어려움, sensitivity analysis, 시뮬레이션 기반 산정의 권장을 다룬다. | |
| May 8, 2026 | Sample Size Samba 와 일측 검정 비판 | Experimentation, Fundamentals | Schulz Ch.11 의 Sample Size Samba (역방향 산정 함정), 일측 검정의 evidence 기준 완화 비판, Chalmers 1978 의 underpowered trial 논쟁과 그 유산을 정리한다. 사후 검정력 분석의 무용성과 표본 크기 산정의 정직한 관행을 다룬다. | |
| May 8, 2026 | 임상시험의 다중성 — Schulz Ch.19 overview | Experimentation, Fundamentals | Schulz Ch.19 의 임상시험 다중성 (multiplicity) 문제 overview 를 정리한다. Multiple endpoints, composite endpoints, multiarm trials 의 분류, Bonferroni 보정의 부적절한 사용 시점, 그리고 보정의 역할 에 대한 임상시험 시각을 다룬다. | |
| May 8, 2026 | 다중성 문제와 Bonferroni 의 임상적 부적절성 | Experimentation, Fundamentals | Schulz Ch.19 의 다중성 문제 자세히, Bonferroni 보정이 universal null hypothesis 를 검정하는 부적절한 가설을 다룬다는 점, 그리고 임상 의사결정 시각에서 보정이 적절한 시점과 부적절한 시점의 구분을 정리한다. | |
| May 8, 2026 | 복수 결과·치료의 다중성 — Endpoints, Composite, Multiarm | Experimentation, Fundamentals | Schulz Ch.19 의 multiple endpoints, composite endpoints, multiarm trials 세 측면을 자세히 정리한다. 각각의 다중성 처리 전략, 함정, 그리고 임상 의사결정에서의 적절한 선택을 다룬다. | |
| May 8, 2026 | 컴퓨터 집약적 방법 — Woodward Ch.14 overview | Experimentation, Fundamentals | Woodward Ch.14 의 컴퓨터 집약적 방법 (computer-intensive methods) overview 를 정리한다. 부트스트랩 (CI 추론), 순열 검정 (가설 검정), 다중 대체 (결측 처리) 의 3 가지 시뮬레이션 도구를 역학 시각에서 통합 소개한다. 현대 통계 분석에서 분포 가정의 약화 + 자료 활용 극대화 의 정당성을 다룬다. | |
| May 8, 2026 | Bootstrap 의 원리와 도입 | Experimentation, Fundamentals | Woodward Ch.14.1 (Rationale) 과 14.2 (The Bootstrap) 를 정리한다. 정규 가정의 한계, 닫힌 SE 공식이 없는 통계량의 문제, 복원 추출의 의미, Efron 의 1979 부트스트랩 도입과 그 통계적 정당성을 자세히 다룬다. | |
| May 8, 2026 | Bootstrap CI 의 4 유형 | Experimentation, Fundamentals | Woodward Ch.14.3 의 부트스트랩 CI 4 가지 형태 — Normal, Percentile, BC (Bias-Corrected), BCa (Bias-Corrected accelerated) — 의 수학적 도출과 비교를 자세히 정리한다. 편향 보정의 의미, 가속도 모수의 역할, jackknife 와의 연결을 다룬다. | |
| May 8, 2026 | Bootstrap 의 실무 이슈와 추가 사례 | Experimentation, Fundamentals | Woodward Ch.14.4 (Practical Issues) 와 14.5 (Further Examples) 를 정리한다. 회귀 분석의 부트스트랩, 분류 모형 평가, 시계열 자료의 block bootstrap, 복잡 자료 (cluster, 가중 표본) 의 부트스트랩 변형을 자세히 다룬다. | |
| May 8, 2026 | Bootstrap 가설 검정과 한계 | Experimentation, Fundamentals | Woodward Ch.14.6 (Bootstrap 가설 검정) 과 14.7 (Limitations) 을 정리한다. 부트스트랩으로 p 값을 계산하는 두 절차 (CI 기반, H0 강제 표집), 작은 표본의 한계, 극단 통계량의 한계, 의존성 무시의 위험을 자세히 다룬다. | |
| May 8, 2026 | Permutation Tests — 비모수 가설 검정의 일반화 | Experimentation, Fundamentals | Woodward Ch.14.8 의 순열 검정 (permutation tests) 을 정리한다. Fisher 의 randomization test 일반화, 정확 vs Monte Carlo 변형, 두 그룹/회귀/상관에서의 적용, 부트스트랩과의 차이, 분포 가정 없는 가설 검정의 정당성을 자세히 다룬다. | |
| May 8, 2026 | 결측 자료의 진단과 단순 대체 | Experimentation, Fundamentals | Woodward Ch.14.9 (결측 자료 진단) 과 14.10 (단순 대체) 을 정리한다. 결측 메커니즘 3 분류 (MCAR, MAR, MNAR), 단순 대체 방법 (Listwise deletion, Mean imputation, LOCF) 의 한계, 진단 도구를 자세히 다룬다. | |
| May 8, 2026 | Multiple Imputation — 다중 대체의 표준 절차 | Experimentation, Fundamentals | Woodward Ch.14.11 (단변량 MI), 14.12 (다변량 MI), 14.13 (when worth) 을 정리한다. Rubin 1987 의 Multiple Imputation 절차, 결측 불확실성의 정직한 반영, Rubin’s rules 통합 추론, MICE 알고리즘, 실무 권장을 자세히 다룬다. | |
| May 8, 2026 | 역학 표본 크기 결정 — Woodward Ch.8 overview | Experimentation, Fundamentals | Woodward Ch.8 의 역학 연구 표본 크기 결정 overview 를 정리한다. Power calculation 방법의 일반 원칙, 4 가지 표준 사례 (단일 평균·평균 차이·단일 비율·비율 차이), 그리고 case-control / 복잡 표집 / 결론 절차의 흐름을 압축 소개한다. | |
| May 8, 2026 | 표본 크기 도입과 검정력의 정의 | Experimentation, Fundamentals | Woodward Ch.8.1 (도입) 과 8.2 (Power) 를 정리한다. 표본 크기 결정의 중요성, 너무 크거나 작은 \(n\) 의 위험, Power 의 정의와 계산, 콜레스테롤 사례 (Ex 8.1) 의 구체적 도출을 다룬다. | |
| May 8, 2026 | 평균과 평균 차이의 표본 크기 | Experimentation, Fundamentals | Woodward Ch.8.3 (단일 평균) 과 8.4 (평균 차이) 의 표본 크기 산정 공식과 실제 계산 예시를 정리한다. 짝지은 vs 독립 표본, 분산 가정, 효과 크기 표현 (Cohen’s d) 의 차이를 다룬다. | |
| May 8, 2026 | 비율과 상대위험의 표본 크기 | Experimentation, Fundamentals | Woodward Ch.8.5 (단일 비율) 과 8.6 (비율 차이·상대위험) 의 표본 크기 산정을 정리한다. 이항 자료의 정규 근사, A/B 테스트의 클릭률·전환율 표본 크기, 베이스라인 효과의 영향을 다룬다. | |
| May 8, 2026 | Case-control 시험의 표본 크기 (matched 포함) | Experimentation, Fundamentals | Woodward Ch.8.7 의 case-control 시험 표본 크기 산정을 정리한다. Cohort 와 다른 점, exposure prevalence 의 역할, OR 기반 공식, matched case-control 의 설계 효과, 비대칭 case:control 비율을 다룬다. | |
| May 8, 2026 | 복잡 표집 설계와 결론 | Experimentation, Fundamentals | Woodward Ch.8.8 의 복잡 표집 설계 (cluster, stratified) 표본 크기와 Ch.8.9 의 결론을 정리한다. Design Effect (DEFF), ICC 의 역할, 층화의 효율성, A/B 테스트의 클러스터 매핑, 표본 크기 산정 종합 권고를 다룬다. | |
| May 8, 2026 | Logistic Regression 개관 — 실험 분석 lens | Experimentation, Modeling | 이항 결과 (질병/사건 발생 여부) 모델링의 표준 도구인 logistic regression 을 실험 분석 관점에서 개관한다. 표준 회귀의 3 문제, logit 변환의 발상, 계수의 OR 해석, 다중 보정·교란·상호작용·양적 변수까지 챕터 전체 흐름을 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. Statistics 카테고리의 GLM·LDA 시리즈와의 분담을 명시한다. | |
| May 8, 2026 | 표준 회귀의 3 문제와 Logit 변환의 발상 | Experimentation, Modeling | 이항 결과를 표준 선형 회귀로 분석할 때 발생하는 3 가지 본질 문제 (비선형 r-x 관계, 불가능한 예측값, 비정규 오차) 의 메커니즘과 logit 변환이 이들을 한 번에 해결하는 방식을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. SHHS·H. pylori 사례로 구체적 위반을 본다. | |
| May 8, 2026 | Logistic Regression 과 계수 해석 (1) — Binary·Quantitative | Experimentation, Modeling | Logistic regression 의 핵심 수식 (logit 함수, MLE 추정), binary 위험 인자의 OR 산출, quantitative 위험 인자의 단위당 OR 해석을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. EGAT 흡연-CV 사망 + SHHS 연령 사례로 임상 활용을 본다. | |
| May 8, 2026 | 계수 해석 (2) — 범주·순서·Floating Absolute Risk | Experimentation, Modeling | 범주형 위험 인자 (3 카테고리 이상) 의 dummy coding 과 OR 해석, 순서형 변수의 trend test, 그리고 reference 카테고리 선택의 함정을 회피하는 Floating Absolute Risks (FAR) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 일반 데이터와 다중 로지스틱 | Experimentation, Modeling | 개별 자료 (Table 10.1) 와 집계 자료 (Table 10.2) 의 적합 결과 동치성, 다중 logistic regression 의 표준 수식, 변수 선택의 기준 (forward, backward, stepwise) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 다중 변수 모형의 OR 해석은 “다른 변수 일정” 이라는 조건부 의미. | |
| May 8, 2026 | Logistic 가설검정 — 적합도·효과·정보 기준 | Experimentation, Modeling | Logistic regression 의 3 가지 가설검정 (Wald, Likelihood Ratio, Score), Hosmer-Lemeshow goodness-of-fit, 그리고 모형 비교 기준 (AIC, BIC) 의 수식과 임계값을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Deviance 의 의미와 계산도 다룬다. | |
| May 8, 2026 | 교란과 상호작용 — Logistic 의 두 핵심 도구 | Experimentation, Modeling | Logistic regression 에서의 교란 (confounding) 통제와 상호작용 (effect modification) 의 모형화 차이를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 두 개념의 통계적 식별, change-in-estimate 기준, interaction 항의 OR 해석, 그리고 A/B 테스트의 HTE 분석을 함께 다룬다. | |
| May 8, 2026 | 양적 설명 변수의 처리 — Linear·Categorical·Spline | Experimentation, Modeling | 연속·양적 위험 인자를 logistic 에 입력하는 3 가지 방법 (linear assumption, categorical binning, spline) 의 trade-off 와 적합성 점검 도구를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Logit 선형성 가정 검증과 비선형 패턴 모형화의 표준 도구를 함께 다룬다. | |
| May 8, 2026 | Survival·Cox 회귀 개관 — 추적 데이터 모델링 | Experimentation, Modeling | 추적 (cohort/intervention) 자료의 시간-사건 모델링 전체 지형을 통계학자의 lens 로 한 번에 조망한다. 생존·위험·누적위험 함수의 정의와 상호 관계, 4 가지 hazard 추정 방법 (KM·Person-time·Actuarial·Nelson-Aalen), 모수적 (Exponential, Weibull) vs 반모수적 (Cox PH) 모형의 분업, 모형 진단·경쟁 위험·Poisson 회귀·Pooled logistic 까지의 흐름을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | 생존 함수와 위험 함수 — 시간-사건 분석의 두 기둥 | Experimentation, Modeling | 시간-사건 분석의 두 핵심 함수 — 생존 함수 \(S(t)\) 와 위험 함수 \(h(t)\) — 의 정의, 수학적 관계 (\(h = f/S\), \(H = -\log S\)), 그리고 인간 사망률의 bathtub 곡선 같은 비단조 패턴을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. PDF·CDF 와의 4 가지 함수 관계를 시각화하고, 각 함수가 보여주는 정보의 차이를 사례로 본다. | |
| May 8, 2026 | 위험 함수 추정 4 방법 — KM·Person-time·Actuarial·Nelson-Aalen | Experimentation, Modeling | Hazard 추정의 4 가지 비모수 방법 — Kaplan-Meier, Person-time, Actuarial, Nelson-Aalen — 의 수식 유도, 가정, 시각적 출력 차이를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 각 방법의 spiky vs smooth 패턴, 자료 구조 (자세한 사건 시점 vs 구간 자료) 별 적합성, 그리고 모형 진단으로의 NA 활용을 다룬다. | |
| May 8, 2026 | 모수적 생존 모형 — Exponential·Weibull·Log-logistic·Gompertz | Experimentation, Modeling | 모수적 생존 분석의 4 가지 핵심 분포 (Exponential, Weibull, Log-logistic, Gompertz) 의 PDF·CDF·hazard·survival 함수, 적합성 검증 도구 (log-log plot), 그리고 각 분포의 임상·실험 분석 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 분포 선택의 trade-off 와 비단조 hazard 의 한계도 다룬다. | |
| May 8, 2026 | 모수적 Proportional Hazards 회귀 | Experimentation, Modeling | 모수적 PH 회귀의 수식 (Weibull·Exponential PH), 모수 추정, hazard ratio 의 해석을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Cox PH 와의 차이 (baseline hazard 의 모수 형태), 적합도 검증, 그리고 실험 분석에서의 활용을 함께 다룬다. | |
| May 8, 2026 | Cox Proportional Hazards 와 Weibull PH | Experimentation, Modeling | Cox PH 모형의 핵심 — partial likelihood 의 발상, ties handling (Breslow·Efron·Exact), HR 의 해석 — 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Weibull PH 와 Cox PH 의 비교, 두 모형의 결과 일치성, 그리고 임상·실험 분석 활용을 함께 다룬다. | |
| May 8, 2026 | Cox PH 모형 진단 — Schoenfeld·Log-log·Time-interaction | Experimentation, Modeling | Cox PH 모형의 핵심 가정 (proportional hazards) 의 진단 도구를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Schoenfeld residual 의 시간 plot, log-log survival plot, time-interaction test, 그리고 가정 위반 시 대응 (시간 의존 공변량, stratified Cox, RMST) 까지 정리한다. | |
| May 8, 2026 | 경쟁 위험 (Competing Risks) 과 Joint Modeling | Experimentation, Modeling | 경쟁 위험 (competing risks) 의 정의·KM 의 한계 (independent censoring 위반)·CIF·Cause-specific vs Subdistribution Hazard·Fine-Gray 모형의 수식과 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 임상·실험 분석에서의 응용도 함께 다룬다. | |
| May 8, 2026 | 포아송 회귀 — Person-Time 자료의 모형 | Experimentation, Modeling | Person-time 자료의 사건 수 모형인 Poisson regression 의 수식 (offset 활용), 단순·다중 모형, SER (standardised event ratio) 비교, routine 데이터 적용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Cox PH 와의 동치성 (일정 hazard 가정) 도 다룬다. | |
| May 8, 2026 | Pooled Logistic Regression — 시간 의존 + 인과 추론의 다리 | Experimentation, Modeling | 추적 시간을 작은 구간으로 분할 후 각 구간의 사건 발생을 logistic 으로 모형하는 Pooled logistic regression 의 수식, Cox PH 와의 동치성, 시간 의존 공변량의 자연 처리, 그리고 g-methods (IPW, g-formula) 와의 연결을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Meta-analysis 개관 — 여러 연구의 통합 분석 | Experimentation, Modeling | 여러 연구 결과를 통합 분석하는 meta-analysis 의 전체 지형을 한 번에 조망한다. Systematic review, fixed vs random effects, 이질성 (I², τ²), forest plot, 출판 편향 (funnel plot, Egger test), IPD vs aggregate, 그리고 관찰 연구의 meta-analysis 의 한계를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Systematic Review — Cochrane 표준의 메타분석 1 단계 | Experimentation, Modeling | Meta-analysis 의 사전 단계인 systematic review 의 표준 절차 (Cochrane), PROSPERO 사전 등록, PRISMA 흐름도, Risk of Bias 평가 도구 (RoB 2, ROBINS-I), 그리고 적격성 기준 + 데이터 추출의 실무를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Fixed vs Random Effects — Inverse Variance 통합의 두 모형 | Experimentation, Modeling | Meta-analysis 의 핵심 통합 도구 — Inverse Variance 가중, Fixed Effects (FE), Random Effects (RE) 모형의 수식 유도와 차이를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. DerSimonian-Laird·REML 추정, FE vs RE 선택 기준, 그리고 Hartung-Knapp 보정도 함께 다룬다. | |
| May 8, 2026 | Heterogeneity 의 정량화 — Q·I²·τ² | Experimentation, Modeling | Meta-analysis 의 핵심 진단 지표 — Cochran’s Q, I², τ² (between-study variance) 의 수식 유도, 해석, 임계값을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Heterogeneity 의 source 추정과 forest plot·funnel plot 으로의 시각화도 다룬다. | |
| May 8, 2026 | 다양한 Outcome 의 통합 — RD·Mean·Mixed | Experimentation, Modeling | Meta-analysis 의 다양한 outcome 형태 — Risk Difference (RD), Mean Difference (MD), Standardised Mean Difference (SMD), 그리고 mixed scale (RR + RD + Mean) 의 통합 절차를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Cohen’s d, Hedges’ g 의 차이와 작은 표본 보정도 다룬다. | |
| May 8, 2026 | Heterogeneity 조사 — Forest·Influence·Sensitivity·Meta-regression | Experimentation, Modeling | Meta-analysis 의 heterogeneity 의 source 를 식별하는 4 가지 도구 — forest plot, influence analysis, sensitivity analysis, meta-regression — 의 활용과 해석을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Subgroup analysis 와 multiple testing 의 함정도 함께 다룬다. | |
| May 8, 2026 | 표 자료의 통합 — Mantel-Haenszel·Peto·Zeros 처리 | Experimentation, Modeling | 2x2 표 자료의 meta-analysis 통합 — Inverse Variance, Mantel-Haenszel, Peto OR — 의 수식과 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Zero cells 의 처리 (continuity correction, exact methods), 작은 표본의 효율적 통합도 다룬다. | |
| May 8, 2026 | IPD Meta-analysis 와 Study Quality 평가 | Experimentation, Modeling | IPD (Individual Patient Data) meta-analysis 의 강점과 aggregate 자료와의 차이, 그리고 study quality 평가 도구 (RoB 2, ROBINS-I, GRADE) 의 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. IPD 의 자료 접근 한계와 표준화된 분석의 가치를 함께 다룬다. | |
| May 8, 2026 | Publication Bias — Funnel Plot·Egger·Trim-and-Fill | Experimentation, Modeling | Meta-analysis 의 가장 중대한 함정 — Publication bias — 의 메커니즘, 진단 도구 (funnel plot, Egger’s regression, Begg’s test), 보정 (trim-and-fill, selection model) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. File-drawer problem 과 사전 등록의 가치도 다룬다. | |
| May 8, 2026 | Risk Scores 와 Clinical Decision Rules 개관 | Experimentation, Modeling | 예측 모형 (risk score, clinical decision rule) 의 전체 지형을 통계학자의 lens 로 한 번에 조망한다. Discrimination (ROC, AUC), Calibration, Recalibration, Brier Score, Reclassification (NRI, IDI), Validation (internal, external) 의 흐름을 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. | |
| May 8, 2026 | Population vs Individual 수준 개입 — Rose 의 역설 | Experimentation, Modeling | Geoffrey Rose 의 두 가지 예방 전략 (population strategy vs high-risk strategy) 의 trade-off, Population Attributable Risk (PAR) 와 NNT 의 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Risk score 가 high-risk strategy 의 핵심 도구임을 강조한다. | |
| May 8, 2026 | Association vs Prognosis — 인과 분석과 예측 모형의 분업 | Experimentation, Modeling | 통계 모형의 두 가지 활용 — Association (인과 분석) vs Prognosis (예측 모형) — 의 본질 차이, 변수 선택 기준의 차이, 그리고 confounding 의 처리 차이를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Discrimination, threshold, OR 활용을 함께 다룬다. | |
| May 8, 2026 | 통계 모형으로부터 Risk Score 산출 | Experimentation, Modeling | Logistic regression, Cox PH, multiple regression 으로부터 individual risk score 를 산출하는 절차, 단순화된 점수 시스템 (integer score) 의 활용, 그리고 단계별 위험 인자 추가의 통계적 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | ROC 와 AUC — Discrimination 의 표준 측도 | Experimentation, Modeling | Receiver Operating Characteristic (ROC) 곡선의 정의·해석, Area Under Curve (AUC) 의 수식 (Mann-Whitney U 와의 관계), 임상 임계값, 그리고 두 모형의 AUC 비교 (DeLong test) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Calibration — 예측 확률의 정직성 | Experimentation, Modeling | Risk score 의 예측 확률이 진성 위험과 일치하는가의 평가 도구. Calibration plot, Hosmer-Lemeshow test, calibration-in-the-large·calibration slope 의 수식과 해석을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. AUC 와 별도 평가의 가치를 강조한다. | |
| May 8, 2026 | Recalibration — 모형 보정의 도구 | Experimentation, Modeling | External validation 또는 새 인구에 모형 적용 시 calibration 보정 도구. Intercept update, slope update, full re-estimation 의 3 단계 점진 보정과 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Brier Score 와 외래 변수 | Experimentation, Modeling | 예측 모형의 종합 정확도 측도인 Brier score, 그 분해 (reliability, resolution, uncertainty), 그리고 외래 변수 (extraneous) 의 위험 (over-fit, 가짜 predictor) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Reclassification — NRI 와 IDI | Experimentation, Modeling | 새 변수 추가의 가치 정량 도구. Net Reclassification Improvement (NRI), Integrated Discrimination Improvement (IDI) 의 수식 유도, 임상 활용, 그리고 한계 (post-hoc threshold, 검정력) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Validation·Presentation·Impact Studies | Experimentation, Modeling | Risk score 의 internal vs external validation, 환자·임상의를 위한 모형 표현 (nomogram, web calculator), 그리고 impact study 의 설계 (cluster RCT) 를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. | |
| May 8, 2026 | Kohavi Ch.4 개관 — 실험 플랫폼과 문화 | Experimentation, A/B Test, Platform | Kohavi (2020) Ch.4 의 흐름을 한 편으로 압축한다. 4 단계 성숙도 모델 (Crawl/Walk/Run/Fly), 리더십과 프로세스, build vs buy 의사결정, 인프라 4 컴포넌트 (정의·배포·계측·분석), Single-Layer 와 Concurrent 변종 배정 방식까지 카테고리 진입점으로 지도화한다. | |
| May 8, 2026 | 실험 성숙도 4 단계와 리더십 | Experimentation, A/B Test, Platform | Kohavi (2020) Ch.4.1~4.2 를 깊게 다룬다. Fabijan et al. (2017) 의 4 단계 성숙도 모델 (Crawl/Walk/Run/Fly) 의 정량 지표·플랫폼 요구·전형적 실패 패턴을 비교하고, 리더십이 HiPPO 단계에서 fundamental understanding 으로 진입하기 위해 실천해야 할 8 가지 행동을 정리한다. | |
| May 8, 2026 | 프로세스와 Build vs Buy | Experimentation, A/B Test, Platform | Kohavi (2020) Ch.4.3~4.4 를 다룬다. 실험 성숙도가 올라갈 때 필요한 just-in-time 교육 (체크리스트·리뷰 미팅), 학습 공유 채널, 지적 정직성 4 가지 메커니즘을 정리한다. 이어서 외부 솔루션 vs 자체 구축의 의사결정을 9 가지 평가 항목·궤적·통합 요건의 함수로 정리한다. | |
| May 8, 2026 | 인프라와 도구 — 4 컴포넌트의 첫 3 | Experimentation, A/B Test, Platform | Kohavi (2020) Ch.4.5 의 인프라 4 컴포넌트 중 첫 3 개를 깊게 다룬다. 실험 사양·iteration 관리, variant assignment service, 3 가지 production 코드 아키텍처 (code fork / parameterized / config push), atomicity, 그리고 counterfactual 을 포함한 instrumentation 까지. 각 설계 결정의 트레이드오프와 직관을 함께 정리한다. | |
| May 8, 2026 | 변종 배정과 분석 — Single-Layer · Concurrent · Analytics | Experimentation, A/B Test, Platform | Kohavi (2020) Ch.4.6~4.7 을 다룬다. Single-Layer (Numberline) 와 Concurrent (Overlapping) 변종 배정의 트레이드오프, Full Factorial · Nested · Constraints-Based 3 가지 layered 설계, 그리고 Data Processing → Computation → Visualization 으로 이어지는 Analytics 파이프라인의 설계와 직관을 정리한다. Ch.4 시리즈의 마무리 글이다. | |
| May 8, 2026 | Klein § 13.1-13.2 — Shared Frailty Models & Score Test for Association | Statistics, Survival Analysis | Klein Ch.13 의 두 시작 절을 깊이 다룬다. § 13.1 에서 shared frailty 모형의 모태인 \(h_{ij}(t) = h_0(t) u_i \exp(\beta^t Z_{ij})\) 가 어떻게 그룹 내 연관을 만드는지, Laplace 변환이 왜 등장하는지, frailty 분포 선택의 trade-off 를 설명한다. § 13.2 에서는 Commenges-Andersen (1995) score test 가 어떻게 분포 가정 없이 \(\sigma = 0\) 을 검정하는지, 통계량의 세 항이 무엇을 잡아내는지, Mantel litter rat 예제를 통해 실제 검정 결과를 해석한다. | |
| May 7, 2026 | Project | Project | 여러 카테고리에 흩어져 있는 프로젝트 관련 포스트를 프로젝트 단위로 묶어 흐름에 맞게 정리한 허브. 글 파일은 도메인 카테고리(Agent·Data_Science· Experimentation·Engineering 등)에 그대로 거주하며 본 인덱스는 cross-link만 제공한다. | |
| May 7, 2026 | FDA 10.0 — 힐베르트 공간 이론 (Elements of Hilbert Space Theory) 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.10 의 핵심을 개관한다. FDA 의 수학적 토대인 힐베르트 공간 이론의 핵심 개념 — 내적 공간과 완비성으로 정의된 Hilbert 공간 (10.1), 닫힌 부분공간으로의 사영과 정규직교 기저·Parseval 등식·Fourier 기저 (10.2), 유계 선형 연산자와 Hilbert-Schmidt 클래스의 정의 (적분 연산자 핵 ψ(t,s) 의 HS 노름 = √∫∫ψ²) (10.3), 대칭 비음정 연산자의 스펙트럼 정리 (Mercer 의 일반화) 와 Rayleigh-Ritz 변분 (10.4), 텐서 곱과 L²(T)⊗L²(T) = L²(T×T) (10.5) — 까지 Ch.3 의 framework 를 깊이 있게 정착시킨다. | |
| May 7, 2026 | FDA 10.1~10.2 — Hilbert 공간의 정의와 사영·정규직교 기저 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.10.1~10.2 의 핵심을 다룬다. 벡터 공간의 axiom 부터 시작하여 내적 공간 (Definition 10.1.1) → 노름 → Cauchy-Schwarz → 완비성 → Hilbert 공간 (Definition 10.1.3) 의 단계별 정의. ℓ², L², L²(D), Sobolev, product space, C[0,1] (Banach 이지만 Hilbert 아님) 의 6 가지 표준 예시 (10.1). 이어서 사영 정리 (Theorem 10.2.1) + 직교 분해 (Theorem 10.2.2 의 4 부분 — 유일성·근사· 선형성·피타고라스) + Riesz 표현 정리 (Theorem 10.2.3, 모든 연속 선형 범함수가 내적 형태) + 정규직교 기저 + Parseval 등식 (Theorem 10.2.4) + 3 종 Fourier 기저 (sin, cos, full) 까지 정착 (10.2). | |
| May 7, 2026 | FDA 10.3~10.4 — 선형 연산자, Hilbert-Schmidt 클래스, 스펙트럼 정리, Mercer | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.10.3 와 Ch.10.4 를 통합으로 다룬다. 10.3 의 핵심: 유계 선형 연산자의 정의 (Definition 10.3.1), 연산자 노름과 adjoint, 자기수반·대칭·비음정 연산자, 콤팩트 연산자와 Hilbert-Schmidt 클래스 (Definition 10.3.2) — \(\|\Psi\|_{\mathcal{S}}^2 = \int\int \psi(t,s)^2 \, dt \, ds\), 적분 연산자의 HS 성 (Example 10.3.1). 10.4 의 핵심: 스펙트럼 정리 (Theorem 10.4.1) — 대칭 콤팩트 연산자의 정규직교 고유함수 분해, Mercer 정리 (Theorem 10.4.2) 의 핵 분해 \(c(t,s) = \sum \lambda_j v_j(t) v_j(s)\), Karhunen-Loève 전개 (Theorem 10.4.3) — 확률 함수 = 고유함수의 무한합, 고유값의 변분 특성 (Rayleigh-Ritz quotient) 과 Courant-Fischer 정리. 이 두 절이 EFPC, FPCA, 공분산 추정, 함수 회귀 모형 등 Ch.4~9 의 거의 모든 도구의 직접 토대. | |
| May 7, 2026 | FDA 10.5 — 텐서 곱과 이변량 함수 공간 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.10.5 의 핵심을 다룬다. 텐서 곱의 동기와 정의 — 행렬 (\(\mathbb{R}^N \otimes \mathbb{R}^M = \mathbb{R}^{N \times M}\)) 의 무한차원 일반화로 두 함수의 텐서 곱이 이변량 함수. Definition 10.5.1 의 bilinear map 정의 (\(x_1 \otimes x_2\))\((y_1, y_2) = \langle x_1, y_1 \rangle \langle x_2, y_2 \rangle\), 텐서 공간 \(\mathcal{H}_1 \otimes \mathcal{H}_2\) 의 구성 (유한 선형 결합의 완비화), 핵심 결과 \(L^2(T) \otimes L^2(T) = L^2(T \times T)\) (Example 10.5.1) — 공분산 함수·회귀 핵· 자기회귀 핵의 통합 framework. 텐서의 연산자 표현 (\(L_{x_1, x_2}(y_1) = \langle x_1, y_1 \rangle x_2\)), 정규직교 기저의 텐서 곱 (Theorem 10.5.2) — Ch.4~9 의 모든 이변량 객체의 토대. | |
| May 7, 2026 | FDA 10.6 — Chapter 10 연습문제 풀이 (10 문제) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.10 의 연습문제 10 문제를 직관 + 형식 풀이로 다룬다. Problems 10.1~10.10 — Cauchy-Schwarz 부등식의 직접 증명, 평행사변형 법칙 (parallelogram law) 으로 Hilbert vs Banach 의 구분, 분극 항등식 (polarization identity) 으로 노름에서 내적 복원, 사영의 거리 최소화 성질, Bessel 부등식 (Theorem 10.2.4 의 부분 합 버전), Riesz 표현 정리의 응용 (Lebesgue 적분 = 내적), Hilbert-Schmidt 노름과 연산자 노름의 비교, Mercer 정리의 검증 (대칭 비음정 핵의 스펙트럼 분해), 적분 연산자의 고유값 계산, 텐서 공간의 정규직교 기저 검증. 각 문제마다 “출제 의도 + 직관 + 형식 풀이 + 일반화” 4 단 구조로 — Ch.10 의 추상적 결과들이 손으로 만질 수 있는 도구가 되도록 한다. | |
| May 7, 2026 | FDA 11.0 — 확률 함수 (Random Functions) 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.11 의 핵심을 개관한다. Ch.10 이 정착시킨 Hilbert 공간 위에 확률 구조 를 얹는 장 — 거리 공간에서의 확률 원소와 약수렴·분포수렴·확률수렴·Slutsky 정리 (11.1), Hilbert 공간 값 확률 함수의 기댓값과 공분산 연산자가 symmetric·nonnegative·nuclear 임을 보이는 특성화 정리 (11.2), 특성 범함수로 정의되는 가우스 함수와 Hilbert 공간 CLT·LLN (11.3), KL 전개의 최적성 정리와 Wiener process·Brownian bridge 의 닫힌 형태 EFPC (11.4) — 까지 FDA 의 모든 표본 추론 (Ch.12) 이 의존하는 확률론적 framework 를 정착시킨다. | |
| May 7, 2026 | FDA 11.1~11.2 — 거리 공간의 확률 원소와 Hilbert 공간의 기댓값·공분산 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.11 의 첫 두 절을 상세히 다룬다. 11.1 절은 거리 공간의 확률 원소·약수렴·분포수렴·확률수렴 정의와 Slutsky 정리·연속 사상 정리를 통해 함수 공간 점근 통계의 4 개 무기를 정착시킨다. 11.2 절은 Hilbert 공간 값 확률 함수의 약적분 가능성·기댓값 EX 의 존재 (Riesz 표현 정리 활용) ·공분산 연산자의 적분 핵 형태·Theorem 11.2.2 의 3 조건 특성화 (symmetric + nonnegative-definite + nuclear) 를 다룬다. 각 정의·정리 뒤에 직관적 비유와 R 시뮬레이션 코드를 병치하여 추상 개념을 구체화한다. | |
| May 7, 2026 | FDA 11.3~11.4 — 가우스 함수와 극한 정리, 함수 주성분 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.11 의 후반 두 절을 상세히 다룬다. 11.3 절은 특성 범함수의 정의, 가우스 확률 함수의 특성 범함수 형태 (Definition 11.3.2), “모든 1 차원 사영이 정규” 라는 등가 조건 (Theorem 11.3.1), Hilbert 공간 중심극한정리 (Theorem 11.3.2) 와 큰수의 법칙 (Theorem 11.3.3) 을 다룬다. 11.4 절은 임의의 정규직교 시스템 중 KL EFPC 가 기대 잔차 제곱을 최소화함을 보이는 최적성 정리 (Theorem 11.4.1), KL 전개의 점수 비상관성·분산 분해 (Eq. 11.7-11.8), 가우스 함수에서의 점수 독립성 (Example 11.4.1), Wiener process 와 Brownian bridge 의 sin 기반 닫힌 형태 EFPC (Theorem 11.4.2) 와 그 증명 (ODE 환원), 그리고 지정 EFPC 와 고유값을 갖는 함수 데이터의 표준 시뮬레이션 식 (Eq. 11.10) 을 다룬다. 각 정의·정리 뒤에 직관적 비유와 R 시뮬레이션 코드를 병치하여 추상 개념을 구체화한다. | |
| May 7, 2026 | FDA 11.5 — Chapter 11 연습문제 풀이 (16 문제) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.11 의 16 개 연습문제를 모두 풀이한다. 11.1~11.5 는 Slutsky 정리의 R 결과 (덧셈·곱·나눗셈) 도출, bounded in probability, 연속 함수와 확률수렴의 결합, 다변량 확률수렴, 무한 가중 합의 분포수렴 (Theorem 11.1.3 절단 기법). 11.6~11.11 은 strong⇒weak integrability, 다변량과 함수 공분산의 일치, 공분산 함수의 HS 노름 한계 (\(\iint c^2 \leq (E\|X-\mu\|^2)^2\)), Hilbert-Schmidt 가 아닌 비공분산 연산자의 명시 구성, HS nonneg 핵의 (11.11) 형태 증명, symmetric+nonneg 이지만 어떤 \(X \in L^2\) 의 공분산이 아닌 핵 구성. 11.12~11.16 은 특성 범함수의 3 성질 (유계·nonneg-def·균등연속), 무한차원에서 점별 수렴이 분포수렴을 imply 하지 않는 반례 (\(\ell^2\) 표준 기저), 가우스에 유계 연산자 적용 → 가우스 보존, KL 점수의 (11.7) 항등성 검증, Wiener·Brownian bridge 공분산 함수 (Proposition 11.4.1) 증명. 각 문제마다 직관적 설명을 병치하여 풀이의 의미를 명확히 한다. | |
| May 7, 2026 | Ch.12 — 확률 표본으로부터의 추론 개관 (Inference from a Random Sample) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) 12장은 iid 확률 함수 표본 \(X_1,\dots,X_N \in L^2\) 에서 표본 평균 \(\hat\mu\), 공분산 연산자 \(\hat C\), 추정 함수 주성분 \(\hat v_j\), 고유값 \(\hat\lambda_j\) 가 모집단 대응물에 \(N^{-1/2}\) 속도로 수렴하고 점근 정규성을 따른다는 결과를 정리한다. 이 결과들은 평균 함수의 가설 검정, 동시 신뢰 대역, 차원 결정 (CPV·scree) 등 실무 추론의 이론적 토대를 제공한다. 본 글은 12장의 핵심 정리를 정의·근거·직관·응용 흐름으로 한 호흡에 정리한다. | |
| May 7, 2026 | Ch.12.1~12.2 — 표본 평균·공분산·EFPC의 일치성 (Consistency of Sample Estimators) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) 12.1~12.2 절은 iid 확률 함수 표본 \(X_1,\dots,X_N \in L^2\) 의 표본 평균 \(\hat\mu\), 표본 공분산 연산자 \(\hat C\), 추정 함수 주성분 \(\hat v_j\) 와 고유값 \(\hat\lambda_j\) 가 모집단 대응물에 \(N^{-1/2}\) 모수적 속도로 수렴함을 증명한다. 본 글은 정리 12.1.1~12.2.1 을 정의·정리·증명 핵심 단계·직관·유한차원 대비·R 시뮬레이션 흐름으로 정리한다. | |
| May 7, 2026 | Ch.12.3~12.4 — 점근 정규성과 평균 함수 가설 검정 (Asymptotic Normality & Mean Test) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) 12.3~12.4 절은 12.1~12.2 의 일치성 결과를 점근 분포로 격상하고 이를 평균 함수 검정 \(H_0: \mu = \mu_0\) 에 적용한다. Theorem 12.3.1~12.3.3 으로 표본 평균 \(\sqrt N (\hat\mu - \mu) \Rightarrow \mathcal{N}(0, C)\), 표본 공분산 연산자, EFPC, 고유값의 점근 정규성을 확립하고, 12.4 에서 norm 접근 (가중 카이제곱 \(\sum \lambda_i \chi_i^2(1)\)) 과 PC 접근 (절단 \(\chi^2(p)\)) 두 검정 통계량을 비교한다. 본 글은 정리·증명 핵심 단계· 직관·다변량 Hotelling \(T^2\) 와의 대비·R 시뮬레이션 흐름으로 정리한다. | |
| May 7, 2026 | FDA 12.5~12.6 — 평균 함수 가설 검정과 신뢰 대역의 쌍대성 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.12.5~12.6 의 핵심을 검정-신뢰대역 쌍대성 관점으로 다룬다. 12.5 의 핵심 — 평균 함수에 대한 가설 검정 (\(H_0: \mu(t) \equiv \mu_0(t)\) for all \(t\)), EFPC 좌표에서의 표준화 (\(\sqrt{N} \langle \bar{X}_N - \mu_0, \widehat{v}_j \rangle / \sqrt{\widehat{\lambda}_j} \overset{d}{\to} N(0, 1)\)), 카이제곱 검정 통계량 \(T_N = N \sum_{j=1}^p \langle \bar{X}_N - \mu_0, \widehat{v}_j \rangle^2 / \widehat{\lambda}_j \overset{d}{\to} \chi^2_p\), 검정의 power 분석 (alternative \(\mu_1\) 에서 \(T_N\) 의 비중심 카이제곱 분포). 12.6 의 핵심 — 동시 신뢰 대역 (모든 \(t\) 에 대해 \(\mu(t)\) 가 동시에 들어가는 대역), 검정과 신뢰 대역의 쌍대성 (test 통계량의 기각역 ↔︎ 대역의 경계), KL 시뮬레이션 알고리즘. 두 절을 통합하면 — 검정과 신뢰 대역이 같은 framework (함수 CLT + KL 절단) 의 두 표현, 검정의 기각 ⟺ 신뢰 대역이 \(\mu_0\) 를 포함하지 않음. Two-sample 확장 — 두 평균의 동등성 검정과 차이 함수의 신뢰 대역. Section 12.7 (차원 결정) 과 Section 12.8 (BOA 응용) 의 직접 입력. | |
| May 7, 2026 | FDA 12.6~12.7 — 동시 신뢰 대역과 차원 결정 (CPV·스크리) | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.12.6~12.7 의 핵심을 다룬다. 12.6 의 동시 신뢰 대역 — 함수 CLT (Theorem 12.4.1) 와 KL 전개 (Ch.10.4) 의 결합으로 평균 함수 \(\mu(t)\) 의 모든 \(t\) 에 대한 동시 추정 (\(P(\mu(t) \in \text{band} \forall t) \geq 1 - \alpha\)). 점별 신뢰 구간 (\(t\) 별 독립적 처리) vs 동시 신뢰 대역 (Bonferroni 와 다른, 함수 구조 활용) 의 차이, KL 기반 시뮬레이션 알고리즘 (가우스 함수 \(G = \sum \sqrt{\lambda_j} Z_j v_j\) 의 sup-norm 분포), Hyndman-Shang 방식 vs 직접 KL 시뮬레이션. 12.7 의 차원 결정 — Cumulative Percentage of Variance (CPV) 기준 (\(\sum_{j \leq p} \lambda_j / \sum_j \lambda_j \geq 0.85\)~0.95), 스크리 plot 의 elbow 시각적 판단, Information Criteria (AIC, BIC 적응) 의 함수 버전. EFPC 절단의 bias-variance trade-off — \(p\) 가 작으면 bias, \(p\) 가 크면 variance + 추정 오차 누적. 이 두 절이 평균 함수 추론의 마지막 도구 — Section 12.8 의 BOA 응용에서 직접 활용. | |
| May 7, 2026 | FDA 12.8 — BOA 주식의 누적 일중 수익률 평균 함수 추론 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.12.8 의 핵심을 다룬다. Bank of America (BOA) 주식의 분 단위 누적 로그 수익률 곡선 \(X_n(t) = \log P_n(t) - \log P_n(0)\) 에 Ch.12 의 모든 추론 도구를 통합 응용. 데이터 구조 — 거래일 \(n\), 일중 시각 \(t \in [0, T]\) (T = 6.5h = 390 min), 표본 \(N\) = 252 거래일 (1 년). 분석 단계 — (1) 표본 평균 함수 \(\bar{X}_N(t)\) 의 plot 과 일관성 검증, (2) 표본 공분산 연산자 + EFPC 추출 (CPV 95% → \(p \approx 3\)~5), (3) 함수 CLT (Theorem 12.4.1) 의 직접 응용으로 동시 신뢰 대역 구성 (Karhunen-Loève 기반 시뮬레이션), (4) 가설 검정 \(H_0: \mu(t) \equiv 0\) (no drift) — Section 12.5 의 카이제곱 검정 통계량 \(\sum_{j=1}^p N \langle \bar{X}, \widehat{v}_j \rangle^2 / \widehat{\lambda}_j\) 가 \(\chi^2_p\) 분포. 결과 해석 — 평균이 0 에서 통계적으로 다름 (drift 존재), 그러나 경제적으로는 매우 작음 (실효 거래 비용 이하). 함수 시계열로의 확장 — 일별 \(X_n\) 이 독립 가정 vs FAR(1) 모형 (Ch.8.2) 의 적용. 이 한 응용이 Ch.3~12 의 거의 모든 도구를 통합하는 표준 case study. | |
| May 7, 2026 | FDA 4.1~4.2 — 응용 사례와 표준 다중 회귀 복습 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 첫 두 절을 상세히 다룬다. §4.1에서는 스칼라-on-함수 회귀가 적용된 세 데이터셋(가솔린 옥탄가, Tecator 고기 샘플, DTI 뇌영상)의 구조와 분석 동기를 소개한다. §4.2에서는 표준 다중 선형 회귀의 이론(LS 추정량, 정규방정식, 정사영, 일치성 조건, F-검정)을 복습하며, Ch.4 후속 절에서 이 이론이 어떻게 함수 회귀로 일반화되는지 미리 본다. | |
| May 7, 2026 | FDA 4.3~4.4 — 함수 회귀의 어려움과 기저 전개를 통한 추정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 §4.3과 §4.4를 상세히 다룬다. §4.3에서는 표준 다중 회귀가 함수 환경에서 무엇 때문에 깨지는지를 — 모집단 적분 방정식 C_X(β) = c_XY 의 해 부재, 무한차원 다공선성, 절단된 시점 회귀의 한계 — 분석한다. §4.4에서는 가장 직관적 해법인 기저 전개 추정의 수학적 정식화, K 선택, 절단 오차로 인한 편향 분석, 일치성을 위한 K(N)→∞ 가정의 의미를 다룬다. | |
| May 7, 2026 | FDA 4.5~4.6 — 거칠기 벌점 추정과 FPCA 회귀 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 §4.5와 §4.6을 상세히 다룬다. §4.5에서는 거칠기 벌점화 손실 PSS, 미분 연산자 L의 역할, 벌점 행렬 R의 구성, 행렬 형태의 명시적 해 (X’X + λR)^{-1} X’Y, 교차 검증·REML을 통한 λ 선택을 다룬다. §4.6에서는 FPCA 회귀의 핵심 — 추정 EFPC를 회귀자로 사용하는 방식, p 선택의 CPV 기준, 데이터 기반 기저의 통계적 미묘함, 그리고 Ridge·기저 전개 추정과의 통합 시각을 제공한다. | |
| May 7, 2026 | FDA 4.7~4.8 — refund 패키지 통합 구현과 비선형 함수 회귀 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 §4.7과 §4.8을 상세히 다룬다. §4.7에서는 refund 패키지의 통합 인터페이스 pfr·lf·fpc·af, mgcv 기반 mixed model 매끄러움 추정, 시뮬레이션 데이터로 본 세 방법의 비교, 데이터셋에 따라 달라지는 성능을 다룬다. §4.8에서는 선형 모형의 한계를 넘는 두 비선형 접근 — 함수 GAM(continuously additive model) Y = α + ∫f(X(t), t)dt + ε 과 완전 비모수 Y = m(X) + ε 의 정식화, 추정, 거리 선택의 의미를 다룬다. | |
| May 7, 2026 | FDA 4.9 — Chapter 4 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 연습문제 9개를 상세 풀이한다. Problem 4.1~4.4는 표준 LS 회귀의 점근 성질(rank·불편성·분산·모집단 정규방정식), Problem 4.5~4.7은 함수 회귀의 핵심 결과(공분산 연산자 역의 부재, cross-covariance 적분 방정식, 거칠기 벌점 LS의 명시적 해), Problem 4.8~4.9는 가솔린·Tecator 데이터의 Figure 재현을 다룬다. 각 문제마다 직관·수식 유도·R 코드를 포함한다. | |
| May 7, 2026 | FDA 5.0 — 함수 반응 모형 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5의 핵심을 개관한다. 반응이 함수인 두 가지 회귀 — 함수-on-스칼라 \(Y_i(t) = X\beta(t) + \varepsilon_i(t)\) 와 함수-on-함수 \(Y_i(t) = \alpha(t) + \int \psi(t,s) X_i(s) \, ds + \varepsilon_i(t)\) — 의 최소제곱·벌점 최소제곱 추정, FPCA 기반 핵 추정, 효과 없음 검정, 선형성 진단을 다룬다. 자동차 대시보드 각도 운동 데이터와 캐나다 기온·강수 데이터를 통한 실무 적용을 포함한다. | |
| May 7, 2026 | FDA 5.1~5.2 — 함수-on-스칼라 회귀: 최소제곱과 벌점 추정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5.1~5.2 의 핵심을 다룬다. 반응이 함수, 예측변수가 스칼라인 모형 \(Y_i(t) = \sum_k x_{ik} \beta_k(t) + \varepsilon_i(t)\) 의 점별 OLS 추정량 \(\widehat{\beta}(t) = (X^T X)^{-1} X^T Y(t)\) 와, 잡음 반응에 대비한 벌점 최소제곱 — 기저 전개 + 거칠기 벌점 + 크로네커 곱 닫힌 해 — 를 다룬다. Faraway (1997) 의 자동차 대시보드 각도 운동 데이터로 실무 적용을 보여준다. | |
| May 7, 2026 | FDA 5.3~5.4 — 함수-on-함수 회귀와 refund 패키지 통합 구현 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5.3~5.4 의 핵심을 다룬다. 함수-on-함수 모형 \(Y_i(t) = \alpha(t) + \int \psi(t,s) X_i(s) \, ds + \varepsilon_i(t)\) 에서 이변량 회귀 핵의 식별성 조건(회귀자 중심화), 양방향 텐서 곱 기저 전개, Riemann sum 이산화, 라플라시안 거칠기 벌점, 그리고 refund 패키지의 fosr (function-on-scalar) 와 pffr (general functional regression) 사용법 — 캐나다 기온 OLS/GLS 비교와 pffrSim 함수-on-함수 시뮬레이션 — 을 다룬다. | |
| May 7, 2026 | FDA 5.5~5.6 — FPCA 기반 핵 추정과 효과 없음 카이제곱 검정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5.5~5.6 의 핵심을 다룬다. 함수-on-함수 회귀 모형에서 결정적 기저 대신 X·Y 의 EFPC 를 기저로 사용한 핵 분해 ψ(t,s) = Σ (σ_ℓk/λ_ℓ) u_k(t) v_ℓ(s) 의 유도와 추정 (5.5), 그리고 H_0: ψ=0 의 카이제곱 검정 — 적분 연산자 관계 λ_i Ψ(v_i) = Δ(v_i) 를 활용한 통계량 T̂N(p,q) ~ χ²{pq} 와 알고리즘 5.6.1 (5.6) 을 다룬다. 캐나다 기온-강수 데이터 적용 코드를 포함한다. | |
| May 7, 2026 | FDA 5.7~5.8 — 선형 함수 모형의 진단과 확장 참고문헌 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5.7~5.8 의 핵심을 다룬다. 함수-on-함수 선형 모형의 타당성을 검증하는 도구 — FPC 점수의 쌍별 산점도가 비선형 패턴(예: H₂(x) = x² - 1) 을 어떻게 드러내는가, 그리고 식 (5.23) ζ_iℓ = a_ℓ + b_ℓj ξ_ij + η_i,ℓj 의 유도 — 를 다룬다 (5.7). 이어서 Morris (2015) 리뷰, Faraway (1997)·Reiss et al. (2010)·Ivanescu et al. (2015)· Scheipl et al. (2015) (mixed model 확장)·Yao et al. (2005) (희소 데이터)· Kokoszka et al. (2008)·Chiou & Müller (2007)·Gabrys et al. (2010) 의 후속 발전을 정리한다 (5.8). | |
| May 7, 2026 | FDA 5.9 — Chapter 5 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.5의 연습문제 18개를 상세 풀이한다. Problem 5.1~5.4는 기저·연산자 성질 (그람 행렬 비음정·텐서 곱 기저·부호 불변성·식 (5.20)), Problem 5.5~5.9는 카이제곱 검정의 점근 분포·일치성 (4문제 체인), Problem 5.10~5.12는 식 (5.23) 잡음 성질과 함수-on-스칼라·스칼라-on-함수 진단 식, Problem 5.13~5.18은 R 패키지 (fda·refund) 의 시각화·순열 검정·동시 모형·linmod 적용을 다룬다. 각 문제마다 직관·수식 유도·R 코드를 포함한다. | |
| May 7, 2026 | FDA 6.0 — 함수 일반화 선형 모형 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.6 의 핵심을 개관한다. 비정규 반응 (이진·카운트·양수) 에 대한 GLM 의 함수 데이터 일반화 — 지수족 밀도와 링크 함수의 표준 framework (6.1), 스칼라-on-함수 GLM η_n = α + ∫X_n(t)β(t)dt (6.2), 함수 반응 GLM (시점별 점별 GLM) η_n(t) = α(t) + x_n β(t) 와 함수-on-함수 일반화 (6.3), refund 의 pfr/pffr 구현과 잠재변수 시뮬레이션 (6.4), DTI 다발성 경화증 분류 (6.5), 무한차원 밀도의 본질적 어려움 (6.6) — 을 통합 정리한다. | |
| May 7, 2026 | FDA 6.1~6.2 — GLM 배경과 스칼라-on-함수 GLM | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.6.1~6.2 의 핵심을 다룬다. 지수 기울이기(exponential tilting) 로 정의되는 지수족 밀도 f(y|θ,φ) = exp{(θy-b(θ))/a(φ) + c(y,φ)}, 정규·이항 예시, 평균-분산 식 (6.3), 링크 함수와 정규(canonical) 링크의 정의, MLE 의 추정 방정식 (6.5)~(6.6) — 표준 GLM 의 토대를 정리한다 (6.1). 이어서 함수 회귀자에 대한 GLM 모형 η_n = α + ∫X_n(t)β(t)dt 의 두 가지 추정 접근 — FPC 점수 + 표준 glm, 기저 전개 + 거칠기 벌점 (refund::pfr) — 을 다룬다 (6.2). | |
| May 7, 2026 | FDA 6.3~6.4 — 함수 반응 GLM 과 refund 구현 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.6.3~6.4 의 핵심을 다룬다. 함수 반응 GLM 의 두 형태 — 시점별 점별 GLM η_n(t) = α(t) + x_n β(t) 와 이변량 핵 GLM η_n(t) = α(t) + ∫X_n(s)β(t,s)ds (식 6.7) — 의 정의·추정 전략· 무한차원 밀도 회피 동기 (6.3), 그리고 refund 패키지의 pffr 함수로 함수-on-스칼라 (regular/irregular grid) 와 함수-on-함수 GLM 을 적합하는 방법 — 잠재 가우스 변수 + Matérn 공분산 + probit 링크 시뮬레이션, ydata long format, ff() 텐서 곱 기저 — 을 코드와 함께 다룬다 (6.4). | |
| May 7, 2026 | FDA 6.5~6.6 — DTI 다발성 경화증 분류와 무한차원 밀도의 한계 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.6.5~6.6 의 핵심을 다룬다. refund 의 DTI 데이터 — 다발성 경화증 환자와 대조군의 corpus callosum 부분 비등방성(FA) 프로파일 — 에 스칼라-on-함수 probit GLM E[Y_n] = Φ(α + ∫X_n(t)β(t)dt) 을 적용하여 MS 분류를 수행하고, β̂(t) 의 음/양 영역의 결합적 해석 — “한 시점 분리 해석 금지” 의 함정 을 다룬다 (6.5). 이어서 함수 GLM 의 이론적 근본 문제 — 무한차원 가능도가 본질적으로 정의되지 않는 이유 (측도의 직교성, Brownian motion vs Brownian bridge, small ball probability) — 와 Ibragimov-Rozanov, Stein, Li-Linde, Delaigle-Hall, Dai et al. 의 후속 발전을 정리한다 (6.6). | |
| May 7, 2026 | FDA 6.7 — Chapter 6 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.6 의 연습문제 6 개를 상세 풀이한다. Problem 6.1 은 지수 기울이기 밀도 (6.1) 의 정규화 확인, Problem 6.2 는 평균/분산 식 (6.3) 의 미분 유도, Problem 6.3 은 연쇄 법칙으로 식 (6.5) 도출, Problem 6.4~6.5 는 정규·베르누이 GLM 의 추정 방정식 (6.6) 의 구체화, Problem 6.6 은 4-part 문제로 RKHS 의 Cameron-Martin 공식과 가우스 측도의 직교/등가 조건을 연결하는 핵심 이론 — 모두 직관·수식 유도 포함. | |
| May 7, 2026 | FDA 7.0 — 희소 함수 데이터 분석 (S-FDA) 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.7 의 핵심을 개관한다. 희소 함수 데이터 (sparse FDA, S-FDA) — 각 단위 n 이 소수 (M_n) 의 시점에서만 관측되는 종단 데이터 — 의 모형 (7.1) Y_nm = μ(t_nm) + ε_n(t_nm) + δ_nm 와 그 핵심 통찰 — 개별 곡선 평활화 대신 “subjects 간 정보 풀링 (pooling)” — 을 다룬다 (7.1). 이어서 평균 함수 추정 (local polynomial / basis / RKHS) (7.2), 공분산 추정의 대각 분리 처리 (7.3), 조건부 기대 기반 sparse FPCA (PACE) 와 BLUP 점수 (7.4), sparse 함수 회귀 (7.5), 그리고 핵심 점근 결과 — 수렴 속도가 M ~ N^{1/4} 의 임계값에서 모수적 N^{-1} vs 비모수적 N^{-4/5} 로 전환 — 의 직관까지 통합 정리한다. | |
| May 7, 2026 | FDA 7.1~7.2 — 희소 FDA 도입과 평균 함수 추정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.7.1~7.2 의 핵심을 다룬다. 희소 함수 데이터의 모형 (7.1) 과 Nadarya-Watson 커널 평활의 bias-variance 분해 — Bias² ~ h^4, Var ~ (NMh)^{-1} + N^{-1} 의 유도 + 최적 h = (NM)^{-1/5} + 임계값 M ~ N^{1/4} 에서 모수적 N^{-1} vs 비모수적 N^{-4/5} 수렴 속도 전환의 점근 분석 (7.1). 이어서 평균 함수 추정의 세 표준 도구 — Local polynomial (가중 LS), Basis function (벌점 LS), RKHS (Representer theorem 과 Sobolev/Gaussian/Exponential 핵) — 의 유도와 R 코드 (loess, gam), bandwidth 선택의 subject-level CV 주의 사항을 다룬다 (7.2). | |
| May 7, 2026 | FDA 7.3~7.4 — 희소 데이터의 공분산 추정과 PACE FPCA | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.7.3~7.4 의 핵심을 다룬다. 공분산 함수 Cov(Y(t), Y(s)) = c(t,s) + σ²(t) 1_{t=s} 의 대각 불연속 — 측정 잡음 δ_nm 의 영향 — 처리: 비대각 cross product Ỹ_{nm₁}Ỹ_{nm₂} 만 사용한 이변량 평활, 양정치 보정, 잡음 분산 σ²(t) 의 분리 추정 (식 7.12) (7.3). 이어서 Sparse FPCA 의 핵심 도구 PACE (Principal Analysis by Conditional Expectation) — 점수와 관측의 결합 가우스 분포에서 BLUP 으로 점수 예측 ξ̂n = Σ{12} Σ_{22}^{-1} Y_n, 곡선 재구성 Ŷ_n(t) = μ̂(t) + Σ ξ̂_nj v̂_j(t) — 와 그 베이지안적 해석을 다룬다 (7.4). | |
| May 7, 2026 | FDA 7.5 — 희소 함수 회귀 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.7.5 의 핵심을 다룬다. Sparse 함수 데이터에서 회귀를 직접 적합하기 어려우므로 PACE 의 BLUP 점수를 회귀자 또는 반응으로 사용하여 표준 다변량 LS 로 환원하는 framework. 함수-on-스칼라 (β_j = Σ X_n ξ_nj / Σ X_n²), 스칼라-on-함수 (β_j = Σ ζ_nj Y_n / Σ ζ_nj²), 함수-on-함수 (β_ij = Σ ζ_jn ξ_in / Σ ζ_jn²) 세 형태의 추정량 도출과 PACE 가 sparse 회귀의 보편 도구임을 다룬다. | |
| May 7, 2026 | FDA 7.6 — Chapter 7 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.7 의 연습문제 17 개를 상세 풀이한다. Problem 7.1~7.4 는 sparse FDA 의 점근 분석 (Bias 식 7.2, Taylor 전개 7.3, 분산 식 7.5, MSE 최적 h 와 M = N^δ 분석), Problem 7.5~7.6 은 Local polynomial 의 닫힌 해 (7.9) 와 RKHS 노름 (7.10) 검증, Problem 7.7~7.10 은 R 코드 (RKHS, gam, CATT 공분산), Problem 7.11~7.13 은 RKHS 의 이론 (Representer Theorem, 최소화 형태, Canadian Weather 비교), Problem 7.14~7.17 은 양정치 보정·BLUP·Taylor 전개로 도함수 추정·Gaussian/Exponential 핵의 매끄러움 — 모두 직관·수식 유도·R 코드 포함. | |
| May 7, 2026 | FDA 8.0 — 함수 시계열 (Functional Time Series) 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8 의 핵심을 개관한다. 시계열 순서로 관측된 함수 수열 — 독립 가정이 깨진 곡선들 — 의 분석 framework. 스칼라 AR(1) 의 함수 일반화인 FAR(1) X_n = Φ(X_{n-1}) + ε_n 와 그 추정 (Φ ≈ C C_1^{-1} 의 pseudo-inverse 환원), KL 절단 + 단변량 점수 예측의 Hyndman-Ullah 방법, 다변량 예측 벡터 (VAR), 종속 데이터의 표준오차를 위한 장기 공분산 함수 (LRCF), partial sum 기반의 정상성 검정, FAR(1) 의 존재 조건 ‖Φ‖ < 1 (Theorem 8.8.1) — 미국 사망률 곡선과 호주 대기 오염 데이터를 통한 응용을 통합 정리한다. | |
| May 7, 2026 | FDA 8.1~8.2 — 시계열 기초와 FAR(1) 함수 자기회귀 모형 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8.1~8.2 의 핵심을 다룬다. 스칼라 시계열의 기본 — 정상성 (Definition 8.1.1), AR(1) 모형 X_n = φX_{n-1} + ε_n, 자기공분산/자기상관, 표본 추정, 예측 — 의 압축 정리 (8.1). 이어서 함수 자기회귀 모형 FAR(1) X_n(t) = ∫φ(t,s)X_{n-1}(s)ds + ε_n(t) 의 정의와 추정의 단계별 유도 — 스칼라의 φ̂ = γ̂_1/γ̂_0 직관에서 출발하여 식 (8.2) C_1 = ΦC 도출, C^{-1} 의 본질적 부재 (작은 λ_j 폭발), pseudo-inverse C_p^+ 의 정의, 그리고 KL 분해를 사용한 핵 추정량 (8.5) ψ̂(t,s) — 까지 다룬다 (8.2). | |
| May 7, 2026 | FDA 8.3~8.4 — Hyndman-Ullah 와 다변량 함수 시계열 예측 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8.3~8.4 의 핵심을 다룬다. Hyndman-Ullah 예측 — KL 절단 X_n^(J)(t) = μ̂(t) + Σ ξ̂_{n,j} v̂_j(t) 후 각 점수 시계열을 단변량 ARIMA 로 따로 예측 → 함수 예측 식 (8.6) 으로 재구성. FAR(1) 정상성 가정 없이 자동 적용 가능. 미국 사망률 곡선 응용 (medical progress 의 PC1 하향 추세) (8.3). 이어서 다변량 예측 — 점수 벡터 Ξ_n^(J) 의 VAR 모형 → cross-covariance 활용한 더 효율적 예측. Hyndman-Ullah 가 다변량의 특수 경우. 호주 그라츠 pm10 오염 곡선 응용 (R 패키지 ftsa::farforecast) — 정상 시계열의 예측이 평균 함수로 수렴하는 패턴 관찰 (8.4). | |
| May 7, 2026 | FDA 8.5~8.6 — 장기 공분산 함수 (LRCF) 와 정상성 검정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8.5~8.6 의 핵심을 다룬다. 스칼라 LRV σ² = Σ γ_h 의 함수 일반화 — 장기 공분산 함수 (LRCF) σ(t, s) = Σ γ_h(t, s) 의 정의·CLT · 추정 (식 8.16) · lag window K · bandwidth q. 종속 데이터 추론의 표준 도구 (8.5). 이어서 정상성 검정 — partial sum process U_N(x) = S_N(x) - x S_N(1) 의 점근 분포가 Brownian bridge 의 가중 적분 T = Σ λ_j ∫B_j²(x) dx 로 수렴, pivotal 버전 T_N⁰(d) 의 임계값 표 8.1 까지. R 패키지 ftsa::T_stationary 의 구현 (8.6). | |
| May 7, 2026 | FDA 8.7~8.8 — FAR(1) 의 R 구현과 존재 조건 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8.7~8.8 의 핵심을 다룬다. FAR(1) 의 fda 패키지 구현 — 핵 φ(t,s) = αst (α = 9/4) 와 사인·코사인 잡음으로 N=200 시뮬레이션, fd 객체 변환, pca.fd 로 EFPC + 점수 추출, 식 (8.5) 으로 핵 추정, p=1,2,3 의 추정 표면 비교 (Figure 8.11) (8.7). 이어서 FAR(1) 의 존재 조건 — Theorem 8.8.1 ‖Φ‖ < 1 → unique strictly stationary solution X_n = Σ Φ^j(ε_{n-j}), 단계별 증명 (Cauchy 수렴), 약화 조건 ‖Φ^j‖ < 1, Example 8.8.1 의 Hilbert-Schmidt 충분 조건 ∫∫φ²(t,s)dtds < 1 (8.8). | |
| May 7, 2026 | FDA 8.9 — 함수 시계열의 확장과 참고문헌 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8.9 의 핵심을 다룬다. Ch.8 의 본문 (FAR(1), Hyndman-Ullah, LRCF, 정상성 검정) 을 넘어선 후속 발전 — Bosq (2000) 의 ARH(1) 깊이 있는 이론, Hyndman-Ullah 시리즈의 예측 확장, Aue et al. (2015) 의 다변량 예측 정당화, Shang (2017) 의 updating, Horváth & Kokoszka (2012) 의 종합서, weakly dependent FTS 의 CLT, LRV 추정 (Horváth et al. 2013), 정상성 검정 이론 (Horváth et al. 2014; Kokoszka & Young 2016), Panaretos-Tavakoli 의 스펙트럼 방법론, Hörmann 의 동적 FPCA — 까지 함수 시계열의 현 위치와 미래 방향을 정리한다. | |
| May 7, 2026 | FDA 8.10 — Chapter 8 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.8 의 연습문제 18 개를 상세 풀이한다. Problem 8.1~8.4 는 스칼라 시계열의 표준 결과 (AR(1) 의 LS 추정·random walk 비정상성) 와 pseudo-inverse 의 비역성, Problem 8.5~8.10 은 R 응용 (시뮬레이션, mortality 데이터, Australian fertility 예측), Problem 8.11~8.14 는 LRV·정상성 검정의 구체적 계산 (MA(1) 의 LRV·partial sum U_N·Elnino), Problem 8.15~8.18 은 정상성 정의·strict→weak 함의·Theorem 8.8.1 의 약화 (‖Φ^{j₀}‖ < 1 충분 조건의 equivalent characterization). 각 문제마다 직관·수식 유도·R 코드를 포함한다. | |
| May 7, 2026 | FDA 9.0 — 공간 함수 데이터 (Spatial FDA) 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.9 의 핵심을 개관한다. 공간 위치별 곡선 데이터 {X(s_k), k = 1, …, K} 의 분석 framework — 스칼라 공간 통계 (variogram, kriging) 의 함수 일반화. 정상 + 등방 random field 가정 (9.2), 함수 크리깅 (predict X(s) 를 X(s_1), …, X(s_N) 으로) 의 가중치 LS (9.3), 평균 함수의 가중 추정 (가까운 위치 작은 가중치) (9.4), R 패키지 geofd 의 Canadian temperature 응용 (9.5), Delicado et al. 의 functional weight kriging, ionospheric global cooling, change point detection 등 확장 주제 (9.6) 을 통합 정리한다. | |
| May 7, 2026 | FDA 9.1~9.2 — 스칼라 공간 통계와 함수 공간장 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.9.1~9.2 의 핵심을 다룬다. 스칼라 공간 통계의 표준 framework — geostatistical 데이터, strict/second-order/intrinsic stationarity, isotropy, semivariogram γ(h) = (1/2)Var[X(s+h) - X(s)] 와 식 (9.2) γ(h) = C(0) - C(h), powered exponential·Matérn 공분산, kriging 시스템 (식 9.6), kriging the mean (식 9.7) (9.1). 이어서 함수 공간장 — L²-valued random field {X(s; t)}, square integrability + strict stationarity + isotropy 가정, 평균 함수 μ(t) 와 이변량 공분산 C(h; t, u) — 의 정의와 중요한 성질 (h → C(h; t, u) 가 t = u 일 때만 양정치) (9.2). | |
| May 7, 2026 | FDA 9.3~9.4 — 함수 크리깅과 평균 함수 가중 추정 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.9.3~9.4 의 핵심을 다룬다. 함수 크리깅 — 미관측 위치 X(s) 를 X̂(s) = μ + Σw_k(X(s_k)-μ) 로 예측, L² 손실 E‖X̂(s) - X(s)‖² 의 전개로 함수 공분산 C(s, s’) (식 9.8) 도출, kriging 시스템이 스칼라 (9.6) 과 형식적으로 동일, C(s, s’) = ∫C(‖s-s’‖; t) dt 로 시점별 스칼라 spatial covariance 의 적분으로 추정 (9.3). 이어서 평균 함수의 가중 추정 — μ̂(t) = Σw_k X(s_k; t), 단일 가중치 vs 함수 가중치, Lagrange multiplier 로 푼 시스템 (식 9.12), Canadian Weather 의 simple vs weighted average 비교 (Figure 9.1) 로 가까운 위치에 작은 가중치 부여의 효과 (9.4). | |
| May 7, 2026 | FDA 9.5~9.6 — geofd 패키지와 공간 함수 데이터의 확장 주제 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.9.5~9.6 의 핵심을 다룬다. geofd 패키지의 R 구현 — Canadian Weather 35 개 관측소에서 Calgary 의 기온 곡선 예측, trace variogram 추정, exponential 모형 적합, kriging 가중치 (Edmonton ~ 0.7) 와 실제 비교 (9.5). 이어서 확장 주제 — Delicado et al. (2010) 의 함수 가중치 kriging, Caballero·Menafoglio 의 covariate-based 평균, Gromenko-Kokoszka 의 이온층 글로벌 냉각 (β_2 < 0 검증), midwest 미국 강수 변화점 검정 (1966 년), separability 검정 (Aston, Constantinou, flip-flop 방법), French et al. (2016) 의 공간-시간 폭염 (heat wave) 확률 — 까지 함수 공간 데이터의 첨단 응용을 정리한다 (9.6). | |
| May 7, 2026 | FDA 9.7 — Chapter 9 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.9 의 연습문제 13 개를 상세 풀이한다. Problem 9.1~9.4 는 공분산의 기초 성질 (C(0)≥0, |C(h)|≤C(0))·valid covariance·식 (9.2) semivariogram·random walk 의 intrinsic vs strict stationarity, Problem 9.5~9.7 은 kriging 시스템 도출 (식 9.5, 9.6, 9.7) — Lagrange multiplier 의 표준 응용, Problem 9.8 은 exponential 공분산 + 3 개 위치의 구체적 mean kriging 계산, Problem 9.9~9.10 은 함수 일반화 (식 9.12 + functional semivariogram 9.19), Problem 9.11~9.13 은 R 코드 (Canada 지도 위 가중치 시각화·okfd 대안 kriging·Figure 9.1 재현). 각 문제마다 직관·수식 유도·R 코드를 포함한다. | |
| May 7, 2026 | Klein Ch.13 — Multivariate Survival Analysis | Statistics, Survival Analysis | Cox 모형부터 모수적 회귀까지 Ch.8-12 의 모든 기법은 개체 간 독립성을 전제했다. 형제·부부·재발 사건처럼 그룹 내 연관이 있는 데이터에서는 어떻게 분석하는가. 본 포스트는 Klein Ch.13 의 세 가지 접근 — frailty 모형 (Clayton-Hougaard), Commenges-Andersen score test, Lee et al. marginal model — 의 구조·추정·검정과 Mantel litter rat 예제로 본 세 접근의 결과 차이를 정리한다. (Klein & Moeschberger, 2003, Ch.13) | |
| May 6, 2026 | MINERVA 시리즈 선수지식 가이드 | Agent | MINERVA 시리즈는 바이브 코딩으로 만들어진 Agent 플랫폼 코드를 정밀하게 분석한다. 본 글은 시리즈를 부드럽게 읽기 위해 Engineering/Python·web·DevOps에 흩어진 선수지식 글들을 단계별로 묶어 안내한다. 자가 진단 + 빠른 진입 경로 + 전체 학습 경로 두 갈래로 정리한다. | |
| May 6, 2026 | MINERVA BaseAgent 계약 v2 | Agent | Phase C-2 마무리 편. 13~16편의 LangGraph 기초·노드 분해·State 설계·Checkpointing/HITL을 다시 BaseAgent 계약으로 묶는다. v1(ABC + run/stream + Pydantic)에 graph·state_schema· checkpointer 속성을 더해 v2를 정의하고, v1 에이전트를 v2 프레임워크에서 그대로 굴릴 수 있도록 LegacyAgentAdapter 패턴을 제시한다. FastAPI 라우터 변경, A/B 실험 호환, 마이그레이션 전략까지 다룬다. | |
| May 6, 2026 | MINERVA CI/CD — GitHub Actions로 빌드·테스트·배포 묶기 | Agent | 07-0편이 컨테이너 이미지를 만드는 방법, 11-1편이 그 이미지를 재현 가능하게 만드는 방법, 12-1편이 테스트를 단계별로 분리하는 방법을 다뤘다면, 본 글은 그 셋을 GitHub Actions 워크플로로 묶어 자동화한다. PR 시점 lint/unit, integration test, 이미지 build/push, Azure Container Apps 배포까지 4개 워크플로와 시크릿 관리, 롤백 전략을 정리한다. | |
| May 6, 2026 | MINERVA Config 운영 패턴 — Hot Reload·시크릿 주입·컨테이너 고정 | Agent | 11-0편이 .env → YAML → A/B override의 정적 전파 흐름을 추적했다면, 본 글은 그 위에 얹히는 운영 패턴 3가지를 다룬다. Hot Reload 가능성과 한계, Docker/K8s 시크릿 주입 패턴, 그리고 사용자 제안으로 추가된 “도커로 Config를 고정시켜 재현 가능한 빌드”까지 정리한다. | |
| May 6, 2026 | MINERVA 고급 테스트 패턴 — Property·Snapshot·동시성·Contract·Mutation·CI 분리 | Agent | 12-0편이 현재 테스트 구조의 진단·검증된 영역·미검증 영역·보강 우선순위를 다뤘다면, 본 글은 그 보강에 적용할 6가지 고급 테스트 패턴(Property-Based, Snapshot, 동시성, Contract, Mutation, 비결정성 처리)과 CI 분리 전략, PG 마이그레이션 회귀 테스트를 정리한다. | |
| May 6, 2026 | MINERVA LangGraph 기초 | Agent | Phase B에서 만든 LCEL 기반 Chain 파이프라인의 한계를 짚고, LangGraph StateGraph가 그 한계를 어떻게 푸는지 정리한다. Node·Edge·State·Conditional Edge의 의미를 MINERVA의 RAG 흐름에 매핑하고, 같은 RAG를 Chain과 StateGraph 두 방식으로 작성해 비교한다. Phase C-2 전환의 이론적 출발점이며, 14편(노드 분해)과 15편(State 설계)의 선행 학습이다. | |
| May 6, 2026 | MINERVA RAG Chain 분해 | Agent | Phase B의 LCEL Chain은 _prepare() 한 함수 안에 검색·리랭크·Parent 매핑·컨텍스트 조립·생성·응답 후처리가 묶여 있다. 이 함수를 LangGraph의 일급 노드로 분해해 단위 테스트, 검색 실패 폴백, A/B arm 교체, 단계별 관찰성을 어떻게 얻는지 코드로 정리한다. 13편(LangGraph 기초)의 매핑을 실제 분해 코드로 옮기고, 15편(State 설계) 직전의 실용 단계다. | |
| May 6, 2026 | MINERVA State 설계 | Agent | 14편에서 _prepare()를 7개 노드로 분해했다. 분해의 실효는 노드를 잇는 State가 잘 설계되어 있느냐에 달려 있다. TypedDict와 Annotated reducer 4 패턴(덮어쓰기·누적·병합·커스텀)을 정리하고, MINERVA QnaState를 실제로 설계한다. Pydantic 객체 보관 전략, 대화 히스토리·도구 이력 표현, 부풀어 오른 State를 Subgraph로 분리하는 기준까지 다룬다. | |
| May 6, 2026 | MINERVA Checkpointing과 Human-in-the-Loop | Agent | 잘 정의된 State는 “영속화”와 “사람 개입”의 토대다. LangGraph Checkpointer로 노드 단위 State를 저장·재개하고, interrupt로 사람 검토 지점을 그래프에 박는 방법을 정리한다. MINERVA의 Data Standardizer 승인 흐름, QnaChatbot의 인용 부족 검토, A/B 실험과 thread 통합까지 다룬다. | |
| May 6, 2026 | MINERVA Tool Binding – 정적 파이프라인에서 동적 도구 선택으로 | Agent | MINERVA의 현재 sub_agent 호출은 정적 파이프라인이다. 본 글은 이 구조를 LangGraph의 ToolNode + bind_tools 패턴으로 전환할 때의 도구 정의·바인딩·실행 흐름을 설계한다. 표준화 추천, 도메인 분류, 도메인 감사, 물리명 생성을 도구 후보로 분해하고, Tool Schema·라우팅·실패 처리·관측성 통합까지 다룬다. | |
| May 6, 2026 | MINERVA ReAct 루프 – Reasoning과 Acting의 반복으로 풀어내기 | Agent | Tool Binding(C11)이 도구를 등록하는 단계라면 ReAct 루프는 LLM이 그 도구를 언제·몇 번·어떤 순서로 호출할지 스스로 결정하는 단계다. Thought → Action → Observation 반복 구조, LangGraph의 create_react_agent 패턴, MINERVA의 멀티홉 질문 시나리오, 종료 조건과 무한 루프 방지, 토큰·비용·지연의 trade-off를 정리한다. 청사진 + 현 코드 분석 혼합. | |
| May 6, 2026 | MINERVA 멀티스텝 플래닝 – Plan-and-Execute와 자기 수정 | Agent | ReAct(C12)가 한 사이클씩 다음 행동을 결정한다면, Plan-and-Execute는 먼저 전체 계획을 세우고 단계별로 실행한 뒤 결과에 따라 재계획한다. Plan 노드·Execute 노드·Re-Plan 분기의 구조, MINERVA 복잡 질문 분해 시나리오, ReAct 대비 비용·예측 가능성 trade-off를 다룬다. 청사진 + 현 코드 분석 혼합. | |
| May 6, 2026 | MINERVA 에이전트 위임 – Supervisor가 하위 에이전트를 호출하는 패턴 | Agent | Tool Binding(C11)·ReAct(C12)·Plan-and-Execute(C13)는 한 에이전트 안의 도구·단계를 다뤘다. C14는 한 단계 더 나아가 여러 에이전트가 협업하는 구조를 본다. Supervisor가 하위 에이전트(RetrievalAgent, AuditorAgent, …)를 호출하고, 각 하위 에이전트가 자신만의 sub-graph를 가진다. MINERVA의 DataStandardizer는 이미 정적 supervisor라 LangGraph Multi-Agent로의 전환이 자연스럽다. | |
| May 6, 2026 | MINERVA Phase C-4 — A/B 테스트 심화 (실험 설계·통계 검정·조기 종료) | Agent | MINERVA 06편이 YAML 실험 정의·sticky hash 할당·JSONL 메트릭 수집 같은 운영 토대를 다뤘다. 본 편은 그 위에 통계 방법론을 얹는다. 표본 크기·검정력 계산, 메트릭별 검정 선택, 분산 감소 기법(CUPED), 다중 비교 보정, Sequential Testing, A/A test, 자주 발생 함정(peeking·HARKing·novelty effect)을 정리한다. 06편과 옵션 A로 보완 — 운영 메커니즘은 06, 통계 방법론은 22. | |
| May 6, 2026 | MINERVA Phase C-4 — 지능형 라우팅 (Thompson Sampling·Contextual Bandit) | Agent | 06편·22편의 A/B는 기간을 정해 비교하고 사후에 결정한다. 그러나 새 reranker·새 모델·여러 프롬프트 변형이 계속 들어오면 A/B를 여러 번 돌리는 비용(explore loss)이 커진다. Multi-Armed Bandit은 매 순간 보상이 좋은 arm 쪽으로 트래픽을 옮기며 연속 학습한다. 본 편은 ε-greedy·UCB1·Thompson Sampling을 정리하고, 사용자 context로 분기하는 Contextual Bandit(LinUCB·Logistic Thompson Sampling)으로 확장한다. MINERVA 스킬 라우팅·모델 선택·프롬프트 변형 관리에 어떻게 적용되는지 다룬다. | |
| May 6, 2026 | MINERVA Phase C-4 — 사용자 세그멘테이션 (부서·역할·행동·토픽 코호트) | Agent | Contextual Bandit(C16)의 context feature, 개인화 전략(C18)의 전제, A/B 분석(22편)에서 Simpson’s paradox 방어 — 세 가지 모두가 사용자를 잘 분류했음을 가정한다. 본 편은 세그멘테이션의 4가지 차원 (명시적 속성·행동 기반·토픽 기반·시간 기반), 클러스터링 알고리즘 선택, 세그먼트 안정성 평가(silhouette·ARI), 운영 관리(라벨링·갱신·콜드 사용자), 자주 발생 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-4 — 개인화 전략 (프롬프트·스타일·지식 범위 조정) | Agent | C17 세그멘테이션이 “사용자를 어떻게 분류할지”였다면, 개인화는 “분류 결과로 무엇을 다르게 할지”이다. 본 편은 개인화의 3축(시스템 프롬프트·응답 스타일·지식 범위), 분기 방식(rule·embedding·학습 기반), Override 우선순위와 Inheritance, A/B와의 결합, over-personalization·filter bubble·privacy 함정을 정리한다. MINERVA 운영에서 개인화도 실험 대상이라는 관점이 핵심. | |
| May 6, 2026 | MINERVA Phase C-4 — 실험 파이프라인 자동화 (가설→실험→분석→배포 루프) | Agent | C15(A/B 심화)·C16(Bandit)·C17(세그멘테이션)·C18(개인화)을 운영에서 끊김 없이 돌리려면 파이프라인 자동화가 필수다. 본 편은 9단계 루프(가설 등록·표본 크기 산출·실험 등록·할당·모니터링· 분석·의사결정·배포·사후 보고서)를 정리하고, 자동·반자동·사람 게이트의 분리 기준, 실험 카탈로그·거버넌스, 자주 발생 함정을 다룬다. Phase C-4의 마무리. | |
| May 6, 2026 | MINERVA Phase C-5 — 대화 로깅 설계 (구조화된 발화 수집과 저장) | Agent | Phase C-5의 모든 분석(C21 의도·토픽, C22 품질 평가, C23 피드백 루프)이 한 가지를 가정한다 — 대화가 잘 로깅되어 있다. 본 편은 발화 단위 정의(turn·session·conversation·query), 스키마 3계층(raw·structured·feature), 저장 계층(hot·warm·cold), PII 처리·보존 정책, 인덱싱·검색 인프라, MINERVA 적용을 정리한다. C20 자체가 다른 시스템의 의존성이라 설계 결정 하나가 다운스트림 전체의 한계가 된다. | |
| May 6, 2026 | MINERVA Phase C-5 — 의도 분류와 토픽 클러스터링 | Agent | 의도 분류(supervised)와 토픽 클러스터링(unsupervised)은 같은 텍스트에 두 가지 다른 질문을 한다. “이 질의는 알려진 카테고리 어디에 속하는가” vs “어떤 새 묶음이 자연스럽게 떠오르는가”. 본 편은 두 접근의 알고리즘(LLM zero/few-shot·임베딩+분류기·BERTopic·HDBSCAN), 평가 방법, 계층적 결합, drift detection, C17 세그멘테이션·C23 피드백 루프와의 연동을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-5 — 응답 품질 자동 평가 (Explicit·Implicit·Heuristic·LLM-as-Judge) | Agent | thumbs_up만으로는 품질을 못 잡는다 — 사용자가 클릭을 안 할 뿐. 본 편은 응답 품질의 4계층 신호 (Explicit·Implicit·Heuristic·LLM-as-Judge)를 정의하고, 각 신호의 수집 방법·편향 패턴·신뢰도를 정리한다. 다중 신호 융합 점수, 골든셋 기반 offline eval, C23 피드백 루프와의 연동, 자주 발생하는 selection bias·judge bias·gaming 함정도 다룬다. | |
| May 6, 2026 | MINERVA Phase C-5 — 피드백 루프 (분석 결과를 프롬프트·지식·라우팅에 반영) | Agent | C20~C22가 데이터 → 약점 발견까지였다면, C23은 약점 → 처치 → 검증 → 학습의 닫힌 루프다. 본 편은 피드백의 4가지 타깃(프롬프트·지식·라우팅·정책), 약점 탐지 자동화, LLM 가설 생성, C19 실험 파이프라인 통합, 거버넌스 게이트(auto·반자동·사람), 학습 카탈로그를 정리한다. Phase C-5의 클로저로 모든 분석이 운영 개선으로 환류된다. | |
| May 6, 2026 | MINERVA Phase C-6 — 하네싱 아키텍처 (Supervisor·Guard Rail·Resource Quota) | Agent | Phase C-3까지의 에이전트는 점점 자율적으로 도구를 선택하고 다중 단계 플랜을 실행한다. 자유도가 늘어날수록 잘못된 결정의 영향도 커진다. 본 편은 하네싱(harnessing)의 정의, 3대 컴포넌트(Supervisor·Guard Rail·Resource Quota), 입력·출력·도구 가드의 차이, 토큰·시간·비용 예산 관리, audit log·거버넌스 결합, MINERVA에서 LangGraph 위에 어떻게 하네싱을 얹는지 정리한다. | |
| May 6, 2026 | MINERVA Phase C-6 — 실행 제어 (Timeout·Retry·Circuit Breaker·Kill Switch) | Agent | C24 하네싱이 “허용된 행동의 경계”였다면, C25는 “허용된 행동이 실패할 때 어떻게 대응할지”이다. 본 편은 실행 제어의 4대 패턴(Timeout·Retry·Circuit Breaker·Kill Switch)에 Bulkhead를 더한 5대 패턴, failure mode 분류(transient·persistent·cascading), idempotency·retry budget·thundering herd 회피, 운영 dashboard·SLO·alert, LangGraph 구현 패턴, MINERVA 적용을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-6 — 에이전트 생명주기 (등록·버전·활성화·폐기·롤백) | Agent | C24 하네싱·C25 실행 제어가 운영 중 안전을 다뤘다면, C26은 시간 축의 안전이다. 에이전트가 어떻게 도입되고 활성화되고 폐기되는지의 전체 생명주기 관리. 본 편은 6단계 생명주기, registry 스키마, 버전 관리(semver·prompt·model 분리), canary 배포·롤백 전략, CI/CD 통합, zombie agents 같은 운영 부채 함정을 정리한다. Phase C-6의 클로저로 거버넌스가 시간 축으로 확장된다. | |
| May 6, 2026 | MINERVA Phase C-7 — 스킬 정의 (프롬프트 + 도구 + 파라미터 + 메타의 표준 단위) | Agent | 150개를 넘기는 프롬프트·도구 변형을 관리하려면 단순 prompt 카탈로그로는 부족하다. 본 편은 스킬을 4 컴포넌트(System prompt + Tools + Parameters + Metadata)의 표준 단위로 정의하고, SKILL.md 명세, 스킬 vs 에이전트의 단위 차이, 런타임 instantiation, 합성 가능성, C24 하네싱·C26 생명주기 통합, MINERVA 적용을 정리한다. Phase C-7의 첫 토대. | |
| May 6, 2026 | MINERVA Phase C-7 — 스킬 레지스트리 (등록·검색·버전·의존성 추적) | Agent | C27이 스킬 단위를 정의했다면, C28은 그 단위들을 하나로 묶는 카탈로그 시스템이다. 본 편은 레지스트리 데이터 모델, 등록 API, 검색·discovery 패턴(이름·태그·임베딩), 버전 resolution 전략, 의존성 그래프(skill→tool·skill→skill·agent→skill), git+DB hybrid 저장, 캐싱 전략, CI/CD 통합, registry SPOF·cache invalidation·dependency cycle 같은 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-7 — 스킬 조합과 동적 선택 (Composition·Router 패턴) | Agent | C27이 스킬 단위를 정의하고 C28이 카탈로그를 만들었다면, C29는 스킬을 조합하고 동적으로 선택하는 방식이다. 본 편은 Composition 4패턴(Sequential·Parallel·Conditional·Recursive)과 Router 4패턴(Static lookup·Semantic search·LLM-driven·Hybrid), 운영 trade-off(latency vs flexibility), LangGraph state와의 통합, C24 하네싱 가드, chain explosion·recursive runaway·semantic mismatch 같은 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-7 — 스킬 테스트와 품질 게이트 (5계층 테스트 + 골든셋 회귀) | Agent | C27이 스킬을 정의하고 C28·C29가 카탈로그·조합을 만들었다면, C30은 그 모든 것을 신뢰 가능하게 한다. 본 편은 5계층 테스트(Schema·Snapshot·Golden Eval·Property-based·Pairwise), 골든셋 설계 원칙, CI/CD 자동 게이트(PR → 테스트 → promote), 회귀 처리 워크플로, C22 fused_score와의 결합, C26 lifecycle 단계별 어떤 테스트가 필요한지 정리한다. Phase C-7의 클로저로 스킬 생태계가 시간이 갈수록 안전해진다. | |
| May 6, 2026 | MINERVA Phase C-8 — 지식 문서 생명주기 (수집·전처리·인덱싱·갱신·폐기) | Agent | C26 에이전트 생명주기·C30 스킬 게이트와 같은 6단계 패턴을 지식 문서·인덱스에 확장. 본 편은 문서 생명주기 6단계, 수집(sources·crawler·webhook), 전처리(parsing·OCR·dedup·PII), 인덱싱(chunking·embedding·metadata), 갱신(delta indexing·versioning), 폐기(retention·compliance), C24 하네싱(collection 권한)과의 결합, stale knowledge·duplicate·permission leak·embedding drift 같은 함정을 정리한다. Phase C-8의 첫 토대. | |
| May 6, 2026 | MINERVA Phase C-8 — 청킹 전략 고도화 (문서 유형별 최적 분할 + 메타데이터) | Agent | C31이 문서 생명주기였다면, C32는 그 안의 indexed 단계의 핵심 기술이다. 청킹은 RAG 품질의 70%를 결정한다 — 잘못 자르면 임베딩이 의미 없고, retrieval 점수가 부정확하다. 본 편은 청킹의 5축(단위·크기·overlap·메타·계층), 문서 유형별 최적 패턴(Markdown·PDF·Code·Table·Dialog·정책), Parent-Child·Hypothetical query·summary embedding 같은 고급 기법, 청크 품질 지표, small chunk·context loss·metadata bloat 같은 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-8 — 지식 품질 모니터링 (커버리지·신선도·정확성·드리프트) | Agent | C31이 문서 생명주기를, C32가 청킹을 다뤘다면, C33은 그 운영의 가시성을 만든다. 지식 품질의 5종 신호(Coverage·Freshness·Accuracy·Citation Health·Drift), 커버리지 갭 분석, 부실 문서 자동 탐지, 신선도·drift 감지, 대시보드·알람 설계, C23 피드백 루프와의 결합으로 지식 기반이 시간이 갈수록 좋아지는 시스템을 만든다. Phase C-8 클로저. | |
| May 6, 2026 | MINERVA Phase C-9 — 관측성 설계 (Tracing·Metrics·Logs + OpenTelemetry) | Agent | LLM Agent 시스템의 관측성은 일반 web service보다 더 까다롭다 — 응답이 비결정적, 다단계 분기, 외부 LLM·tool 호출, streaming 등. 본 편은 OpenTelemetry 3 pillar(Metrics·Logs·Traces), LLM 특화 신호(token usage·prompt version·tool calls·streaming), Sampling 전략, SLO·SLI·error budget, Dashboard 설계(4 golden signals + LLM extras), C25·C33과의 결합, MINERVA 적용, cardinality 폭발·sampling bias 같은 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-9 — 비용 최적화 (토큰 예산·캐싱·모델 티어링·배치) | Agent | LLM Agent는 사용자·query 증가에 따라 비용이 비선형 증가한다. 본 편은 비용의 5축 (input·output·embedding·외부 API·storage), 6가지 최적화 기법(token budget·prompt cache·response cache· semantic cache·model tiering·batch processing), prompt compression·RAG 효율화, cost SLO·alert, C16 Bandit·C19 실험과의 결합, 자주 발생하는 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-9 — 보안과 접근 제어 (Authentication·Authorization·Data Isolation·Audit·LLM 특화) | Agent | LLM Agent는 일반 SaaS의 5계층 보안(인증·권한·격리·감사·시크릿)에 더해 LLM 특화 위협 (prompt injection·jailbreak·data exfiltration·tool abuse)을 가진다. 본 편은 두 측면을 모두 다룬다. RBAC·ABAC, 멀티테넌트 데이터 격리, prompt injection 방어, audit log 패턴, secrets 관리, GDPR·HIPAA 같은 compliance 결합, security monitoring, MINERVA 적용을 정리한다. Phase C-9 클로저. | |
| May 6, 2026 | MINERVA Phase C-10 — 개발 조직 설계 (Platform 팀 vs Domain 팀, 모듈 소유권) | Agent | Phase C-10은 Phase C의 마지막 — Phase A부터 C-9까지의 모든 인프라가 1.5명 개발 환경에서 50명 개발·1000명 사용자 환경으로 옮겨갈 때 무엇이 바뀌는가. 본 편은 조직 설계가 시스템 설계를 결정하는 Conway’s Law, Team Topologies 4 패턴(Stream-aligned·Platform·Enabling·Complicated subsystem), MINERVA의 4팀 구조, CODEOWNERS·PR·온콜 책임, 인터페이스 계약, 인지 부하 분산, 신규 팀원 onboarding, 자주 발생 함정을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-10 — 운영 인프라 (Capacity·SLO·Incident·Toil·DR) | Agent | C37이 사람·팀 구조였다면, C38은 그 팀이 운영하는 인프라 자체. 본 편은 SRE 5축 (Capacity·SLO/SLI·Incident·Toil·Disaster Recovery), 부하 관리(autoscale·rate limit·backpressure), Incident 4 등급(P1~P4) 대응 절차, Post-mortem 패턴, Toil 감소 자동화, Chaos Engineering, RTO·RPO·DR drill, 24/7 on-call 운영 디테일, MINERVA 적용을 정리한다. | |
| May 6, 2026 | MINERVA Phase C-10 — 바이브 코딩에서 설계 기반 개발로 (전환점과 거버넌스) | Agent | MINERVA 시리즈의 마지막 글. Phase B는 1.5명이 빠르게 만든 바이브 코딩 결과물. Phase C는 그 결과물을 운영 가능한 시스템으로 전환하는 작업이었다. 본 편은 4가지 전환점 (MVP·검증·운영·거버넌스), 전환 신호 식별, 각 단계에서 필요한 인프라·조직·운영·거버넌스 매핑, Phase A부터 C-10까지의 통합 회고, 안 다룬 영역(향후 시리즈 후보)을 정리한다. MINERVA 시리즈가 한 권의 책으로 묶이는 마지막 페이지. | |
| May 6, 2026 | GitHub Actions 워크플로 기초 | Engineering | MINERVA 07-1편이 4개 워크플로(pr-check·integration·build-image·deploy)로 CI/CD를 묶었다. 본 글은 그 토대인 GitHub Actions의 핵심 개념을 정리한다. workflow·job·step 계층, trigger 종류, action 사용, GitHub Secrets·환경변수, matrix build, job 의존성·캐싱·OIDC를 한 호흡으로 다룬다. | |
| May 6, 2026 | Docker Compose 기초 | Engineering | 단일 docker run으로 시작한 컨테이너 운영이 멀티 서비스(API + DB + 캐시 + frontend)로 커지면 명령어가 폭발한다. Docker Compose가 이를 yml 파일 1개로 묶어 up/down 한 번으로 운영한다. 본 글은 services·networks·volumes 구조, depends_on·healthcheck 의존성, 환경별 override, profiles 선택 실행, .env 통합 패턴을 정리한다. MINERVA 07-0편 운영의 토대. | |
| May 6, 2026 | Bash + PowerShell 기초 — Cross-platform 셸 스크립팅 | Engineering | Linux/Mac은 Bash, Windows는 PowerShell이 표준이다. 운영 자동화 스크립트(Makefile·render.sh·.github/workflows)는 두 셸을 모두 다뤄야 하므로 변수·파이프·조건문·루프 같은 공통 개념과 두 셸의 결정적 차이를 정리한다. cross-platform 호환 패턴, set -e 운영, exit code, 자주 발생하는 오류까지. | |
| May 6, 2026 | YAML 기초·문법·anchor | Engineering | MINERVA의 RAGConfig YAML, A/B 실험 정의, GitHub Actions 워크플로, _quarto.yml, docker-compose 파일이 모두 YAML이다. 본 글은 들여쓰기·multiline string·anchor·alias·merge key 같은 핵심 문법과 자주 발생하는 함정을 정리한다. JSON과의 관계, 환경변수 보간 패턴까지. | |
| May 6, 2026 | 환경변수와 dotenv 운영 | Engineering | MINERVA 04편이 .env 우선순위를, 11-0편이 RAGConfig 환경변수 의존을, 11-1편이 Docker/K8s 시크릿 주입을 다룬다. 본 글은 그 토대인 환경변수 기초를 정리한다. os.environ·python-dotenv·환경별 분리·Pydantic BaseSettings·시크릿 관리·시스템 env 우선순위까지. | |
| May 6, 2026 | pytest 기초 | Engineering | MINERVA의 12-0편(테스트 진단)과 12-1편(고급 테스트 패턴)이 모두 pytest를 가정한다. 본 글은 fixture·parametrize·marker·monkeypatch·conftest·coverage·async 테스트까지 pytest 사용의 핵심을 정리한다. 12편을 읽기 전 또는 동시에 참조하면 패턴이 가볍게 읽힌다. | |
| May 6, 2026 | Python async/await 기초 | Engineering | FastAPI는 async def, SSE는 async iterator, LangGraph는 astream_events를 사용한다. 세 도구 모두 같은 Python asyncio 모델 위에 있다. 본 글은 동기·비동기 차이의 직관, async/await 문법, 이벤트 루프, asyncio 기본 도구, 자주 만나는 오류 패턴을 정리한다. MINERVA 시리즈를 읽기 전에 이 모델을 먼저 익혀두면 나머지 글들이 훨씬 가볍게 읽힌다. | |
| May 6, 2026 | Python CLI 도구 — argparse·click·typer | Engineering | Python에서 명령행 도구를 만드는 세 가지 주요 방법(argparse·click·typer)을 비교한다. 표준 라이브러리(argparse)부터 decorator 기반(click), type hints 기반(typer)까지 각각의 강점과 적합한 상황, 서브커맨드·환경변수·테스트 패턴을 정리한다. MINERVA scripts/manage.py 같은 운영 도구가 정확히 이 토대 위에 있다. | |
| May 6, 2026 | Python structured logging — 운영 환경 적용 패턴 | Engineering | 기초 logging 모듈(레벨·handler·formatter)은 별도 글에서 다루고, 본 글은 운영 환경에서 직접 쓰는 structured logging 패턴을 정리한다. JSON 포맷, correlation ID로 요청 추적, async 환경 안전성, log aggregator 친화 출력, 시크릿 마스킹, QueueHandler까지. MINERVA 08-1편 perf_counter timing 로그·11-1편 /health/build 토대. | |
| May 6, 2026 | Python typing 심화 | Engineering | LangGraph는 TypedDict로 State를 정의하고 Annotated[list, add]로 reducer를 부착한다. Pydantic은 Generic·Optional·Literal을 사용하고, BaseAgent ABC는 Protocol에 가깝다. 본 글은 type hint 기초 위에 TypedDict·Annotated·Generic·Protocol·Literal·Final까지의 심화 사용을 정리한다. MINERVA 15편(State 설계)의 reducer 패턴이 어떻게 가능한지 토대를 깐다. | |
| May 6, 2026 | JSON Schema 기초 | Engineering | JSON Schema는 JSON 데이터의 구조·타입·제약을 선언적으로 기술하는 표준이다. Pydantic이 자동으로 생성하고, FastAPI가 OpenAPI에 노출하며, MINERVA 12-1편 Snapshot 테스트가 응답 구조 회귀 검증에 사용한다. 본 글은 핵심 키워드(type·properties·required)부터 변형($ref·oneOf·allOf), 자주 발생 오류까지 정리한다. | |
| May 6, 2026 | REST vs GraphQL vs gRPC — 세 API 스타일의 결정 트리 | Engineering | 웹 API를 만들 때 REST·GraphQL·gRPC 세 가지 주요 선택지가 있다. 본 글은 각 스타일의 통신 모델·메시지 형식·클라이언트 코드 차이, 사용 시나리오별 적합성, 운영·관측성 trade-off, MINERVA가 REST를 선택한 근거를 정리한다. api-fundamentals 글의 REST 깊이 위에 두 대안을 비교한다. | |
| May 6, 2026 | WebSocket vs SSE — 두 실시간 프로토콜의 결정 트리 | Engineering | 실시간 통신이 필요할 때 WebSocket과 SSE 중 무엇을 선택할지는 워크로드 특성에 달려 있다. 본 글은 두 프로토콜의 핵심 차이(양방향 vs 단방향, HTTP 호환성, 재연결, 인증), FastAPI WebSocket 기초, 사용 시나리오별 추천(채팅·LLM 토큰 스트리밍·게임·협업), MINERVA가 SSE를 선택한 근거를 정리한다. | |
| May 6, 2026 | FDA 3.0 — 함수 데이터의 수학적 프레임워크 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.3의 핵심을 개관한다. 함수를 다루는 통계 추론을 가능케 하는 수학적 무대(L² 공간), 확률 함수의 평균·공분산, Karhunen-Loève 전개와 함수 주성분, 그리고 공분산 연산자의 스펙트럼 분해까지를 유한차원 다변량 통계와의 대비를 통해 직관적으로 설명한다. | |
| May 6, 2026 | FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.3의 첫 두 절을 상세히 다룬다. §3.1에서는 L² 공간의 정의, 내적·노름·거리, Cauchy-Schwarz 부등식, 정규직교 기저와 Parseval 등식을 유한차원 유클리드 공간과의 비교를 통해 직관적으로 설명한다. §3.2에서는 확률 함수의 정의, 모평균·모공분산 함수, Karhunen-Loève 전개의 의미, 브라운 운동의 닫힌 형태 KL, 가우스 확률 함수까지 상세히 유도한다. | |
| May 6, 2026 | FDA 3.3 — 선형 변환과 공분산 연산자 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.3 §3.3을 상세히 다룬다. 선형 변환의 정의, 함수→스칼라(L₁) 및 함수→함수(L₂) 적분 연산자의 구조, Hilbert-Schmidt 유한성 조건, 그리고 공분산 연산자의 정의와 스펙트럼 분해 C(x) = Σλⱼ⟨x,vⱼ⟩vⱼ의 의미를 다변량 행렬 대각화와의 대응을 통해 직관적으로 설명한다. | |
| May 6, 2026 | FDA 4.0 — 스칼라-on-함수 회귀 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.4의 핵심을 개관한다. 스칼라-on-함수 회귀 모형 Y = ∫β(s)X(s)ds + ε에서 무한차원 모수 β의 식별 문제, 표준 다중 회귀와의 차이(다공선성 함수 버전), 그리고 세 가지 추정 접근 — 기저 전개, 거칠기 벌점, 함수 주성분 회귀 — 의 직관·장단점·R 구현을 다룬다. 가솔린 옥탄가, 고기 지방 함량, DTI 인지 점수 예제를 통해 실무 적용을 보여준다. | |
| May 6, 2026 | § 9.5.1-9.5.3 — Mixed-Effects Logistic: ICC, 다중 랜덤 효과, 이질 분산 | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.5 의 핵심 소절 (9.5.1-9.5.3) 자세한 풀이. 단일 수준 로지스틱에 랜덤 절편 한 개를 추가하면 식 (9.13) 의 mixed-effects logistic 이 만들어진다. 표준화 형태 (식 9.14) 와 잠재 변수 표현 (식 9.15) 에서 총 잠재 분산이 \(\sigma_v^2 + \sigma_\epsilon^2\) 가 되어 fixed-effects/GEE 와 회귀 계수가 비축소된다는 것 (식 9.16) 이 자연 도출된다. § 9.5.1 의 ICC 는 이 분산 분해의 직접 산물 — 로지스틱은 \(\sigma_v^2 / (\sigma_v^2 + \pi^2/3)\), 프로빗은 \(\sigma_v^2 / (\sigma_v^2 + 1)\). § 9.5.2 는 랜덤 효과를 여러 개로 확장 (식 9.24) 하면서 Cholesky 분해 \(TT' = \Sigma_v\) 로 안정 추정. § 9.5.3 는 같은 framework 가 그룹별 다른 분산 — 쌍둥이 MZ/DZ tetrachoric correlation (식 9.25) 과 IRT 2PL/Rasch (식 9.27-9.28) — 까지 통합한다는 것. | |
| May 6, 2026 | § 9.5.4-9.5.5 — Mixed-Effects Logistic: 다수준 표현과 Response Function | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.5 의 마지막 두 소절 (9.5.4-9.5.5) 자세한 풀이. § 9.5.4 다수준 (multilevel) 표현은 식 (9.13) 의 reduced form 을 level-1 (피험자 내) 회귀 + level-2 (피험자 간) 회귀로 분해한다 (식 9.29-9.31). 비표준화 랜덤 효과 \(v \sim \mathcal{N}(0, \Sigma_v)\) 를 쓰는 이유와, 정규 multilevel 모형과 결정적으로 다른 점 — 잠재 변수 분산이 logit 의 \(\pi^2/3\) 또는 probit 의 \(1\) 로 고정되어, 공변량 추가 시 잔차 분산이 줄어드는 대신 랜덤 효과 분산과 회귀 계수가 같이 부풀어 오른다는 (Snijders & Bosker, 1999) 비대칭성을 다룬다. § 9.5.5 response function 은 식 (9.32) 의 통합 표기 아래 세 가지 분포 — logistic (\(\Psi'=\Psi(1-\Psi)\) 의 단순한 미분 성질, 식 9.33), normal (probit, \(y_i \sim \mathcal{N}(X_i\beta, Z_iTT'Z_i' + I)\) 으로 tetrachoric/polychoric correlation 산출), complementary log-log (식 9.34-9.35, 비대칭, 분산 \(\pi^2/6\), 이산 시간 비례 위험 모형) — 의 차이와 응용을 정리한다. | |
| May 6, 2026 | § 9.6 — Mixed-Effects Logistic 의 추정: Marginal MLE, Fisher Scoring, Gauss-Hermite Quadrature | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.6 의 전체 풀이 (9.6 본문 + 9.6.1 + 9.6.2 + 9.6.3). 랜덤 효과를 도입한 mixed-effects logistic 의 추정은 정규 MRM 의 ML/REML 과 본질적으로 다르다. 핵심 어려움은 우도 표현에 랜덤 효과 \(\theta_i\) 에 대한 적분이 들어가고 이 적분이 닫힌 형태로 풀리지 않는 것. § 9.6 는 이 문제를 4 단계로 해결한다. (1) 본문: conditional independence (식 9.39) → marginal integration (식 9.40-9.42) → Fisher scoring (식 9.47) 으로 모수 추정. (2) § 9.6.1: empirical Bayes (식 9.48-9.49) 로 환자별 랜덤 효과 추정 + Zeger marginalization (\(k = 16\sqrt{3}/(15\pi)\)) 으로 marginal probabilities 산출. (3) § 9.6.2: 다중 랜덤 효과의 Cholesky 미분 (식 9.51-9.54) — vec/Kronecker/elimination matrix 의 행렬 미적분. (4) § 9.6.3: Gauss-Hermite quadrature (식 9.55-9.59) 로 적분 수치 근사 + adaptive quadrature (식 9.60-9.61) 로 차원 폭발 완화. 각 단계의 수식과 함께 “왜 이 단계가 필요한가” 의 직관을 명확히 한다. | |
| May 6, 2026 | § 9.7 ~ 9.7.1 — Mixed-Effects Logistic 적용 (1): NIMH 정신분열증 데이터와 Fixed-Effects Baseline | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.7 ~ §9.7.1 의 자세한 풀이. § 9.7 는 mixed-effects logistic 의 적용 사례로 NIMH 정신분열증 임상시험을 사용한다. IMPS (Inpatient Multidimensional Psychiatric Scale) Item 79 “Severity of Illness” 의 7 점 척도를 mildly ill (3) / moderately ill (4) 사이에서 이항화. 처치는 placebo (N=108) 와 항정신병 약물 (N=329, chlorpromazine·fluphenazine·thioridazine 통합). 표 9.1 의 표본 attrition, 표 9.2 의 관측 비율·odds·log-odds, 그리고 logit 의 시간 곡선이 비선형이라 sqrt(week) 변환으로 선형화한 동기 (parsimony) 를 정리한다. § 9.7.1 은 비교 baseline 으로 fixed-effects logistic (Drug + sqrt(Week) + Drug×Time, 식 9.62) 을 적합한다. 표 9.3 의 결과 — Drug 주효과 비유의 (p=.41), Time 강한 음의 효과 (p<.001), Drug×Time 한계적 비유의 (p=.11) — 의 임상적 해석과, 이 모형이 종단 데이터에 독립 가정을 강요하므로 적절하지 않다는 본질적 한계 (랜덤 효과로의 다리, § 9.7.2-9.7.3 의 동기) 까지 다룬다. | |
| May 6, 2026 | § 9.7.2 ~ 9.7.3 — Mixed-Effects Logistic 적용 (2): NIMH 데이터의 Random Intercept 와 Random Trend 모형 | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.7.2 ~ §9.7.3 의 자세한 풀이. 앞 §9.7.1 의 fixed-effects baseline (Drug × Time p=.11) 에 환자 랜덤 효과를 추가하면 무엇이 달라지는가의 직접 시연. §9.7.2 는 random intercept 모형 (식 9.63-9.64) — \(\widehat\sigma_v = 2.12\) 로 환자 이질성이 매우 큼 (ICC = 0.58, 식 9.65). LR 검정으로 fixed-effects 대비 \(\chi^2_1 = 112.3\) 로 강하게 우세. Drug × Time 효과가 -1.015 (p<.001) 로 유의화 — fixed-effects 의 -0.418 (p=.11) 에서 효과 크기와 통계적 유의성이 모두 강해짐. ±1 SD 환자의 trend line, empirical Bayes histogram, Zeger \(k = (15\pi)/(16\sqrt{3})\) 보정의 marginalization 4 단계 절차까지 포함. §9.7.3 는 random intercept + trend 모형 (식 9.66-9.67) — Cholesky 추정 후 식 (9.68) 로 \(\Sigma_v\) 복원, 절편-기울기 상관 -0.47 의 임상적 의미 (baseline 가 심한 환자가 더 빠르게 호전), Drug × Time 효과 -1.587 (p<.001) 로 더욱 강해짐. 환자별 EB 절편-기울기 산점도 (Figure 9.14) 와 trend line (Figure 9.15-9.16) 의 해석, 세 모형 (fixed, random intercept, random intercept+trend) 의 종합 비교까지 정리한다. | |
| May 6, 2026 | Ch.10 Overview — Mixed-Effects Regression Models for Ordinal Outcomes | Statistics | Hedeker & Gibbons (2006) Ch.10 의 종합 overview. 순서형 (ordinal) 반응 — Likert 척도, 정신과 중증도 (없음/경증/중등도/중증), 의료 이용 횟수의 범주화 (0, 1, 2, 3+) 등 — 에 대한 mixed-effects 회귀 모형. Ch.9 의 이항 GLMM 의 자연 확장으로, \(C\) 개 순서 범주를 \(C-1\) 개 누적 logit 으로 표현. McCullagh (1980) 의 비례 오즈 (proportional odds) 가정 — 공변량 효과가 모든 절단점에서 동일 — 이 표준이지만 Peterson & Harrell (1990) 이 지적한 비례 위반 사례를 처리 하기 위한 partial proportional odds (Hedeker & Mermelstein 1998), 위치-척도 모형 (scaling term), 이산 시간 비례 위험 모형 등 확장도 포함. § 10.1 의 동기, § 10.2 의 cumulative logit 정의 (식 10.1), 잠재 변수 framework 와 threshold (Figure 10.1), 비례 오즈 가정의 시각화 (Figure 10.2), 이항 모형과의 등가성 (식 10.2-10.3), multilevel form (식 10.4-10.5), 생존분석 대안 표기 (식 10.6) 까지 정리하고, 10.2.1-10.2.4, 10.3, 10.4 의 후속 sub-post 미리보기를 포함한다. | |
| May 6, 2026 | § 10.2 ~ 10.2.1 — Proportional Odds 와 Partial Proportional Odds 깊이 분석 | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.2 본문의 깊이 분석 + §10.2.1 partial proportional odds 의 자세한 풀이. Ch.10 overview (10-0) 가 chapter 의 큰 그림을 제시했다면 본 sub-post 는 §10.2 의 핵심 두 가정 — (1) cumulative logit 표기의 부호 관행과 절단점 식별 가능성 (식 10.1 의 \(\gamma_c - x^\top\beta\) 표기 정당화), (2) proportional odds 가정의 시각적·수학적 풀이 (Figure 10.2 의 \(\beta_1 = -0.5\), \(\gamma_1 = -1\), \(\gamma_2 = 1\) 사례) — 를 정량적으로 다룬다. §10.2.1 은 비례 오즈 위반 시 처리: Peterson & Harrell (1990) 의 fixed-effects partial proportional odds, Terza (1985) 의 ordinal probit 확장, Hedeker & Mermelstein (1998, 2000) 의 mixed-effects 일반화. 식 (10.7) 의 모형 정의, \(h\) 개 비례 위반 공변량의 분리 전략, Figure 10.3 의 임상적 해석, 그리고 가장 중요한 caveat (Figure 10.4) — 연속 공변량의 비례 위반 효과는 회귀선을 교차시켜 음의 확률 또는 절단점 순서 위반을 야기하므로 실무에서 이항 dummy 로 변환하거나 비선형 response function (Kauermann & Tutz 2003) 을 사용해야 한다는 점까지 정리한다. | |
| May 6, 2026 | § 10.2.2 — Location-Scale Cumulative Odds Models: Scaling Terms 와 그룹별 ICC | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.2.2 의 자세한 풀이. §10.2.1 의 partial proportional odds 가 location 의 범주 가변 효과 (\(\alpha_c \neq 0\)) 로 비례 위반을 처리했다면, §10.2.2 는 scale 의 공변량 효과 (\(\tau \neq 0\)) 로 비례 위반을 처리하는 또 하나의 길. Tosteson & Begg (1988) 의 ROC 분석에서 시작해 McCullagh & Nelder (1989) 의 generalized “rational” model, Cox (1995) 의 cross-sectional location-scale cumulative odds, Hedeker et al. (2006) 의 mixed-effects 확장 (식 10.8) 까지 정리한다. 식 (10.8) 의 분모 \(\exp(w_{ij}^\top\tau)\) 가 잠재 변수의 그룹별 SD 를 모형화 — 같은 평균이라도 분산이 크면 극단 범주에 더 자주 응답 (Figure 10.5). 비례 위반의 두 메커니즘 — location 이동 (\(\alpha_c\), §10.2.1) + scale 변경 (\(\tau\), §10.2.2) — 의 통합 framework. §10.2.2.1 의 그룹별 ICC 분석 (between-subjects 그룹별 + within-subjects 그룹별 분산) 과 청소년 흡연 경험 (HI/LO) 데이터의 시연까지 포함. probit 표기에서 polychoric/tetrachoric correlation 으로의 자연 연결. | |
| May 6, 2026 | § 10.2.3 — Discrete-Time Survival Analysis Models: Cumulative Ordinal 과 Proportional Hazards 의 만남 | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.2.3 의 자세한 풀이. 이산 시간 (discrete-time) 또는 그룹화 시간 (grouped-time) 생존 데이터의 분석에서, 사건 발생 시점을 ordinal 응답으로 보면 mixed-effects ordinal regression 의 직접 응용이 된다. McCullagh (1980) 의 grouped-time proportional hazards 모형 (식 10.10) 이 complementary log-log link 의 ordinal 모형과 동일 — Prentice & Gloeckler (1978) 가 보인 사실을 mixed-effects 로 확장 (Hedeker et al. 2000, Reardon et al. 2002, Muthen & Masyn 2005). 식 (10.11) 의 mixed-effects 모형은 §9.5.5 의 c-log-log 와 §10.2 의 cumulative ordinal 의 결합. 같은 데이터의 두 가지 표현 — ordinal (Y, d) 한 행 vs pooled dichotomous (시점별 행) — 의 Table 10.1 비교, 두 표현이 c-log-log link 에서 동일 결과를 주는 이유 (Lr-Matthews 1985, Engel 1993), 그러나 시간 가변 공변량 (식 10.12-10.13) 과 비례 위반 처리에서는 pooled dichotomous 가 우월한 점, 마지막으로 §10.2.3.1 의 c-log-log ICC (\(\pi^2/6\) 분모, Agresti 2002) 까지 정리한다. | |
| May 6, 2026 | § 10.2.4 — Cumulative Ordinal Mixed-Effects 추정: Marginal MLE 와 Fisher Scoring | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.2.4 의 자세한 풀이. §9.6 의 이항 GLMM 추정의 ordinal 직접 확장. 핵심 차이: (1) Bernoulli 우도 → multinomial 우도 (식 10.16), (2) censoring 처리 식 (10.17, survival 응용), (3) 절단점 \(\gamma_c\) 와 partial PO 계수 \(\alpha_c\) 같은 \(c\)-가변 모수의 미분 (Kronecker delta \(\delta_{cc'}\) 등장). cell 확률은 인접 cumulative 의 차 (식 10.14). General \(z_{ijc}\) (식 10.15) 가 proportional odds + partial PO + scaling 모두 통합. Score 의 일반 형태 (식 10.19) 와 chain rule 로 도출되는 두 종류의 미분 — \(c\) 무관 (\(\beta\), \(T\)) 은 §9.6 과 같은 형태, \(c\) 가변 (\(\gamma_c, \alpha_c\)) 은 Kronecker delta 로 인접 cumulative 사이의 비대칭 처리, scaling \(\tau\) 는 chain rule 의 또 한 단계. Fisher scoring (식 10.22) 와 Gauss-Hermite quadrature 까지 §9.6 의 toolkit 그대로 적용. | |
| May 6, 2026 | § 10.3 — NIMH 정신분열증 데이터의 4 범주 Ordinal 분석 | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.3 의 자세한 풀이. Ch.9 의 NIMH Schizophrenia Collaborative Study 데이터를 ordinal (4 범주) 로 재범주화 — IMPS 79 의 7 범주를 (1) normal or borderline / (2) mildly or moderately ill / (3) markedly ill / (4) severely or 가장 extremely ill 의 4 범주로. Figure 10.6-10.7 의 그룹별 비율 추이, Figure 10.8 의 3 cumulative logits 시각화, Random Intercept 모형 (식 10.23-10.24) 의 Table 10.2 결과 (Drug × Time -1.206 p<.001, ICC = 0.53), Random Intercept + Trend 모형 (식 10.25) 의 Cholesky 표현 (식 10.26-10.27), Table 10.3 결과 (Drug × Time -1.724 p<.001, σ_v0² = 7.13, σ_v1² = 2.06, r = -0.41), LR test vs random intercept (χ²₂ = 77.90 p<.001) 로 random trend 강하게 유의화. 절편- 기울기 음의 상관 -0.41 의 두 가지 해석 (regression to mean vs floor effect), EB trajectory (Figure 10.9-10.10), marginal 적합 (Figure 10.11), 비례 오즈 가정 검정 (χ²₆ = 3.71 not significant), 그리고 Ch.9 이항 분석과의 결과 비교까지 포함. | |
| May 6, 2026 | § 10.4 — McKinney 노숙자 데이터: Partial Proportional Odds 의 실제 응용 | Statistics | Hedeker & Gibbons (2006) Ch.10 §10.4 의 자세한 풀이. § 10.3 NIMH 데이터에서 비례 오즈 가정이 적합 (\(\chi^2_6 = 3.71\), not significant) 했던 것과 정반대 사례. MHRP (Mckinney Homeless Research Project, San Diego) 데이터로 section 8 housing certificate 의 노숙자 거주 형태 (street/community/independent housing, 3 범주 ordinal) 변화에 미치는 효과 분석. 표 10.6 의 비율 패턴, MAR 가정 하의 attrition 처리, Figure 10.12-10.13 의 두 cumulative logit 시각화에서 명확히 드러나는 비례 위반. Table 10.7 의 두 모형 비교 — proportional odds vs nonproportional odds — 와 LR test (\(\chi^2_7 = 52.14\), p<.001) 로 비례 가정 강하게 거부. 핵심 임상 발견: section 8 의 효과는 independent housing 진행에만 나타나고 community vs street 비교에는 효과 없음. 단순 proportional odds 만으로는 이 비대칭 효과를 놓침. § 10.2.1 partial proportional odds (10-1) 의 직접 임상 응용 사례. Bold 와 italic 유의성 표시의 해석, ICC = 0.39 (두 모형 동일) 의 의미까지 정리한다. | |
| May 6, 2026 | Ch.11 Overview — Mixed-Effects Regression Models for Nominal Data | Statistics | Hedeker & Gibbons (2006) Ch.11 의 종합 overview. 명목 (nominal) 응답 — 순서 없는 3+ 범주 (예: republican/democrat/undecided, inpatient/outpatient/emergency) — 에 대한 mixed-effects 회귀 모형. Ch.10 의 ordinal 모형과 핵심 차이: (1) 회귀 계수가 \(C-1\) 개 범주 비교 별 별도, (2) random-effect 분산도 범주 별 별도. Bock (1972) 의 IRT 모형이 토대 — extremal concept (\(C\) 개 잠재 변수, 각 범주의 response tendency) 로 ordinal 의 threshold concept (1 개 잠재 변수) 와 대비. Reference cell formulation (식 11.1-11.2), Bock 의 general contrast formulation (식 11.3-11.5, Helmert contrast 포함), random intercept 의 단순화 (식 11.5), § 11.1.1 의 범주별 ICC (식 11.6-11.7, \(C-1\) 개 ICC), § 11.1.2 의 추정 (Marginal MLE + Gauss-Hermite, 이항/순서형과 같은 toolkit) 까지 정리. § 11.2 의 mental health service utilization 응용, § 11.3 의 competing risk survival (organ transplantation 응용) 후속 sub-post 미리보기 포함. | |
| May 6, 2026 | § 11.1 ~ 11.1.2 — Mixed-Effects Multinomial 의 깊이: 모형 도출, ICC, 추정 | Statistics | Hedeker & Gibbons (2006) Ch.11 §11.1 ~ §11.1.2 의 깊이 있는 풀이. Ch.11 Overview (11-0) 가 큰 그림을 다뤘다면, 본 sub-post 는 식의 도출 + 행렬 미적분 + 추정 수학의 세부. (1) §11.1 본문: 식 (11.1-11.2) reference cell formulation 의 random utility model 직접 도출 — Gumbel 잡음의 효용 차이가 logistic cdf 를 만드는 정확한 메커니즘. Bock (1972) 의 식 (11.3-11.5) general contrast 의 행렬 미적분 — vec, Kronecker, elimination matrix 의 결합 (Magnus 1988). Helmert contrast (4 범주 사례) 의 정확한 설계 + continuation-ratio logit (Ten Have-Uttal 1994) 와의 유사·차이. (2) §11.1.1 ICC: 식 (11.6-11.7) 의 Type I extreme value 분포 도출, 두 Gumbel 차이 = logistic 의 정확한 증명 (McCullagh-Nelder 1989), \(C-1\) 개 ICC 의 임상 해석. (3) §11.1.2 추정: 식 (11.8) multinomial conditional likelihood, 식 (11.9) marginal log-likelihood, 식 (11.10) score 의 일반 형태, 식 (11.11) 모수별 미분의 chain rule 도출, Fisher scoring + Gauss-Hermite quadrature 의 적용. | |
| May 6, 2026 | § 11.2 — MHRP 데이터의 Nominal 재분석: Reference Cell 과 Helmert Contrast | Statistics | Hedeker & Gibbons (2006) Ch.11 §11.2 의 자세한 풀이. § 10.4 (10-6) 의 MHRP 데이터를 nominal multinomial mixed-effects 로 재분석한 사례. 같은 데이터, 다른 framework — partial proportional odds (10-6) vs full nominal (본 sub-post). Reference cell (street) 분석에서 두 contrast (community vs street, independent vs street) 의 그룹 차이 패턴이 매우 다름 (Figure 11.1-11.2). Table 11.1 의 normal vs uniform random effects 분포 비교로 robustness 시연. 두 contrast 의 ICC 가 0.19 vs 0.62 로 매우 달라 separate variance terms 의 강한 유의 (\(\chi^2_1 = 49.2\)) — Hedeker et al. (2006) 의 그룹별 분산 분석 (10-2 의 §10.2.2 와 평행). Helmert contrast 분석 (Table 11.2) 으로 더 직관적 해석 — section 8 효과의 진짜 자리는 community vs independent 의 선택 에 있음. 첫 Helmert (non-street vs street) 에서는 section 8 효과 없음, 둘째 Helmert (independent vs community) 에서 강한 효과. § 10.4 ordinal partial PO 와의 종합 비교 — 두 framework 가 같은 임상 결론 + nominal 의 추가 풍부함 (random effects 분산의 contrast 별 분리). | |
| May 6, 2026 | § 11.3 — Competing Risk Survival Models: IOM 간 이식 대기 분석 | Statistics | Hedeker & Gibbons (2006) Ch.11 §11.3 + §11.3.1 의 자세한 풀이. § 10.2.3 (10-3) 의 discrete-time single risk PH 모형의 자연 확장 — competing risks (사건이 여러 종류) 처리. Efron (1988) 의 partial logistic regression (= person-time logistic) 이 PH 모형을 표준 logistic 으로 적합 가능하게 만들고, IOM (1999) 가 이를 multinomial logistic 으로 확장 — competing risks (transplantation vs pre-transplant mortality) + OPO 클러스터 random effects. 미국 liver transplant 정책의 통계적 토대 — 1998 DHHS Final Rule 의 지역적 격차 issue, IOM 의 ~68,000 환자 분석, status levels (1/2B/3) 별 stratified 분석. 핵심 발견: (1) 지역적 격차 — status 1 transplant ICC = 0.045 (지역 동등) vs status 3 ICC = 0.35 (큰 격차), (2) OPO volume 효과 — 작은 OPO 가 덜 심각한 환자 더 많이 이식, (3) Sharing 효과 — status 1 transplantation 42% → 52%, mortality 9% → 7%, (4) Waiting time 의 부적절성 — 덜 심각한 환자에서 waiting time 이 의료 필요성과 역상관. Random effects 분포 robustness (Gaussian vs uniform) 까지 검증. | |
| May 6, 2026 | Ch.12 Overview — Mixed-Effects Regression Models for Counts | Statistics | Hedeker & Gibbons (2006) Ch.12 의 종합 overview. 카운트 (count) 응답 — 사건 발생 횟수 (의료 이용 횟수, 자살률, 특허 수 등) — 에 대한 mixed-effects 회귀 모형. Ch.9-11 의 categorical GLMM 의 또 다른 확장. § 12.1 의 표준 Poisson regression (식 12.1-12.6) 의 mean-variance 동등 가정 (\(E(y) = V(y) = \lambda\)). § 12.2-12.3 의 excess zeros 문제 — Poisson 의 한계 + Lambert (1992) 의 zero-inflated Poisson (ZIP) 가 mixture 모형 (logistic + Poisson) 으로 두 종류 zero (perfect state + Poisson state) 처리. § 12.4 의 mixed-effects 확장 — Goldstein (1991), Breslow (1984), Siddiqui (1996) 발전사 + § 12.4.1 의 Mixed-Effects Poisson (식 12.19-12.27, \(\lambda_{ij} = \exp(x'\beta + \sigma\theta_i)\), marginal MLE + Gauss-Hermite), § 12.4.2 의 Empirical Bayes random effects (식 12.28-12.29), § 12.4.3 의 Mixed-Effects ZIP (식 12.30-12.33, 두 random effects \(\sigma_1, \sigma_2\) 로 두 component 별도 이질성 모형화). § 12.5 의 자살률 응용 (Gibbons et al. 2005) 미리보기 + § 12.6 핵심 메시지. | |
| May 6, 2026 | § 12.1 ~ 12.2 — Poisson Regression 의 깊이와 Modified Poisson Models 의 분류 | Statistics | Hedeker & Gibbons (2006) Ch.12 §12.1 + §12.2 의 깊이 있는 풀이. Ch.12 Overview (12-0) 가 큰 그림을 다뤘다면, 본 sub-post 는 식의 수학적 도출 + 발전사 + 모형 family 의 분류. (1) §12.1 Poisson regression 의 깊이: 식 (12.1) 의 exponential family 도출, mean-variance 동등 (식 12.2) 의 moment 증명, 식 (12.4) log-likelihood 의 단순한 형태, 식 (12.5) score 가 ‘잔차 × 공변량’ (canonical link 의 결과), Newton-Raphson vs Fisher scoring 동일 (canonical link), IRLS 알고리즘으로의 변환. (2) §12.2 Modified Poisson 의 분류: Cohen (1954) 의 covariate-free 모형, Mullahy (1986)·King (1989) 의 hurdle 모형 (truncated Poisson), Heilbron (1989) 의 ZAP (zero-altered Poisson), Lambert (1992) 의 ZIP/ZIP(τ), Greene (1994) 의 zero-inflated negative binomial (ZINB) 까지. 각 모형의 mixture 구조, hurdle vs ZAP vs ZIP 의 결정적 차이 (truncation vs mixture), 모형 선택 절차 (vuong test 등), Zorn (1996) 의 통합 framework. | |
| May 6, 2026 | § 12.3 — ZIP Model 의 깊이: Mixture, Unified PDF, EM vs Newton-Raphson | Statistics | Hedeker & Gibbons (2006) Ch.12 §12.3 의 깊이 있는 풀이. 12-0 overview 와 12-1 (§12.1+12.2 분류) 가 ZIP 의 큰 그림과 modified Poisson family 분류를 다뤘다면, 본 sub-post 는 ZIP 의 정확한 수학적 도출 + 추정 알고리즘. (1) Lambert (1992) 의 mixture 모형 정의 (식 12.7-12.9), perfect state vs Poisson state 의 의미, Zorn (1996) 의 transition vs event stages 명명. (2) ZIP(τ) variants (식 12.10-12.11) + 대안 link 함수 (log-log, complementary log-log). (3) Greene (1994) 의 unified pdf 형태 (식 12.13) + indicator function \(I(y_i)\) 의 활용. (4) Log-likelihood 도출과 chain rule score (식 12.14-12.16) — perfect zero 와 Poisson zero 의 분리 미분. (5) Information matrices (식 12.17-12.18) + ZIP vs ZIP(τ) 의 다른 표기. (6) 추정 알고리즘 비교 — Lambert 의 EM (perfect/Poisson 두 log-likelihood), Newton-Raphson (ZIP(τ)), Greene 의 gradient method, BHHH (Berndt et al. 1974) 의 information matrix 추정. (7) 한계 — random effects 부재 + § 12.4 mixed-effects 로의 다리. | |
| May 6, 2026 | § 12.4 ~ 12.4.1 — Mixed-Effects Poisson 의 깊이: 모형, Score, Marginal MLE | Statistics | Hedeker & Gibbons (2006) Ch.12 §12.4 + §12.4.1 의 깊이 있는 풀이. 12-2 sub-post 의 ZIP 한계 (random effects 부재) 를 §12.4 mixed-effects 확장으로 해결. (1) §12.4 발전사 — Goldstein (1991) multilevel log-linear, Breslow (1984) Poisson with normal random effects, Lawless-Willmot (1989) inverse Gaussian, Siddiqui (1996) normal vs gamma 비교. (2) §12.4.1 의 정확한 모형 정의: 식 (12.19) conditional density of \(n_i\) 시점, 식 (12.20) \(\lambda_{ij} = \exp(x'\beta + \sigma\theta_i)\) 의 multiplicative random effect 직관 (logistic 의 additive on logit 과 대비), 식 (12.21) log-likelihood. (3) Score 와 Hessian (식 12.22-12.23) — ‘잔차 × 공변량’ + Hessian 양정치 보장. (4) Marginal likelihood (식 12.24) 의 Gauss-Hermite quadrature 근사 + 식 (12.25) \(\lambda_{ijq}\) 계산 + 식 (12.26-12.27) marginal score. (5) Normal vs gamma random effects 비교 (Siddiqui 1996, Longford 1994 의 normal 권고). §9.6 toolkit (marginal MLE + Gauss-Hermite + Fisher scoring) 의 Poisson 적용 — 새로운 알고리즘 없이 직접 일반화. | |
| May 6, 2026 | § 12.4.2 ~ 12.4.3 — Empirical Bayes 와 Mixed-Effects ZIP 의 깊이 | Statistics | Hedeker & Gibbons (2006) Ch.12 §12.4.2 + §12.4.3 의 깊이 있는 풀이. 12-3 sub-post 의 mixed-effects Poisson 추정 framework 위에 두 가지 확장. (1) §12.4.2 Empirical Bayes — 식 (12.28) EAP estimator + 식 (12.29) 사후 분산 — 환자/클러스터별 random effect 추정. § 9.6.1 식 (9.48-9.49) 의 Poisson 적용. Thomas et al. (1992) 의 hospital mortality ranking 응용 + 자살률 county ranking 의 미리보기. Shrinkage 효과의 정량화. (2) §12.4.3 Mixed-Effects ZIP 의 정확한 모형 — 식 (12.30-12.33) 의 두 random effects (\(\sigma_1\) Poisson part, \(\sigma_2\) logistic part) 의 의미 + 식 (12.34-12.35) 의 explicit \(\pi_{ij}, \lambda_{ij}\) 표현. Score 식 (12.36-12.41) 의 chain rule 도출 — 12-2 의 ZIP score 의 mixed-effects 일반화. BHHH information matrix + Newton-Raphson. (3) Mixed-Effects ZIP(τ) — 식 (12.42-12.51) — 같은 covariate + functional 관계, 식 (12.44) 의 τ 의 expectation 형태 + Hall (2000), Hur et al. (2002) 와의 비교. | |
| May 6, 2026 | § 12.5 — County-Specific 자살률 분석: Mixed-Effects Poisson 의 정책 응용 | Statistics | Hedeker & Gibbons (2006) Ch.12 §12.5 의 자세한 풀이. § 12.4 (12-3, 12-4) 의 모든 framework — mixed-effects Poisson + EB + 두 random effects — 의 정책 분석 직접 응용. Gibbons et al. (2005) 의 미국 county 자살률 분석 (NCHS 데이터, 1996-1998). 자살의 통계적 부담 (worldwide 1M/year, US 750K/25years, 11.8B$ cost) + RCT 의 한계 (낮은 base rate) → population-level 분석의 필요성. 데이터: county × age × sex × race 의 자살 수 (응답) + 3 antidepressant subclass (TCA, SSRI, non-SSRI) 의 처방 rate. 모형: mixed-effects Poisson with county random effects on intercept + drug effects. 표 12.1 의 매우 우수한 적합도 (91,673 관측 vs 90,973 예측, 0.76% 차이) + GEE 비교. 핵심 발견: (1) TCA 가 자살률 증가와 연관 (MLE = +0.20), SSRI + non-SSRI 가 자살률 감소와 연관 (MLE = -0.15). (2) Hypothetical scenario — TCA 제거 시 33% 감소, SSRI/non-SSRI 제거 시 50% 증가. (3) Income 보정 후 효과 감소 but 여전히 유의 — confounding 부분적. (4) Within vs between-county Mundlak 분해 (§ 4) — TCA 의 within 비유의, between 강한 유의 → TCA 가 의료 질의 marker. Non-TCA 의 within 강한 유의 → causal 가능성 높음. 정책적 함의 + causal 해석의 한계. | |
| May 6, 2026 | Ch.13 Overview — Mixed-Effects Regression Models for Three-Level Data | Statistics | Hedeker & Gibbons (2006) Ch.13 의 종합 overview. 지금까지 Ch.4-12 가 모두 2-level data (반복 측정 → 환자) 였다면, Ch.13 는 3-level 로 확장 — multi-center longitudinal study, 학생 within classroom within school, 환자 within clinic within region 등. 3-level 구조: observation (\(k\)) → subject (\(j\)) → cluster (\(i\)), \(k\) nested in \(j\) nested in \(i\). § 13.1 의 Linear 3-level model (식 13.1) — random effects 가 cluster intercept (\(\gamma_i\)) + subject intercept/trend (\(\upsilon_{ij}\)) + observation residual (\(\varepsilon_{ijk}\)). 다변량 정규의 joint distribution, EM + Fisher scoring 추정. § 13.1.1 NIMH 데이터의 treatment center clustering illustration. § 13.2 Nonlinear 3-level (probit, logistic, ordinal, nominal, count) — Ch.9-12 의 GLMM framework 의 3-level 일반화. 적분 분해의 핵심 trick (식 13.9) — cluster random effect 조건부로 subject random effects 가 독립 → 적분 차원 폭발 회피. Cholesky reparameterization + adaptive Gauss-Hermite quadrature. § 13.2.1-13.2.4 sub-section 미리보기 + 핵심 메시지. | |
| May 6, 2026 | § 13.1 — Three-Level Linear Mixed-Effects: 식 13.1 깊이 + NIMH Center Clustering | Statistics | Hedeker & Gibbons (2006) Ch.13 §13.1 + §13.1.1 의 깊이 있는 풀이. 13-0 overview 와 중복 회피하며 (1) 식 (13.1) 의 행렬 표현 해부 — \(Z_i\) matrix 의 block-like 구조, \(\Sigma_i\) 의 block-diagonal, joint multivariate normal distribution, EAP estimator 도출, score, EM + Fisher scoring 알고리즘. (2) §13.1.1 NIMH illustration — 9 treatment centers + placebo/chlorpromazine, IMPS Item 79 continuous (1-7), Table 13.1 의 시점별 unbalanced 표본, 2-level 모형 (Table 13.2): Drug × Time -0.564 (p<.001), 환자 6 주 호전 placebo 0.84 unit vs chlorpromazine 2.22 unit. 3-level 확장 (Table 13.3-13.4): 9 centers 별 표본, center random effect 추가, center variance 작음 (\(\widehat\sigma_\gamma^2 = 0.039\), 비유의), fixed effects 와 SE 가 2-level 와 거의 동일. Variance components 시점별 분해 (Table 13.5): baseline subject 32%, week 6 subject 74% — slope variance 의 시간 효과. Center 1.66-4.39% (Donner 1982 와 일치). Random vs Fixed center 결정 기준 + 일반적 권고 (3-level 적합 후 검정). | |
| May 6, 2026 | § 13.2 ~ 13.2.2 — Three-Level Nonlinear: Probit 와 Logistic 의 깊이 | Statistics | Hedeker & Gibbons (2006) Ch.13 §13.2 + §13.2.1 (Probit) + §13.2.2 (Logistic) 의 깊이 있는 풀이. 13-0 overview 가 큰 그림과 적분 분해 trick (식 13.9) 을 제시했다면, 본 sub-post 는 수학적 도출 + 추정 알고리즘. (1) §13.2 Linear vs Nonlinear 의 적분 차이 — closed form 부재, numerical integration 필수. (2) §13.2.1 Probit 의 정확한 도출 — 식 (13.2) 의 3-level matrix representation, 식 (13.3) 의 latent variable model, 식 (13.4) 의 \(P(y=1) = \Phi(z)\), 식 (13.5) 의 conditional likelihood (independence given random effects), 식 (13.6) 의 naive marginal probability. Cholesky reparameterization (식 13.7) — § 9.5.2 의 3-level 확장. 식 (13.8-13.9) 의 적분 분해 — naive \((n_i \times r + 1)\) 차원 → \(r + 1\) 로 폭발 회피. 식 (13.10-13.13) 의 score chain rule + Gibbons-Bock (1987) 의 scoring method + Stroud-Sechrest (1966) numerical integration. (3) §13.2.2 Logistic 변형 — 식 (13.14-13.15) 의 \(\Psi\) + \(\Psi(1-\Psi)\) 단순 대체, \(\sigma_\varepsilon^2\) 차이 (\(\pi^2/3\) vs 1), tail probability 의 임상적 의미 (rare events). | |
| May 6, 2026 | § 13.2.3 — TVSFP Smoking Prevention Study: Three-Level Probit 의 정책 응용 | Statistics | Hedeker & Gibbons (2006) Ch.13 §13.2.3 의 자세한 풀이. 13-2 sub-post 의 3-level probit framework 의 직접 응용. TVSFP study (Flay et al. 1988) — 7th grade 학생들의 흡연 예방 RCT, 28 schools 에 4 conditions 무작위 배정 (Classroom Curriculum × TV Mass-Media). Outcome: Tobacco and Health Knowledge Scale (THKS) binary. 데이터 구조: 1600 students nested in 135 classrooms nested in 28 schools, unbalanced (1-13 classrooms/school, 2-28 students/classroom). 두 가지 분석: (1) 표 13.7 — pre/post measurements within students within classrooms (3-level: visit × student × class), (2) 표 13.8 — post only with pre covariate, students within classrooms within schools (3-level: student × class × school). 핵심 발견: 분석 1 — CC 강한 효과 (post-pre 0.81), TV 효과 (0.30), CC×TV 음의 interaction (-0.32, marginally significant). 3-level model 이 2-level 보다 SE 큼 (정확). ICC: classroom 6.6%, student 25%. 분석 2 — CC 만 강한 효과 (0.63), TV 비유의 (0.21), 3-level 이 2-level (class) 대비 추가 fit 미미 (LR \(\chi^2_1 = 1.82\), NS). 정책: school clustering 효과 작음 → classroom 단위 분석 으로 충분. § 13.1.1 NIMH center clustering 과의 비교. | |
| May 6, 2026 | § 13.2.4 ~ 13.2.4.1 — Three-Level Ordinal Outcomes: 일반 Framework + Ordinal 확장 | Statistics | Hedeker & Gibbons (2006) Ch.13 §13.2.4 + §13.2.4.1 의 깊이 있는 풀이. 13-2 sub-post 의 3-level probit/logistic framework 의 자연 확장 — ordinal/nominal/count outcomes. (1) §13.2.4 일반 framework 의 핵심 통찰 — 식 (13.16-13.21) 의 통합 표기, 응답 형태별 conditional likelihood \(\ell_{ij}(\theta)\) 만 변경 하면 같은 적분 분해 (식 13.17-13.19) + 같은 score 형태 (식 13.22-13.23) + 같은 Fisher scoring (식 13.24-13.25). (2) §13.2.4.1 Ordinal Outcomes: Raman & Hedeker (2005), Liu & Hedeker (2006) 의 정립. 식 (13.26) cumulative probit conditional likelihood — \(C\) 범주, \(C-1\) 절단점 \(\gamma_c\), indicator \(d_{ijkc}\). 식 (13.27) c-무관 모수 score — \(\beta, T, \sigma_{(3)}\) 의 미분, § 10.2.4 의 식 (10.19) 와 동일 형태. 식 (13.28) c-가변 모수 score — 절단점 \(\gamma_c\) 의 미분, Kronecker delta \(\delta_{c,c'}\) 로 인접 cumulative 만 영향. 식 (13.29) logistic 변형 — Φ → Ψ 단순 대체. | |
| May 6, 2026 | § 13.2.4.2 ~ 13.2.4.3 — Three-Level Nominal 과 Count 의 깊이 | Statistics | Hedeker & Gibbons (2006) Ch.13 §13.2.4.2 + §13.2.4.3 의 깊이 있는 풀이. 13-4 sub-post 의 ordinal 확장에 이어 nominal + count 의 3-level 일반화. §13.2.4.2 Nominal (Hedeker 2003): reference cell formulation + multinomial logit. 식 (13.30) conditional likelihood = \(\prod \prod p_{ijc}^{d_{ijkc}}\). 식 (13.31-13.32) multinomial probabilities (reference cell \(c = 1\)). 식 (13.33) 결정적 차이 — ordinal 과 달리 모든 covariate 효과 \(\beta_c\) + random effects \(T_c, \sigma_{c(3)}\) 가 범주별 다름. 식 (13.34) score = \((d_{ijkc} - p_{ijkc}) \cdot \partial z / \partial \eta_c\) — Ch.11 식 (11.10) 의 3-level 일반화. §13.2.4.3 Count (Siddiqui 1996): 식 (13.36) \(\lambda_{ijk} = t_{ijk} \exp(z_{ijk})\) — time/exposure offset \(t_{ijk}\) 포함. 식 (13.37) response model 동일 (probit/ordinal/nominal 와 같은 형태). 식 (13.38-13.39) Poisson conditional probability + likelihood. 식 (13.40) score = \(\sum (y_{ijk} - \lambda_{ijk}) \cdot \partial z / \partial \eta\) — Ch.12 식 (12.22) 의 3-level 일반화. § 11 / § 12 의 2-level 의 직접 확장. | |
| May 6, 2026 | Ch.14 Overview — Missing Data in Longitudinal Studies | Statistics | Hedeker & Gibbons (2006) Ch.14 의 종합 overview. Ch.4-13 의 모든 mixed-effects framework 의 결정적 가정 — 결측 데이터 메커니즘. § 14.1 의 longitudinal studies 에서 결측 데이터의 흔함 (intermittent missing, dropout, item nonresponse). § 14.2 의 Rubin (1976) typology — 3 가지 결측 메커니즘. MCAR (식 14.2.1): \(R_i \perp y_i^O, y_i^M\) — 가장 강한 가정, covariate-dependent MCAR (Little 1995) 로 시간 효과 허용. MAR (식 14.2.2): \(R_i \perp y_i^M \mid X_i, y_i^O\) — 관측된 데이터 조건부 독립, full likelihood (MRM/CPM) 의 ignorability 조건. MNAR (식 14.2.3): \(R_i\) 가 \(y_i^M\) 에 의존 — 가장 약한 가정, 검정 불가능. § 14.3 Models 와 mechanisms 의 매핑 — MRM/CPM (MAR 충분) vs GEE (MCAR 필요) 의 결정적 차이. § 14.4 Testing MCAR (Little’s test). § 14.5 Nonignorable — Selection model (Diggle-Kenward 1994) vs Pattern-Mixture (Little 1993, 1994). Sensitivity analysis 의 필수성. | |
| May 6, 2026 | § 14.1 ~ 14.2 — Missing Data Introduction 와 Rubin (1976) Mechanisms 의 깊이 | Statistics | Hedeker & Gibbons (2006) § 14.1 ~ § 14.2 의 정밀 분석. § 14.1 의 longitudinal studies 결측의 본질 (intermittent, item nonresponse, dropout), MRM/GEE 의 결측 유연성 (각 환자 시점 수 변동 자연 처리), 그러나 모형 별 가정의 차이 — Demirtas (2004b), Hogan & Laird (1997), Little (1995) 등 핵심 references. § 14.2 의 framework setup — Rubin (1976) typology 의 widely cited but less understood, \(R_{ij}\) indicator notation, \(y_i^O / y_i^M\) partition, dropout time \(D_i\) 표기 + completers 처리 (0 vs \(n+1\)). § 14.2.1 MCAR — 가장 강한 가정 (\(R_i \perp y_i^O, y_i^M\)), covariate-dependent MCAR (Little 1995) 의 conditional independence, time covariate 포함의 결정적 중요성, Schafer-Graham 의 attendance question 권고. § 14.2.2 MAR — \(R_i \perp y_i^M \mid X_i, y_i^O\), default approach (Fitzmaurice 2004) 권고, MCAR vs MAR 검정 가능성, ignorability (MAR + distinct parameters), MRM/CPM (full likelihood) vs GEE1 의 결정적 차이. § 14.2.3 MNAR — \(R_i\) 가 \(y_i^M\) 의존, 검정 불가능, sensitivity analysis 필수, HAM-D 와 smoking cessation 예시. | |
| May 6, 2026 | § 14.3 — Models 와 Missing Data Mechanisms 의 Simulation 비교 | Statistics | Hedeker & Gibbons (2006) § 14.3 의 정밀 분석. § 14.3 도입의 Laird (1988) 핵심 정리 — MRM/CPM (full likelihood) 가 mean + variance-covariance 구조 정확히 specified 시 ignorable nonresponse (MCAR + MAR) 에 valid inference 제공. GEE1 은 covariate-dependent MCAR 만 허용. WGEE (Robins et al. 1995, Rotnitzky-Robins 1999, Hogan et al. 2004) 의 non-MCAR 확장. § 14.3.1 의 MCAR simulations — 식 14.1 의 random intercept + slope 모형, 5000 subjects, β = (25, -1, 0, -1), group means (25, 24, 23, 22, 21) vs (25, 23, 21, 19, 17), V(y) 명시적 표기. 4 시나리오: complete / 50% random / time-related (0%, 25%, 50%, 75%, 87.5% dropout) / group × time differential. Table 14.1 — 모두 unbiased + SE 만 증가. § 14.3.2 의 MAR/MNAR simulations — MAR(a) y < 23 dropout, MAR(b) 그룹별 다른 방향 dropout, MNAR y < 21.5 missing. Table 14.2 — MAR 에서 MRM unbiased + GEE biased, MNAR 에서 모두 biased. Figure 14.1, 14.2 의 observed means 의 위험성 (Group 0 과 Group 1 의 trend reversal). 식 14.2 의 random-intercepts-only 분석 + Table 14.3 — variance-covariance 구조 misspecification 시 MAR 데이터에서도 biased (Fitzmaurice 2004 핵심 경고). | |
| May 6, 2026 | § 14.4 — Testing MCAR (Little 1988, Diggle 1989, Ridout 1991) | Statistics | Hedeker & Gibbons (2006) § 14.4 의 정밀 분석. MCAR vs MAR 의 본질적 차이는 missingness 가 \(y_i^O\) 에 의존 가능 여부 — 따라서 \(y_i^O\) 활용 분석으로 MCAR 검정 가능. Little (1988), Diggle (1989) 의 표준 방법. 2 시점 케이스: \(D_i\) =0/1 (dropout 여부) 에 따라 \(y_1\) 의 t-test 또는 식 14.3 (\(y_{i1}\) on \(D_i\) + covariates), 식 14.4 (\(D_i \\times x_i\) interaction). Ridout (1991): reverse perspective — 식 14.5 의 logistic regression of \(D_i\) on \(y_{i1}\). MCAR rejected if \(\\alpha_1 \\neq 0\) or \(\\alpha_3 \\neq 0\). 다 시점 일반화: \(h(y_i^O)\) 함수로 관측값 요약 (식 14.6 의 평균, 식 14.7 의 weighted average), 식 14.8 의 discrete-time survival (Allison 1982, Singer-Willett 1993) — \(\\log[P(D_i=j \\mid D_i \\geq j) / (\\cdot)] = \\alpha_{0j} + \\alpha_1 h(y_i^O) + \\alpha_2 x_i + \\alpha_3 (h \\times x_i)\). 식 14.9 의 time-varying h_ij^O, x_ij. Person -period dataset (Singer-Willett 2003, Table 14.4-14.5): 각 환자 × at-risk period 별 row, dropout indicator. 식 14.10 의 clog-log link → grouped-time proportional hazards (Prentice-Gloeckler 1978). § 14.4.1 NIMH schizophrenia 예시 — Table 14.6 Drug × Maxweek crosstab (placebo dropout 35% vs drug 19%), Table 14.7 sequential model selection (Drug × MeanY interaction 결정적), Table 14.8 final model (placebo: MeanY 효과 +0.635, drug 그룹: -0.473), main-only 분석에서 MeanY 효과가 -0.147 (n.s.) — interaction 무시하면 MCAR 잘못 채택할 위험. | |
| May 6, 2026 | § 14.5 ~ 14.5.1 — Models for Nonignorable Missingness 와 Selection Model 의 깊이 | Statistics | Hedeker & Gibbons (2006) § 14.5 ~ § 14.5.1 의 정밀 분석. § 14.5 도입의 nonignorable missingness 의 challenge — MNAR 데이터에 standard 모형 → badly biased, 데이터로는 ignorability 검정 불가능 (Kenward 1998), Little (1995) 의 두 class (selection + pattern-mixture). Sensitivity analysis 의 가치 + warning (어떤 모형도 “정답” 아님). § 14.5.1 의 Selection Models 의 역사 — Heckman (1976) 의 econometric 원전, 2-stage 절차 (propensity score → covariate adjustment), Diggle-Kenward (1994) 의 past + unobserved \(y\) 확장, Little (1995) 와 Little- Rubin (2002) 의 비판 (distributional assumption 검증 불가), Kenward (1998) 의 sensitivity analysis. § 14.5.1.1 Mixed-Effects / Shared Parameter — Heckman 와 다름 (propensity score 가 longitudinal covariate 안 됨). 다양한 이름 (random-coefficient selection, random-effects-dependent, shared parameter). 식 14.10-14.14 의 formulation: longitudinal \(f_y(y \\mid v)\) + dropout \(f_D(D \\mid v)\) 가 random effect \(v\) 공유, 식 14.12 의 marginal likelihood \(\\int f_y f_D f(v) dv\), Cholesky reparam \(v = S\\theta\), Gauss-Hermite quadrature. § 14.5.1.2 의 NIMH schizophrenia 예시 — 식 14.15 longitudinal (SWeek = sqrt(week) 로 선형화), 식 14.18 clog-log dropout with \(\\theta_0, \\theta_1\) + Drug interactions, 식 14.19-14.20 의 ordinal equivalence (Engel 1993, Läärä-Matthews 1985), Table 14.11 결과: separate vs shared LR test \(\\chi^2_4 = 30.1\) (p < .0001) → shared better fit, Drug × slope interaction (\(\\alpha_5 = -1.638\), p = .003) — placebo: 안 호전 환자 dropout, drug: 빨리 호전 환자 dropout, 그룹마다 반대 방향 MNAR 메커니즘. | |
| May 6, 2026 | § 14.5.2 — Pattern-Mixture Models (Little 1993, 1994, 1995) 의 깊이 | Statistics | Hedeker & Gibbons (2006) § 14.5.2 의 정밀 분석. Pattern-Mixture 의 핵심 발상: 결측 패턴 별로 subject 그룹화 → 패턴이 between-subjects variable (sex 같은 covariate). 패턴 별 응답 분포 → mixture. MNAR 처리 가능. Little (1993, 1994, 1995) 의 통계적 정립 + 이전 작업 (Glynn 1986, Marini 1980) + SEM (Allison 1987, Muthén 1987, McArdle-Hamagami 1992) + 최근 발전 (Daniels-Hogan, Demirtas, Fitzmaurice, Hedeker-Gibbons 1997, Molenberghs, Roy, Thijs 등). 패턴 그룹화: 3 시점 → \(2^3 = 8\) 패턴, MMM (전부 결측) 제외 → 7 패턴, dummy code D1-D6 (Table 14.12). 대안 coding: monotone (M1, M2), last wave (L1, L2), incomplete (I1), not at final (F1) (Table 14.13). Coding 선택 고려사항: sparseness, 영향, main vs interaction. § 14.5.2.1 NIMH 예시: 식 14.21 basic MRM, 식 14.22 simple PM (completer 335 vs dropout 102), 식 14.23 full PM (5 dropout weeks). Table 14.14: ordinary MRM vs simple vs full LR test. Full vs ordinary \(\\chi^2_{20} = 41.2\) (p < .004), full vs simple \(\\chi^2_{16} = 15.5\) (p < .49 → simple OK), simple vs ordinary \(\\chi^2_4 = 25.7\) (p < .0001). Drop × Drug × SWeek 3-way \(\\beta^D_3 = -.635\) (p < .002) — dropout 의 drug effect 가 completer 보다 강함. Demirtas-Schafer (2003) 의 결정적 caveat: pre-dropout responses 와의 관계는 ignorability 부정 못함. Averaging over patterns: 식 14.24-14.27 (completer + dropout 별도 추정, weighted average). 식 14.28 Hogan-Laird (1997a) delta method (3-term variance). Weighted effect coding (Darlington 1990): 식 14.29 의 DropW = \(-\\pi^{(d)}/\\pi^{(c)}\) for completers, 1 for dropouts — averaged 추정 직접 + 식 14.30 SE 보정. 6 패턴 확장: 식 14.31-14.32 (Agresti 2002 multinomial covariance, B P×M deviation matrix). Table 14.15: 세 모형 결과 거의 동일 → MRM, selection, PM 모두 같은 conclusion → 강건한 finding. | |
| May 6, 2026 | Klein § 12.6 — Parametric Regression Models 연습문제 풀이 | Statistics, Survival Analysis | Klein Ch.12 의 14 개 연습문제를 세 데이터셋 (혀암 ploidy, 신장 카테터, 림프종 BMT) 중심으로 통합한다. Weibull 단변량 적합, 모양 모수 검정, 회귀, 로그-로지스틱과의 비교, 일반화 감마로 분포 선택, 누적위험률 도표, Q-Q 도표, Cox-Snell · deviance 잔차까지 진단 도구를 모두 적용한다. | |
| May 5, 2026 | MINERVA 아키텍처 개요 | Agent | MINERVA는 사내 AI Agent 플랫폼으로, React 프론트엔드, FastAPI 서빙 레이어, LangChain 기반 Agent 코어의 3계층 구조이다. 전체 아키텍처, 데이터 흐름, 기술 스택, 설계 원칙을 개괄한다. | |
| May 5, 2026 | MINERVA BaseAgent 계약 패턴 | Agent | MINERVA의 모든 에이전트는 BaseAgent ABC를 상속하고 Pydantic 스키마(Query, Response, StreamEvent)를 사용한다. 이 계약 기반 설계로 에이전트 추가, 서빙 레이어 연결, A/B 실험 교체가 일관되게 이루어진다. ABC와 Pydantic의 결합 패턴, 구현 예시, 설계 이점을 정리한다. | |
| May 5, 2026 | MINERVA RAG 파이프라인 설계 | Agent | MINERVA의 RAG 파이프라인은 Hybrid Search(BM25 + Vector), Parent-Child Chunking, Reranker(FlashRank)를 결합하여 한국어 사내 문서에서 높은 검색 정확도를 달성한다. 각 컴포넌트의 설계 결정과 구현 패턴을 정리한다. | |
| May 5, 2026 | MINERVA FastAPI 서빙 레이어 | Agent | MINERVA의 FastAPI 서빙 레이어는 에이전트 코어와 프론트엔드를 연결한다. 7개 라우터 모듈, lifespan warmup, 에이전트 캐싱, SSE 스트리밍 응답, A/B 실험 연동, CORS 설정을 다룬다. | |
| May 5, 2026 | MINERVA React 프론트엔드 | Agent | MINERVA의 React 프론트엔드는 7개 페이지(QnA, Data/Code Standardizer, Monitoring, Records, Tests, Home)로 구성되며, 타입 안전 fetch 래퍼로 FastAPI 백엔드와 통신한다. 페이지 구조, 라우팅, SSE 스트리밍 수신, Vite Proxy 설정, lib/ 유틸 11개의 책임 분담, 컴포넌트 설계 패턴을 정리한다. | |
| May 5, 2026 | MINERVA A/B 실험 프레임워크 | Agent | MINERVA의 A/B 실험 프레임워크는 YAML dotted-key override로 실험 변형을 정의하고, sticky hash로 사용자를 일관되게 할당하며, JSONL로 메트릭을 기록한다. 실험 설계, 사용자 할당, 메트릭 수집, 분석 파이프라인을 정리한다. | |
| May 5, 2026 | MINERVA 프로덕션 배포 | Agent | MINERVA를 프로덕션 환경에 배포하는 전체 파이프라인을 정리한다. Docker 멀티스테이지 빌드, gunicorn + uvicorn 워커 구성, 환경 변수 관리, 헬스체크, Azure 배포 전략을 다룬다. | |
| May 5, 2026 | MINERVA 데이터 흐름 추적 | Agent | MINERVA에서 사용자 질문이 최종 답변이 되기까지 거치는 모든 변환 단계를 추적한다. RunRequest 파싱 → 실험 라우팅 → Query 변환 → RAG(검색·리랭크·Parent 매핑) → LCEL 체인 → Response 조립 → JSON → React 렌더링의 각 경계에서 데이터 타입과 shape가 어떻게 바뀌는지, SSE 스트리밍 경로는 어떻게 다른지 실제 코드로 정리한다. | |
| May 5, 2026 | MINERVA 스트리밍·관측성 — 동기 흐름 위에 얹는 운영 계층 | Agent | 08-0편이 동기 호출 한 호흡의 데이터 흐름(HTTP 진입 → Response 조립)을 다뤘다면, 본 글은 그 위에 얹히는 운영 계층을 정리한다. SSE 스트리밍 경로, perf_counter 기반 timing 로그, runs.jsonl 메트릭 스키마, feedback.jsonl 사이드 채널, 흐름에서 발견된 설계 취약점, Data Standardizer Supervisor의 다른 흐름, Phase C-2 LangGraph 분해 예고를 다룬다. | |
| May 5, 2026 | MINERVA 상태 관리 해부 | Agent |
MINERVA는 ‘백엔드 무상태 + 프론트엔드 상태 보유’ 구조다. React useState·localStorage·_agent_cache·JSONL 로그 각 계층이 어떤 상태를 어디에 보관하고, 그 설계가 어떤 트레이드오프를 낳는지 코드 수준에서 분석한다.
|
|
| May 5, 2026 | MINERVA 에러 전파 경로 분석 | Agent | MINERVA에서 에러는 어디서 발생하고 어디까지 전파되는가. agent.py, 라우터, 프론트엔드 각 계층의 try/except 경계를 추적하고 현재 구현이 노출하는 취약 지점을 진단한다. | |
| May 5, 2026 | MINERVA Config 의존성 추적 | Agent |
MINERVA에서 하나의 설정값이 런타임 동작에 도달하기까지 .env → YAML 프로파일 → RAGConfig → A/B override를 거치는 경로를 코드 수준에서 추적한다. 설정 변경의 실제 효력 범위와 숨겨진 함정을 진단한다.
|
|
| May 5, 2026 | MINERVA 테스트 전략 분석 | Agent | 현재 MINERVA 테스트 스위트가 어느 범위를 검증하고 어느 범위를 비워두는지 분석한다. LLM·RAG 비결정성 속에서 테스트 가능한 경계를 정의하는 방법과 Phase C 전환 전 보강해야 할 테스트를 진단한다. | |
| May 5, 2026 | Docker 기초 | Engineering | Docker는 애플리케이션을 컨테이너로 패키징하여 어디서든 동일하게 실행하는 플랫폼이다. 컨테이너와 가상머신의 차이, 이미지 빌드, Dockerfile 작성법, 멀티스테이지 빌드, Docker Compose를 다루어 AI Agent 서비스를 배포하기 위한 Docker 지식을 정리한다. | |
| May 5, 2026 | API 기초 | Engineering | API(Application Programming Interface)는 프로그램 간 통신 규약이다. REST 아키텍처, HTTP 요청-응답 구조, JSON 직렬화, 상태 코드의 의미를 정리하고, AI Agent를 서빙할 때 알아야 할 최소한의 웹 API 지식을 다룬다. | |
| May 5, 2026 | ASGI와 uvicorn | Engineering | ASGI는 Python 비동기 웹 애플리케이션의 인터페이스 표준이고, uvicorn은 이 표준을 구현하는 고성능 서버이다. WSGI와의 차이, uvicorn 설정, 워커 프로세스 구성, 프로덕션 배포 시 gunicorn + uvicorn 조합을 정리한다. | |
| May 5, 2026 | CORS와 Proxy | Engineering | 브라우저의 Same-Origin Policy가 API 호출을 차단하는 원리를 설명한다. CORS 헤더로 허용하는 방법, 개발 환경에서 Vite Proxy로 우회하는 방법, 프로덕션 배포 시 Reverse Proxy 구성까지 단계별로 정리한다. | |
| May 5, 2026 | FastAPI 입문 | Engineering | FastAPI는 Python의 타입 힌트와 Pydantic을 활용하여 고성능 REST API를 빠르게 구축하는 웹 프레임워크이다. 설치부터 프로젝트 구조까지, FastAPI로 API 서버를 만드는 단계별 개발 과정을 정리한다. | |
| May 5, 2026 | Pydantic | Engineering | Pydantic은 Python의 타입 힌트를 활용하여 데이터 검증, 직렬화, 역직렬화를 자동화하는 라이브러리이다. BaseModel, Field, validator, JSON 변환, FastAPI와의 결합을 다루고, AI Agent의 요청/응답 계약(contract)을 안전하게 정의하는 방법을 정리한다. | |
| May 5, 2026 | React에서 API 호출 | Engineering | React 앱에서 FastAPI 백엔드를 호출하는 방법을 정리한다. 브라우저 내장 fetch API, 타입 안전 래퍼 함수 설계, 로딩/에러/성공 상태 관리, SSE 스트리밍 수신, 커스텀 Hook 패턴을 다룬다. | |
| May 5, 2026 | React 기초 | Engineering | React는 컴포넌트 기반으로 UI를 선언적으로 구축하는 JavaScript 라이브러리이다. JSX 문법, 컴포넌트 설계, Props와 State, Hook(useState, useEffect, useCallback), 이벤트 처리, 조건부 렌더링, 리스트 렌더링을 다루어 AI Agent 프론트엔드 개발에 필요한 최소한의 React 지식을 정리한다. | |
| May 5, 2026 | React Router | Engineering | React Router는 Single Page Application에서 URL 기반 페이지 전환을 구현하는 라이브러리이다. BrowserRouter, Route, Link, useNavigate, useParams, 중첩 라우팅, 레이아웃 패턴, 404 처리를 다루어 AI Agent 대시보드의 다중 페이지 구조를 만드는 방법을 정리한다. | |
| May 5, 2026 | SSE (Server-Sent Events) | Engineering | SSE는 서버에서 클라이언트로 실시간 데이터를 푸시하는 HTTP 기반 프로토콜이다. WebSocket과의 차이, FastAPI StreamingResponse 구현, 프론트엔드 EventSource 사용법, AI Agent 토큰 스트리밍 패턴을 정리한다. | |
| May 5, 2026 | Closed Form, Functional Form, Canonical Form | Mathematics, Statistics | 수학, 통계, 머신러닝 문헌에서 반복적으로 등장하는 closed form, functional form, canonical form은 서로 가리키는 차원이 다르다. 각 용어의 정의, 핵심 질문, 실무 사례를 비교하여 정리한다. | |
| May 5, 2026 | Klein § 12.4-12.5 — Other Parametric Models & Diagnostics | Statistics, Survival Analysis | Klein Ch.12 의 두 마무리 절을 다룬다. § 12.4 에서는 로그정규와 일반화 감마 분포를 통해 모수 모형의 폭을 넓히고 AIC 기반 모형 선택 절차를 정리한다. § 12.5 에서는 단변량 누적위험률 도표, AFT 점검용 Q-Q 도표, 그리고 모수적 회귀에 일반화된 Cox-Snell · martingale · deviance 잔차로 적합도 진단을 수행한다. | |
| May 4, 2026 | Klein § 12.2-12.3 — Weibull & Log-Logistic Regression Models | Statistics, Survival Analysis | Klein Ch.12 의 두 핵심 모수 회귀 모형을 정리한다. Weibull 분포는 AFT 와 PH 표현을 동시에 가지는 유일한 분포이며, 로그-로지스틱은 AFT 와 비례 오즈 표현을 동시에 가지는 유일한 분포이다. 두 모형의 MLE, 델타 방법으로 변환된 분산 공식, 그리고 AML 이식과 후두암 예제를 통한 해석을 다룬다. | |
| May 3, 2026 | Klein Ch.12 — Inference for Parametric Regression Models | Statistics, Survival Analysis | Cox 모형이 베이스라인 위험을 비모수로 두는 데 반해, 모수적 회귀 모형은 분포를 명시적으로 가정한다. 본 포스트는 가속 실패 시간(AFT) 표현, Weibull · 로그-로지스틱 · 로그정규 · 일반화감마 분포의 회귀 모형, AIC 기반 모형 선택, 누적위험률 도표와 잔차 기반 적합도 진단을 정리한다. (Klein & Moeschberger, 2003, Ch.12) | |
| May 2, 2026 | Klein § 11.7 — Regression Diagnostics 연습문제 풀이 | Statistics, Survival Analysis | Klein Ch.11의 6개 연습문제(11.1-11.6)를 § 11.2-11.6의 잔차 도구로 체계적으로 풀이한다. 후두암 / 모유 수유 / 신장 이식 / DNA 종양 등 4개 데이터셋에 마팅게일 잔차로 함수 형태 식별, 4가지 그래프 도구로 PH 가정 검정, deviance + dfbeta로 이상치와 영향력 분석을 수행한다. (Klein & Moeschberger, 2003, § 11.7) | |
| May 1, 2026 | Klein § 11.5–11.6 — Deviance Residuals & Influence Diagnostics | Statistics, Survival Analysis | Cox 모형 진단의 마지막 두 측면. § 11.5에서 deviance 잔차 \(D_j\) 의 정규형 변환 원리를 통해 이상치(outlier)를 탐지하고, § 11.6에서 score 잔차 기반 dfbeta 근사 \(\Delta_j = I(b)^{-1} S_j\) 로 한 번의 Cox 적합만으로 모든 관측치의 영향력(leverage)을 평가하는 방법을 다룬다. (Klein & Moeschberger, 2003, § 11.5–11.6) | |
| Apr 30, 2026 | § 6.2.1-6.2.2 — CPM 의 두 절약 구조: CS 와 AR(1) | Statistics | Hedeker & Gibbons (2006) Ch.6 §6.2.1-6.2.2 의 자세한 풀이. 공분산 패턴 모형 (CPM) 의 가장 절약적인 두 구조 — Compound Symmetry (CS) 와 First-Order Autoregressive (AR(1)) — 의 정의·수식·직관을 비교한다. 두 구조 모두 \(q = 2\) 이지만 시간 lag 처리 방식이 정반대다. CS 는 lag 를 무시하고 모든 쌍을 동일하게 묶고, AR(1) 은 lag 가 늘수록 상관을 지수적으로 감쇠시킨다. CS 가 랜덤 절편 MRM 과 마진 등가임을 증명하고, AR(1) 의 일차 마르코프 해석을 함께 정리한다. | |
| Apr 30, 2026 | § 6.2.3-6.2.4 — CPM 의 두 유연 구조: Toeplitz 와 Unstructured | Statistics | Hedeker & Gibbons (2006) Ch.6 §6.2.3-6.2.4 의 자세한 풀이. 공분산 패턴 모형 (CPM) 에서 가장 유연한 두 구조 — Toeplitz 와 Unstructured (UN) — 를 비교한다. Toeplitz 는 시간 lag 별 자유 상관을 허용하되 시점 위치 비균질성은 제약하고, UN 은 모든 분산-공분산 모수를 자유롭게 두어 가장 일반적이지만 모수가 \(n^2/2\) 로 폭발한다. CS·AR(1) 의 강한 가정을 단계적으로 풀어주는 구조이며, MANOVA 의 분산 형태와의 연결, 모형 선택 시 LR 검정의 기준 (full model = UN) 으로의 역할을 함께 정리한다. | |
| Apr 30, 2026 | § 6.2.5 — Random-Effects 구조: MRM 과 CPM 을 잇는 다리 | Statistics | Hedeker & Gibbons (2006) Ch.6 §6.2.5 의 자세한 풀이. 공분산 패턴 모형 (CPM) 의 다섯 번째 구조 — Random-Effects (RE) — 는 다른 4 구조와 근본적으로 다르다. CS·AR(1)·Toeplitz·UN 이 분산-공분산 행렬을 직접 명세하는 “fully specified” 구조라면, RE 는 랜덤 효과 (\(\upsilon_i\), \(\varepsilon_i\)) 라는 메커니즘으로부터 분산-공분산을 도출한다. 이 차이가 between-subjects vs within-subjects 분산 분리, MRM 과의 마진 등가, 통합적 시각을 만든다. 랜덤 효과 수 \(r\) 에 따른 구조 변화, \(r=1\) 일 때 CS 와의 동치성, 다른 구조와의 통합 비교 표까지 정리한다. | |
| Apr 30, 2026 | § 6.3 — CPM 모형 선택: UN 을 기준으로 한 LR 검정과 2-step 절차 | Statistics | Hedeker & Gibbons (2006) Ch.6 §6.3 의 자세한 풀이. CPM 의 5 구조 (CS, AR(1), Toeplitz, UN, RE) 중 어느 것을 데이터에 사용할지 결정하는 절차를 다룬다. Jennrich & Schluchter (1986) 의 우도비 (LR) 검정은 Unstructured (UN) 를 full model 로 두고 제약 구조와 비교하여 적합도 손실이 유의하지 않으면 절약 구조를 채택한다. 분산 모수 검정의 경계 (boundary) 문제로 인한 p-value/2 보정, 2-step 모형 선택 절차 (분산 구조 → 공변량), ML 과 REML 의 사용 차이, non-nested 비교를 위한 AIC·BIC 보조까지 정리한다. | |
| Apr 30, 2026 | § 6.4 — Bock WPSS 예시: 5 모형 적합 비교 + UN 임상 해석 | Statistics | Hedeker & Gibbons (2006) Ch.6 §6.4 의 자세한 풀이. Bock (1983b) 의 정신과 우울증 임상 데이터 (75 명, 6 주 추적, WPSS 척도) 를 사용해 5 가지 공분산 구조 (UN, Toeplitz, AR(1), CS) 를 적합하고 비교하는 케이스 스터디다. 두 치료 그룹의 cross-over 설계 (TCA-None vs None-TCA), 직교 대비 코딩 (linear trend, change of slope), group × change of slope 상호작용이 약물 효과 검정의 도구인 이유, UN 모형 적합 결과의 임상적 해석 (per-week change 계산, 약물·무약물 기간 호전 속도 비교) 까지 정리한다. 추정 conditional 분산 vs marginal 분산의 차이도 함께 다룬다. | |
| Apr 30, 2026 | § 7.2.1-7.2.2 — AR(1) 과 MA(1) 자기상관 오차 깊이 | Statistics | Hedeker & Gibbons (2006) Ch.7 §7.2.1 (AR(1)) 와 §7.2.2 (MA(1)) 의 자세한 풀이. MRM 의 자기상관 오차로 가장 자주 쓰이는 두 절약 구조를 비교 학습 단위로 묶는다. AR(1) 의 정상성 분산 유도 (식 7.10), 식 (7.13) 의 시계열 표기와 Ch.6 § 6.2.2 식 (6.4) 의 생물통계 표기 사이 정확한 관계, 부분자기상관 (PACF) 으로 AR(1) 차수 진단, MA(1) 의 hard cutoff 형태와 AR(1) 의 dual 관계 (Gottman 1981 의 무한 AR/MA 표현), MA(1) 가 CPM (Ch.6) 에는 없고 MRM-AC (Ch.7) 에만 등장하는 이유 (marginal vs conditional) 까지 정리한다. | |
| Apr 30, 2026 | § 7.2.3-7.2.4 — ARMA(1,1) 와 Toeplitz 자기상관 오차 깊이 | Statistics | Hedeker & Gibbons (2006) Ch.7 §7.2.3 (ARMA(1,1)) 와 §7.2.4 (Toeplitz) 의 자세한 풀이. ARMA(1,1) 은 AR(1) 의 점진 감쇠와 MA(1) 의 lag-1 hump 를 결합한 3 모수 구조다. \(\gamma_0 = 1+\theta^2-2\rho\theta\), \(\gamma_1 = (1-\rho\theta)(\rho-\theta)\) 의 형태와 lag-1 hump 의 약물 carryover 직관, AR(1)·MA(1) 을 특수 경우로 포함하는 일반화 관계, 부분자기상관 시그너처를 다룬다. Toeplitz 는 각 lag 가 독립 모수를 갖는 가장 유연한 정상 자기상관 구조 — \(n - 1\) 모수, s-order Toeplitz 의 절약 trick, MA(1) = Toeplitz(2) 등가, 랜덤 절편 + Toeplitz lag-1 자기상관 = full Toeplitz CPM 의 reparameterization (Hedeker §7.2.4 의 핵심 통찰), MRM 관행 vs CPM 관행의 차수 명명 함정까지 정리한다. | |
| Apr 30, 2026 | § 7.2.5 — 비정상 (Non-Stationary) AR(1) 자기상관 오차 | Statistics | Hedeker & Gibbons (2006) Ch.7 §7.2.5 의 자세한 풀이. 앞의 4 자기상관 구조 (AR(1)·MA(1)·ARMA(1,1)·Toeplitz) 의 정상성 가정 — 시점별 분산 동일, 같은 lag 의 상관 동일 — 을 푸는 다섯 번째 구조다. 시점 0 에서 분산이 0 이라는 초기 조건 (\(V(\varepsilon_0) = 0\)) 으로 출발, 점화식 \(V(\varepsilon_j) = \rho^2 V(\varepsilon_{j-1}) + \sigma^2\) 를 반복 적용해 시점 \(j\) 의 분산 \(\sigma^2 \sum_{k=0}^{j-1} \rho^{2k}\) 가 점진적으로 누적된다. 분산이 시간 따라 증가하는 fan-out 패턴 (Bock WPSS 데이터의 시점별 SD 증가와 일치), 정상 AR(1) 의 분산 \(\sigma^2/(1-\rho^2)\) 와의 점근 수렴, Cholesky 인수분해 \(\Omega = \Upsilon\Upsilon^\top\) (식 7.19) 의 양정치 자동 보장 가치까지 정리한다. | |
| Apr 30, 2026 | § 7.3 — MRM-AC 모형 선택: 세 패러다임 비교 + LR/AIC/BIC 가이드 | Statistics | Hedeker & Gibbons (2006) Ch.7 §7.3 의 자세한 풀이. Ch.4-5 의 MRM, Ch.6 의 CPM, Ch.7 의 MRM+AC — 세 패러다임의 분산-공분산 구조 (식 7.20, 7.21) 를 통합 시각으로 비교하고, 모형 선택의 도구 (LR 검정·AIC·BIC) 를 nested vs non-nested 비교에 맞게 매핑한다. LR 검정의 boundary 문제 + p-value/2 보정 (Berkhof & Snijders, 2001), AIC (식 7.23) 와 BIC (식 7.24) 의 페널티 차이, \(N\) 의 의미 (Raftery 1995 의 level-2 권장), AIC vs BIC 의 정량적 분기점 (\(N = e^2 = 7.39\)), Fitzmaurice et al. (2004) 의 BIC 자제 권고까지 정리한다. § 6.3 sub-post 와의 차이 + Ch.7 의 §7.4 Bock 예시 (\(\hat\rho\) 의 NS-AR(1) 검정) 와의 연결도 다룬다. | |
| Apr 30, 2026 | § 7.4 — Bock WPSS 데이터 MRM-AC 적합: 두 패러다임의 만남 | Statistics | Hedeker & Gibbons (2006) Ch.7 §7.4 의 자세한 풀이. Ch.6 §6.4 와 같은 Bock (1983b) 우울증 데이터 (75 명, 6 주 cross-over) 에 MRM + AC 접근을 적용한다. § 6.4 가 UN-CPM (모수 21 개) 으로 분산-공분산을 직접 모형화한 반면, § 7.4 는 3 랜덤 효과 (intercept + linear + slope change) + NS-AR(1) 오차 (모수 7+1) 의 메커니즘 모형. Table 7.1 의 정확한 추정 (회귀 계수 거의 동일, 랜덤 효과 분산 감소, 잔차 분산 증가, \(\hat\rho = 0.696\)), LR 검정 (\(\chi^2 = 5.8\), 보정 p = 0.008), 두 모형의 \(\Omega\) 와 \(\Sigma_\upsilon\) 의 다공선성 trade-off, Table 7.2 의 25 가지 모형 비교에서 나타난 다중 모형 등가성, 회귀 계수의 분산 구조 강건성 임상 의미까지 정리한다. | |
| Apr 30, 2026 | Ch.8 Overview — Generalized Estimating Equations (GEE) | Statistics | Hedeker & Gibbons (2006) Ch.8 의 종합 overview. Liang & Zeger (1986) 의 GEE 모형은 GLM 을 종단·군집 데이터로 자연 확장한 marginal 접근이다. CPM (Ch.6) 이 분산-공분산 행렬을 직접 모형화하고 MRM (Ch.4-5, 7) 이 랜덤 효과로 의존성을 표현하는 반면, GEE 는 회귀 모수만의 추정 에 집중하고 분산-공분산 은 nuisance 로 취급한다. quasi-likelihood (full likelihood 명시 안 함), 5 가지 작동 상관 (Independence, Exchangeable, AR(1), m-dependent, Unspecified), Sandwich (robust) 추정량 (식 8.22) 의 작동 상관 misspecification 일치 추정 성질, MCAR (vs MRM/CPM 의 MAR) 의 결측 가정 한계, marginal (population-averaged) vs conditional (subject-specific) 효과의 비축소성 (non-collapsibility), Gruder et al. (1993) 흡연 절제 예시 일반 패턴까지 정리한다. | |
| Apr 30, 2026 | § 8.1-8.2 — GEE 의 토대: Marginal 모형과 GLM 복습 | Statistics | Hedeker & Gibbons (2006) Ch.8 §8.1 (도입) 과 §8.2 (GLM) 의 자세한 풀이. Liang & Zeger (1986) 의 GEE 가 1980 년대 비정규 종단 데이터 분석 빈자리에 등장한 배경, marginal model 의 Fitzmaurice 정의 (\(E[y]\) 가 공변량에만 의존, 랜덤 효과·이전 응답에 무관), GEE1 vs GEE2 의 association 모수 직교 가정, MCAR 결측 가정의 임상 함정. §8.2 의 GLM 복습 — Nelder & Wedderburn (1972) 의 통합 framework, Exponential family 의 평균-분산 관계, 정규/이항/카운트별 연결 함수와 분산 함수, Score 추정 방정식 (식 8.10) 의 OLS·MLE 일반화, IRLS (반복 가중 최소자승) 알고리즘, Wedderburn (1974) 의 Quasi-likelihood 가 GEE 의 토대가 되는 통계 이론까지 정리한다. | |
| Apr 30, 2026 | § 8.3-8.4 — GEE 모형과 추정: 5 작동 상관 + Sandwich | Statistics | Hedeker & Gibbons (2006) Ch.8 §8.3 (GEE 모형) 와 §8.4 (GEE 추정) 의 자세한 풀이. GLM 의 3 가지 명세 (식 8.12-8.14) 에 작동 상관 행렬 \(R_i(a)\) 를 추가한 GEE 모형 정의, 5 가지 작동 상관 형태 (Independence, Exchangeable, AR(1), m-dependent, Unstructured) 의 행렬 구체와 모수 수 trade-off, Robust 성질의 정량적 효율성 분석. §8.4 의 추정 절차 — 작동 분산-공분산 (식 8.15), 추정 방정식 (식 8.17), IRLS 의 GEE 특화 단계, Pearson 잔차 기반 association 모수 갱신 (식 8.20), Naive (식 8.21) vs Robust Sandwich (식 8.22) 분산-공분산 추정량의 수학적 유도와 직관, 두 SE 의 비교 진단을 통한 작동 상관 misspecification 탐지까지 정리한다. | |
| Apr 30, 2026 | § 8.5 — Gruder 흡연 절제 데이터 GEE 분석 | Statistics | Hedeker & Gibbons (2006) Ch.8 §8.5 의 자세한 풀이. Gruder et al. (1993) 의 흡연 절제 임상 시험 (489 명 4 시점 4 그룹) 에 GEE 로지스틱 회귀를 적용한다. 4 그룹 (Control, No-show, Discussion, Social Support) 의 Helmert contrasts (H1: 무작위 배정, H2: 출석, H3: 처치 유형), 4 시점 관측 절제율 (Table 8.1), 관측 상관 (Table 8.2) 으로 Unstructured 작동 상관 선택. 식 (8.23-8.25) 의 3 가지 로지스틱 모형 (주효과·그룹×선형·그룹×이차) 의 추정 결과 (Table 8.3) 와 Generalized Wald 검정 (식 8.26) 으로 모형 비교, OR 의 시점별 임상 해석 (post-intervention OR=2.95, 24m 시점 비유의), Model 2 의 추정 절제율 vs 관측 절제율 fit (Table 8.4) 까지 정리한다. CPM (§ 6.4 Bock) 와 평행하는 GEE 의 종합 케이스 스터디. | |
| Apr 30, 2026 | Ch.9 Overview — Mixed-Effects Logistic Regression for Binary Outcomes | Statistics | Hedeker & Gibbons (2006) Ch.9 의 종합 overview. 이항 (0/1) 종단 데이터에 GLMM (Generalized Linear Mixed Model) 을 적용하는 첫 chapter. 로지스틱 회귀 복습 (§9.2), Probit 와의 차이 (§9.3, \(\beta_L \approx 1.81 \beta_P\)), Threshold concept 으로서의 잠재 변수 표현 (§9.4, 식 9.11), 랜덤 절편 추가로 Mixed-effects logistic 도입 (§9.5, 식 9.13-9.14), 잠재 변수 + 랜덤 효과 모형 (식 9.15) 에서 발생하는 Subject-specific vs Population-averaged scale 차이 (식 9.16) 의 도출, Marginal MLE 추정의 Gauss-Hermite quadrature, \(\hat\upsilon_i\) 의 Empirical Bayes 추정, 정신과 데이터 예시까지 정리한다. mm-06 의 AI Agent 비즈니스 예시 직관과 평행하는 Hedeker framework 의 systematic 정리. | |
| Apr 30, 2026 | § 9.2-9.3 — 로지스틱과 Probit 회귀: GLMM 이항의 토대 | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.2 (로지스틱 회귀) 와 §9.3 (Probit 회귀) 의 자세한 풀이. Single-level (cross-sectional) 로지스틱 회귀의 두 표현 (식 9.1, 9.2) 의 등가성과 logit link 의 의미, Bernoulli 우도 (식 9.4-9.6) 으로부터 ML 추정의 score (식 9.7) 와 Fisher information (식 9.8) 도출 과정의 Logistic cdf 미분 성질 (\(\Psi' = \Psi(1-\Psi)\)) 활용, Newton-Raphson 알고리즘 (식 9.9) 의 IRLS 등동성. §9.3 의 Probit 회귀 (식 9.10) 와의 비교 — 두 cdf 의 표준화 형태가 거의 구분 불가, 분산 차이 (\(\pi^2/3\) vs 1), McCullagh (1980) 의 해석 용이성 권고. OR vs Probit Z-statistic 의 동등성, GLMM (§ 9.4-9.5) 토대 로서의 역할까지 정리한다. | |
| Apr 30, 2026 | § 9.4 — Threshold Concept: 잠재 변수로 본 이항 데이터 | Statistics | Hedeker & Gibbons (2006) Ch.9 §9.4 의 자세한 풀이. Bock (1975) 의 threshold concept — 이항 \(Y\) 가 연속 잠재 변수 \(y\) 로부터 결정된다는 통합 framework. 식 (9.11) 의 잠재 변수 회귀 \(y = x^\top\beta + \epsilon\), \(\epsilon\) 의 분포 (정규 → probit, 로지스틱 → logit), threshold \(\gamma\) 의 식별 불가능성 (보통 0 으로 고정), 잠재 변수 분산의 식별 불가능성 (1 또는 \(\pi^2/3\) 으로 고정), 식 (9.12) 의 \(\beta_L \approx 1.81 \beta_P\) scaling 의 잠재 변수 분산 차이로의 자연 도출. Tobit (검열) · Heckman selection · Albert-Chib 베이지안 data augmentation · 순서형/명목 GLMM (Ch.10-11) 로의 확장 시각, 그리고 § 9.5 mixed-effects logistic 로의 자연스러운 다리까지 정리한다. | |
| Apr 30, 2026 | Klein § 11.3–11.4 — Martingale Residuals & Graphical PH Checks | Statistics, Survival Analysis | 마팅게일 잔차 \(\hat{M}_j = \delta_j - \hat{H}_0(T_j) e^{b^\top Z_j}\) 로 공변량의 함수 형태를 LOWESS 평활 곡선으로 식별하고, log-cumulative · 차이 · Andersen · Arjas · score(Schoenfeld) 다섯 그래프 도구로 비례위험 가정을 검정하는 절차를 Klein 교재의 BMT/이식 실례와 함께 정리한다. (Klein & Moeschberger, 2003, § 11.3–11.4) | |
| Apr 29, 2026 | FDA Ch.1 — 함수형 데이터 분석의 첫걸음 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.1을 기반으로, 함수형 데이터 분석(FDA)의 핵심 개념인 기저 전개(basis expansion), 표본 평균·공분산 함수, 추정 함수 주성분(EFPC)을 직관적 설명과 수식, R 코드와 함께 상세히 다룬다. BOA 주식 누적 수익률과 DTI 확산 텐서 영상 데이터를 실제 응용 사례로 포함한다. | |
| Apr 29, 2026 | FDA 1.1~1.2 — 기저 전개와 표본 평균·공분산 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.1의 핵심 두 절을 상세히 다룬다. §1.1에서는 기저 전개(basis expansion)의 목적, B-spline과 Fourier 기저의 특성 비교, 위너 과정 예시를 통한 실습을 다루고, §1.2에서는 표본 평균 함수, 점별 표준편차, 표본 공분산 함수의 정의와 해석, 브라운 운동의 이론적 공분산 c(t,s)=min(t,s)와의 비교를 포함한다. | |
| Apr 29, 2026 | FDA 1.3~1.4 — 주성분 함수(EFPC)와 BOA 주식 수익률 분석 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.1 중 §1.3 Principal component functions와 §1.4 Analysis of BOA stock returns를 상세히 다룬다. EFPC의 정의와 직관, 직교성, 분산 설명 비율, 브라운 운동과의 비교를 다루고, BOA 일중 누적 로그수익률에 FDA를 적용하여 평균 함수·신뢰 구간·EFPC· 공분산 히트맵을 분석한다. | |
| Apr 29, 2026 | FDA 1.5 — 확산 텐서 영상 (DTI) 데이터의 함수형 분석 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.1 §1.5를 상세히 다룬다. 확산 텐서 영상(DTI)의 원리, 부분 비등방성(FA) 트랙 프로파일의 함수형 데이터 구조, 뇌량(corpus callosum) 376명 데이터의 기저 전개·평균 함수·점별 SD 대역 분석, 시간이 아닌 공간을 인덱스로 사용하는 FDA의 확장성을 다룬다. | |
| Apr 29, 2026 | FDA 1.6 — Chapter 1 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.1의 연습문제 6개를 상세히 풀이한다. 각 문제에서 요구하는 수학적 유도를 단계별로 전개하고, 수식 뒤에 “왜 이 결과가 나오는지” 직관적 해석을 반드시 포함한다. R 코드 구현과 결과 해석을 병행한다. | |
| Apr 29, 2026 | FDA 2.0 — 탐색적 FDA의 심화 주제 개관 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.2의 세 핵심 주제를 개관한다. 함수의 미분 정보 활용, 벌점 스무딩(penalized smoothing)을 통한 노이즈 제거, 곡선 정렬(curve alignment)을 통한 위상 변동 분리를 다룬다. 각 개념이 왜 필요한지, 전통적 다변량 분석과 어떻게 다른지를 직관적으로 설명한다. | |
| Apr 29, 2026 | FDA 2.1~2.2 — 미분과 벌점 스무딩 | Statistics, Functional Data Analysis | Kokoszka & Reimherr (2017) Ch.2의 첫 두 절을 상세히 다룬다. §2.1에서는 함수의 미분이 FDA에서 왜 고유한 도구인지, 기저 함수의 미분을 통해 어떻게 안정적으로 도함수를 구하는지, 기저 선택의 제약을 설명한다. §2.2에서는 벌점 스무딩의 수학적 정식화(PSS), 선형 미분 연산자의 역할, GCV를 통한 자동 모수 선택, 조화 가속 연산자의 유도를 포함한다. | |
| Apr 29, 2026 | 곡선 정렬과 탐색적 FDA 확장 | Statistics, Functional Data Analysis | 함수형 데이터의 위상 변동(phase variation)을 제거하기 위한 곡선 정렬(curve alignment) 기법을 다룬다. 시간 뒤틀림 함수(time warping function), 랜드마크 등록(landmark registration), 연속 등록(continuous registration), 진폭-위상 분산 분해(amplitude-phase decomposition)를 상세히 설명하고, FDA의 추가 연구 방향(분류, 군집화, 매니폴드)을 정리한다. | |
| Apr 29, 2026 | Chapter 2 연습문제 풀이 | Statistics, Functional Data Analysis | Kokoszka Ch.2 연습문제 2.1~2.5를 상세히 풀이한다. 조화 가속 연산자의 벌점 등식 증명, FedYieldcurve 벌점 스무딩, 상수 계수 미분 연산자, DTI 데이터의 등록 효과, bump 함수 정렬의 위험성을 다룬다. | |
| Apr 29, 2026 | Ch.5 Overview — 다항식 추세 MRM (Mixed-Effects Polynomial Regression Models) | Statistics | Hedeker & Gibbons (2006) Ch.5 종합 개요. Ch.4 의 선형 추세 MRM 을 확장하여 시간 효과의 비선형 패턴 (\(\beta_2 t^2\), \(\beta_3 t^3\) 등)을 모형화한다. 곡선형 추세 모형의 구조, 직교 다항식의 동기와 Cholesky 변환, 고차 다항식의 한계와 외삽 위험을 직관·수식·실데이터 흐름으로 전달한다. | |
| Apr 29, 2026 | § 5.2 — 곡선형 추세 MRM (Curvilinear Trend Model) | Statistics | Hedeker & Gibbons (2006) Ch.5 §5.2 sub-post. 이차(quadratic) 추세 항을 추가한 혼합효과 회귀모형의 정의와 의미, 시간 효과의 미분과 flattening point, Reisby 정신과 데이터의 Table 5.1 결과 해석, \(\widehat V(y) = Z \widehat\Sigma_\upsilon Z' + \widehat\sigma^2 I\) 분산-공분산 행렬 수치 계산, “평균은 직선 · 개인은 곡선” 패턴의 직관을 다룬다. | |
| Apr 29, 2026 | § 5.3 — 직교 다항식 (Orthogonal Polynomials) | Statistics | Hedeker & Gibbons (2006) Ch.5 §5.3 sub-post. 다항식 추세 MRM 의 다공선성 문제와 직교 다항식 해법, Bock (1975) 의 Cholesky 인수분해 절차, 원본 척도와 직교 척도의 모형 표현 비교, 모수 변환 공식 (\(\beta \leftrightarrow \gamma\), \(\Sigma_\upsilon \leftrightarrow \Sigma_\theta\)), 표준오차 변환에 사용되는 \(G^+\) · vec/vech 연산, Reisby Table 5.2 결과의 해석을 다룬다. | |
| Apr 29, 2026 | § 5.3.4 - § 5.3.5 — 고차 다항식·Cubic 추세 (Higher-Order & Cubic Trend) | Statistics | Hedeker & Gibbons (2006) Ch.5 §5.3.4·§5.3.5 sub-post. \(n\) 시점 데이터에서 다항식 차수의 이론적 한계, cubic 추세 MRM 의 정의, Reisby 정신과 데이터의 cubic 적합 (Table 5.3) 결과 해석, cubic vs quadratic LR 검정과 분산 기여 비율, S 자 곡선 패턴과 외삽 위험을 직관·수식·실데이터 흐름으로 다룬다. | |
| Apr 29, 2026 | Ch.6 Overview — 공분산 패턴 모형 (Covariance Pattern Models, CPM) | Statistics | Hedeker & Gibbons (2006) Ch.6 종합 개요. Ch.4-5 의 MRM 이 랜덤 효과로 시간 상관을 만든 것과 달리, CPM 은 분산-공분산 행렬 자체를 직접 명세한다. Compound Symmetry, AR(1), Toeplitz, Unstructured, Random-Effects 5 가지 구조의 모수 수와 형태, LR 검정 기반 모형 선택, Bock (1983) WPSS 정신과 데이터 예시까지 직관·수식·비교 표로 전달한다. | |
| Apr 29, 2026 | Klein § 11.1–11.2 — Introduction & Cox-Snell Residuals | Statistics, Survival Analysis | Cox 비례위험 모형 진단의 첫걸음. § 11.1에서 회귀 진단의 4가지 측면(함수 형태, PH 가정, 개별 정확도, 영향력)을 정리하고, § 11.2에서 가장 처음 제안된 잔차인 Cox-Snell 잔차로 모형의 전반적 적합도를 검증하는 방법을 다룬다. 확률 적분 변환 원리, Nelson-Aalen 점검 도표, BMT 데이터로의 실전 적용까지 포함. (Klein & Moeschberger, 2003, § 11.1–11.2) | |
| Apr 28, 2026 | 하네스 엔지니어링 산업 사례 — Project 1M, 역할 분리, 동료 스킬, 원클릭 도구 | Agent, Architecture, Engineering | 앞선 31번·30번·32번 포스트가 Prompt·Context·Harness 세 층위의 정의·비교·자체 체계 해부를 다뤘다면, 이 글은 같은 개념이 산업 현장에서 어떤 사례로 구현되고 있는지 정리한다. OpenAI Project 1M(3 명·100 만 줄·버그 40% 감소)이 제시한 신입사원 7 가지 도구, Anthropic 의 하네스/세션/샌드박스 3 분할 모델, 중국 리우 자오의 동료 스킬(퇴사자 디지털 페르소나), 바이브엑스·누비다 같은 원클릭 코딩 도구를 차례로 분석하고, 31번 동심원 모델·32번 Harness-aware Context Engineering 과 어떻게 매핑되는지 비교한다. | |
| Apr 28, 2026 | AWS Deep Insight 하네스 엔지니어링 케이스 스터디 — 3 가지 인프라 결정의 통합 분석 | Agent, Architecture, Engineering | AWS Korea SA Team 이 2026 년 4 월 공개한 Deep Insight (사용자 CSV → DOCX 분석 리포트 Multi-Agent 시스템) 의 하네스 엔지니어링 설계를 단일 케이스로 심층 분석한다. AgentCore Runtime + Fargate 분리, S3 중간 저장소, VPC + Security Group 다층 격리라는 3 가지 설계 결정을 31번 동심원 모델·30번 trade-off·32번 cross-cutting concern·33번 산업 카탈로그와 매핑하고, 22.5 분 실측 세션·1세션 ~$4.13 비용·인젝션 84.30% 위협 통계로 사례를 검증한다. 출처는 AWS 공식 기술 블로그 Part 3 단독이며 Part 1·2 는 향후 보강 예정. | |
| Apr 28, 2026 | AWS Deep Insight Part 1 — 5 가지 문제와 8 에이전트 3 레이어 아키텍처 | Agent, Architecture, Engineering | AWS Korea SA Team 의 Deep Insight 시리즈 Part 1 (2026.4.1 발행) 을 분석한다. 프로덕션 Multi-Agent 시스템이 반드시 풀어야 할 5 가지 문제 (실행 흐름 · 모델 선택 · 운영 · 코드 실행 보안 · 모니터링) 를 정의하고, 이를 해결하는 8 개 에이전트 3 레이어 (Coordinator- Planner-Plan Reviewer / Supervisor / Coder-Validator-Reporter-Tracker) 구조와 Strands Agents SDK 의 Graph + Agents-as-tools 패턴을 정리한다. 역할별 Claude 모델 배치 (Haiku / Opus / Sonnet) 와 Prompt Caching 의 90% 비용 절감 전략, LG전자 ChatInsight 의 288 배 생산성 향상·TechRecon (re:Invent 2025) 의 도메인 전이 사례로 일반화 가능성도 검증한다. 앞서 34번 (Part 3 인프라) 에서 다룬 인프라 결정의 상위 설계 출발점 에 해당하는 글이다. | |
| Apr 28, 2026 | AWS Deep Insight Part 2 — Context Window 한계를 넘는 4 계층 Context Engineering | Agent, Architecture, Engineering | AWS Korea SA Team 의 Deep Insight 시리즈 Part 2 (2026.4.8 발행) 를 분석한다. Context Window 한계 (Claude Sonnet 4.5 = 200K) 를 넘는 복잡 작업을 수행하기 위한 4 계층 방어 체계 — Layer 1 (멀티 에이전트 격리, 25K 토큰 제한) / Layer 2 (출력 예산·표준 응답·Self-contained 코드) / Layer 3 (write_and_execute_tool 95% 절약, all_results.txt 통신 버스, Claude Skills 지연 로딩) / Layer 4 (Validator 0.01 오차, OptimizedValidator 우선순위, Summarizing ConversationManager 50% 요약) — 를 정리한다. Anthropic 5 편 (Effective Context Engineering, Code Execution with MCP, Multi-Agent Research, Writing Effective Tools, Effective Harnesses for Long-Running Agents) 의 권장 패턴이 한 시스템에서 통합 구현된 사례이며, 32번 Harness-aware Context Engineering 패턴의 산업 검증이다. Deep Insight 시리즈 (Part 1 → 35번, Part 2 → 본 글, Part 3 → 34번) 가 본 글로 완성된다. | |
| Apr 28, 2026 | FDA × Deep Learning — Neural Operator 와 Functional Regression의 만남 | Statistics, Functional Data Analysis, Deep Learning | DeepONet, Fourier Neural Operator (FNO) 등 함수공간 매핑을 학습하는 신경망이 고전적 functional regression 의 어떤 자연스러운 확장인지 정리한다. Karhunen-Loève 전개·기저 전개와의 구조적 대응, 응용 영역, 실무 코드를 포함한다. | |
| Apr 28, 2026 | Klein § 4.1~4.2 — Kaplan-Meier · Nelson-Aalen Estimators | Statistics, Survival Analysis, Klein-Moeschberger, Kaplan-Meier, Nelson-Aalen, Greenwood-Variance, NPMLE | Klein & Moeschberger Ch.4 의 § 4.1 (Introduction) + § 4.2 (KM·NA Estimators) 를 정전 깊이로 풀어낸다. 본 편은 Ch.4 overview 의 핵심 내용 — Kaplan-Meier 와 Nelson-Aalen 추정량의 정의·유도·분산·예제·실무 주의점 — 을 통째로 확장한다. § 4.1 — 비모수 추정의 동기: 우측 censoring 데이터에서 empirical CDF 가 작동하지 않는 이유, \(D\) 시점·\(d_i\) 사건 수·\(Y_i\) 위험집합 표기, censoring 의 독립 가정, Type I·Type II·progressive·random 모두 적용 가능한 단일 framework. § 4.2 — Kaplan-Meier \(\widehat{S}(t) = \prod_{t_i \leq t} (1 - d_i/Y_i)\) (식 4.2.1): step function·점프 크기는 \(d_i/Y_i\) 에만 의존하지 않고 censoring 패턴에도 의존·왜 곱인가의 사슬 분해 직관. Greenwood 분산 (식 4.2.2): \(\widehat{S}^2 \sum d_i/[Y_i(Y_i-d_i)]\) 의 delta-method + Binomial \(d_i \sim B(Y_i, h_i)\) 도출. Nelson-Aalen \(\widetilde{H}(t) = \sum d_i/Y_i\) (식 4.2.3) + Aalen 분산 (식 4.2.4) \(\sum d_i/Y_i^2\). KM ↔︎ NA: 두 추정량의 점근적 동치성 (\(\widetilde{H}\) 가 \(-\ln \widehat{S}\) 의 Taylor 1차) + 소표본 차이 (\(\widetilde{S} = \exp(-\widetilde{H}) \geq \widehat{S}\)). KM 의 5 가지 유도: (1) reduced-sample 이산 분포 + 조건부 사슬, (2) redistribute-to-the-right 알고리즘 (Efron 1967) — 10 개 데이터 손풀이로 단계별 시연, (3) self-consistency 식 4.2.7 의 fixed point — EM 알고리즘의 원형, (4) counting process \(\widehat{S}(t) = \prod_{u \leq t}(1 - dN(u)/Y(u))\) product integral (Andersen et al. 1993), (5) NPMLE — 모든 점프를 사건 시점에만 둔 분포족에서 likelihood 최대. Klein Example 4.1: Freireich 1963 의 6-MP 21 명 데이터 표 4.1A (KM 계산) + 표 4.1B (KM + SE 단계별) + 표 4.2 (NA 계산) — 모든 셀을 계산. Klein Example 4.2: 137 명 BMT 의 ALL/AML low/AML high 3 그룹 disease-free survival — 표 4.3 의 ALL 군 24 행 KM·NA 계산 + Figure 4.2/4.3 그래프 해석 + 3 년 DFS 비교 (0.3531·0.5470·0.2444). 8 Practical Notes: 독립 censoring 가정 위반 함정 · tail 처리 3 안 (Efron 0 · Gill constant · Brown-Hollander-Kowar exponential, Klein 1991 Gill 권장) · Aalen-Johansen 분산 (식 4.2.5)·Klein 1991 NA 분산 (식 4.2.6)·NA 로부터 survival 분산 도출·empirical 환원·SAS·SPSS·S-Plus 구현. 9 Theoretical Notes: reduced-sample 사슬 분해 증명 · redistribute-to-the-right 직관 · self-consistency Efron 1967 · counting process Aalen 1975 · NPMLE · 일관성 + 점근적 동치 · Taylor 1차 도출 · 소표본 (Guerts·Wellner·Klein) · Gaussian process weak convergence. | |
| Apr 28, 2026 | Klein § 4.3~4.4 — Pointwise Confidence Intervals · Confidence Bands | Statistics, Survival Analysis, Klein-Moeschberger, Confidence-Bands, Brownian-Bridge, Variance-Stabilizing | Klein & Moeschberger Ch.4 의 § 4.3 (Pointwise CI) + § 4.4 (Confidence Bands) 를 정전 깊이로 풀어낸다. 04-1 편이 KM·NA 의 점추정을 다뤘다면, 본 편은 그 위에 불확실성 측정 — 한 시점에서의 신뢰구간과 전체 곡선에 대한 신뢰대 — 를 쌓는다. § 4.3 — Pointwise CI 3 종: (1) Linear (식 4.3.1): asymptotic normality 직접, [0,1] 벗어남 가능, 소표본 nominal level 미달. (2) Log-transformed (식 4.3.2 Kalbfleisch-Prentice 1980): cumulative hazard 의 log 변환 (log-log transform) — H>0 의 자연 도메인을 정규 공간으로, [0,1] 자동 보장, 비대칭성 반영. (3) Arcsine-square-root (식 4.3.3 Nair 1984): variance stabilizing 변환, 양 끝에서 안정. 누적위험 CI 3 종 (식 4.3.4~4.3.6, Bie et al. 1987): linear/log/arcsine. Borgan-Liestøl 1990 비교: arcsine 약간 보수적, log 약간 미달, linear 큰 표본만. BMT ALL 1 년 시점 95% CI 비교 (linear (0.39, 0.71) vs log (0.38, 0.69) vs arcsine (0.39, 0.70)). § 4.4 — Confidence Bands: pointwise CI 를 모든 t 에 대해 plot 하고 “전체 곡선이 95%” 라고 말하는 함정 (joint coverage 보장 X, multiple comparison 의 본질). EP band (Nair 1984): 표준화 KM 의 sup |W(x)/√(x(1-x))| 분포 (Brownian bridge 의 q-변환). Hall-Wellner band (Hall-Wellner 1980): Brownian bridge W(x) 의 sup 직접. Linear/Log/Arcsine 변환 × EP/HW = 6 형태 (식 4.4.2~4.4.7). a_L = nσ_S²(t_L)/(1+nσ_S²(t_L)) 와 a_U 로 critical value c_α(a_L, a_U) (Appendix C.3) 또는 k_α(a_L, a_U) (Appendix C.4) 결정. EP 는 t_L>0 필요, HW 는 t_L=0 허용. Borgan-Liestøl 1990 권장: EP arcsine-sqrt 또는 HW arcsine-sqrt. BMT ALL 100~600 일 95% EP arcsine band 손계산 (a_L=0.1, a_U=0.6, c_05=2.8826). Brownian bridge 직관: KM 의 표준화가 양 끝에서 0 으로 고정되는 process — Brownian motion 이 [0,1] 끝에서 묶인 형태. EP 의 q(x)=[x(1-x)]^{-1/2} 변환은 Brownian bridge 를 모든 x 에서 같은 분산으로 만듦 (equal precision). Practical Notes (4 개): cumulative hazard band 도출, 소표본 coverage 비교, EP 의 t_L>0 제약 처리, R km.ci 패키지 사용법. Theoretical Notes (3 개): weak convergence 도출 (Aalen 1975), Miller-Siegmund 1982 의 critical value 근사 공식, Hall-Wellner critical value (Chung 1986). | |
| Apr 28, 2026 | Klein § 4.5~4.6 — Mean · Median · Left-Truncated Estimation | Statistics, Survival Analysis, Klein-Moeschberger, RMST, Median-Survival, Left-Truncation, Channing-House | Klein & Moeschberger Ch.4 의 § 4.5 (Mean·Median Estimation) + § 4.6 (Left-Truncated Data) 를 정전 깊이로 풀어낸다. 04-1·04-2 가 KM·NA 점추정과 신뢰구간/대를 다뤘다면, 본 편은 그 위에 (1) summary statistics — 평균과 중앙값 — 와 (2) 좌절단 데이터로의 확장을 쌓는다. § 4.5 — Restricted Mean Survival Time (RMST): μ̂_τ = ∫_0^τ Ŝ(t)dt (식 4.5.1) 의 면적 해석·∫_0^∞ S(t)dt = E[X] 도출 (∫_0^∞ tf(t)dt 부분적분)·tail 처리 함정 (마지막 censoring 시 정의 안됨 → τ 사전 지정 또는 Efron tail). 분산 식 4.5.2: ∑ [∫_t_i^τ Ŝ(t)dt]² · d_i/[Y_i(Y_i-d_i)] — Greenwood 의 면적 가중 형태. PH 위반 시대 RMST 가 hazard ratio 의 직관적 대체로 부각되는 현대적 의의. 6-MP 군 μ̂_35 = 23.286 주 (SE 2.827) + BMT 3 그룹 비교 (ALL 899·AML low 1549·AML high 792 days). Median estimation: x̂_p = inf{t : Ŝ(t) ≤ 1-p} 자명. 그러나 분산은 density f(x_p) 추정 필요 → 비모수에서 어려움. Brookmeyer-Crowley 1982a 의 트릭: “Ŝ(t) 의 95% CI 가 1-p 를 포함하는 모든 t” — 시간축 CI 를 생존확률축 CI 로 우회. 식 4.5.4 linear / 4.5.5 log / 4.5.6 arcsine 3 종. BMT ALL median 손풀이: x̂_0.5 = 418 days, 95% linear CI x_0.5 > 194 days (heavy censoring 으로 상한 미정). AML high (115, 363) days. Klein Practical Note 3 의 density-based 분산 대안. § 4.6 — Left-Truncated Data: Y_i 재정의 만으로 KM·NA·CI·Band 모두 동일하게 적용 — “\(Y_i = \#\{j : L_j < t_i \leq T_j\}\)” (entry time L_j 가 t_i 직전이고 study time T_j 가 t_i 이상). 단 추정 대상이 conditional survival S(t|X≥L_min) = S(t)/S(L_min) 으로 변경. Length-biased sampling 의 본질적 함정 (오래 산 사람만 표본에 포함될 가능성 높음). Channing house 정전 예제: 97 males + 365 females retirement community, 위험집합이 entry 와 함께 증가 → 사망/censoring 으로 감소 (Figure 4.10). 작은 위험집합에서 Y_i = d_i 시 KM = 0 함정 — 식 4.6.1 의 conditional from age a 트릭 (a 이전은 사용 안 함). 68세/80세 conditional 생존 비교 (남녀별 4 곡선). Tsai 1990 independent truncation 검정 (P[X=x|L=l, X>L]/P[X≥x|L=l, X>L] = h(x)). Lai-Ying 1991 small-risk-set 수정 ~S = ∏(1 - d_i/Y_i · I[Y_i ≥ c n^α]) — 점근적 동치 + finite sample 안정. 대표 응용: 임상시험 PH 위반 시 RMST · 의료기록 retrospective study (좌절단) · cohort life table · 의료기 수명 retrospective cohort. | |
| Apr 28, 2026 | Klein § 4.7~4.8 — Competing Risks · Ch.4 Exercises | Statistics, Survival Analysis, Klein-Moeschberger, Competing-Risks, CIF, Exercises | Klein & Moeschberger Ch.4 의 § 4.7 (Competing Risks) + § 4.8 (Exercises) 를 풀어내며 Ch.4 시리즈를 마무리한다. 04-1·4·2·4·3 이 단일 사건 (event of interest) 의 비모수 추정을 다뤘다면, 본 편은 (1) 여러 경쟁 위험이 공존할 때의 3 가지 다른 곡선과 (2) 10 개 exercises 의 풀이 가이드를 다룬다. § 4.7 — Competing Risks Summary Curves: 같은 데이터에서 “사건 K 의 발생률” 을 추정하는 3 가지 방법이 모두 다른 답을 준다. (1) 1-KM (다른 사건을 censoring 처리): “다른 위험이 0 인 가상 세계” 의 발생률 — Klein 비추천. (2) CIF (cumulative incidence function, 식 4.7.1) = ∑ Ŝ(t_i^-) · r_i/Y_i: “현실 세계” 의 발생률, cause-specific hazard 의 누적합 + overall survival 가중. (3) CP (conditional probability, 식 4.7.3) = CI_K/(1-CI_{K^c}): 다른 사건 안 일어난 생존자 한정 발생률. 3 곡선의 부등식: CP ≥ 1-KM ≥ CIF (보통). 100 명 BMT hypothetical 예제 — 10 명 재발·30 명 무재발 사망 시 CIF=0.10, 1-KM 은 사건 패턴에 따라 0.10~0.143 사이 임의 값, CP=10/70=0.143 (재발 가능했던 사람 한정). 분산 식 4.7.2 (CIF) + 4.7.4 (CP). BMT ALL 38 명 (Klein Table 4.8) 24 행 손풀이 — 1 년 시점 relapse CIF 0.238 (95% CI 0.103~0.373) vs CP 0.302 (CI 0.131~0.473). § 4.7 핵심 그래프 — disease-free survival = 1 - (relapse CIF + TRM CIF), CIF 합 = 1-Ŝ overall. Theoretical Notes: cause-specific hazard 정의, Kalbfleisch-Prentice 1980 의 CIF 도출, Pepe-Mori 1993 + Gooley 1999 의 추가 분산 추정 논의. cmprsk R + lifelines AalenJohansen + scikit-survival 매핑. § 4.8 — 10 Exercises: 단일 군 분석 (4.1 tongue cancer, 4.5 black female KT), 두 군 비교 (4.2 BMT AML, 4.4 dialysis, 4.6 burn study), tail 처리 (4.3 lung interim vs complete + BHK), 좌절단 (4.7 hypothetical diabetics, 4.8 psychiatric), competing risks (4.9 Hoel-Walburg mice 3 cause, 4.10 BMT AML CIF·CP). 각 문제의 핵심 풀이 패턴 + Klein 본문 결과 비교 + 코드 매핑. Ch.4 통합 7 가지 교훈: d_i/Y_i building block · 5 가지 KM 유도 · log/arcsine 변환 우월성 · pointwise vs band 차이 · RMST 의 PH 위반 시대 부각 · 좌절단의 Y_i 재정의 단순함 · CIF ≠ 1-KM 함정. Ch.5 (다른 sampling scheme) 예고. | |
| Apr 28, 2026 | Klein Ch.4 Overview — Nonparametric Estimation of Basic Quantities for Right-Censored and Left-Truncated Data | Statistics, Survival Analysis, Klein-Moeschberger, Kaplan-Meier, Nelson-Aalen, Confidence-Bands | Klein & Moeschberger Ch.4 의 7 개 절을 한 편으로 조망한다. Ch.3 가 censoring·truncation 의 likelihood 와 counting process 를 정의했다면, Ch.4 는 그 likelihood 를 실제로 풀어 4 함수 (S, H, μ, x_p) 를 데이터로부터 추정한다. § 4.1 Introduction — 7 절 개관 + 핵심 quantity d_i/Y_i (사건 직전 생존자 중 사건 발생 비율) 의 의미. § 4.2 Kaplan-Meier · Nelson-Aalen — 비모수 MLE 의 두 형태·5 가지 유도 (reduced-sample · redistribute-to-the-right · self-consistency · counting process · NPMLE)·소표본에서 NA > KM의 우월성·tail 처리 3 안 (Efron · Gill · Brown-Hollander-Kowar). § 4.3 Pointwise CI — linear (asymptotic normality 직접) · log-transformed (Kalbfleisch-Prentice 1980) · arcsine-square-root (Nair 1984) 3 종·소표본에서 변환된 CI 우월성. § 4.4 Confidence Bands — pointwise CI 의 단순 연결은 too narrow 함정·EP (Nair 1984, q(x)=[x(1-x)]^{-1/2} 변환) · Hall-Wellner (Brownian bridge) 두 형태 × 3 변환·EP 의 t_L>0 제약 vs HW 의 t_L=0 허용. § 4.5 Mean · Median — restricted mean μ̂_τ = ∫_0^τ Ŝ(t)dt + tail 처리·median: Brookmeyer-Crowley 1982a 의 무모수 CI (S(t) 신뢰구간을 quantile 신뢰구간으로 역변환). § 4.6 Left-Truncation — Y_i 재정의 (L_i ≤ t_i ≤ T_i 인 자만 위험집합)·conditional survival S(t|T>L)·Channing house 462 명 retirement community 의 정전 예제·Lai-Ying 1991 의 small-risk-set 정규화. § 4.7 Competing Risks — 1-KM (다른 risk = censoring 처리: hypothetical world)·CIF cumulative incidence (real world)·CP conditional probability (생존자 한정)·1-KM ≠ CIF 함정 + 25%~30% 과대추정 사례. Ch.5~13 의 모든 비모수 (kernel hazard·log-rank·Cox·Aalen·AFT) 가 본 chapter 의 KM·NA 위에서 동작. | |
| Apr 28, 2026 | Klein § 5.1~5.2 — Left, Double, Interval Censoring · Turnbull NPMLE | Statistics, Survival Analysis, Klein-Moeschberger, Turnbull-NPMLE, Interval-Censoring, Self-Consistency, EM-Algorithm | Klein & Moeschberger Ch.5 의 § 5.1 (Introduction) + § 5.2 (Left·Double·Interval Censoring) 를 정전 깊이로 풀어낸다. Ch.5 overview 가 5 sampling scheme 의 위치를 조망했다면, 본 편은 그 첫 번째 deep-dive — 좌측·이중·구간 censoring 의 정확한 알고리즘 진행과 손풀이. § 5.1 — Introduction: Ch.4 framework 의 한계 (오른쪽 censoring + 좌절단 두 scheme 만) 와 Ch.5 의 5 sampling scheme (left·double·interval cens + right trunc + grouped data) 위치. 각 scheme 별 정보 구조의 차이. § 5.2.1 Pure Left Censoring — Time Reversal Trick: 큰 시점 τ 잡고 T*i = τ - T_i 변환 → 원래 left-censored 가 새 시간에서 right-censored. § 4.2 KM 그대로 적용 → 추정 대상 P(τ - X > t) = P(X < τ - t). Ware-DeMets (1976) 의 적용 사례. 한계: 순수 left censoring 은 드물고, 보통 left + right 혼합. § 5.2.2 Double Censoring — Turnbull (1974) Self-Consistency: closed form 없음, 반복 알고리즘. Grid t_1 < t_2 < … < t_m 에서 d_i (사건), r_i (right cens), c_i (left cens) 분류. 핵심 직관: § 4.2 의 self-consistency (Efron 1967) 의 양방향 일반화 — left-censored 관측의 conditional expectation 으로 d̂i 채워 KM 반복 갱신. 알고리즘 4 단계: Step 0 (left cens 무시한 KM 으로 S_0 초기값) → Step (K+1)-1 (S_K 로 conditional 확률 p_ij = [S_K(t_{j-1}) - S_K(t_j)]/[1 - S_K(t_i)] 추정) → Step (K+1)-2 (left cens c_l 을 가능 시점들에 분배: d̂i = d_i + ∑ c_l p_li) → Step (K+1)-3 (새 KM 계산 → S{K+1}) → 수렴까지 반복. Klein Example 5.1: California 고등학생 191 명 마리화나 첫 사용 (§ 1.17). Tables 5.1 (초기 S_0) → 5.2 (p_ij 계산) → 5.3 (S_1). 2 회 반복 후 |S_2 - S_1| < 0.001 수렴. 12-15 세 가속 발견. Turnbull 분산 — J 행렬 inverse: tridiagonal symmetric matrix 의 4 항 합 (d_i, d{i+1}, r_i, c_i 정보). 인접 시점 covariance 만 비영. § 5.2.3 Interval Censoring — Turnbull (1976) NPMLE: 각 개체 사건 시점이 (L_i, R_i] 만 알려짐. Closed form 없음. Grid τ_0 < τ_1 < … < τ_m 에 모든 L_i, R_i 포함. Indicator α_ij = 1 if (τ{j-1}, τ_j] ⊆ (L_i, R_i]. 알고리즘 4 단계: Step 1 (p_j = S(τ_{j-1}) - S(τ_j) 계산) → Step 2 (d_i = ∑k α_ik p_k 의 정규화로 사건 수 분배) → Step 3 (Y_i = ∑{k≥i} d_k) → Step 4 (KM 갱신). EM 의 NPMLE 적용 — Kiefer-Wolfowitz (1956) 일반화. Klein Example 5.2: Beadle (1984) 94 명 breast cancer cosmetic deterioration. Radiation only 46 vs Radiation + Chemotherapy 48. 4-6 개월 visit schedule 의 interval censoring. Table 5.4 의 305 회 반복 후 |ΔS| < 10^{-7} 수렴. Figure 5.1 의 두 군 비교 — chemotherapy 추가 시 cosmetic 악화 가속. 실무 도구: R icenReg, interval, Icens 패키지 + Python lifelines (현재 Turnbull 미지원, 직접 구현 필요). | |
| Apr 28, 2026 | Klein § 5.3~5.4 — Right-Truncated Data · Cohort Life Table | Statistics, Survival Analysis, Klein-Moeschberger, Right-Truncation, Life-Table, Time-Reversal, Grouped-Data | Klein & Moeschberger Ch.5 의 § 5.3 (Right-Truncated Data) + § 5.4 (Cohort Life Table) 를 deep-dive 로 풀어낸다. § 5.1~5.2 가 censoring 의 3 형태를 다뤘다면, 본 편은 (1) truncation 의 우측 형태 (좌절단의 mirror image) 와 (2) grouped data 의 life table 처리. § 5.3 — Right-Truncated Data: 표본 조건이 사건이 시점 τ 까지 발생한 사람만 — 감염병 retrospective study (HIV/AIDS) 의 표준. § 4.6 의 좌절단의 mirror image. Time reversal trick 의 두 번째 응용: R_i = τ - X_i → 새 시간 R_i 의 좌절단 + right-censored 0 구조. 좌절단 framework (식 4.6.1) 그대로 적용 — Y_i = #{j: T_j > X_i, X_j ≤ τ - X_i} (원래 시간에서 induction time > X_i 와 infection time ≤ τ - X_i). 추정 대상이 conditional P(X < τ - t | X ≤ τ). Klein Example 5.3: Lagakos (1988) HIV-contaminated blood transfusion AIDS 37 children + 258 adults. Infection time T_i + induction time X_i (HIV → AIDS). τ = 8 years (1978-04 부터 1986-06). Klein Table 5.5 손풀이: X = 1 yr → Y = 17, P̂(X < 1 | X ≤ 8) = 0.158. X = 5.5 yr → Y = 3, P̂ = 0.667. Children 평균 잠복기 약 5 년, adults 약 8 년. 우측 절단 무시 시 잠복기 5+ yr 과소 추정 — 1980 년대 AIDS 역학의 historical impact. § 5.4 — Cohort Life Table: 사건 시점이 정확히 알려지지 않고 미리 정해진 구간 (a_{j-1}, a_j] 내에서만 알려진 grouped data. KM 의 grouped 일반화 (Thompson 1977: lim 구간 → 0 = KM). 11 column 구성: (1) interval I_j = (a_{j-1}, a_j] · (2) Y’j entering · (3) W_j withdrawn · (4) Y_j = Y’j - W_j/2 (균등 분포 가정) · (5) d_j events · (6) Ŝ(a{j-1}) · (7) f̂(a_mj) density · (8) ĥ(a_mj) hazard · (9~11) 3 종 SE. 핵심 식 5 가지: (5.4.1) Ŝ(a_j) = ∏(1 - d_i/Y_i) — KM 의 grouped 형태. (5.4.2) f̂ = [Ŝ(a_{j-1}) - Ŝ(a_j)]/(a_j - a{j-1}). (5.4.3·4) ĥ 두 형태 — 2f̂/[Ŝ_{j-1} + Ŝ_j] 또는 d_j/[(a_j - a_{j-1})(Y_j - d_j/2)]. (5.4.5) Greenwood SE = KM 식 4.2.2 와 동일. (5.4.7) hazard SE. Median linear interpolation (식 5.4.8): x̂0.5 = a{j-1} + Ŝ_{j-1} - 0.5/[Ŝ_{j-1} - Ŝ_j]. Median residual lifetime (식 5.4.9·10). Klein Example 5.4: NLSY 927 명 first-born breastfeeding (Klein § 1.14). Table 5.6 의 10 구간 손풀이 — Y_j 균등 분포 보정 (W_j/2), Ŝ 곱 누적 (1.000 → 0.0313), bathtub-style hazard (0~5 주 높음·5~37 주 안정·37 주+ 상승). Median weaning 11.21 주 (식 5.4.8 직접 계산), median residual at 25 wk = 15.40 주. Sacher (1956) 대안 hazard ĥ = -ln p̂j / (a_j - a{j-1}) — Gehan-Siddiqui 1973 의 비교 (식 5.4.3 보다 약간 편향). Thompson (1977) 의 limit theorem: 구간 길이 → 0 면 life table = KM. 인구통계 (current life table, Chiang 1984) 와 cohort life table 의 차이. | |
| Apr 28, 2026 | Klein § 5.5 — Ch.5 Exercises 10 문제 풀이 | Statistics, Survival Analysis, Klein-Moeschberger, Exercises, Other-Sampling-Schemes | Klein & Moeschberger Ch.5 의 10 exercises 풀이 가이드. § 5.1~5.4 가 도구를 정의했다면, § 5.5 의 10 문제는 그 도구를 다양한 데이터에 통합 적용. Ch.5 시리즈의 마지막 deep-dive. 10 문제 분류: (1) Double censoring (left + right + exact) — Ex 5.1 (의대생 흡연 시작 나이) + 5.2 (수의사 첫 needlestick injury). Turnbull 1974 self-consistency 4-step 알고리즘. (2) Interval censoring — Ex 5.3 (nursing home 첫 낙상, mixed interval + right cens) + 5.4 (lumpectomy metastasis, pure interval). Turnbull 1976 NPMLE. (3) Right truncation — Ex 5.5 (STD 25 명, τ=42 개월) + 5.6 (AIDS adults 258 명, Lagakos 1988 의 어른 part). Time reversal R = τ - X 로 좌절단 환원. (4) Cohort life table — Ex 5.7 (Framingham CHD 1571 men, 7 구간) + 5.8 (HIV STD clinic 100 명, 7 구간). 식 5.4.1~5.4.7 의 11 column 표 작성. (5) Mixed special — Ex 5.9 (DMBA rat tumor: 3 마리 left censored at day 62 + 10 exact) — left censoring 처리 + time reversal. Ex 5.10 (Wagner-Altmann 1973 baboon descent time: pure left censoring) — 자정 (2400) 으로부터의 분 단위 time reversal. 각 문제의 풀이 패턴: (a) Sampling scheme 식별 → (b) 적절한 도구 선택 (Turnbull 1974/1976, time reversal, life table) → (c) 위험집합 정의 + 알고리즘 진행 → (d) 결과 해석. Klein 본문 결과와의 비교 + R/Python 코드 매핑. Ch.5 시리즈 통합 7 가지 교훈: time reversal trick 의 universality (left cens + right trunc), Turnbull self-consistency 의 EM 일반화, life table = lim KM (Thompson 1977), 위험집합 정의의 universality (Y_i 재정의 만으로 framework 확장), grouped data 의 가정 3 가지 (independent + uniform + constant hazard), AIDS 잠복기 historical impact (우측 절단 보정의 임팩트), Ch.4 도구의 단순한 generalization 으로 모든 sampling scheme 처리. Ch.6 예고: kernel hazard smoothing · excess mortality · Bayesian NPMLE — Ch.5 의 비모수 framework 의 정교화. | |
| Apr 28, 2026 | Klein Ch.5 Overview — Estimation of Basic Quantities for Other Sampling Schemes | Statistics, Survival Analysis, Klein-Moeschberger, Interval-Censoring, Right-Truncation, Life-Table, Turnbull-NPMLE | Klein & Moeschberger Ch.5 의 4 개 절을 한 편으로 조망한다. Ch.4 가 우측 censoring + 좌절단 (가장 흔한 두 sampling scheme) 의 비모수 추정을 다뤘다면, Ch.5 는 그 외의 모든 sampling scheme — left/double/interval censoring · right truncation · grouped data — 의 추정을 다룬다. § 5.1 Introduction — Ch.4 framework 의 한계 (오른쪽 censoring + 왼쪽 truncation 만 처리) 와 Ch.5 의 필요성. Sampling scheme 별로 다른 likelihood 와 다른 추정 도구. § 5.2 Left·Double·Interval Censoring — (1) Pure left censoring: time reversal trick (T = τ - 원래 시간) → right-censored framework 적용 → Ch.4 의 KM 그대로 사용 (Ware-DeMets 1976). 추정 대상 P(τ - X > t) = P(X < τ - t). (2) Double censoring (left + right): closed-form 없음, Turnbull 1974 self-consistency 반복 알고리즘. § 4.2 의 self-consistency (EM 원형) 의 일반화 — left-censored 관측의 conditional expectation 으로 d_i 를 채워 KM 반복 갱신. (3) Interval censoring (L_i, R_i]: Turnbull 1976 NPMLE — jump points 결정 + α_ij indicator + self-consistency 반복. Klein Example 5.1 (191 명 마리화나 첫 사용) + Example 5.2 (94 명 breast cancer cosmetic deterioration). § 5.3 Right-Truncated Data — entry 이후 사건 발생자만 표본 포함 (infectious diseases 의 retrospective). Time reversal 의 두 번째 응용: R_i = τ - X_i → 좌절단 framework 환원 → § 4.6 의 Y_i = #{j: L_j < t_i ≤ T_j} 그대로 적용. 추정 대상이 conditional P(X < τ - t | X ≤ τ). Klein Example 5.3 (Lagakos 1988 AIDS induction time, 37 children + 258 adults transfusion-related). Keiding-Gill 1990 의 counting process 점근. § 5.4 Cohort Life Table — 사건 시점이 정확히 관측되지 않고 미리 정해진 구간 (a_{j-1}, a_j] 내에서만 알려진 grouped data. 11 column 표 — interval, Y’_j (entering), W_j (withdrawn), Y_j = Y’j - W_j/2 (at risk, 균등 분포 가정), d_j (events), Ŝ(a_j) = ∏(1 - d_i/Y_i) (식 5.4.1 = KM 의 grouped 형태), f̂(a_mj) = [Ŝ(a_{j-1}) - Ŝ(a_j)]/(a_j - a{j-1}) (식 5.4.2), ĥ(a_mj) = 2f̂/[Ŝ(a_{j-1}) + Ŝ(a_j)] 또는 d_j/[(a_j - a_{j-1})(Y_j - d_j/2)] (식 5.4.3·4), Greenwood SE (식 5.4.5 = KM 의 식 4.2.2 와 동일), median linear interpolation (식 5.4.8), median residual lifetime (식 5.4.9·10). NLSY weaning 927 명 (Klein § 1.14 Table 5.6) — median weaning 11.21 weeks. Sacher 1956 의 hazard 대안 ĥ = -ln p̂j/(a_j - a{j-1}). Thompson 1977 의 결과: 구간 길이 → 0 일 때 life table = KM (limit theorem). § 5.5 Exercises (10 문제 — 다음 deep-dive 편에서 풀이). Ch.5 의 핵심: time-reversal trick 으로 left cens / right trunc 를 Ch.4 framework 로 환원, Turnbull self-consistency 로 interval/double 처리, life table 으로 grouped 데이터 처리. Ch.6~13 의 출발점. | |
| Apr 28, 2026 | Klein § 6.1~6.2 — Kernel Hazard Smoothing | Statistics, Survival Analysis, Klein-Moeschberger, Kernel-Smoothing, Bandwidth-Selection, Bias-Variance-Tradeoff | Klein & Moeschberger Ch.6 의 § 6.1 (Introduction) + § 6.2 (Kernel Hazard Smoothing) 를 정전 깊이로 풀어낸다. Ch.6 첫 번째 deep-dive — Ch.4·5 의 NA 가 hazard rate 자체는 직접 추정 못 한다는 한계를 kernel smoothing 으로 해결. § 6.1 — Introduction: Ch.4 의 NA 가 cumulative hazard \(H(t)\) 만 추정. 점프 크기 \(\Delta\widetilde{H}(t_i) = d_i/Y_i\) 가 \(h(t_i)\) 의 거친 추정. 하지만 점프만으로 hazard 모양 (constant·monotone·U·hump·bathtub) 파악 어려움. Ch.6 의 3 정교화: kernel smoothing (§ 6.2 본 편) · excess mortality (§ 6.3) · Bayesian (§ 6.4). § 6.2.1 — Kernel-smoothed estimator: \(\widehat{h}(t) = (1/b) \sum_{i=1}^D K((t-t_i)/b) \Delta\widetilde{H}(t_i)\) (식 6.2.4). 분산 \(\sigma^2[\widehat{h}(t)] = (1/b^2) \sum K(\cdot)^2 \Delta\widehat{V}[\widetilde{H}(t_i)]\) (식 6.2.5). \(\Delta\widehat{V} = d_i/Y_i^2\) (Aalen 분산 점프). bandwidth \(b\) + kernel \(K()\) 가 두 핵심 선택. § 6.2.2 — 3 종 kernel: Uniform \(K = 0.5\) (식 6.2.1, 균등 가중·계단형) · Epanechnikov \(K = 0.75(1-x^2)\) (식 6.2.2, MSE optimal Hodges-Lehmann 1956) · Biweight \(K = (15/16)(1-x^2)^2\) (식 6.2.3, smoothest). 중심 (\(x=0\)) 가중 비교 0.5 → 0.75 → 0.94. Klein Figure 6.3 의 시각적 비교 — biweight 가장 매끄럽고 uniform 가장 거칠음. § 6.2.3 — Boundary effect + asymmetric kernel: 시작 \((t < b)\) 와 끝 \((t > t_D - b)\) 에서 symmetric kernel 작동 안 함 (적분 ≠ 1). Gasser-Müller (1979) 의 asymmetric kernel — \(q = t/b\) 의존. 식 6.2.6 (uniform) · 6.2.7 (Epanechnikov, \(\alpha_E + \beta_E x\)) · 6.2.8 (biweight). Klein Example 6.1 의 \(t = 50\) boundary 손계산 — \(q = 0.5\), \(\alpha_E = 1.323\), \(\beta_E = 1.102\), \(K_{0.5}(-0.05) = 0.9485\). § 6.2.4 — Bandwidth selection: bias-variance trade-off. 작은 \(b\) → variance 큼·bias 작음 (거친 plot). 큰 \(b\) → variance 작음·bias 큼 (평탄화). MISE = \(\int [\widehat{h} - h]^2 du = \int [h^* - h]^2 + \int E[\widehat{h} - h^*]^2\) — bias² + variance 분해. Theoretical Note 2 의 bias 점근 \(\approx 0.5 b^2 h''(t) k^*\) where \(k^* = \int_{-1}^1 s^2 K(s) ds\). § 6.2.5 — Cross-validation (Ramlau-Hansen 1983a·b): \(g(b) = \int \widehat{h}^2 du - 2/b \sum_{i \neq j} K((t_i - t_j)/b) \Delta\widetilde{H}(t_i) \Delta\widetilde{H}(t_j)\) 를 최소화하는 \(b\) 선택. 첫 항은 trapezoid rule 로 수치 적분, 두 번째 항은 cross-validation estimate. Klein Example 6.1 BMT ALL: 3 시점 손풀이 — \(t = 50\) boundary, \(t = 150\) symmetric (\(\widehat{h}(150) = 0.00257\)/day = 연 94% hazard), \(t = 600\) right tail. Cross-validation 결과 ALL 161 days, AML low 50 days, AML high 112 days. Klein Figure 6.1 의 3 disease group 비교. Klein Example 6.2 kidney transplant: kernel 효과 (Figure 6.3) + bandwidth 효과 (Figure 6.4) 시각적 비교. Cross-validation 최적 \(b\) — uniform 0.17, Epanechnikov 0.20, biweight 0.23 yr. Figure 6.6 의 biweight 최적 \(b\) 의 95% pointwise CI. § 6.2.6 — 95% pointwise CI: \(\widehat{h}(t) \exp[\pm Z_{1-\alpha/2} \sigma(\widehat{h})/\widehat{h}(t)]\) — log-transformed (cumulative hazard 의 § 4.3 와 유사). Practical Note 1 의 함정 — 추정 대상이 진짜 \(h(t)\) 가 아닌 smoothed \(h^*(t) = (1/b) \int K((t-u)/b) h(u) du\) 임에 주의. Practical Notes 3 + Theoretical Notes 2 + R muhaz · bhrcr · Python 직접 구현 코드. | |
| Apr 28, 2026 | Klein § 6.3~6.4 — Excess Mortality · Bayesian NPMLE | Statistics, Survival Analysis, Klein-Moeschberger, Excess-Mortality, SMR, Bayesian-NPMLE, Dirichlet-Process, Gibbs-Sampler | Klein & Moeschberger Ch.6 의 § 6.3 (Excess Mortality) + § 6.4 (Bayesian NPMLE) 를 deep-dive. § 6.1~6.2 가 hazard 의 평활을 다뤘다면, 본 편은 (1) 표준 인구와 비교 (excess mortality) 와 (2) prior 정보 결합 (Bayesian) 의 두 정교화. § 6.3 — Excess Mortality: 환자 그룹의 mortality 를 표준 인구와 비교. 두 모형이 같은 데이터에 다른 질문에 답. Multiplicative (relative mortality) — h_j(t) = β(t) · θ_j(t) (식 6.3.1) 에서 β(t) 가 환자/표준 ratio. β(t) > 1 면 빠른 사망, β(t) = 1 표준 동일, β(t) < 1 더 좋음. 추정량 B̂(t) = ∑_{t_i ≤ t} d_i/Q(t_i) (식 6.3.2) where Q(t) = ∑_j θ_j(t) Y_j(t) — 모든 위험 환자의 표준 인구 hazard 가중 합. 분산 식 6.3.3. SMR (Standardized Mortality Ratio, Breslow 1975) 의 시간-변동 일반화 — β(t) = β_0 일정 가정 시 SMR = ∑ d_i / E where E = ∫ Q(u) du. Additive — h_j(t) = α(t) + θ_j(t) (식 6.3.4) 에서 α(t) 가 표준 외 추가 위험. 추정량 Â(t) = H̃(t) - Θ(t) (식 6.3.6) where Θ(t) = ∑_j ∫ θ_j(u) Y_j(u)/Y(u) du (식 6.3.5) — 표준 인구 가정 시 기대 cumulative hazard. 분산 식 6.3.7 = NA 분산. Corrected survival S^C(t) = Ŝ(t)/S(t) where S(t) = exp(-Θ(t)) — cancer relative survival 의 표준. Klein Example 6.3 26 명 Iowa psychiatric (Klein § 1.15) — 1959-1961 Iowa State life table 기반. λ_S(a) = -ln S(a) - (-ln S(a+1)) 로 표준 hazard 계산. Q(t), Θ(t), B̂(t), Â(t) 모두 손풀이. 첫 2 년 β(t) ≈ 20-30 → 정신질환자 일반인 대비 20-30 배 사망률. 30 년 후 cumulative excess Â(30) = 0.36 (95% CI 0.04~0.68) → 100 명당 36 명 추가 사망. § 6.4 — Bayesian NPMLE: prior \(\pi(S)\) + likelihood → posterior. Squared-error loss → Bayes estimator = posterior mean. Dirichlet process prior (Ferguson 1973) for S(t): α(t,∞) = c S_0(t) where S_0 = prior guess + c = prior strength. Prior mean = S_0(t), variance = S_0(1-S_0)/(c+1) — c+1 명의 가짜 표본. Posterior 도 Dirichlet (conjugate). Bayes estimator 식 6.4.1 의 closed form S̃_D(t). Beta process prior (Hjort 1990) for H(t): H_0(t) prior guess + c(t) 시간별 weight. Sample path 가 Dirichlet 보다 매끄러움. Closed form Bayes estimator 식 6.4.2 S̃_B(t). Gibbs sampler (Gelfand-Smith 1990): Dirichlet 와 beta process prior 외 다른 sampling scheme (interval cens, double cens) 또는 regression 의 일반화. 핵심 idea: censored 관측의 사건 시점을 잠재변수로 처리, multinomial sampling 으로 분배 → Dirichlet posterior 갱신 → 반복. 식 6.4.3 의 Dirichlet density + 식 6.4.4 의 posterior mean. Klein Example 6.4 6-MP 21 명 (Klein § 1.2), S_0(t) = e^{-0.1t}, c = 5. Dirichlet S̃_D(t) + beta S̃_B(t) closed form 손풀이. Gibbs 1000~10000 회 반복으로 동일 결과 도출. 두 prior 의 차이 — beta process 가 prior 에 더 가까움 (sample path 매끄러움). c → 0 또는 n → ∞ 에서 KM 으로 수렴 — Bayes 가 KM 의 일반화. Finite sample 에서 prior 가 안정화 효과. | |
| Apr 28, 2026 | Klein § 6.5 — Ch.6 Exercises 7 문제 풀이 | Statistics, Survival Analysis, Klein-Moeschberger, Exercises, Topics-Univariate | Klein & Moeschberger Ch.6 의 7 exercises 풀이 가이드. § 6.1~6.4 가 도구를 정의했다면, § 6.5 의 7 문제는 그 도구를 다양한 데이터에 통합 적용. Ch.6 시리즈 마지막 deep-dive. 7 문제 3 그룹 분류: (1) Kernel Smoothing — Ex 6.1 (6-MP 21명 relapse, 3 kernel 비교) + Ex 6.2 (allogeneic BMT 50명, uniform b=5 mo 7시점) + Ex 6.3 (kidney dialysis 119명 2 군 비교, biweight b=5 mo). (2) Excess Mortality — Ex 6.4 (black female kidney transplant 59명 + 1990 US census, multiplicative + additive 두 모형) + Ex 6.5 (autologous BMT vs chemotherapy reference Exp λ=0.045, 두 모형). (3) Bayesian NPMLE — Ex 6.6 (breast cancer immunoperoxidase 9명, Dirichlet α = 6 exp(-0.1 t^0.5) + beta H_0 = 0.1 t^0.5) + Ex 6.7 (tongue cancer diploid 28명, Dirichlet α = 4/(1+0.15 t^0.5) + beta H_0 = ln(1+0.15 t^0.5)). 각 문제 풀이 패턴: (a) 데이터 + 적절한 도구 식별 → (b) 식 적용 (식 6.2.4·6.3.2·6.3.6·6.4.1·6.4.2) → (c) 손계산 또는 R 코드 결과 → (d) 임상 해석. Klein 본문 결과 비교 + 도구 매핑. Ch.6 시리즈 통합 7 가지 교훈: (1) NA 점프의 평활 (kernel smoothing) — § 6.1~6.2, (2) Epanechnikov MSE optimal (Hodges-Lehmann 1956), (3) Gasser-Müller 1979 boundary kernel, (4) Cross-validation optimal bandwidth (Ramlau-Hansen 1983), (5) SMR 의 시간-변동 일반화 (Breslow 1975), (6) Cancer relative survival (S^C = Ŝ/S*), (7) Bayesian conjugate prior (Dirichlet + beta process) 의 closed form + Gibbs sampler 일반화. Ch.7 예고 — Hypothesis Testing: log-rank · Wilcoxon · Tarone-Ware · stratified · Renyi · Cramer-von Mises 등. § 7.2 one-sample log-rank 의 Iowa psychiatric 검정 (χ² = 24.76, p ≈ 0) 으로 § 6.3 의 excess mortality 결과를 통계적 검정으로 확정. NA framework 의 직접 연장. | |
| Apr 28, 2026 | Klein Ch.6 Overview — Topics in Univariate Estimation (Kernel Smoothing · Excess Mortality · Bayesian NPMLE) | Statistics, Survival Analysis, Klein-Moeschberger, Kernel-Smoothing, Excess-Mortality, Bayesian-NPMLE, Dirichlet-Process | Klein & Moeschberger Ch.6 의 4 개 절을 한 편으로 조망한다. Ch.4·5 가 KM·NA·life table 등 비모수 추정의 표준 도구를 다뤘다면, Ch.6 은 그 위의 정교화 — (1) hazard rate 의 평활 추정, (2) reference 인구와의 비교 (excess mortality), (3) prior 정보를 활용한 Bayesian 추정 — 을 다룬다. § 6.1 Introduction — Ch.4 의 NA 가 cumulative hazard 만 추정 → hazard rate 자체는 점프 크기 ΔH̃(t_i) 의 거친 추정만 가능. Ch.6 의 3 가지 정교화: kernel smoothing (§ 6.2), excess mortality (§ 6.3), Bayesian (§ 6.4). § 6.2 — Kernel Hazard Smoothing: NA 점프의 시간 t 주변 가중 평균 ĥ(t) = (1/b) ∑ K((t-t_i)/b) ΔH̃(t_i) (식 6.2.4). Bandwidth b 와 kernel K() 가 두 핵심 선택. 3 종 kernel: uniform K=0.5 (식 6.2.1, 균등 가중), Epanechnikov K=0.75(1-x²) (식 6.2.2, 중심에 큰 가중·optimal MSE), biweight K=(15/16)(1-x²)² (식 6.2.3, smoothest·heavier weighting). Boundary effect 함정 — 시작·끝에서 symmetric kernel 작동 안 함 → Gasser-Müller 1979 asymmetric kernel (식 6.2.6~6.2.8). Bandwidth bias-variance trade-off (작은 b → 분산 큼·편향 작음, 큰 b → 분산 작음·편향 큼). Klein Example 6.1 BMT ALL 의 ĥ(150) = 0.00257. § 6.3 — Excess Mortality: 표준 인구 mortality 와 비교하는 두 모형. (1) Multiplicative (relative mortality) — h_j(t) = β(t) θ_j(t) (식 6.3.1) where θ_j 는 j 번째 환자의 인구 hazard. β(t) > 1 면 study 군이 표준 인구보다 빠른 사망. B(t) = ∫ β(u) du 의 추정 식 6.3.2 = ∑ d_i / Q(t_i), Q(t_i) = ∑ θ_j(t_i) Y_j(t_i) — Breslow 1975 SMR (Standardized Mortality Ratio) 의 시간 변동 일반화. (2) Additive — h_j(t) = α(t) + θ_j(t) (식 6.3.4) — α(t) > 0 면 표준 인구 외 추가 위험. Â(t) = H̃(t) - Θ(t) (식 6.3.6) where Θ(t) = ∑ ∫ θ_j(u) Y_j(u)/Y(u) du (식 6.3.5). Corrected survival S^C(t) = Ŝ(t)/S*(t). Klein Example 6.3 26 명 Iowa psychiatric inpatient (Klein § 1.15) — 1959-1961 Iowa state mortality 와 비교, β(t) ≈ 20-30 (첫 2 년 정신질환자가 일반 인구보다 20-30 배 사망률 높음). § 6.4 — Bayesian Nonparametric Methods: prior 정보 + sample data → posterior. Squared-error loss → posterior mean 이 Bayes estimator. 두 conjugate prior. (1) Dirichlet process for S — Ferguson 1973, α(t,∞) = c S_0(t) where S_0 은 prior guess, c 는 prior 강도. Prior variance = S_0(1-S_0)/(c+1) — c 가 가짜 표본 크기 + 1. Bayes estimator 식 6.4.1 의 closed form S̃_D(t). (2) Beta process for H — Hjort 1990, H_0(t) prior guess + c(t) 시간별 weight. 식 6.4.2 의 closed form S̃_B(t). 두 prior 의 sample path 시뮬레이션 (Klein Figure 6.11·12). c → 0 (정보 없는 prior) 또는 n → ∞ (큰 표본) 에서 KM 으로 수렴 — Bayes 가 KM 의 일반화. Klein Example 6.4 6-MP 데이터, S_0(t) = e^{-0.1t}, c = 5. § 6.5 Exercises — 다음 deep-dive 편에서 풀이. Ch.6 의 핵심: Ch.4·5 의 KM/NA 가 raw cumulative hazard 만 추정하면, Ch.6 은 (1) 점프를 평활해 hazard rate 직접 추정, (2) reference 와 비교해 “excess” 분리, (3) prior 정보로 finite sample 안정화 — 비모수 추정의 정교화 toolkit. | |
| Apr 28, 2026 | Klein § 7.1~7.2 — One-Sample Log-Rank Test | Statistics, Survival Analysis, Klein-Moeschberger, Log-Rank-Test, One-Sample-Test, SMR, Hypothesis-Testing | Klein & Moeschberger Ch.7 의 § 7.1 (Introduction) + § 7.2 (One-Sample Tests) 를 정전 깊이로 풀어낸다. Ch.7 첫 번째 deep-dive — Ch.4·5·6 의 NA framework 를 검정으로 확장하는 첫 단계. § 7.1 — Introduction: NA 기반 가중 차이 framework. 모든 hypothesis testing 이 “관측 사건수 - 기대 사건수 의 가중 합” 의 동일 구조 — Ch.7 의 7 절 모두 (one-sample, K-sample, trend, stratified, Renyi, CvM, fixed-time) 가 같은 출발점. § 7.2 — One-Sample Test: \(H_0\): 표본의 hazard \(h(t) = h_0(t)\) for all \(t \leq \tau\), 사전 지정된 \(h_0(t)\) (보통 표준 인구 mortality table). 식 7.2.1 의 일반 통계량 \(Z(\tau) = \sum W(t_i) d_i/Y(t_i) - \int W(s) h_0(s) ds\) + 분산 식 7.2.2 \(V = \int W^2 h_0/Y \, ds\). 큰 표본에서 \(Z^2/V \sim \chi^2_1\) (양측), \(Z/\sqrt{V} \sim N(0,1)\) (단측). Log-rank weight \(W = Y(t)\) 의 단순 형태 (식 7.2.3·7.2.4): \(Z(\tau) = O(\tau) - E(\tau)\) where \(O\) = 관측 사건수, \(E = V = \sum_{j=1}^n [H_0(T_j) - H_0(L_j)]\) (좌절단 + 우측 censoring 모두 처리). → “관측 - 기대” 의 단순 z-test. Harrington-Fleming family: \(W_{HF}(t) = Y(t) S_0(t)^p [1-S_0(t)]^q\). \(p = q = 0\) → log-rank, \(p = 1, q = 0\) → 초기 차이 강조 (Wilcoxon-like), \(p = 0, q = 1\) → 후기 차이 강조, \(p = q > 0\) → 중간 강조. \(W = Y S_0\) 가 logistic shift alternative 의 LMP test (Theoretical Note 1). Klein Example 7.1 Iowa psychiatric 26 명 (§ 1.15) 의 손풀이: 1959-1961 Iowa state mortality table 의 sex-specific \(\lambda\) 사용. \(\theta_j(t) = \lambda_S(a_j + t)\), age at entry \(L_j\), age at exit \(T_j\). Klein Table 7.1 의 26 행 \(H_0(L_j)\) + \(H_0(T_j)\) + 차이 \(H_0(T_j) - H_0(L_j)\) 직접 계산. 합 \(E(71) = 4.4740\). 관측 사건수 \(O = 15\). \(\chi^2 = (15 - 4.474)^2/4.474 = 24.76\), \(p \approx 0\). → § 6.3 의 excess mortality (B̂(2) ≈ 25) 와 통계적 검정으로 정확히 일치. 추정-검정 의 자연 연결. SMR = O/E 의 시간-변동 일반화 (Practical Note 2): Breslow 1975 의 단일 SMR 이 시간 일정 가정. Z(τ) 가 자연스럽게 시간 변동 처리. Gatsonis et al. (1985) 의 weight 대안 (Practical Note 3): \(W = (1 + \log[1-S_0]/S_0) Y(t)\). Counting process 도출 (Theoretical Note 2, Aalen 1975): \(\int [J/Y] dN - \int J h_0 du\) 가 martingale + \(Z(\tau)\) 가 stochastic integral + martingale CLT 로 점근 정규성 도출. § 3.6 framework 의 직접 적용. Hyde (1977) 와 Woolson (1981) 의 좌절단 일반화 (Theoretical Note 3): 식 7.2.4 의 \(H_0(L_j)\) 항이 좌절단 처리. | |
| Apr 28, 2026 | Klein § 7.3~7.4 — K-Sample Tests · Trend Tests | Statistics, Survival Analysis, Klein-Moeschberger, Log-Rank-Test, K-Sample-Test, Trend-Test, Fleming-Harrington | Klein & Moeschberger Ch.7 의 § 7.3 (K-Sample Tests) + § 7.4 (Trend Tests) 를 deep-dive. § 7.1~7.2 가 one-sample 을 다뤘다면, 본 편은 그 framework 의 K-sample 일반화 (§ 7.3) + ordered alternative 의 trend test (§ 7.4). § 7.3 — K-Sample Tests: H_0: h_1(t) = … = h_K(t) for all t ≤ τ, vs H_A: 적어도 하나가 다름. 검정 통계량의 일반 형태 식 7.3.2 Z_j(τ) = ∑ W_j(t_i) [d_ij/Y_ij - d_i/Y_i] (각 군의 hazard 추정 - pooled hazard 추정의 가중차이). 표준 형태 W_j = Y_ij W (식 7.3.3) → Z_j = ∑ W [d_ij - Y_ij d_i/Y_i] (관측 사건수 - 기대 사건수의 가중합). 분산·공분산 식 7.3.4·5 — multinomial (Hypergeometric) 의 분산 + tie correction (Y_i - d_i)/(Y_i - 1). χ² 식 7.3.6 with K-1 df. 6 weight 가족 비교: (1) log-rank W=1 — PH 최적, Lehmann alternative S_j = S^θ_j 의 LMP (Practical Note 5). (2) Gehan W=Y_i — Mann-Whitney-Wilcoxon 일반화, 초기 큰 위험집합 가중. censoring 패턴 차이에 민감 (Prentice-Marek 1979). (3) Tarone-Ware W=√Y_i — 절충. (4) Peto-Peto W=S̃ (식 7.3.8 modified KM, censoring 패턴 영향 적음). (5) Andersen 수정 W=S̃ Y_i/(Y_i+1) — predictable 만들기 위한 수정 (Theoretical Note 2). (6) Fleming-Harrington W=Ŝ^p (1-Ŝ)^q (식 7.3.9) — p,q 자유 조절로 임의 시점 가중. p>q 초기 강조, p<q 후기 강조, p=q>0 중간 강조. Klein Example 7.2 (kidney dialysis 119 명) 의 8 weight 비교 (Klein Table 7.3): log-rank Z=1.59 (p=0.11, 비유의) — PH 위반의 정전 사례. FH p=0,q=1 χ²=9.67 (p=0.002, 매우 유의) — 후기 차이 강조로 검출. 두 군의 hazard 가 0.5 month 에 cross — log-rank 의 cancel-out 함정. Klein Example 7.3 (Channing house 좌절단): F vs M, 일방 검정 Z=1.82 (p=0.034) — 남성이 빠른 사망. 좌절단 데이터에 식 7.3.3 그대로 적용. Klein Example 7.4 (BMT 137 명 3 그룹): ALL vs AML low vs AML high, log-rank χ²=13.80 (p=0.001). Z 벡터 (2.148, -14.97, 12.82) + 공분산 행렬 → 식 7.3.6 의 quadratic form. 다양 weight (Gehan 16.24, FH p=q=1 의 9.93 등) 모두 유의 — 결론 robust. Klein Example 7.5 (BMT auto vs allo crossing): log-rank Z 비유의 (p=0.54), Gehan Z 비유의 (p=0.76). 그러나 hazard 가 12 month 에 cross — 초기 high allo mortality (graft-vs-host) + 후기 low allo (cure). FH p=0,q=1 (후기 강조) χ²=4.20 (p=0.04) — long-term 차이 검출. § 7.4 — Trend Test: ordered alternative h_1 ≤ … ≤ h_K (적어도 하나 strict). 식 7.4.2 Z = ∑ a_j Z_j(τ) / √(∑∑ a_j a_g σ̂_jg) — 점수 a_j (보통 j) 가중 합. Jonckheere-Terpstra 의 censored 일반화 (Theoretical Note 1). Klein Example 7.6 (larynx cancer 90 명, 4 stage): log-rank weight Z=3.72 (p<0.0001), Gehan 4.22, Tarone-Ware 4.06, Peto-Peto 4.13 — 모두 강력 유의. Stage 가 높을수록 사망률 높음의 통계적 확정. Practical Note 2 — trend test 는 a priori ordered alternative 가 명확할 때만 사용. 단순 K-sample 검정과 비교 시 검정력 우수 (방향성 활용). | |
| Apr 28, 2026 | Klein § 7.5~7.6 — Stratified Tests · Matched Pairs · Renyi Tests | Statistics, Survival Analysis, Klein-Moeschberger, Stratified-Test, Matched-Pairs, Renyi-Test, Sign-Test | Klein & Moeschberger Ch.7 의 § 7.5 (Stratified Tests + Matched Pairs) + § 7.6 (Renyi Type Tests) 를 deep-dive. § 7.3·7.4 가 K-sample + trend 를 다뤘다면, 본 편은 (1) covariate 보정 검정 (stratified) + matched-pair 의 censored sign test (§ 7.5) + (2) crossing hazards 의 sequential maximum 검정 (§ 7.6). § 7.5 — Stratified Tests: H_0: h_1s(t) = … = h_Ks(t) for s = 1, …, M (모든 strata). 식 7.5.2 strata 합산 Z_j·(τ) = ∑_s Z_js(τ), σ̂_jg· = ∑_s σ̂_jgs. 식 7.5.3 의 K-sample χ² (K-1 df). 두 군 식 7.5.4 Z = ∑Z_1s/√(∑σ̂_11s) — strata 간 정보 합산 후 표준화. Klein Example 7.7 BMT (Allo vs Auto, HOD vs NHL strata): HOD 만 Z=2.89 (p=0.004) Allo 우월 vs NHL 만 Z=-1.26 (p=0.21) Auto 약간 우월 — 반대 방향. Stratified Z=0.568 (p=0.57) — strata 간 reversed effect cancel out. Practical Note 3 — stratified test 는 동일 방향 가정 시 강력, 다른 방향이면 검정력 약함 → 별도 strata 보고 권장. Klein 7.4 continuation BMT 3 그룹 × MTX strata: no MTX strata + MTX strata 의 Z 와 공분산 행렬 합산 → χ²=19.14 (p<0.0001). 단순 BMT 3 그룹 (16.24) 보다 더 강한 검정력 — covariate 보정 효과. Matched Pairs (식 7.5.5·6·7): paired event times (T_1i, T_2i), event indicators (δ_1i, δ_2i). 식 7.5.6 Z_1·(τ) = w(D_1 - D_2)/2, σ̂11·= w² (D_1 + D_2)/4. 식 7.5.7 Z = (D_1 - D_2)/√(D_1 + D_2) — weight 무관 (stratum 1 명씩). Censored sign test 의 일반화. D_1 = sample 1 이 먼저 사건 발생한 pair 수, D_2 = sample 2 가 먼저. 둘 다 censored 또는 censored 가 먼저 → 정보 없음. Klein Example 7.8 6-MP matched 21 pair: D_placebo=18 (placebo 가 먼저 재발), D_6MP=3 → Z=15/√21=3.27 (p=0.001). Practical Note 1 — effective sample size = pairs with smaller=event. Practical Note 2 — censored sign test 의 정확한 일반화. § 7.6 — Renyi Type Tests: Crossing hazards 의 log-rank 약점 회피. 식 7.6.1 Z(t_i) = ∑{t_k ≤ t_i} W [d_k1 - Y_k1 d_k/Y_k] (식 7.3.7 의 sequential 누적). 식 7.6.2 σ²(τ) = ∑ W² (Y_k1/Y_k)(Y_k2/Y_k)((Y_k-d_k)/(Y_k-1)) d_k. 식 7.6.3 Q = sup|Z(t)|/σ(τ) — Brownian motion 의 sup 분포 (Klein Appendix C.5). 일방 Q* (Practical Note 1) — Φ 기반. Klein Example 7.9 Gastrointestinal Cancer (GITSG 1982, 90 명, chemo only vs chemo+radio). Crossing hazards 정전 — 초기 chemo+radio 의 toxicity → 후기 radiation 의 cure. Figure 7.4 의 |Z(t)| 그래프: max 9.80 at t=315. σ(2363)=4.46 → Q=9.80/4.46=2.20 (p=0.053 marginal 유의). 단순 log-rank Z(2363)=-2.15/4.46=-0.48 → p=0.63 (cancel-out 으로 비유의). Gill 1980 의 Kolmogorov-Smirnov 의 censored 일반화 (Theoretical Note 1). Counting process martingale + Brownian motion 수렴 (Theoretical Note 3, Fleming et al. 1987). Schumacher 1984 의 Pitman efficiency: PH + 약한 censoring 시 log-rank 와 비슷, crossing 시 Renyi 우월. | |
| Apr 28, 2026 | Klein § 7.9 — Ch.7 Exercises 15 문제 풀이 | Statistics, Survival Analysis, Klein-Moeschberger, Exercises, Hypothesis-Testing | Klein & Moeschberger Ch.7 의 15 exercises 풀이 가이드. § 7.1~7.8 가 도구를 정의했다면, § 7.9 의 15 문제는 그 도구를 다양한 데이터에 통합 적용. Ch.7 시리즈 마지막 deep-dive. 15 문제 6 그룹 분류: Group A One-sample (§ 7.2) — Ex 7.1 rheumatoid arthritis 40 명 (9 deaths) vs 1989 US all-cause mortality (Klein Table 2.1) — sex-specific, age-stratified standard 와 비교. Ex 7.2 autologous BMT (Klein § 1.4 Table 1.4) vs Exp λ=0.045 (Klein § 6.3 Ex 6.5 의 reference) + 단측 (h>0.045) + early-weight (Harrington-Fleming W=Y(t)S_0). Group B K-sample (§ 7.3) — Ex 7.3 burn 2 군 (chlorhexidine vs routine, Klein § 1.6) — log-rank·Gehan·Tarone-Ware 3 weight 양측. Ex 7.4 tongue ploidy 2 군 (aneuploid vs diploid, Klein § 1.11) + early-difference 강조 (FH p>q 또는 Gehan). Ex 7.5 larynx 4 stage log-rank K=4 omnibus (Klein § 1.8) — Ex 7.6 reproduce. Ex 7.6 HIV triple-drug 2 군 (AZT+ddC vs AZT+ddC+saquinavir) log-rank. Group C Trend (§ 7.4) — Ex 7.7 BNCT (boron neutron capture therapy) F98 glioma rats: untreated < radiated < radiated+BPA 의 ordered alternative. (a) 3 군 KM 비교, (b) 3 pairwise log-rank, (c) trend test (식 7.4.2 a_j=j). Group D Stratified + Multiple Comparison (§ 7.5) — Ex 7.8 BMT (Klein § 1.3) aGVHD 효과 검증: (a) aGVHD 발생률 3 군 비교, (b) relapse 3 군 비교, (c) aGVHD 후 relapse 3 군 비교 (left-truncated at aGVHD). Ex 7.9 kidney transplant 863 명 (Klein § 1.7) race × sex 4 군: (a) global 4 군 검정, (b) sex 별 race 검정 + sex stratified race 비교. Ex 7.10 larynx pairwise (3 인접) + Bonferroni 보정 — full Z(τ) 벡터 + 식 (Z_j - Z_{j+1})/√(σ̂jj + σ̂{j+1,j+1} - 2σ̂_{j,j+1}). Ex 7.11 larynx pre/post-1975 stratification — confounding (시간 trend) 보정. Group E Alternative Tests (§ 7.6·7.7) — Ex 7.12 (a) Ex 7.3 burn 의 Renyi log-rank, (b) Ex 7.4 tongue 의 Renyi Gehan. Ex 7.13 breast cancer (lymph node SLM vs IH) 4 검정: log-rank · Renyi · Cramer-von Mises Q1·Q2 · Pepe-Fleming W_KM. Ex 7.14 Ex 7.7 BNCT 의 (a) Renyi, (b) CvM, (c) W_KM. Group F Fixed-time (§ 7.8) — Ex 7.15 BMT 3 군 (Klein § 1.3) 의 1 년 시점 S_j(365) 비교: (a) overall, (b) Bonferroni 3 pairwise. Ch.7 시리즈 통합 7 가지 교훈 + Ch.8 예고 (Cox PH partial likelihood 의 score test = log-rank). | |
| Apr 28, 2026 | Klein Ch.7 Overview — Hypothesis Testing (Log-Rank · Wilcoxon · Tarone-Ware · Renyi · 그 외) | Statistics, Survival Analysis, Klein-Moeschberger, Log-Rank, Wilcoxon, Hypothesis-Testing, Renyi-Test | Klein & Moeschberger Ch.7 의 9 개 절을 한 편으로 조망한다. Ch.4·5·6 가 비모수 추정을 다뤘다면, Ch.7 은 그 위에 hypothesis testing 의 layer 를 쌓는다 — 모든 검정이 NA framework 의 직접 연장. § 7.1 Introduction — NA 기반 검정의 통일 framework: 관측 사건 수 - 기대 사건 수의 가중 차이. Weight 함수 선택으로 다양한 검정 (log-rank · Wilcoxon · Tarone-Ware 등) 통합. § 7.2 One-Sample — 표본 hazard = 기지 h_0(t) 검정. 식 7.2.1 Z(τ) = ∑ W(t_i) d_i/Y_i - ∫ W(s) h_0(s) ds. Log-rank weight (W=Y(t)) 면 식 7.2.3·7.2.4 의 단순 형태 — Z(τ) = O(τ) - E(τ) where E = ∑ [H_0(T_j) - H_0(L_j)]. Klein Example 7.1 Iowa psychiatric 26명 — χ² = 24.76 (p≈0) — § 6.3 의 excess mortality (β≈25) 와 통계적 검정으로 일치. Harrington-Fleming family W_HF = Y(t) S_0(t)^p [1-S_0(t)]^q. § 7.3 K-Sample — 핵심 식 7.3.3 Z_j(τ) = ∑ W(t_i) [d_ij - Y_ij d_i/Y_i], 분산·공분산 식 7.3.4·7.3.5 (multinomial 보정 (Y_i - d_i)/(Y_i - 1) tie correction), χ² 식 7.3.6 with K-1 df. 6 weight 가족 비교: (1) log-rank W=1 (PH 최적·SAS LIFETEST 표준), (2) Gehan W=Y_i (Mann-Whitney-Wilcoxon, censoring 패턴 차이에 민감), (3) Tarone-Ware W=√Y_i (절충), (4) Peto-Peto W=S̃ (식 7.3.8 의 modified KM, censoring 패턴 영향 적음), (5) Andersen 수정 W=S̃ Y_i/(Y_i+1), (6) Fleming-Harrington W=Ŝ^p (1-Ŝ)^q (식 7.3.9 — p≫q 면 초기 차이, p≪q 면 후기 차이, p=q>0 면 중간 차이 강조). Klein Example 7.2 kidney dialysis log-rank Z=1.59 (p=0.111). § 7.4 Trend — ordered alternative h_1 ≤ h_2 ≤ … ≤ h_K. 식 7.4.2 Z = ∑ a_j Z_j(τ) / sqrt(∑∑ a_j a_g σ̂_jg) — 점수 a_j 가중 합. Jonckheere-Terpstra 의 censored 일반화. Klein Example 7.6 larynx 4 stage Z = 3.72 (p < 0.0001). § 7.5 Stratified Tests — covariate 보정 검정. 식 7.5.4 Z = ∑_s Z_1s / √(∑_s σ̂_11s) — strata 합산 후 표준화. Matched pairs 의 식 7.5.7 Z = (D_1 - D_2)/√(D_1 + D_2) — censored data sign test. Klein Example 7.7 BMT (HOD vs NHL stratification) Z = 0.568 (p = 0.57). Klein Example 7.8 6-MP matched pairs (D_placebo=18, D_6MP=3) Z = 3.27 (p = 0.001). § 7.6 Renyi Type Tests — sup |Z(t)| (식 7.3.3 의 sequential maximum). Kolmogorov-Smirnov 의 censored 일반화. Crossing hazards 에 강한 검정력 — 보통 log-rank 가 약한 영역. § 7.7 Other Two-Sample Tests — (1) Cramer-von Mises Q1 (식 7.7.3, Brownian motion 분포) + Q2 (식 7.7.4, Brownian bridge 분포) — 적분 squared difference, (2) Pepe-Fleming weighted KM W_KM (식 7.7.6) — KM 기반 t-test 일반화, weight w(t) (식 7.7.5) 가 censoring 패턴 보정, (3) Brookmeyer-Crowley median test (식 7.7.14) — pooled median 후 group-wise S(M̂) 비교, crossing hazards. § 7.8 Fixed-time Tests — 단일 시점 t_0 의 S_1(t_0) vs S_2(t_0) 비교. Multiplicity 없이 단순 z-test. § 7.9 Exercises — 다음 deep-dive 편에서 풀이. Ch.7 의 핵심: Ch.4·5·6 의 NA estimation 위에 동일 framework 의 자연스러운 확장. 모든 검정이 (1) NA 기반 가중 차이, (2) weight 선택의 차이, (3) 분포 가정에 따른 critical value. Cox PH (Ch.8) 의 partial likelihood score test 가 log-rank 와 동일. | |
| Apr 28, 2026 | Klein § 8.1~8.2 — Cox 모형의 도입 · Coding Covariates | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Proportional-Hazards, Coding-Covariates, Hazard-Ratio, Interaction | Klein & Moeschberger Ch.8 의 § 8.1 (Introduction) + § 8.2 (Coding Covariates) 를 deep-dive. Ch.8 첫 번째 deep-dive — Cox PH 모형의 수학적 정의 + 임상에서의 covariate coding 표준. § 8.1 — Cox PH 모형: 식 8.1.1 일반 형태 h(t|Z) = h_0(t) c(β’Z), 식 8.1.2 표준 형태 h(t|Z) = h_0(t) exp(β’Z) — semiparametric. 식 8.1.3 hazard ratio = exp(β’(Z-Z*)) 시간 불변. Lehmann alternative S(t|Z) = S_0(t)^exp(β’Z) — KM 곡선이 baseline 의 거듭제곱. log h(t|Z) - log h_0(t) = β’Z 의 linear model 형태 → coding 일관성. 일반 회귀 (OLS, logistic) 의 dummy variable + interaction 규칙 그대로 적용. § 8.2 — Coding Covariates: (1) Dichotomous (gender, treatment): Z=0/1 두 coding 의 동치성 — exp(β_male) = 1/exp(β_female) 부호 뒤집힘. (2) K-level qualitative: K-1 dummy variables (식 8.2.1·2) — referent group 1 개 선택. 단일 ordinal Z=1,2,…,k 의 함정: RR(category i vs i-1) = exp(β) 강제 → 인접 등간격 가정 위반 시 잘못. (3) Continuous: 단위 변경 (age in year vs decade) 효과 — e^β 1년 단위 vs e^{10β} 10년 단위. (4) Interaction: 식 8.2.6 model with Z_3 = Z_1 × Z_2 — male vs female 의 treatment 효과 차이 검증. β_3 = 0 하 동질 (no interaction). Klein Example 8.1 (Klein § 1.5 breast cancer immunoperoxidase): dichotomous Z=1 (IH+), 0 (IH-). 모형 h(t|Z) = h_0(t) exp(βZ). β=0.9802 (§ 8.3 에서 추정), RR = e^0.9802 = 2.67 — IH+ 가 IH- 보다 2.67 배 빠른 사망. Klein Example 8.2 (Klein § 1.8 larynx 4 stage): 3 dummy variables 식 8.2.3 (Z_1·Z_2·Z_3 for Stage II/III/IV, Stage I = referent). § 8.4 결과 b_1=0.0658, b_2=0.6121, b_3=1.7228. RR(II vs I)=1.07, RR(III vs I)=1.84, RR(IV vs I)=5.60, RR(III vs II)=exp(0.612-0.066)=1.73. 단일 ordinal stage Z=1,2,3,4 의 함정 — RR(II vs I) = RR(III vs II) = RR(IV vs III) = e^β 의 등간격 가정 위반. Continuous age 추가 식 8.2.4: Z_4 = age (years). RR(50 vs 40 yr, same stage) = exp(10 β_4). § 8.5 결과 b_4 = 0.0189 → exp(0.189) = 1.21. Age × stage interaction 식 8.2.7: 3 product terms Z_5=Z_1Z_4, Z_6=Z_2Z_4, Z_7=Z_3Z_4. H_0: β_5=β_6=β_7=0 (no interaction). 50세 Stage II 의 Z_5=50, Z_6=Z_7=0. Klein Example 8.3 (Klein § 1.7 kidney transplant 4 group): 두 coding scheme 의 동치성. (a) 4-group: 3 dummy (Z_1·Z_2·Z_3 for black male/white male/black female, white female = reference). b=(0.16, 0.25, 0.65) → RR=(1.17, 1.28, 1.93). (b) Main effect + interaction: Z_1=female, Z_2=black, Z_3=female × black. b=(-0.25, -0.09, 0.75) → 동일 RR 도출 가능 (1.17 black male, 1.28 white male, 1.93 black female). exp(0.7455) = 2.11 = excess RR of being black for females vs males. 두 coding 의 likelihood 일치. | |
| Apr 28, 2026 | Klein § 8.3~8.4 — Partial Likelihood + Ties | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Proportional-Hazards, Partial-Likelihood, Newton-Raphson, Tied-Events, Breslow-Efron | Klein & Moeschberger Ch.8 의 § 8.3 (Partial Likelihoods for Distinct-Event Time Data) + § 8.4 (Partial Likelihoods When Ties Are Present) 를 deep-dive. Ch.8 두 번째 deep-dive — Cox 모형의 추정 엔진. § 8.3 — Partial Likelihood: 식 8.3.1 L(β) = ∏{i=1}^D exp(β’Z(i)) / ∑{j∈R(t_i)} exp(β’Z_j). 분자는 사건자의 covariate, 분모는 risk set 의 모든 covariate. h_0(t) 가 cancel → semiparametric inference 가능. 도출 두 갈래: (1) Theoretical Note 1 — conditional probability “risk set 안에서 누가 죽었느냐” 의 multiplication. (2) Theoretical Note 2 — Johansen (1983) profile likelihood: h_0(t) 를 step function 으로 profile out 하면 식 8.3.1 의 partial likelihood 가 도출. Score 식 8.3.3 U_b(β) = ∑Z(i)b - ∑[∑Z_jb exp(β’Z) / ∑exp(β’Z)] (사건자 covariate 합 - 위험가중 평균). Information 식 8.3.4 위험가중 분산. 세 검정 (식 8.3.5·6·7): Wald (b 의 정규성), LR (likelihood 차이의 2 배), Score (β_0 점에서 평가). 세 검정 점근적 동치 — H_0 근처에서 같은 χ² 분포. 그러나 유한 표본에서는 LR ≈ Wald > Score (Score 수렴 느림). 중요 결과: Score test at β = 0 = log-rank test (Ch.7 § 7.3 의 그 검정). Cox PH 가 log-rank 의 모형 기반 일반화임을 증명. Newton-Raphson 식: b_m = b_{m-1} + U(b_{m-1})/I(b_{m-1}). Klein Example 8.1 immunoperoxidase 3 iterations 수렴: b_0=0 → b_1=1.3121 → b_2=0.9924 → b_3=0.9802. RR = e^0.9802 = 2.67. SE = 1/√I = 0.4349. Wald = 5.08 (p=0.024), LR = 4.44 (p=0.035). 95% CI for RR: (1.14, 6.25). § 8.4 — Ties: 동일 사건 시점에 d_i ≥ 2 명 사망 → 누가 먼저 죽었는지 모름. 세 partial likelihood: Breslow 식 8.4.1 — L_1(β) = ∏ exp(β’s_i) / [∑_{R_i} exp(β’Z)]^{d_i}. 분모는 risk set sum 을 d_i 거듭제곱 — 동시 사망을 “독립” 처리. Ties 적을 때 OK, SAS PHREG 기본. Efron 식 8.4.2 — L_2(β) = ∏ exp(β’s_i) / ∏{j=1}^{d_i} [∑{R_i} exp(β’Z) - ((j-1)/d_i) ∑{D_i} exp(β’Z)]. j 번째 사망 시 동시 사망자의 일부 비례 차감 — 이산 모형에 더 가까움. R coxph 기본. Discrete 식 8.4.3 — L_3(β) = ∏ exp(β’s_i) / ∑{q ∈ Q_i} exp(β’s_q*). Q_i 는 risk set 에서 d_i 명을 뽑는 모든 부분집합. 정확한 logistic 모형 likelihood — 계산 비쌈. Klein Example 8.4 — dialysis 119 patients (43 surgical Z=0, 76 percutaneous Z=1), 6 deaths tied at t=0.5 (모두 Z=1). 세 likelihood 결과: Breslow b=-0.618, Efron b=-0.6126, Discrete b=-0.6204. RR ≈ 0.54 (percutaneous 가 surgical 의 절반 위험). Score χ² ≈ 2.5 (p ≈ 0.115) — 비유의. 그러나 PH 가정 graphical check (Figure 8.1, ln H̃(t|Z=1) - ln H̃(t|Z=0) vs t) 가 시간에 따라 발산 → PH 위반. RR=0.54 결론 신뢰 불가. Klein Example 8.2 (continued) — larynx 4 stage Breslow ties: b=(0.0658, 0.612, 1.723), SE=(0.4584, 0.3552, 0.4197). RR(II/I)=1.07, RR(III/I)=1.84, RR(IV/I)=5.60. LR=16.26 (p=0.001), Wald=18.95, Score=22.46 (df=3). 적어도 한 stage 효과 유의. Klein Example 8.3 (continued) — kidney transplant 4-group Breslow: b=(0.16, 0.248, 0.65). RR=(1.17, 1.28, 1.93). LR=4.37 (p=0.22), Wald=4.64, Score=4.74 — 4 그룹 간 생존율 차이 비유의. Practical Notes — SAS PHREG 기본 Breslow (DISCRETE/EFRON/EXACT 옵션), R coxph 기본 Efron (method = “breslow” / “efron” / “exact”). Ties 가 많을 때 Breslow 와 Efron 차이 커짐 — 보고 시 사용 method 명시 필수. | |
| Apr 28, 2026 | Klein § 8.5~8.6 — Local Tests · Discretizing Continuous Covariate | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Proportional-Hazards, Local-Tests, Linear-Contrast, Cut-Point, Brownian-Bridge | Klein & Moeschberger Ch.8 의 § 8.5 (Local Tests) + § 8.6 (Discretizing a Continuous Covariate) 를 deep-dive. Ch.8 세 번째 deep-dive — 가설검정의 정밀화 + 임상 friendly 변환. § 8.5 — Local Tests: 부분 가설 \(H_0: \beta_1 = \beta_{10}\) (where \(\beta = (\beta_1', \beta_2')'\)). \(\beta_1\) 은 관심 \(q \times 1\) 벡터, \(\beta_2\) 는 \((p-q) \times 1\) nuisance. Information matrix 분할 — \(I^{11}(b)\) 는 \(I^{-1}(b)\) 의 좌상단 \(q \times q\) 블록. Wald 식 8.5.1: \(X_W^2 = (b_1 - \beta_{10})' [I^{11}(b)]^{-1} (b_1 - \beta_{10})\). LR 식 8.5.2: \(X_{LR}^2 = 2[LL(b) - LL[\beta_{10}, b_2(\beta_{10})]]\) — full vs restricted 모형의 likelihood 비교. Score 식 8.5.3: \(X_{SC}^2 = U_1[\beta_{10}, b_2]' [I^{11}] U_1[\beta_{10}, b_2]\) — restricted MLE 에서 평가. Linear combination 식 8.5.5·6·7: \(\mathbf{C}\) 는 \(q \times p\) full rank (\(q \leq p\)). \(H_0: \mathbf{C}\beta = \mathbf{C}\beta_0\). Statistic: \((Cb - C\beta_0)' [C I^{-1}(b) C']^{-1} (Cb - C\beta_0) \sim \chi^2_q\). 임의 contrast 가능 — 예: \(\beta_2 - \beta_1\), \(\beta_1 = \beta_2 = \beta_3\). Klein Example 8.2 (continued) — larynx 4 stage + age. Subset \(H_0: \beta_1 = \beta_2 = \beta_3 = 0\) (no stage, age 보정). Reduced model age only: \(b_4 = 0.023\), LL=-195.906. Full 4-param: \(\mathbf{b} = (0.1386, 0.6383, 1.6931, 0.0189)\), LL=-188.179. LR=15.454 (p=0.0015), Wald=17.63 (p=0.0005), Score=22.46 (df=3). 세 검정 모두 강력 기각. ANOVA Table 8.1 — Stage II RR=1.15 (p=0.76, age 보정 후 비유의), Stage III RR=1.89 (p=0.07), Stage IV RR=5.44 (p<0.0001), Age RR=1.019/yr (p=0.18). Stage I·II 차이 없음. Stage III vs II linear contrast: RR=exp(0.4997)=1.65, 95% CI=(0.68, 3.99) — Var(b_2-b_1)=0.1268+0.2137-2(0.0683)=0.2039. 비유의. Combined hypothesis \(H_0: \beta_1 = \beta_2 = \beta_3\) (3 stage 동일 위험). Reduced model \(Z^* = Z_1 + Z_2 + Z_3\) (Stage II/III/IV indicator). LL_reduced=-193.137. LR=2[-188.179 - (-193.137)]=9.916, df=2, p=0.007 → 적어도 한 stage 다름. Klein Example 8.3 (continued) — kidney transplant race × gender. Coding \(Z_1\)=female, \(Z_2\)=black, \(Z_3 = Z_1 \times Z_2\)=black female. \(\mathbf{b} = (-0.2484, -0.0888, 0.7455)\). ANOVA Table 8.2: Female RR=0.78 (p=0.21), Black RR=0.92 (p=0.76), Interaction RR=2.11 (p=0.08, marginal). 두 coding 의 RR 일치 — black male 1.17, white male 1.28, black female 1.93. Klein Example 8.2 — stage × age interaction \(Z_5=Z_1Z_4\), \(Z_6=Z_2Z_4\), \(Z_7=Z_3Z_4\). Full 7-param \(\mathbf{b}=(-7.946, -0.1225, 0.847, -0.0026, 0.1203, 0.0114, 0.0137)\). Local Wald: \(Z_5\) 유의 (p=0.02), \(Z_6\)·\(Z_7\) 비유의. 결합 \(H_0: \beta_6 = \beta_7 = 0\): -2logL_full=370.155, -2logL_red=370.316, LR=0.161, df=2, p=0.92 → 두 interaction 제거. Reduced 5-param 모형: \(Z_1, Z_2, Z_3, Z_4, Z_5\). \(b_1=-7.382, b_5=0.1117\). Stage II vs I 의 RR(age): \(\exp(\beta_1 + \beta_5 \cdot \text{age}) = \exp(-7.382 + 0.1117 \cdot \text{age})\). age=76: RR=3.03 (p=0.03 유의). age=60: RR=0.51 (p=0.32 비유의). Test \(H_0: \beta_1 + \beta_5 \cdot \text{age} = 0\) with \(C = (1, 0, 0, 0, \text{age})\): \(X_W^2 = (b_1 + b_5 \cdot \text{age})^2 / [V(b_1) + \text{age}^2 V(b_5) + 2 \text{age} \text{Cov}(b_1, b_5)]\). § 8.6 — Discretizing Continuous Covariate. 연속 covariate \(X\) 를 binary \(Z = 1\) if \(X \geq C\) 로 변환. 임상 해석 단순화 (high-risk vs low-risk). “Data-oriented” 방법 (median 등) 은 부정확. Outcome-oriented approach (Contal-O’Quigley, 1999) — 모든 후보 cut point \(C_k\) 에 대해 log-rank statistic 식 8.6.1: \(S_k = \sum_{i=1}^D [d_i^+ - d_i \cdot r_i^+ / r_i]\). \(\widehat{C} = \arg\max |S_k|\). Maximum 선택의 bias 보정: 분산 식 8.6.2 \(s^2 = (1/(D-1)) \sum_{i=1}^D \{1 - \sum_{j=1}^i 1/(D-j+1)\}\). Test statistic 식 8.6.3: \(Q = \max|S_k| / (s \sqrt{D-1})\). Brownian bridge supremum 분포 → \(p \approx 2 \exp(-2Q^2)\) for \(Q > 1\). Klein Example 8.3 (continued) — kidney transplant by race/sex. White male cut=41 Q=3.12 (p<0.001) RR=2.6 (95% CI 1.6-4.1). White female cut=36 Q=1.93 (p=0.001) RR=4.4. Black male cut=58 Q=0.80 (p>0.30 비유의) RR=2.3 (NS). Black female cut=48 Q=0.94 (p>0.30 비유의) RR=2.6. Discrete vs continuous model 결과 일치 → cut-point 변환의 정당성 확인 (소표본·해석 우선 시). | |
| Apr 28, 2026 | Klein § 8.7~8.8 — Model Building Strategy · Survival Function Estimation | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Proportional-Hazards, Model-Building, AIC, Breslow-Estimator, Survival-Function | Klein & Moeschberger Ch.8 의 § 8.7 (Model Building) + § 8.8 (Estimation of the Survival Function) 를 deep-dive 한다. Ch.8 네 번째 deep-dive — 모형 구축 전략과 생존함수 추정의 완결. § 8.7 — 두 가지 회귀 시나리오를 구분한다. (1) 특정 가설이 있는 경우: 주효과를 모형에 고정하고 나머지 공변량을 순차적으로 추가하여 교란 변수를 탐색한다. (2) 탐색적 모형 구축: 가장 유의한 변수부터 전진 선택(forward selection)으로 추가하며, AIC = \(-2 \log L + 2p\) 로 모형 복잡도를 균형 잡는다. Klein Example 8.5 (BMT disease-free survival): risk group (\(Z_1, Z_2\)) 을 주효과로 고정 → FAB class (\(Z_4\)) + Age interaction (\(Z_{12}, Z_{13}, Z_{14}\)) 이 유의 교란 → 최종 6-param 모형, primary hypothesis p=0.003. Klein Example 8.6 (weaning time): 탐색적 전진 선택 — Smoking (p=0.002) → Race (p=0.002) → p-value 기준 2-factor 최종 vs AIC 기준 3-factor (Poverty 추가) 최종. § 8.8 — Cox 모형에서 \(\beta\) 추정 후 기저 생존함수를 추정한다. Breslow 추정량 (식 8.8.2) 은 Nelson-Aalen 추정의 일반화이다. 공변량 \(Z_0\) 에 대한 생존 추정 (식 8.8.4) 은 Lehmann alternative 의 직접 적용이다. 분산 (식 8.8.5) 은 baseline 불확실성 (\(Q_1\)) 과 \(\beta\) 추정 불확실성 (\(Q_2\)) 두 항으로 구성된다. Kalbfleisch-Prentice 추정량, product-limit 변형 등 4 가지 대안과 Monte Carlo 비교 결과를 제시한다. Klein Example 8.2 (continued): 60세 후두암 환자의 Stage I~IV 5년 생존확률 0.703 · 0.667 · 0.513 · 0.147 (SE 0.074~0.100) + log-transformed 95% CI. | |
| Apr 28, 2026 | Klein § 8.9 — Ch.8 Exercises 14 문제 풀이 | Statistics, Survival Analysis, Klein-Moeschberger, Exercises, Cox-Proportional-Hazards, Model-Building, Survival-Function | Klein & Moeschberger Ch.8 의 14 exercises (8.1~8.14) 풀이 가이드. § 8.1~8.8 이 도구(Cox 모형, 편우도, 검정, 모형 구축, 생존 추정)를 정의했다면, § 8.9 의 14 문제는 그 도구를 다양한 데이터에 통합 적용한다. Ch.8 시리즈의 마지막 deep-dive. 14 문제 5 그룹: Group A Coding + 단일 공변량 (§ 8.1~8.2) — Ex 8.1 NHL/HOD Allo/Auto 4 군 (독립 4 군 dummy + main-interaction coding + 역추정), Ex 8.2 burn disinfectant 2 군 (단순 + 면적 보정), Ex 8.3 tongue ploidy (Score·LR·Wald 3 검정 + RR CI). Group B 다중 공변량 + Local Tests (§ 8.3~8.5) — Ex 8.4 BNCT 3 군 (global 3 검정 + β_1=β_2 contrast + combined radiation), Ex 8.5 NHL/HOD (ANOVA + interaction + pairwise RR + 2-df simultaneous), Ex 8.6 pneumonia race × poverty (discrete likelihood + conditional RR + cross-group contrast). Group C Discretizing (§ 8.6) — Ex 8.7 burn 최적 cut-point (Contal-O’Quigley + 연속 비교), Ex 8.8 BMT waiting time (ALL 그룹 cut-point + categorized vs continuous 비교). Group D Model Building (§ 8.7) — Ex 8.9 burn 가설 주도 forward (4 factor), Ex 8.10 BMT AGVHD MTX 효과 (단변량 → 교란 보정 → interaction → 최적 모형), Ex 8.11 pneumonia 모유수유 AIC 탐색, Ex 8.12 STD 재감염 탐색적 모형 구축. Group E Survival Estimation (§ 8.8) — Ex 8.13 burn 20일 생존 CI (면적 25%), Ex 8.14 AGVHD MTX/no-MTX × disease category 생존곡선 + 80일 CI. | |
| Apr 28, 2026 | Klein Ch.8 Overview — Semiparametric Cox Proportional Hazards Regression with Fixed Covariates | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Proportional-Hazards, Partial-Likelihood, Hazard-Ratio, Survival-Regression | Klein & Moeschberger Ch.8 의 8 개 절을 한 편으로 조망한다. Ch.7 의 비모수 검정이 군 차이를 검출하지만 covariate effect 정량화 + 다중 covariate 처리 못 함. Ch.8 의 Cox proportional hazards model 이 그 답. § 8.1 Introduction — Cox 모형 식 8.1.1: \(h(t|Z) = h_0(t) c(\beta'Z)\), 표준 형 식 8.1.2: \(h(t|Z) = h_0(t) \exp(\beta'Z)\) — semi-parametric (baseline \(h_0(t)\) 비모수 + covariate effect \(\beta\) 모수). 식 8.1.3 hazard ratio = \(\exp(\beta'(Z - Z^*))\) — 시간 불변 (PH 가정). \(\log[h(t|Z)/h_0(t)] = \beta'Z\) 의 linear model 형태. PH = Lehmann alternative \(S(t|Z) = S_0(t)^{\exp(\beta'Z)}\). § 8.2 Coding Covariates — 양적 vs 질적 covariate. 질적 (\(K\) level) → \(K-1\) dummy variables. Interaction → product term. Continuous 의 단위 변경 (year vs decade) 영향. § 8.3 Partial Likelihood (no ties) — 핵심 식 8.3.1: \(L(\beta) = \prod_{i=1}^D \exp(\beta'Z_{(i)}) / \sum_{j \in R(t_i)} \exp(\beta'Z_j)\). 분자 = 사건 발생 개체의 covariate, 분모 = 위험집합의 covariate exp 합. 식 8.3.2 LL, 식 8.3.3 score \(U_b\), 식 8.3.4 information \(I_{gh}\). 3 표준 검정: Wald (식 8.3.5), LR (식 8.3.6), Score (식 8.3.7). Score test at β=0 = log-rank 검정 (Klein § 8.3 Practical Note 3) — Ch.7 와 Ch.8 의 자연 연결. Klein Example 8.1 breast cancer immunoperoxidase (Klein § 1.5): IH+ vs IH-, single covariate. Score \(U(0)=4.19\), \(I(0)=3.19\), \(\chi^2_{Sc}=5.49\) (p=0.019) — Ch.7 의 log-rank 와 정확히 일치. Newton-Raphson 3 회 반복 수렴 → \(b=0.9802\), \(\text{SE}=0.4349\), \(\text{RR}=e^{0.9802}=2.67\), 95% CI (1.14, 6.25). LR \(\chi^2=4.44\) (p=0.035), Wald \(\chi^2=5.08\) (p=0.024). § 8.4 Ties — Breslow 식 8.4.1 (most software default), Efron 더 정확, Exact (continuous time), Discrete (binary). Tie 적으면 Breslow 충분. § 8.5 Local Tests — subset \(\beta_1 = \beta_{10}\) 검정. Wald 식 8.5.1: \((\mathbf{b}_1 - \beta_{10})' [\mathbf{I}^{11}(\mathbf{b})]^{-1} (\mathbf{b}_1 - \beta_{10})\). LR 식 8.5.2: \(2[LL(\mathbf{b}) - LL(\beta_{10}, \mathbf{b}_2)]\). Score 식 8.5.3. Linear combination 식 8.5.7: \(\mathbf{C}\beta = \mathbf{C}\beta_0\) — 임의 \(q\) 개 contrasts. Klein Example 8.2 larynx 4 stage + age (Klein § 1.8): 3 dummy (\(Z_1, Z_2, Z_3\) for stage II/III/IV) + age \(Z_4\). \(\mathbf{b} = (0.1386, 0.6383, 1.6931, 0.0189)\). Stage IV vs Stage I: \(\text{RR} = e^{1.6931} = 5.44\) (95% CI 2.38~12.44). Age 1 년: \(\text{RR} = e^{0.0189} = 1.02\)/year. Stage 효과 \(H_0: \beta_1=\beta_2=\beta_3=0\) — Score \(\chi^2=18.95\) (p=0.0001), LR \(\chi^2=15.45\) (p=0.0015), Wald \(\chi^2=17.63\) (p=0.0005). Stage III vs II: \(\text{RR} = e^{0.6383-0.1386} = 1.65\), 95% CI (0.68, 3.99) — 비유의. § 8.6 Discretizing Continuous — 연속 covariate 의 binary 변환. 모든 cut-point 에서 LR statistic 계산 → max 의 분포 (multiple comparison 조정). § 8.7 Model Building — forward/backward/stepwise selection + AIC = \(-2 LL + 2p\). § 8.8 Survival Estimation — 식 8.8.2 \(\widehat{H}_0(t) = \sum d_i/W(t_i; b)\) where \(W(t; b) = \sum_{j \in R(t)} \exp(b'Z_j)\) — Breslow 추정량 (NA 의 일반화). 식 8.8.4 \(\widehat{S}(t|Z_0) = \widehat{S}_0(t)^{\exp(b'Z_0)}\) — Lehmann alternative 의 직접. 분산 식 8.8.5 두 항 (\(Q_1\) baseline 불확실 + \(Q_2\) \(\beta\) 추정 불확실). Klein Example 8.2 60세 남성: Stage I 5-yr 0.703, Stage II 0.667, Stage III 0.513, Stage IV 0.147. § 8.9 Exercises — 다음 deep-dive. | |
| Apr 28, 2026 | § 9.1–9.2 — Time-Dependent Covariates | Statistics, Survival Analysis | Cox PH 모형에서 공변량이 시간에 따라 변하는 경우를 다룬다. 내부(internal) vs 외부(external) 공변량 구분, 확장 편우도(extended partial likelihood)의 구조, 시간의존 공변량을 활용한 PH 가정 형식 검정, 변환점(change-point) 모형의 수식과 직관을 상세히 전개한다. Klein Ch.9 (§9.1–9.2) 기반. | |
| Apr 28, 2026 | § 9.3–9.4 — Stratified Cox Model & Left Truncation | Statistics, Survival Analysis | PH 가정이 깨진 변수를 층화 변수로 처리하는 층화 Cox 모형(stratified proportional hazards model)과, 관찰 시작 시점이 시간 원점보다 늦은 좌절단(left truncation) 데이터에 대한 편우도 수정법을 다룬다. 두 기법의 수식, 직관적 해석, 가정 검증 절차, BMT·6-MP·Channing House 실데이터 예시를 상세히 전개한다. Klein Ch.9 (§9.3–9.4) 기반. | |
| Apr 28, 2026 | § 9.5–9.6 — Multistate Modeling & Prediction Process | Statistics, Survival Analysis | 시간의존 공변량과 좌절단을 결합하여 환자의 이력에 기반한 동적 예측을 수행하는 다상태 모형(multistate model)과 예측 과정(prediction process)을 다룬다. BMT 데이터에서 두 접근법(비례위험 모형 I vs 좌절단 모형 II)의 수식·추정·비교를 상세히 전개하고, Ch.9 연습문제 중 핵심 문제의 풀이를 제시한다. Klein Ch.9 (§9.5–9.6) 기반. | |
| Apr 28, 2026 | Ch.9 — Refinements of the Semiparametric Proportional Hazards Model | Statistics, Survival Analysis | Cox PH 모형의 네 가지 정교화를 개관한다. 시간의존 공변량(internal/external), 층화 비례위험 모형, 좌절단 회귀, 다상태 모형(prediction process)의 수식·직관·연결 관계를 정리하고, 각 확장이 해결하는 문제와 실무 적용 맥락을 제시한다. | |
| Apr 28, 2026 | Klein § 10.1–10.2 — Aalen’s Nonparametric Additive Hazard Model | Statistics, Survival Analysis | Cox 비례위험 모형의 대안으로 제시된 Aalen(1989) 가산 위험 모형의 구조·추정·검정을 본격적으로 다룬다. 회귀 계수가 시간의 함수인 비모수 모형, 누적 회귀 함수 B_k(t)의 최소제곱 추정, 마팅게일 기반 유도, 두 표본 검정과 로그순위 검정의 관계까지. (Klein & Moeschberger, 2003, §10.1-10.2) | |
| Apr 28, 2026 | Klein § 10.3–10.4 — Lin-Ying Additive Hazards Model & Exercises | Statistics, Survival Analysis | Aalen 모형의 시간 변동 계수를 상수로 제한한 Lin-Ying(1995) 반모수 가산 위험 모형을 다룬다. 평균 편차 행렬 A, B, C로 구성되는 닫힌 형식 추정량, 샌드위치 분산, 카이제곱 검정, 그리고 § 10.4의 림프종 이식·화상 감염 데이터 연습문제 풀이까지. (Klein & Moeschberger, 2003, §10.3-10.4) | |
| Apr 28, 2026 | Klein Ch.10 — Additive Hazards Regression Models | Statistics, Survival Analysis | Cox 모형이 위험비(HR)를 통해 상대적 효과를 측정한다면, 가산 위험 모형은 위험률의 절대적 변화를 직접 추정한다. Aalen 비모수 모형(시간 변동 계수)과 Lin-Ying 반모수 모형(상수 계수)의 구조·추정·검정을 다룬다. (Klein & Moeschberger, 2003, Ch.10) | |
| Apr 28, 2026 | Klein Ch.11 — Regression Diagnostics for the Cox Model | Statistics, Survival Analysis | Cox 비례위험 모형이 정말 데이터에 맞는가? 본 포스트는 Cox-Snell, 마팅게일, Schoenfeld/score, deviance, dfbeta 다섯 종류의 잔차를 통해 모형 적합도, 공변량 함수 형태, PH 가정, 이상치, 영향력 관측치를 체계적으로 진단하는 방법을 정리한다. (Klein & Moeschberger, 2003, Ch.11) | |
| Apr 28, 2026 | Modern Survival Analysis — RSF, DeepSurv, Cox-nnet 비교 | Statistics, Survival Analysis, Machine Learning, Deep Learning | Random Survival Forest, DeepSurv, Cox-nnet 등 ML 기반 생존 분석 모형의 핵심 아이디어, 손실 함수, 학습 구조를 Cox PH 모형과 비교한다. 비선형·고차원·중도절단을 동시에 다루는 현대 헬스케어 AI 의 표준 도구다. | |
| Apr 27, 2026 | 다언어 프로젝트 매니페스트 통합 관리: pyproject.toml + package.json + .tool-versions + Makefile | Engineering | Python과 JavaScript가 한 저장소에 공존할 때, 어느 한 도구로 모든 의존성을 묶을 수 있는지에서 시작해 파일별 역할 분담(pyproject.toml, package.json, .tool-versions, Makefile, Dockerfile)과 점진적 도입 단계를 정리한다. | |
| Apr 27, 2026 | Azure VM으로 사내 동료 접속시키기 — 네트워크 입문 | Engineering | Azure VM 에서 도는 dev 서버에 사내 동료가 접속할 수 있게 하는 일견 단순한 작업이 IP 주소 종류, NAT, CIDR, NSG 인바운드 룰, dev 서버 bind 주소까지 5개 네트워크 기초를 모두 동원한다는 사실을 발견하고 정리한 입문 글. | |
| Apr 27, 2026 | Ch.21 Overview — Gaussian Process Models | Statistics, Bayesian, Gaussian-Process, Kernel-Methods, Nonparametric-Bayes | Gelman BDA Ch.21 의 5개 절을 한 편으로 조망한다. Ch.20 의 basis function 가중합 (\(\mu(x) = \sum \beta_h b_h(x)\), \(H\) 유한) 을 무한 차원으로 일반화 — 함수 \(\mu(x)\) 자체에 사전분포 \(\mu \sim \text{GP}(m, k)\) 부여. § 21.1 GP regression 의 squared exponential kernel·basis 동치·식 (21.1) 주변 가능도·\(O(n^3)\) 한계·근사 기법, § 21.2 미국 생일 데이터 5-component 가법 분해 (장기 추세·단기 변동·주간·계절·특별일), § 21.3 Latent GP 와 비가우시안 우도 (Leukemia 생존 분석), § 21.4 함수형 데이터 분석, § 21.5 LGP 밀도 추정·밀도 회귀, § 21.6 문헌·§ 21.7 연습. Ch.20 → Ch.21 → Ch.22~23 비모수 베이즈 사다리의 중심. | |
| Apr 27, 2026 | Ch.21 § 21.1~21.3 심화 — GP Regression · Birthdays · Latent GP | Statistics, Bayesian, Gaussian-Process, Kernel-Methods, Survival-Analysis | Gelman BDA Ch.21 의 § 21.1~21.3 을 한 편으로 깊게 다룬다. § 21.1 GP regression 의 Kolmogorov consistency, mean·kernel 설계, kernel 대수, 다변량 정규 조건부 공식 적용을 통한 사후 평균·분산 완전 유도, 식 (21.1) marginal likelihood 의 단계별 유도와 Cholesky 기반 수치 안정 구현, \(O(n^3)\) 의 근원과 근사 기법 (inducing points, SOR/DTC/FITC, KISS-GP), ARD anisotropic kernel 의 변수 선택 의미를 다룬다. § 21.2 미국 1969~1988 출생 데이터의 5-component 가법 분해 (장기 추세·단기 비주기·주간 quasi-periodic·연간 계절·특별일), periodic kernel \(k(t,t') = \sigma^2 \exp(-2\sin^2(\pi(t-t')/p)/\ell^2)\) 의 사상 유도, kernel 곱이 표현하는 “AND” 의미, 식 (21.2) component-wise prediction, improved 8-component 모델과 LOO-CV lppd 비교를 정리한다. § 21.3 비가우시안 우도에서의 latent GP, Laplace 근사 식 (21.3) 의 step-by-step 유도, EP·VI 와의 비교, 1043 명 AML 환자 데이터의 log-logistic + GP latent 분석에서 WBC × TDI 암묵적 상호작용 발견 사례를 다룬다. | |
| Apr 27, 2026 | Ch.21 § 21.4~21.7 심화 — FDA · LGP Density · 연습 + Ch.21 결산 | Statistics, Bayesian, Gaussian-Process, Functional-Data-Analysis, Density-Estimation, Nonparametric-Bayes | Gelman BDA Ch.21 의 § 21.4~21.7 을 한 편으로 깊게 다룬다. § 21.4 함수형 데이터 분석에서 GP 가 어떻게 spline-based FDA 를 자연스럽게 일반화하는지를 separable kernel 구조와 함께 정리하고, 환자 trajectory·학생 성장 곡선 등 실무 응용을 보인다. § 21.5 logistic Gaussian process (LGP) 밀도 추정의 continuous logistic transformation, 정규화 적분의 계산 challenge, 식 (21.4) density regression kernel, 식 (21.5) Kundu-Dunson latent-variable regression 의 분위수 함수 직관, galaxies/lakes 일변량 LGP 결과 해석을 다룬다. § 21.6 핵심 문헌 정리 (Rasmussen-Williams·Neal·Vanhatalo·Hensman·Lindgren). § 21.7 연습문제 9개 (GP prior 표본·NAES04 attitude·multi-predictor·Golf binomial·Birthday 재현·spline→GP 교체·basis 유도 GP·linear→GP 동치) 의 모델 설정·계산 절차·결과 해석을 단계별로 풀이. 마지막으로 Ch.21 시리즈 4편 (overview·§ 21.1~21.3·본 편) 의 핵심 수식·발견·실무 체크리스트를 결산한다. | |
| Apr 27, 2026 | Ch.22 Overview — Finite Mixture Models | Statistics, Bayesian, Mixture-Models, EM-Algorithm, Latent-Variable, Nonparametric-Bayes | Gelman BDA Ch.22 의 5개 절을 한 편으로 조망한다. Ch.21 의 함수 사전분포 (GP) 에서 한 단계 더 — 데이터가 여러 하위 모집단 에서 생성된다고 가정하고 그 mixing weights·components 자체를 추론한다. § 22.1 식 (22.1) 가중합 정의·식 (22.2) latent indicator 도입·연속 혼합 (\(t\), negative binomial, beta-binomial)·label ambiguity·Dirichlet prior·\(H\) 결정 문제·“진짜 부분모집단” 학파 vs “유연한 근사” 학파, § 22.2 17 명 (정상 11 + 조현병 6) 반응시간 데이터의 두 성분 정규 혼합 모델·ECM 알고리즘 식 (22.5)~(22.7)·Gibbs sampler·사후 예측 검정 (\(T_{\min}, T_{\max}\))·확장 모델 (\(\omega\), \(\sigma_{y2}^2\)), § 22.3 식 (22.10) exchangeable prior·식 (22.11)~(22.12) conjugate Gibbs·label switching 문제와 postprocessing/constraint 두 해법, § 22.4 알려지지 않은 \(H\) 의 처리 — truncated upper bound + \(a = n_0/H\) Dirichlet hyperparameter, galaxy/acidity/iris 예제, § 22.5 mixture 를 분류·회귀로 사용 — Bayesian discriminant analysis 식 + mixture 가 비모수 \(f_c\) 로 작동. Ch.22 → Ch.23 (Dirichlet Process) 의 사다리 마지막 관문. | |
| Apr 27, 2026 | Ch.22 § 22.1~22.3 심화 — Setup · Schizophrenia · Label Switching | Statistics, Bayesian, Mixture-Models, EM-Algorithm, Gibbs-Sampler, Latent-Variable | Gelman BDA Ch.22 의 § 22.1~22.3 을 한 편으로 깊게 다룬다. § 22.1 식 (22.1) finite mixture 의 완전 정의, 식 (22.2) latent indicator joint 의 적분 vs 계산 두 표현, 연속 혼합 (\(t\) = scale mixture·negative binomial = Poisson-Gamma·beta-binomial = binomial-Beta) 의 marginalization 유도, identifiability 의 label ambiguity, Dirichlet prior 의 conjugate 갱신, posterior properness 함정, \(H\) 결정의 4 가지 접근, 두 학파 (진짜 부분모집단 vs 유연한 근사). § 22.2 17 명 (정상 11 + 조현병 6) × 30 trials 데이터의 motor retardation \(\beta\) + attentional delay (\(\lambda, \tau\)) 모델 완전 유도, ECM 알고리즘의 식 (22.5) E-step 베이즈 룰 적용, 식 (22.6) M-step conjugate weighted average, 식 (22.7) variance 갱신, 100 random starting points 로 multimodality 점검, \(t_4\) approximation + importance resampling 으로 Gibbs 시작점, Gibbs 의 6 단계 conditional sampling, \(T_{\min}/T_{\max}\) 사후 예측 검정의 lack of fit 발견, \(\omega + \sigma_{y2}^2\) 추가의 확장 모델. § 22.3 식 (22.10) exchangeable prior 와 사후 marginal 동일성, 식 (22.11)~(22.12) location-scale Gaussian mixture 의 3 단계 conjugate Gibbs, label switching 의 두 처리 — Stephens (2000) KL loss postprocessing 알고리즘 vs order constraint 의 다변량 한계, density estimation 시 switching 무시 가능 이유. | |
| Apr 27, 2026 | Ch.22 § 22.4~22.7 심화 — Unspecified H · Classification · Regression · 연습 + Ch.22 결산 | Statistics, Bayesian, Mixture-Models, Classification, Regression, Nonparametric-Bayes | Gelman BDA Ch.22 의 § 22.4~22.7 을 한 편으로 깊게 다룬다. § 22.4 알려지지 않은 \(H\) 의 처리 — truncated upper bound 의 핵심 아이디어, Dirichlet \(a = n_0/H\) 가 stick-breaking 으로 sparse weights 유도하는 메커니즘, Gamma representation 으로 본 빈 component 자동 형성, Ishwaran-Zarepour 와 Rousseau-Mengersen 의 이론적 정당화, \(H_n\) vs \(H\) 의 차이, galaxy 82점·acidity 155점·iris 150점 사례의 cluster 수 추정, Tables 22.2~22.4 결과 해석. § 22.5 mixture 를 분류·회귀로 — Bayesian discriminant analysis 의 Dirichlet 조건부 갱신, class-conditional density 를 mixture of multivariate normals 로, 식 + product kernel 로 categorical/continuous 혼합 predictor 처리, semi-supervised 확장, 식 (22.13) joint density 의 mixture, 식 (22.14)~(22.15) predictor-dependent regression weights 의 “mixture of experts” 해석, joint modeling 의 4 가지 한계. § 22.6 bibliographic note 핵심 정리 + § 22.7 연습문제 8개 (cluster point estimate·overfitted mixture·long-tail·galaxy density·football point spread·kidney cancer·improper prior 위험·Dirichlet sparsity asymptotics) 단계별 풀이. Ch.22 시리즈 4편 (overview·§ 22.1~22.3·§ 22.4~22.7) 의 핵심 수식·발견·체크리스트 결산 + Ch.23 DP 로의 사다리. | |
| Apr 27, 2026 | Ch.22 § 22.7 심화 — 연습문제 8개 완전 풀이 | Statistics, Bayesian, Mixture-Models, Exercises, Sensitivity-Analysis | Gelman BDA Ch.22 § 22.7 의 8 연습문제를 모두 단계별로 풀이한다. Ex1 cluster 의 categorical point estimate (왜 mean/median 이 무의미하고 mode 만이 의미 있는가, 0-1 loss 와 Bayes optimal classifier 의 연결). Ex2 overfitted mixture (true \(H_0 = 3\) 에 \(H = 2/3/4/\)unspecified 적합, sparse Dirichlet 의 자동 zero-out, WAIC/LOO 비교, \(H_n\) 사후). Ex3 long-tailed data (\(t_4\) mixture 를 normal mixture 로 적합 시 cluster 수 부풀림 메커니즘과 \(t\)-component 대안). Ex4 galaxy density 의 \(\alpha \to 0, k\) 증가, prior variance 증가 sensitivity. Ex5 football point spread mixture 가 single component 로 회귀하는 의미 (정규 가정의 데이터 기반 검증). Ex6 kidney cancer 의 discrete (point mass) mixing vs continuous (Gamma) mixing 의 hierarchical 차이. Ex7 noninformative prior 가 정규 mixture 에서 degenerate posterior 를 만드는 메커니즘과 해결. Ex8 Dirichlet sparsity 의 점근 — \(a = 1/k\) 와 \(a = 1\) 의 order statistic 비교, stick-breaking representation 으로 수렴 시각화. 각 문제마다 수식 유도 + 시뮬레이션 코드 + 직관 callout 으로 mixture 의 8 측면을 점검한다. | |
| Apr 27, 2026 | Ch.23 Overview — Dirichlet Process Models | Statistics, Bayesian, Dirichlet-Process, Nonparametric-Bayes, Stick-Breaking, HDP | Gelman BDA Ch.23 의 7개 절을 한 편으로 조망한다. Ch.22 의 finite mixture (\(H\) 유한) 에서 한 단계 더 — \(H \to \infty\) 한계로 보내 분포 자체에 사전분포를 부여하는 비모수 베이즈의 완성. § 23.1 Bayesian histogram 의 Dirichlet conjugate 로 motivation, § 23.2 식 (23.1) DP 정의·식 (23.2) Bayes 추정량의 base + empirical 가중 평균·Bayesian bootstrap·식 (23.3) stick-breaking 으로 random measure 의 명시적 구성·DP 의 discreteness 라는 본질적 한계, § 23.3 DP mixture 의 식 (23.4) kernel mixture·식 (23.5) infinite kernel mixture·식 (23.6)~(23.7) Polya urn 예측 규칙과 Chinese Restaurant Process metaphor·marginal Gibbs vs blocked Gibbs·toxicology mouse implant·hyperprior on \(\alpha\)·\(P_0\) 의 변동성 함정, § 23.4 식 (23.10) nonparametric residual 회귀·식 (23.11)~(23.13) ANOVA random effect 의 비모수화·FDA 의 functional clustering, § 23.5 hierarchical dependence — Hierarchical DP (HDP) 의 group 간 atom 공유·Nested DP 식 (23.17)~(23.18) 의 distribution clustering·식 (23.19)~(23.20) convex mixture·dynamic mixture, § 23.6 식 (23.21) mixture of experts·dependent stick-breaking·kernel stick-breaking·probit stick-breaking 의 density regression, § 23.7 핵심 문헌. Ch.22 의 sparse Dirichlet \(a = n_0/H\) 한계로 자연스럽게 연결되는 비모수 베이즈의 완성. | |
| Apr 27, 2026 | Ch.23 § 23.1~23.3 심화 — Bayesian Histogram · DP · Stick-Breaking · DPM | Statistics, Bayesian, Dirichlet-Process, Stick-Breaking, Gibbs-Sampler, Nonparametric-Bayes | Gelman BDA Ch.23 의 § 23.1~23.3 을 한 편으로 깊게 다룬다. § 23.1 Bayesian histogram 의 knot 격자 + Dirichlet conjugate 사후 유도, mixture Beta 시뮬레이션 예제 (n=100, 10 knots), knot 수·위치에 대한 sensitivity, DP 로의 동기 (bin 격자의 적분 소거). § 23.2 식 (23.1) DP partition-based 정의, Kolmogorov consistency 로 random measure 존재 증명, marginal Beta property, prior mean = \(P_0\) + variance = \(P_0(1-P_0)/(1+\alpha)\) 유도, 사후 식 (23.2) 의 base + empirical 가중 평균 완전 유도, \(\alpha \to 0\) Bayesian bootstrap 한계 (Rubin 1981), 식 (23.3) stick-breaking 의 명시적 구성 + \(V_h \sim \text{Beta}(1, \alpha)\) 의 gamma representation 유도, DP 의 discreteness 본질. § 23.3 식 (23.4) kernel mixture 일반론, 식 (23.5) DPM hierarchical 표현, 식 (23.6) Polya urn 의 sequential 유도, Chinese Restaurant Process metaphor 완전 분석 (rich-get-richer + \(E[k_n] \approx \alpha \log n\) 점근), 식 (23.7) exchangeable 조건부, marginal Gibbs sampler (Algorithm 8 Neal 2000), blocked Gibbs sampler (truncated stick-breaking), \(\alpha\) hyperprior 의 Gamma conjugate, toxicology mouse implant 의 DP 직접 vs DPM 비교, Poisson kernel 의 over-dispersion 한계와 rounded Gaussian 식 (23.9) 대안. | |
| Apr 27, 2026 | Ch.23 § 23.4~23.7 심화 — HDP · NDP · Density Regression + Ch.23 결산 + Part V 전체 결산 | Statistics, Bayesian, Dirichlet-Process, Hierarchical-Dirichlet-Process, Density-Regression, Nonparametric-Bayes | Gelman BDA Ch.23 의 § 23.4~23.7 을 한 편으로 깊게 다룬다. § 23.4 식 (23.10) nonparametric residual 의 DP scale mixture (t 분포 일반화) vs location mixture 대안, 식 (23.11)~(23.13) ANOVA random effect 의 DPM 으로 latent class 형성, FDA basis coefficient 의 functional clustering, variable selection mixture vs heavy-tail shrinkage 두 접근. § 23.5 hierarchical dependence — comet assay genotoxicity 동기, Hierarchical DP (HDP) 의 group 간 atom 공유 메커니즘, 식 (23.17)~(23.18) Nested DP 의 distribution-level clustering, HDP vs NDP 도메인 구분, 식 (23.19) convex mixture (global + group-specific), 식 (23.20) dynamic AR mixture 의 atom 누적 특성. § 23.6 식 (23.21) mixture of experts (finite), Dependent Dirichlet Process (DDP) 의 predictor-dependent stick-breaking, Kernel stick-breaking (Dunson-Pillai-Park 2007) 의 spatial locality, Probit stick-breaking (Chung-Dunson 2009) 의 GP 와의 자연스러운 결합, glucose tolerance epidemiology 사례. § 23.7 bibliographic note 핵심 정리. Ch.23 시리즈 3편 (overview + § 23.1~23.3 + 본 편) 결산 + Part V (Ch.19~23) 다섯 장 사다리 (parametric nonlinear → basis function → Gaussian process → finite mixture → Dirichlet process) 전체 결산. | |
| Apr 27, 2026 | Ch.23 § 23.8 심화 — 연습문제 2 문제 완전 풀이 | Statistics, Bayesian, Dirichlet-Process, Exercises, Sensitivity-Analysis | Gelman BDA Ch.23 § 23.8 의 두 연습문제를 단계별로 깊게 풀이한다. Exercise 1 — DPM of Gaussians 의 사후 계산 친숙도. (a) 3-component normal mixture (가중치 0.1·0.5·0.4, 평균 -1·0·1, 분산 0.2·1·0.4) 에서 100 점 시뮬레이션, (b) Gaussian KDE 로 비-베이즈 density 추정 + 진짜 분포와 비교, (c) Ch.22 finite mixture Gibbs (k=20, a=alpha/k=0.05, alpha=1, mu_0=0, kappa=a_tau=b_tau=1), (d) Ch.23 blocked Gibbs (truncated stick-breaking N=20, 동일 hyper), (e) 세 추정 비교 — Ishwaran-Zarepour 2002 의 정당화 (충분히 큰 k, N 에서 두 approximation 이 동일 결과). Exercise 2 — alpha·P_0 sensitivity 분석. (a) alpha=10 으로 더 많은 cluster 형성, (b) Gamma hyperprior (a_alpha=b_alpha=0.1) 로 데이터 기반 alpha 학습, (c) Normal-Gamma P_0 의 매우 높은 variance 가 역설적으로 cluster 수 줄이는 메커니즘 (marginal likelihood penalty). 각 exercise 마다 모델 설정·Gibbs steps·시뮬레이션 코드·결과 해석·직관 callout 으로 mixture 모델의 sensitivity 차원을 점검한다. | |
| Apr 27, 2026 | Appendix C Overview — Computation in R and Stan | Statistics, Bayesian, Stan, HMC, Computational-Bayes, Software | Gelman BDA Appendix C (Computation in R and Stan) 의 6 절을 한 편으로 조망한다. C.1 R + Stan 개발 환경 셋업, C.2 8 schools (Rubin 1981) hierarchical normal model 의 Stan 구현 — data / parameters / transformed parameters / model block 의 역할과 non-centered parameterization (theta = mu + tau * eta, eta ~ N(0,1)) 의 funnel posterior 회피 메커니즘, C.3 R 에서 직접 marginal-conditional grid 기반 시뮬레이션 + Gibbs sampler + Metropolis algorithm 명시 구현, C.4 R 에서 직접 HMC + leapfrog integrator 구현, C.5 debugging tips (수치 안정성·hyperparameter 선택·convergence 점검), C.6 bibliographic note. Stan 의 핵심 — NUTS (No-U-Turn Sampler), autodiff (automatic differentiation), HMC 의 leapfrog dynamics — 의 직관을 정리하고, 실무 워크플로우 (모델 작성 → R 데이터 준비 → Stan 호출 → 사후 분석 → posterior predictive checks) 를 8 schools 예제로 구체화. 베이즈 추론의 software 측면 — BDA 의 통계 이론을 실제 코드로 옮기는 다리. | |
| Apr 27, 2026 | Appendix C § C.1~C.2 심화 — Getting Started · 8 Schools in Stan (R + Python) | Statistics, Bayesian, Stan, PyMC, NumPyro, HMC | Gelman BDA Appendix C 의 § C.1~C.2 를 한 편으로 깊게 다룬다. 모든 코드를 R 과 Python 두 언어로 병행 제시. C.1 환경 셋업 — R + Stan 설치 (rstan, cmdstanr) 와 Python 진영 4 가지 옵션 (cmdstanpy / PyMC / NumPyro / Edward2-TFP) 의 설치, IDE 권장 (RStudio·VS Code·Jupyter), conda environment 관리. C.2 8 schools (Rubin 1981 SAT 코칭 효과) 의 hierarchical normal 모델 완전 분석. y_j ~ N(theta_j, sigma_j^2), theta_j ~ N(mu, tau^2) 의 partial pooling 메커니즘, 사후 conjugate 분해 (5.20), Stan code 의 4 block 역할, centered (theta ~ N(mu, tau)) 와 non-centered (theta = mu + tau * eta, eta ~ N(0,1)) 의 수학적 차이와 funnel posterior 시각화, rstan 으로 R 호출, cmdstanpy / PyMC / NumPyro 의 동일 모델 구현 비교, posterior summary 분석 (n_eff, Rhat, divergences), 두 종류의 posterior predictive (existing schools vs new schools), half-Cauchy / half-Normal prior alternative, t-distribution hierarchical 확장. Stan 의 핵심 — declarative model + autodiff + NUTS — 가 R + Python 어느 환경에서도 동일하게 작동하며, 베이즈 추론의 software 측면이 이론과 어떻게 결합되는지 8 schools 한 예제로 보여준다. | |
| Apr 27, 2026 | Appendix C § C.3~C.4 심화 — Direct Simulation · Gibbs · Metropolis · HMC (R + Python) | Statistics, Bayesian, Gibbs-Sampler, Metropolis, HMC, Computational-Bayes | Gelman BDA Appendix C 의 § C.3~C.4 를 한 편으로 깊게 다룬다. Stan 의 자동 NUTS 가 아닌 R + Python (NumPy) 으로 베이즈 sampler 를 직접 구현. C.3 Direct simulation, Gibbs, Metropolis in R: (1) marginal-conditional grid simulation 으로 BDA § 5.4 식 (5.20)~(5.21) 의 직접 구현, (2) standard Gibbs sampler (theta_update, mu_update, tau_update 3 conditional), (3) parameter-expanded Gibbs (theta = mu + alpha * gamma 형태) 의 mixing 개선 메커니즘, (4) t-model with fixed nu 의 Gibbs sampler (V_j augmentation), (5) Gibbs-Metropolis for unknown nu (log posterior + Metropolis step + 44% acceptance rate tuning). C.4 Programming HMC in R: log posterior log_p_th, 해석적 gradient gradient_th, 수치적 gradient gradient_th_numerical (debugging), hmc_iteration (leapfrog L steps + accept/reject), hmc_run (multiple chains, warmup, random epsilon/L), hyperparameter tuning (epsilon_0, L_0, mass matrix M). 모든 코드를 R 과 Python (numpy/scipy) 으로 병행 제시. Pure 직접 구현이므로 Stan / PyMC / NumPyro 없이 학습 가능. Stan 의 NUTS 가 자동화하는 모든 단계를 명시적으로 작성하여 베이즈 sampler 의 본질을 드러낸다. | |
| Apr 27, 2026 | Appendix C § C.5~C.6 심화 — Debugging · Numerical Stability · Modern Bayesian Workflow + Appendix C 결산 | Statistics, Bayesian, Debugging, Numerical-Stability, Bayesian-Workflow, Software | Gelman BDA Appendix C 의 § C.5~C.6 을 한 편으로 깊게 다룬다. BDA 본문 자체는 짧으나 modern Bayesian workflow 의 핵심 도구를 통합 정리. C.5 Further comments on computation: Section 10.7 의 일반 원칙 (단순 모델부터 시작, 작은 데이터부터, transparency 우선) + 흔한 실수 7 가지 (Stan syntax / variance vs sd / nu vs 1/nu / log-posterior 항 누락 / Metropolis 조건 / sims array 저장 / reparameterization bug / prior 선택 오류). Debugging 전략 (line-by-line 실행, print/logging, multi-algorithm cross-check). R 와 Python 의 debugging 도구 비교 (browser/debugonce vs pdb/breakpoint, message/warning vs logging, traceback). Numerical stability (log-scale computation, LogSumExp trick, Cholesky over direct inverse, adaptive Metropolis). Modern workflow 추가 (prior predictive check, simulation-based calibration SBC, LOO-PIT, posterior predictive check, sensitivity analysis). C.6 Bibliographic note: R / S / Stan core 문헌 + modern Bayesian workflow references (Gelman 2020, Vehtari 2017 LOO, Talts 2018 SBC, Gabry 2019 visualization). Appendix C 시리즈 4 편 (overview + § C.1~C.2 + § C.3~C.4 + 본 편) 결산. | |
| Apr 27, 2026 | Klein Ch.1 § 1.1~1.2 심화 — Introduction · Acute Leukemia 6-MP Trial | Statistics, Survival Analysis, Klein-Moeschberger, Clinical-Trial |
Klein & Moeschberger Ch.1 의 § 1.1 Introduction 과 § 1.2 Acute Leukemia 6-MP Trial 을 한 편으로 깊게 다룬다. § 1.1 시간-사건 데이터의 6 가지 응용 분야 (의학·생물학·역학·공학·경제·인구학) 에서 같은 통계 도구가 통합되는 이유, 중도절단 (right·left·interval) 과 절단 (left·right) 의 5 유형 직관적 정의, 본 chapter 의 19 예제가 Ch.2~Ch.13 의 도구를 동기 부여하는 메커니즘. § 1.2 Freireich et al. (1963) 의 6-mercaptopurine (6-MP) vs placebo 임상시험. 임상 배경 (prednisone induction → maintenance therapy 의 중요성, 6-MP 의 purine analog 메커니즘), matched-pair 설계 (11 미국 병원 × 병원·remission status 매칭 + 무작위 배정), Table 1.1 의 21 pair × 2 = 42 명 데이터 완전 정리, censoring 패턴의 비대칭성 (placebo 0 censored vs 6-MP 12 censored) 이 시사하는 효과의 강도, R survival 패키지 + Python lifelines 로 EDA 와 첫 KM 곡선 + log-rank test preview. Matched-pair 설계의 통계적 함의 (within-pair variance reduction·stratified analysis 의 정당화), Klein 책 Ch.4 (KM/NA), Ch.6.4 (Bayesian density), Ch.7.5 (stratified log-rank), Ch.9.3 (stratified Cox) 4 곳에서 반복 사용되는 이유.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.19 심화 — Time to AIDS (Right Truncation) + Ch.1 시리즈 결산 | Statistics, Survival Analysis, Klein-Moeschberger, Right-Truncation, AIDS-Epidemic |
Klein & Moeschberger Ch.1 의 § 1.19 Time to AIDS 를 한 편으로 깊게 다룬다. Ch.1 의 마지막 데이터셋이자 right truncation 의 정전 예제. § 1.16 Channing House (left truncation) 의 mirror image. Lagakos et al. (1988) 의 258 adults + 37 children AIDS 데이터. 시간 단위: 1978-04-01 부터 years. Adults 는 HIV-contaminated blood transfusion 으로 감염. Children 은 in utero 또는 birth 시 감염. 사건: AIDS 발병 (1986-06-30 까지). 표본 추출: 1986-06-30 이전에 AIDS 발병 한 사람만 — 그 시점에 latent (HIV+ 이지만 AIDS 미발병) 인 사람은 자동 표본 제외 → right truncation. Right truncation 의 likelihood 는 \(f(T_i) / F(R_i)\) 형태 (numerator 가 unconditional density, denominator 가 truncation 시점까지 발병 확률). Klein Ch.3.4 의 right truncation 정의, Ch.5.3 의 right-truncated data 의 reverse-time survival function 추정. AIDS epidemic 의 1980 년대 통계 도전 — 짧은 follow-up + selection bias. R survival (Surv with type=‘counting’) + Python lifelines (entry parameter) + 직접 reverse-time KM 구현. Ch.1 시리즈 결산: 19 예제와 Klein 13 chapter 도구의 통합 매핑 + 5 censoring/truncation 형태 (right/left/interval cens + left/right trunc) 의 통일 framework + 다음 Ch.2 (Basic Quantities and Models) 예고.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.3~1.4 심화 — Bone Marrow Transplantation · Kidney Dialysis Infection | Statistics, Survival Analysis, Klein-Moeschberger, Multistate, Proportional-Hazards | Klein & Moeschberger Ch.1 의 § 1.3 Bone Marrow Transplantation 과 § 1.4 Times to Infection of Kidney Dialysis Patients 를 한 편으로 깊게 다룬다. 두 데이터 모두 책 전체에서 multiple chapter 의 도구를 시연하는 핵심 자료. § 1.3 Copelan et al. (1991) 의 BMT 데이터 — 137 명 (99 AML + 38 ALL), 4 병원 (OSU·HU·SVH·AH), 7 년 follow-up. 다중 사건 (multistate) 회복 구조 — transplant 후 aGVHD·platelet recovery·relapse·treatment-related death 가 random order 로 발생. Multistate model 의 표준 시연 데이터, time-dependent covariate (aGVHD 발생 후 prognosis 변경), competing risks (relapse vs death in remission) 모두 포함. Risk categories (ALL 38, AML low-risk 54, AML high-risk 15+30=45), 공변량 (recipient/donor age·sex·CMV·FAB classification·waiting time·prophylaxis 종류). Klein 책 Ch.4·6·7·8·9·11 6 chapter 에서 반복 사용. § 1.4 Nahman et al. (1992) 의 kidney dialysis 데이터 — 119 명, surgical placement (43) vs percutaneous (76) 두 catheterization procedures. 사건은 첫 exit-site infection. Two-sample 비교의 표준이지만 proportional hazards 가정 위반 (초반 percutaneous 의 hazard 매우 높음, 후반 비슷) → time-varying effect 의 동기 부여 데이터. Klein Ch.7.3 (weighted log-rank weight choice 영향)·Ch.7.7 (Cramer-von Mises)·Ch.8 (tied data partial likelihood)·Ch.9.2 (PH 가정 검정). 두 데이터 R survival + Python lifelines 로 EDA, 첫 KM 곡선, PH 가정 시각 점검. | |
| Apr 27, 2026 | Klein Ch.1 § 1.5~1.6 심화 — Breast Cancer Trial · Burn Patient Infection | Statistics, Survival Analysis, Klein-Moeschberger, Cox-PH, Time-Dependent |
Klein & Moeschberger Ch.1 의 § 1.5 Breast Cancer 와 § 1.6 Burn Patient 를 한 편으로 깊게 다룬다. 두 데이터 모두 의학적으로 중요한 임상 질문에 대한 단순/복잡 두 통계 도전을 시연. § 1.5 Sedmak et al. (1989) 의 breast cancer 데이터 — 45 명의 negative axillary lymph node 환자 (standard light microscopy 음성), 그러나 immunohistochemistry (IH) 로 occult metastasis 검사. IH 양성 (9 명) vs IH 음성 (36 명) 의 사망 시간 비교. 작은 sample (9 vs 36) 에서 likelihood 기반 분석의 중요성, two-sample test 의 표준 예제, additive hazards regression model (Ch.10) 의 동기 부여. 의학적 의의: 16% 재발률을 줄이는 더 정확한 예후 분류 도구. § 1.6 Ichida et al. (1993) 의 burn patient 데이터 — 154 명 화상 환자 (chlorhexidine 84 vs povidone-iodine 70), staphylococcus 감염 시간. 다양한 fixed covariates (gender 22% female, race 88% white, burn severity mean 24.7%, burn site 6 위치, burn type 4 종류) 와 time-dependent covariates (excision time 64%, antibiotic time 41%) 모두 포함. Multivariate Cox PH model (Ch.8) 의 표준 + time-dependent Cox (Ch.9.1) 의 시연 데이터. Historical control 디자인의 함의. R survival + Python lifelines 로 두 데이터의 EDA, KM 비교, multivariate Cox, time-dependent setup.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.7~1.8 심화 — Kidney Transplant · Laryngeal Cancer | Statistics, Survival Analysis, Klein-Moeschberger, Kernel-Smoothing, AFT |
Klein & Moeschberger Ch.1 의 § 1.7 Kidney Transplant 와 § 1.8 Laryngeal Cancer 를 한 편으로 깊게 다룬다. 두 데이터는 sample size 의 양 극단 (863 vs 90) 에서 서로 상보적 통계 도구를 동기 부여. § 1.7 Ohio State University Transplant Center 의 863 명 kidney transplant (1982-1992, max follow-up 9.47 년). 4 race × gender 그룹 (white M 432, black M 92, white F 280, black F 59), 사망률 13.9~23.7%, 이식 시 나이 9.5 개월 ~ 74.5 세 (mean 42.8). 큰 sample 이기에 가능한 kernel hazard smoothing 의 표준 시연 데이터 — bandwidth 선택과 kernel 종류 (Gaussian·Epanechnikov·biweight) 의 영향을 비교 (Ch.6). Continuous covariate (age) 를 discretization 해 risk group 으로 나누는 방법론 (Ch.8) 의 표준. § 1.8 Kardaun (1983) 의 네덜란드 90 명 laryngeal cancer 환자 (1970-1978 진단). TNM 분류 기반 4 stage (I=T1N0M0 33명, II=T2N0M0 17명, III=T3N0M0+TxN1M0 27명, IV 그 외 13명) 의 ordinal 구조. Trend test (Ch.7.4 — stage 가 클수록 hazard 증가), global Cox + local tests + ANOVA-style 분해 + age interaction (Ch.8), linear combination contrasts 로 stage 간 차이 검정. Additive hazards (Ch.10), parametric accelerated failure-time + log-logistic + deviance residuals (Ch.12). R survival + muhaz (kernel) + eha (parametric) + Python lifelines 와 scikit-survival 으로 두 데이터 EDA 와 표준 분석.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.9~1.10 심화 — Autologous/Allogeneic BMT · Lymphoma BMT + Ch.1 결산 | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Diagnostics, Stratified-Analysis | Klein & Moeschberger Ch.1 의 § 1.9 Autologous/Allogeneic BMT 와 § 1.10 Lymphoma BMT 를 한 편으로 깊게 다룬다. Ch.1 의 핵심 9 예제 catalog 의 마지막 묶음. § 1.9 International Bone Marrow Transplant Registry 의 101 명 advanced AML 환자 (51 auto + 50 allo). Autologous (자기 골수 재주입) vs Allogeneic (HLA-matched sibling 골수) 의 leukemia-free survival 비교. Auto 의 graft-vs-leukemia 결여 vs Allo 의 GVHD 위험 trade-off. Klein Ch.7 의 weighted log-rank·censored median test·censored t-test 표준 비교 데이터. Ch.11 의 모든 진단 도구 (martingale residuals 모델 적합 점검·score residuals PH 가정 검정·deviance residuals outlier 검출·influence diagnostics individual point 영향) 의 표준 시연. Ch.12.5 의 parametric AFT diagnostic plots. § 1.10 Avalos et al. (1993) 의 43 명 OSU lymphoma BMT 환자. Hodgkin’s (HOD) 와 non-Hodgkin’s (NHL) lymphoma × Allogeneic (HLA-matched sibling) vs Autologous = 4 그룹 구조. 공변량 Z_1 = Karnofsky score (0-100, 사전 건강 상태) + Z_2 = waiting time (진단~이식 개월). Klein Ch.7.5 의 stratified test by disease type (HOD/NHL stratum 보정 후 Allo/Auto 비교). Ch.11.3 의 martingale residual 로 Karnofsky score 의 functional form 결정 (linear vs nonlinear). Ch.1 시리즈 결산: 9 핵심 예제의 통계 도구 매핑 종합 표 + Klein 13 chapter 의 데이터-도구 cross-reference + 다음 Ch.2 (Basic Quantities) 예고. | |
| Apr 27, 2026 | Klein Ch.1 § 1.11~1.12 심화 — Tongue Cancer (DNA Ploidy) · STD Reinfection | Statistics, Survival Analysis, Klein-Moeschberger, Variable-Selection, Public-Health |
Klein & Moeschberger Ch.1 의 § 1.11 Tongue Cancer 와 § 1.12 STD Reinfection 을 한 편으로 깊게 다룬다. 두 데이터 모두 Klein 책의 exercises 전용 데이터셋으로, sample size 와 covariate 수의 양 극단을 보여주는 보완 자료. § 1.11 Sickle-Santanello et al. (1988) 의 80 명 tongue cancer 환자 (52 aneuploid + 28 diploid). DNA ploidy = flow cytometry 로 측정한 종양 세포의 DNA 함량 비. Aneuploid (이수성, 비정상 DNA 함량) 는 종양의 유전적 불안정성 표지로 공격적 행동 시사. Diploid (이배체, 정상 DNA) 는 보통 덜 공격적. 본 데이터로 ploidy 의 prognostic 효과 검정 — KM curve 비교 + log-rank + Cox PH. 작은 sample (n=80) 의 단순 two-group 비교 standard 예제. § 1.12 877 명 STD (sexually transmitted diseases) 환자 — 임질 (gonorrhea) 과 클라미디아 (chlamydia) 의 첫 진단 후 reinfection 시간. 공중보건의 core group 가설 (소수의 반복 감염 개체가 disease reservoir 역할) 검정. 20+ covariates: demographic (race·marital·age·schooling·initial infection type), behavioral (partners·oral/rectal sex·condom use), symptoms (abdominal pain·discharge·dysuria·itch·lesion·rash·lymph). 큰 sample + 풍부한 covariates → multivariate Cox + variable selection (forward/backward/LASSO) 의 표준 설정. R survival + glmnet (LASSO Cox) + Python lifelines + scikit-survival 으로 두 데이터 EDA 와 분석.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.13~1.14 심화 — Hospitalized Pneumonia · Times to Weaning (NLSY) | Statistics, Survival Analysis, Klein-Moeschberger, Public-Health, NLSY |
Klein & Moeschberger Ch.1 의 § 1.13 Hospitalized Pneumonia 와 § 1.14 Times to Weaning 을 한 편으로 깊게 다룬다. 두 데이터 모두 NLSY (National Longitudinal Survey of Youth) 의 longitudinal interview 데이터 — 사회역학·공중보건의 표준 자료원. § 1.13 NLSY 1979-1986 의 3,470 명 어린이 (모-아 매칭) 데이터. 사건: 첫 1년 내 pneumonia 입원. 핵심 가설: 모유 수유 (vs never breast fed) 의 protective effect. Child covariates (birthweight 36% normal, race 56% white·28% black·16% other, siblings 0-6), mother covariates (age 14-29 mean 21.64, schooling 11.4 years, region NE/NC/S/W, poverty 92%, urban 76%), health behavior (alcohol 36%, cigarette 34% during pregnancy). 큰 sample (3,470) + 공중보건 정책 적용 (모유 수유 권장의 통계적 근거). § 1.14 NLSY 의 927 명 first-born children (1978+ 출생, gestation 20-45 weeks). 사건: weaning (breast feeding 종료). Response: duration of breast feeding in weeks. Mother variables (race, poverty, smoking, drinking at birth, age, education, prenatal care). Klein Ch.5.4 의 cohort life table (actuarial estimator) 표준 시연 데이터, Ch.8 의 predictive model building (vs causal inference) 의 목적 차이 학습. Recall bias 회피를 위한 1978+ 출생 코호트 제한. R survival (cohort life table 의 survfit + actuarial method) + Python lifelines 으로 두 데이터 EDA, KM, Cox 분석.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.15~1.16 심화 — Psychiatric Patients · Channing House (Left Truncation) | Statistics, Survival Analysis, Klein-Moeschberger, Left-Truncation, Length-Biased-Sampling |
Klein & Moeschberger Ch.1 의 § 1.15 Psychiatric Patients 와 § 1.16 Channing House 를 한 편으로 깊게 다룬다. 두 데이터의 공통 주제 = left truncation — 표본 추출 자체가 사건 시점에 의존하는 편향 (Klein Ch.3.4 의 핵심). § 1.15 Woolson (1981) 의 26 명 psychiatric inpatient — University of Iowa hospitals (1935-1948 admission). 변수: gender, age at admission, follow-up years, status. Klein Ch.6.3 의 relative mortality function S_r(t) = S(t)/S*(t) 와 cumulative excess mortality 추정 — psychiatric patient 의 lifetime 을 Iowa 1959 standard mortality 와 비교. Ch.7.2 의 one-sample hypothesis test (psychiatric vs population standard). Ch.9 의 Cox PH with left truncation — admission 시점부터 추적 (admission 전 사망자 표본 제외). § 1.16 Hyde (1980) 의 Channing House 462 명 (97 male + 365 female) retirement community resident. Palo Alto 1964-1975 거주자. Left truncation 의 정전 예제 — resident 가 community 입주 나이까지 살아남아야 표본 진입. 이른 사망자 자동 배제 → length-biased sampling. Klein Ch.3.4 left truncation 정의, Ch.4.6 conditional survival function 추정, Ch.7.3 log-rank with left truncation (gender 비교), Ch.9 Cox PH with left truncation. R survival (Surv with start time) + Python lifelines (entry parameter) 으로 left truncation 보정 분석.
|
|
| Apr 27, 2026 | Klein Ch.1 § 1.17~1.18 심화 — Marijuana (Doubly Censored) · Breast Cancer (Interval Censored) | Statistics, Survival Analysis, Klein-Moeschberger, Interval-Censoring, Doubly-Censored |
Klein & Moeschberger Ch.1 의 § 1.17 Marijuana 와 § 1.18 Breast Cancer Cosmetic Deterioration 을 한 편으로 깊게 다룬다. 두 데이터의 공통 주제 = non-standard censoring (left + interval) → Klein Ch.3.3 censoring 정의의 동기, Ch.5.2 의 NPMLE 추정 기법 시연. § 1.17 Turnbull & Weiss (1978) 의 191 California high school boys 의 marijuana 첫 사용 시점 데이터. 질문 “When did you first use marijuana?” 의 3 가지 응답 (“정확한 나이” → exact, “쓴 적 없음” → right-censored at current age, “쓴 적 있으나 시점 모름” → left-censored) 으로 인한 doubly censored data (left + right censoring 공존). Table 1.8 의 age × response 카운트. Klein Ch.5.2 의 doubly censored survival function 추정. § 1.18 Beadle et al. (1984) 의 94 명 breast cancer cosmetic deterioration 데이터 (46 radiation only + 48 radiation + chemotherapy). 사건은 first appearance of moderate/severe breast retraction. 4-6 개월 visit schedule (recovery 진행으로 간격 길어짐) → 사건 시점이 두 visit 사이 → interval-censored data. Table 1.9 의 (a, b] 또는 ≥a 형식. Klein Ch.5.2 의 interval-censored Turnbull self-consistency NPMLE 알고리즘 시연. R icenReg + interval 패키지 + Python lifelines.NelsonAalenFitter 변형 으로 두 데이터의 NPMLE 추정·시각화.
|
|
| Apr 27, 2026 | Klein & Moeschberger Ch.1 — Examples of Survival Data | Statistics, Survival Analysis, Klein-Moeschberger, Time-to-Event |
Klein & Moeschberger (2003) Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.) Ch.1 을 한 편으로 다룬다. Ch.1 은 책 전체 (13 chapter) 에서 반복 사용되는 19 가지 표준 예제 데이터셋의 카탈로그. 시간-사건 데이터 (time-to-event data) 의 본질 — 결과 변수가 음이 아닌 시간 T ≥ 0, 사건 (event) 의 정의 다양성 (사망·재발·감염·고장·이탈), 의학/생물학/역학/공학/경제 응용 — 을 정리한다. 중도절단 (censoring) 의 3 유형 (right·left·interval) 과 절단 (truncation) 의 2 유형 (left·right) 의 직관적 차이 (관측의 불완전 vs 표본 추출의 편향). 핵심 9 예제 (Leukemia 6-MP Freireich 1963, Bone Marrow Transplant Copelan 1991, Kidney Dialysis Nahman 1992, Breast Cancer Sedmak 1989, Burn Ichida 1993, Kidney Transplant OSU, Laryngeal Cancer Kardaun 1983, Auto/Allo BMT, Hodgkin/Non-Hodgkin Lymphoma) 의 데이터 구조·연구 질문·사용될 chapter 정리. 표준 데이터 구조 (T_i, delta_i, Z_i) 와 R survival 패키지 + Python lifelines 패키지로의 로드·EDA. Ch.2 (Basic Quantities) 와 Ch.3 (Censoring and Truncation 의 엄밀 정의) 으로의 연결.
|
|
| Apr 27, 2026 | Klein § 2.2~2.3 — Survival Function and Hazard Function | Statistics, Survival Analysis, Klein-Moeschberger, Hazard-Function, Cumulative-Hazard | Klein & Moeschberger Ch.2 의 첫 두 절을 한 편으로 정독한다. 생존 분석의 모든 추정·검정·회귀의 추론 대상이 되는 두 핵심 함수, 생존함수 S(x) 와 위험함수 h(x) 의 수학적 정의·직관·관계. § 2.2 Survival Function: \(S(x) = P(X > x)\) 의 정의와 4 가지 성질 (continuous·monotone decreasing·S(0)=1·S(∞)=0), F(x)·f(x) 와의 등가관계, Weibull \(S(x) = \exp(-\lambda x^\alpha)\) 의 모양, 미국 1989 인종/성별 life table 의 생존곡선, 이산 변수 \(S(x) = \sum_{x_j > x} p(x_j)\). § 2.3 Hazard Function: \(h(x)\) 의 두 가지 정의 (limit form vs \(f/S\)), 누적위험 \(H(x) = -\ln S(x)\) 와 \(S(x) = \exp(-H(x))\) 의 동등 표현, hazard 의 임상적·생물학적 의미 (“환자 의 나이를 알았을 때 다음 순간 사망 확률”), 5 가지 hazard 형태와 임상 사례 (post-transplant DFR·population bathtub·post-surgery hump), Weibull 의 단조 hazard \(h(x) = \alpha\lambda x^{\alpha-1}\), 이산 hazard 와 product limit 표현, IFR/DFR/IFRA 성질, hazard plot 을 이용한 모형 적합 진단. 4 가지 직관 (limit·conditional·instantaneous rate·failure mechanism) + § 1.2 Leukemia 데이터로 R + Python 추정. | |
| Apr 27, 2026 | Klein § 2.4~2.5 — MRL, Median Life, and Parametric Models | Statistics, Survival Analysis, Klein-Moeschberger, Parametric-Models, Mean-Residual-Life | Klein & Moeschberger Ch.2 의 § 2.4~2.5 를 한 편으로 정독한다. § 2.2~2.3 에서 정의된 두 함수 (S, h) 에 더해 4 번째 기본 함수인 평균잔여수명 m(x) 의 정의·면적 해석·임상적 의미를 다루고, 9 가지 표준 parametric model 의 hazard 모양·모수 해석·적용 가이드를 제공한다. § 2.4 MRL/Median: m(x) = ∫_x^∞ S(t)dt / S(x), μ = m(0) = ∫_0^∞ S(t)dt, Var(X) = 2∫0^∞ tS(t)dt - μ^2, pth quantile x_p = inf{t : S(t) ≤ 1-p}, median life x(0.5), median residual life mdrl(x), 4 함수 통합 표기 (S↔︎f↔︎h↔︎m). § 2.5 Parametric: Exponential (memoryless 의 유일성), Weibull (shape α<1·=1·>1 → DFR·constant·IFR), gamma (Erlangian = 정수 β), log-normal (hump 이지만 tail 비현실성), log-logistic (hump 의 closed-form 근사), Gompertz (e^(αx) aging — 인구 mortality 의 정전), generalized gamma (Exp/Weibull/Gamma/Log-normal 모두 포함하는 super-family), Pareto (heavy tail 보험·금융), Inverse Gaussian (Brownian motion 첫 도달), Exponential power (bathtub). 분포 선택 의사결정 흐름 + Leukemia 데이터에 9 분포 R + Python 적합 + AIC 비교 + Weibull plot 진단. | |
| Apr 27, 2026 | Klein § 2.6~2.7 — Regression Models and Competing Risks | Statistics, Survival Analysis, Klein-Moeschberger, Cox-Regression, Competing-Risks | Klein & Moeschberger Ch.2 의 마지막 두 절을 한 편으로 정독한다. § 2.5 의 9 parametric 분포 위에 covariate Z 를 도입하는 두 가지 회귀 framework (AFT vs PH) 와, 한 환자가 여러 원인 으로 사건을 경험할 수 있는 competing risks 의 모델을 다룬다. § 2.6 Regression Models: AFT log linear Y = μ + γ’Z + σW (시간 척도 변환 exp(-γ’Z) — accelerate vs decelerate), multiplicative PH h(x|z) = h_0(x) c(β’z) (Cox c=exp), proportional ratio 의 시간 불변, Lehmann alternative S(x|z) = S_0(x)^c, log(-log S) PH 진단 plot, additive Aalen h = h_0 + Σ z_j(t) β_j(t), Weibull = AFT ∩ PH 의 유일 분포 정리. § 2.7 Competing Risks: latent failure time X_1,…,X_K → 관측 (T = min, δ = cause), cause-specific hazard h_i(t), 총 hazard h_T = Σ h_i, joint survival 에서의 도출, 독립/종속 예제, identifiability dilemma (Tsiatis 1975 — (T, δ) 만으로 dependence 식별 불가), CIF F_i(t) = P[T≤t, δ=i] = ∫ h_i exp(-H_T) du, sub-distribution 성질, crude vs net vs partial crude probability 의 임상 의미, Peterson 1976 bound, Pepe-Mori conditional probability, 1-KM ≠ CIF 함정, Fine-Gray subdistribution hazard 와 cause-specific hazard 의 상보 관계. Cox 진단 + Aalen-Johansen CIF 추정 R(survival, cmprsk) + Python(lifelines, scikit-survival) 실전. | |
| Apr 27, 2026 | Klein § 2.8 — Exercises (20 문제 완전 풀이) | Statistics, Survival Analysis, Klein-Moeschberger, Exercises | Klein & Moeschberger Ch.2 § 2.8 의 20 개 연습문제를 한 편으로 정리한다. § 2.2~2.7 의 모든 개념 (4 함수·9 분포·2 회귀 framework·competing risks) 을 실제 수치 계산과 모형 변환으로 연습. Group A — 분포별 계산 (2.1 Exponential 전구·2.2 Weibull 쥐 종양·2.3 Log-logistic 신장이식·2.4 Exp power bathtub 증명·2.5 Log-normal BMT·2.6 Gompertz 쥐·2.7 Gamma 쥐·2.8 Pareto 페이스메이커). Group B — 회귀 (2.9 log-normal 폐암 치료 비교 · 2.16 log-logistic = proportional odds 증명). Group C — 추가 모델·MRL (2.10 piecewise 일정 hazard 의 S, MRL, mdrl·2.11 3-모수 Weibull guarantee time·2.12 Uniform·2.13 Geometric vs Exponential·2.14 Exponential + Gamma frailty = Pareto·2.15 Linear hazard·2.17 Linear MRL 로부터 S, h 역산·2.18 Uniform 의 MRL/mdrl). Group D — Competing risks (2.19 joint S(x,y)=(1-x)(1-y)(1+5xy)·2.20 joint S=exp(-x-y-5xy)). 핵심 직관 + R/Python 검증 코드 + Ch.2 16 항 통합 체크리스트. | |
| Apr 27, 2026 | Klein Ch.2 Overview — Basic Quantities and Models | Statistics, Survival Analysis, Klein-Moeschberger, Hazard-Function, Parametric-Models | Klein & Moeschberger Ch.2 의 7 개 절을 한 편으로 조망한다. Ch.1 의 19 데이터 catalog 다음에 오는 수학적 기초 — 생존 분석의 모든 추론을 떠받치는 4 함수 (S, h, H, m) 의 정의·동등성·관계. § 2.1 Introduction — 4 함수의 통합적 의미. § 2.2 Survival Function S(t) = P(X > t) — 정의·성질 (1 → 0 monotone)·empirical estimator (Ch.1.2 Leukemia 예제). § 2.3 Hazard Function h(t) = lim P(t ≤ X < t+Δ | X ≥ t) / Δ — instantaneous failure rate 의 직관·cumulative hazard H(t) = -log S(t)·hazard 의 패턴 (constant·increasing·decreasing·bathtub·hump-shaped). § 2.4 MRL m(t) = E[X-t | X > t] + median life t_p (S(t_p) = p) 의 임상 해석. § 2.5 Parametric models 9 가지 — exponential (constant hazard·memoryless), Weibull (monotone hazard·shape parameter), log-normal·log-logistic (non-monotone), gamma·generalized gamma (flexible), Gompertz (exponential aging), Pareto (heavy tail), inverse Gaussian (Brownian motion-based). § 2.6 Regression models 2 형태 — proportional hazards h(t|Z) = h_0(t) c(β’Z) (Cox 의 기반)·accelerated failure-time S(t|Z) = S_0(t·exp(-β’Z)) (parametric 자연). § 2.7 Competing risks — cause-specific hazard h_k(t)·subdistribution hazard λ_k(t) (Fine-Gray)·cumulative incidence function (CIF) F_k(t)·“crude” vs “net” probability 구분. Ch.4-12 의 모든 도구 (Kaplan-Meier·Nelson-Aalen·log-rank·Cox·Aalen·AFT) 의 수학적 공통 기반. | |
| Apr 27, 2026 | Klein § 3.1~3.2 — Right Censoring (6 가지 형태) | Statistics, Survival Analysis, Klein-Moeschberger, Right-Censoring, Censoring-Schemes | Klein & Moeschberger Ch.3 의 § 3.1 (Introduction) 과 § 3.2 (Right Censoring) 를 한 편으로 정독한다. Ch.1 의 거의 모든 임상·공학 예제가 right censoring 의 6 가지 형태 중 하나로 분류된다. 각 형태는 — 표본 추출 design + censoring 시점의 fixed/random + likelihood 구조 — 가 다르다. § 3.1 Introduction — censoring vs truncation 의 핵심 구분, 5 절 + counting process 의 위치. § 3.2 Right Censoring 6 형태: (1) Type I — 모든 개체 동일한 사전 결정 종료 시점 C_r (NCTR mouse 실험). (2) Generalized Type I — 개체별 시작 시점이 다르고 종료일은 공통 (Lexis diagram, § 1.2 Leukemia, § 1.5 Breast cancer 의 정전). (3) Progressive Type I — 다단계 사전 결정 sacrifice (42 주 + 104 주 mouse 실험). (4) Type II — 첫 r 사건이 발생할 때 종료 (전구 신뢰성 시험, order statistics 의 직접 적용). (5) Progressive Type II — Type II 의 다단계 (sacrifice timing 이 random). (6) Random / Competing risks censoring — 개체별 random C_r, 독립 가정 필수, § 1.3 BMT 의 dropout, § 2.7 Tsiatis 1975 식별불가성. 각 형태별 likelihood 도출 (식 3.5.3 / 3.5.4 / 3.5.7 / 3.5.6) + Ch.1 19 예제 매핑 + Type I/II/Random 의 시뮬레이션 비교. | |
| Apr 27, 2026 | Klein § 3.3~3.4 — Left/Interval Censoring and Truncation | Statistics, Survival Analysis, Klein-Moeschberger, Interval-Censoring, Truncation | Klein & Moeschberger Ch.3 의 § 3.3 (Left/Interval Censoring) 과 § 3.4 (Truncation) 를 한 편으로 정독한다. Ch.3 § 3.2 의 right censoring 6 형태가 다 못 다루는 4 가지 임상 사례 — § 1.16 Channing house, § 1.17 Marijuana, § 1.18 Breast cosmetic, § 1.19 AIDS — 가 이 두 절의 정전 동기. § 3.3 Left + Interval Censoring: Left censoring T = max(X, C_l) (Klein Example 3.3 마리화나·Example 3.4 영유아 task), Doubly censoring (Klein Example 3.5 doubly censored marijuana), Interval censoring (L_i, R_i] 가 censoring 의 가장 일반적 형태 (left = (0, C_l], right = (C_r, ∞), exact = degenerate). Framingham angina pectoris·Beadle 1984 breast cancer cosmetic deterioration 정전 사례. § 3.4 Truncation: 관측 가능성 자체가 조건부 — censoring (부분 정보) 와 본질적 차이. Left truncation (Y_R = ∞, X > Y_L 일 때만 관측) — Channing house · 미세 입자 size · graft-versus-host disease 후 추적 · 임상시험의 delayed entry. Right truncation (Y_L = 0, X ≤ Y_R 일 때만 관측) — AIDS 1986-06-30 retrospective sampling · 별의 거리 · 사망 records 기반 mortality · Reverse-time KM (Lagakos 1988) 변환. Likelihood 의 조건부 분모 + Length-biased sampling 의 보정 + Turnbull self-consistency NPMLE + R icenReg/interval 패키지 + Python lifelines 실전. | |
| Apr 27, 2026 | Klein § 3.5~3.6 — Likelihood Construction and Counting Processes | Statistics, Survival Analysis, Klein-Moeschberger, Likelihood, Counting-Process, Martingale | Klein & Moeschberger Ch.3 의 § 3.5 (Likelihood Construction) 와 § 3.6 (Counting Processes) 를 한 편으로 정독한다. § 3.2~3.4 의 censoring/truncation 6 형태가 — 이 두 절의 두 framework (classical likelihood + counting process) 위에서 통일적으로 처리된다. § 3.5 Likelihood Construction: 모든 censoring/truncation 형태의 통일 likelihood 식 (3.5.1) 도출 — exact (\(f\)), right (\(S(C_r)\)), left (\(1-S(C_l)\)), interval (\(S(L)-S(R)\)) 4 종 기여 + truncation 분모. Type I (3.5.3) — exponential closed form (3.5.4); Type II 의 order statistics 표현 (3.5.7); Random censoring 의 informative vs non-informative 분리 (3.5.5, 3.5.6); Progressive Type II 의 다단계 truncation; Regression 의 개체별 분포 (3.5.2). § 3.6 Counting Processes: Aalen 1975 의 통일 framework. Counting process N(t) (right-continuous, +1 jump only), at-risk Y(t), history (filtration) F_t (정보 누적), intensity λ(t) = Y(t)h(t) (3.6.2), compensator Λ(t) = ∫λ — N의 예측가능 부분, martingale M(t) = N(t) - Λ(t) (mean 0 noise) — 핵심 정의 (3.6.3), predictable variation ⟨M⟩(t), stochastic integral ∫K dM, Nelson-Aalen Ĥ(t) = ∫ J/Y dN 의 stochastic integral 도출 (3.6.5), 식 (3.6.6) 분산 ∫ h/y du, martingale CLT, KM = product integral of (1 - dĤ), counting process likelihood. 두 framework 가 동일 식 도출 — 그러나 counting process 는 점근성·신뢰구간·다양한 도구 통합에 압도적으로 강력 (Andersen-Borgan-Gill-Keiding 1993). | |
| Apr 27, 2026 | Klein § 3.7 — Exercises (9 문제 완전 풀이) | Statistics, Survival Analysis, Klein-Moeschberger, Exercises | Klein & Moeschberger Ch.3 § 3.7 의 9 개 연습문제를 한 편으로 정독한다. § 3.2~3.6 의 모든 개념 (5 censoring + 3 truncation + likelihood master 식 + counting process martingale) 을 실제 임상 사례와 정전 수학 문제로 검증. Group A 식별 (3 문제): 임상 시나리오에서 censoring/truncation 형태 분류 — § 1.2 Leukemia · § 1.5 Breast cancer (Ex 3.1) / 30 년 breast cancer cohort 의 4 가지 환자 시나리오 (right censoring · interval censoring · 사고사 · loss to follow-up) (Ex 3.2) / Sprague-Dawley rat DMBA 실험 의 4 rats (left censoring · right censoring · interval censoring · random censoring) (Ex 3.3). Group B Likelihood (4 문제): § 1.2 6-MP 그룹 의 Exponential MLE r/Σt 직접 도출 (Ex 3.4) / Log-logistic + left censored data 의 likelihood (Ex 3.5) / BMT 의 두 사건 (relapse → death) 의 결합 likelihood — Exponential relapse + Weibull death + truncation 비교 (Ex 3.6) / 8 명 50 세 여성 의 10 년 mammogram 추적 — Weibull interval censored likelihood (Ex 3.7). Group C Theoretical (2 문제): Exp(λ) X + Exp(θ) C 의 minimum 분포 — P(δ=1) = λ/(λ+θ), T 와 δ 의 독립성 증명, MLE 의 mean/variance 도출 (Ex 3.8) / Poisson process N(t) 의 M(t) = N(t) - λt 가 martingale 임 증명 — counting process martingale 의 정전 예제 (Ex 3.9). Ch.3 통합 6 가지 교훈 + 12 항 체크리스트. | |
| Apr 27, 2026 | Klein Ch.3 Overview — Censoring and Truncation | Statistics, Survival Analysis, Klein-Moeschberger, Censoring, Counting-Process | Klein & Moeschberger Ch.3 의 7 개 절을 한 편으로 조망한다. Ch.1 의 19 임상 데이터에서 자연스럽게 등장한 5 가지 censoring/truncation 형태를 — 정의·식별·likelihood 구성·수학적 도구 — 차원에서 정밀화한다. Ch.2 의 4 함수 (S, h, H, m) 추정·검정·회귀의 모든 추론은 본 chapter 의 likelihood 위에서 작동한다. § 3.1 Introduction — 5 절 + counting process 의 위치, “censoring 은 부분 정보, truncation 은 정보 자체 부재” 의 핵심 구분. § 3.2 Right Censoring — Type I (사전 종료 시점)·Type II (첫 r 사건까지)·progressive (다단계 sacrifice)·generalized (개체별 시작 시점 다름, Lexis diagram)·random/competing risks (독립 가정 필수). § 3.3 Left + Interval Censoring — 마리화나 첫 사용 시점·Framingham angina·breast cancer cosmetic deterioration 의 정전 사례; doubly censoring (T = max[min(X, C_r), C_l]). § 3.4 Truncation — Channing house left truncation·AIDS right truncation·미세 입자 size 측정의 left truncation; “관측 자체가 조건부”. § 3.5 Likelihood Construction — master 식 L ∝ ∏ f^δ S^(1-δ) (식 3.5.1) 도출; 우측·좌측·구간 censoring + truncation 모두 포함; Type I·Type II·random·progressive 별 likelihood 차이; regression 의 individual-specific likelihood (식 3.5.2). § 3.6 Counting Processes — Aalen 1975 의 통일 framework; counting process N(t)·at-risk Y(t)·intensity λ(t)=Y(t)h(t)·compensator Λ(t)=∫λ; martingale M(t) = N(t) - Λ(t)·predictable variation ⟨M⟩(t); Nelson-Aalen Ĥ(t) = ∫ J(u)/Y(u) dN(u) 의 stochastic integral 도출; KM 의 product integral 표현; martingale CLT 로 신뢰구간/신뢰대 도출. Ch.4~13 의 모든 비모수·반모수 도구 (KM·NA·log-rank·Cox·Aalen·Schoenfeld) 의 수학적 공통 기반. | |
| Apr 24, 2026 | Ch.16 § 16.1~16.3 심화 — Standard GLM Likelihoods·Working with GLMs·Weakly Informative Priors | Statistics, Bayesian, GLM, Logistic-Regression, Weakly-Informative-Prior | Gelman BDA Ch.16의 § 16.1~16.3을 한 편으로 다룬다. § 16.1 표준 GLM likelihoods — Poisson (16.2)·binomial logistic·probit·complementary log-log· overdispersion 확장 (negative binomial·계층 random effects), § 16.2 canonical link의 exponential family 유도·offset·잠재 연속 변수 식 (16.3)· 정규 근사와 IWLS 식 (16.4) — binomial-logistic의 pseudodata z_i 와 pseudovariance σ_i² 완전 유도, § 16.3 로지스틱 회귀의 분리(separation) 문제 — Table 16.1 1964 Black 계수 -∞ 실제 사례, Figure 16.1 profile likelihood·weakly informative Cauchy(0, 2.5) 근거 Figure 16.2· 권장 workflow (x 표준화 + Cauchy prior)·Gelman-Jakulin-Pittau-Su 2008 논문 핵심까지. | |
| Apr 24, 2026 | Ch.16 § 16.4~16.6 심화 — NYC 검문 과분산 Poisson·MRP·다변량/다항 반응 | Statistics, Bayesian, GLM, MRP, Poisson-Regression | Gelman BDA Ch.16의 § 16.4~16.6을 한 편으로 다룬다. § 16.4 NYC 경찰 검문 (stop-and-frisk) 약 175,000건 데이터의 과분산 Poisson 회귀 — 식 (16.12) 이전 범죄율 offset + 인종 계수 + 경찰구 random effect + 관측별 과분산, Figure 16.5 결과 (흑인·히스패닉 violent crime 검문율 백인의 1.8~2.5배) 와 인과적 해석의 한계, § 16.5 MRP (Multilevel Regression + Poststratification) — 1988 대통령 선거 CBS 7개 국가 여론조사에서 50개 주 지지율 추정, Figure 16.6 ANOVA display (ethnicity·region·state·interaction), § 16.6 다변량·다항 반응 — 식 (16.13) bivariate normal 메타 분석 reparameterization, multinomial logit·ordered cut-points·Chess 순위 분석까지. | |
| Apr 24, 2026 | Ch.16 § 16.7~16.9 심화 — Loglinear Models·문헌·연습 + Ch.16 결산 | Statistics, Bayesian, GLM, Loglinear-Models, Contingency-Table | Gelman BDA Ch.16의 마지막 세 절을 한 편으로 마무리한다. § 16.7 Loglinear 모형 — 다변량 범주형 데이터의 contingency table을 Poisson/multinomial로 모델링, saturated/null/independence 모델 위계, 식 (16.17) Dirichlet-like conjugate prior, 식 (16.18) IPF (iterative proportional fitting) 완전 유도·수렴 증명·Bayesian IPF 확장, 결측 데이터 imputation에서의 역할 (Ch.18 preview), § 16.8 주제별 재구성한 GLM 문헌 지도, § 16.9 연습문제 핵심 풀이 (식 (16.4) IWLS 유도·overdispersed bioassay·Cauchy Metropolis·IPF 수렴 증명·meta-analysis posterior propriety), 마지막으로 Ch.16 심화 3편 시리즈의 결산 로직맵과 Part IV 다음 편 예고 (Ch.17 Robust) 까지. | |
| Apr 24, 2026 | Ch.17 Overview — Models for Robust Inference | Statistics, Bayesian, Robust-Inference, t-distribution, Scale-Mixture | Gelman BDA Ch.17의 7개 절을 한 편으로 조망한다. § 17.1 robustness의 두 측면 (outlier 강건성·민감도 분석), § 17.2 과분산 표준 모형 확장 (\(t\) vs normal 식 (17.1) scale mixture·Negative binomial·Beta-binomial·robit 회귀), § 17.3 mixture formulation 기반 Gibbs sampler·importance resampling sensitivity analysis, § 17.4 8 schools 재방문 — \(\nu\) 민감도 Figure 17.1·17.2, § 17.5 \(t\) 오차 robust 회귀, Part IV의 “likelihood 확장 계단”에서 Ch.14 정규 → Ch.15 계층 → Ch.16 비정규 → Ch.17 heavy-tail 의 네 번째 관문. | |
| Apr 24, 2026 | Ch.17 § 17.1~17.3 심화 — Robustness·Overdispersed 모형·Posterior 계산 | Statistics, Bayesian, Robust-Inference, Scale-Mixture, Importance-Sampling | Gelman BDA Ch.17의 § 17.1~17.3을 한 편으로 다룬다. § 17.1 outlier robustness 와 sensitivity analysis의 두 측면 — 8 schools \(y_8=100\) 가상 시나리오로 본 정규 가정의 취약점, § 17.2 과분산 표준 모형 확장 — \(t_\nu(\mu, \sigma^2)\) scale mixture 식 (17.1) 완전 유도, Negative binomial Gamma-Poisson mixture·Beta-binomial Beta-Binomial mixture, Robit 회귀 \(u_i \sim t_\nu\) latent 변수·underdispersion 제약, § 17.3 mixture formulation Gibbs sampler·multimodality 경고·predictive simulation· 식 (17.2) robust 확장 표기·식 (17.3) importance weighting·importance resampling 완전 유도까지. | |
| Apr 24, 2026 | Ch.17 § 17.4~17.7 심화 — 8 Schools Robust·\(t\) Regression·연습 + Ch.17 결산 | Statistics, Bayesian, Robust-Inference, t-Regression, EM-Algorithm | Gelman BDA Ch.17의 마지막 네 절을 한 편으로 마무리한다. § 17.4 8 schools 를 \(t_\nu\) 모집단으로 재분석 — 식 (17.4), Gibbs 기반 Table 17.1, 식 (17.5) importance ratio, \(\nu \in \{1, 2, 3, 4, 5, 10, 30\}\) sensitivity (Figure 17.1), \(\nu\) 를 unknown으로 추정 (Figure 17.2), § 17.5 \(t\) 오차 robust regression — scale mixture parameterization, 식 (17.6) \(V_i\) Inv-\(\chi^2\) posterior, EM과 IWLS 동등성, ECME for \(\nu\), § 17.6 robust Bayesian 문헌 지도, § 17.7 연습문제 풀이 (mixture prior·Federalist Papers Neg-bin·Newcomb speed of light·EM for \(t\) 모형), 마지막으로 Ch.17 시리즈 결산과 Part IV 다음 편 (Ch.18 Missing Data) 예고까지. | |
| Apr 24, 2026 | Ch.18 Overview — Models for Missing Data | Statistics, Bayesian, Missing-Data, Multiple-Imputation, MAR | Gelman BDA Ch.18의 8개 절을 한 편으로 조망한다. § 18.1 notation 과 MAR/MCAR/ignorability 정의 — 식 (18.1) marginal, 식 (18.2) MAR factorization, 식 (18.3) MCAR, § 18.2 multiple imputation 3-step + Rubin combining rules, § 18.3 multivariate normal/\(t\) 결측에 EM·Gibbs, § 18.4 1988 대통령 여론조사 51개 시리즈 imputation, § 18.5 counted data 결측 (loglinear 활용), § 18.6 Slovenia preplebiscite 설문 (MAR 가정과 민감도), Part IV “likelihood 확장 계단” (Ch.14 정규 → 15 계층 → 16 비정규 → 17 heavy-tail → 18 결측) 의 마지막 관문. | |
| Apr 24, 2026 | Ch.18 § 18.1~18.3 심화 — Notation·Multiple Imputation·Multivariate Normal/\(t\) 결측 | Statistics, Bayesian, Missing-Data, Multiple-Imputation, Data-Augmentation | Gelman BDA Ch.18의 § 18.1~18.3 을 한 편으로 다룬다. § 18.1 결측 데이터 표기 — 식 (18.1) 관측 likelihood·식 (18.2) MAR factorization 완전 유도·식 (18.3) MCAR·ignorability 조건 증명, § 18.2 Multiple imputation 3-step·Rubin combining rules 완전 유도 (\(\bar\theta_K\), \(\bar W_K\), \(B_K\), \(T_K\))· EM + data augmentation·monotone pattern 계산 shortcut, § 18.3 multivariate normal 결측에 EM — 충분통계량 E-step·M-step 완전 유도, monotone pattern 에서 likelihood factorization 식·\(t\) 확장 식 (18.4) \(V_i\) auxiliary· conditional scaled inverse-\(\chi^2\)·nonignorable 확장까지. | |
| Apr 24, 2026 | Ch.18 § 18.4~18.6 심화 — 1988 선거 Polls·Counted Data·Slovenia 국민투표 | Statistics, Bayesian, Missing-Data, Multiple-Imputation, Multinomial | Gelman BDA Ch.18의 § 18.4~18.6 을 한 편으로 다룬다. § 18.4 1988 미국 대선 51 개 여론조사의 multiple imputation — 식 (18.5) 단위 행렬, 식 (18.6)~(18.7) 2-단계 계층 정규 모형, 식 (18.9) noninformative prior, Monotone data augmentation 식 (18.10)·연속 모형으로 이산 변수 처리, Figure 18.1·18.2 income·ideology 시계열 결과 해석, § 18.5 counted data 결측 — multinomial + Dirichlet conjugate, partially classified observations, § 18.6 Slovenia 1990 preplebiscite 3×3×3 표 — “Don’t Know” 를 MAR 로 처리, Crude 0.93 vs conservative 0.60 차이, EM 공식 \(n_{ijk}^\text{old}\), 실제 투표 결과 88.5% 와 MAR 예측 일치. | |
| Apr 24, 2026 | Ch.18 § 18.7~18.8 심화 — 문헌·연습 + Ch.18 결산 + Part IV 전체 결산 | Statistics, Bayesian, Missing-Data, Part-IV-Wrapup | Gelman BDA Ch.18의 마지막 두 절을 한 편으로 마무리한다. § 18.7 결측 데이터 베이즈 문헌을 주제별로 재구성 (Rubin 1976 MAR 원 논문·1987 Multiple Imputation· Tanner-Wong 1987·Schafer 1997·Little-Rubin 2002·Van Buuren 2012 MICE 등), § 18.8 연습문제 상세 풀이 (Ex.1 Slovenia 2×2 축소 EM+SEM+Gibbs 완전 구현·Ex.2 monotone pattern 비교· Ex.3 GSS 2010 imputation with mi/aregImpute/mice 비교), 마지막으로 Ch.18 심화 3편 시리즈 결산과 Part IV 전체 결산 (Ch.14~18 likelihood 확장 계단 완결), Part V 예고 (Ch.19~23 nonlinear·nonparametric) 까지. | |
| Apr 24, 2026 | Ch.19 Overview — Parametric Nonlinear Models | Statistics, Bayesian, Nonlinear-Models, Pharmacokinetics, Bioassay | Gelman BDA Ch.19의 3개 절을 한 편으로 조망한다. Part IV의 선형 예측자 \(X\beta\) 가정을 벗어나, 모수와 예측 변수가 비선형으로 결합하는 모형 패밀리. § 19.1 serial dilution assay — 4-parameter logistic 식 (19.1), 관측 오차 heteroscedastic 식 (19.2), § 19.2 population toxicokinetics — PBPK 4-compartment 미분방정식 기반, 15-parameter 계층 모형 + constrained reparameterization 식 (19.5), § 19.3 문헌. Part IV → Part V 전환의 첫 단계. | |
| Apr 24, 2026 | Ch.19 § 19.1~19.3 심화 — Serial Dilution Assay·Population Toxicokinetics·문헌 + Ch.19 결산 | Statistics, Bayesian, Nonlinear-Models, PBPK, Serial-Dilution | Gelman BDA Ch.19의 3개 절을 한 편으로 마무리한다. § 19.1 serial dilution assay — 96-well plate 실험, 기존 방법의 실패 (Figure 19.3), 4-parameter logistic 식 (19.1)·heteroscedastic 오차 식 (19.2)·희석 오차 식 (19.3)(19.4), Prior·Gibbs 계산·10 unknown 농도 추정 결과, § 19.2 population toxicokinetics (PERC) — PBPK 4-compartment 미분방정식·15 parameter 계층 모형· Liver weight vs Michaelis-Menten prior 구성·식 (19.5) softmax reparameterization 완전 유도· 식 (19.6) joint posterior·Gibbs/Metropolis 혼합 전략· Figure 19.8 6 subjects fraction metabolized·Figure 19.10 external validation, 5가지 필수 요소 (physiological + population + prior + data + Bayesian), § 19.3 bibliographic note + Ch.19 시리즈 결산 + Part V 다음 편 (Ch.20) 예고. | |
| Apr 24, 2026 | Ch.19 § 19.4 심화 — Exercises: Mixture Prior Dilution·Golf Putting·Ill-posed 지수 합 | Statistics, Bayesian, Nonlinear-Models, Exercises, Identifiability | Gelman BDA Ch.19 § 19.4 연습문제 3문제를 상세히 풀이한다. Ex.1 Serial dilution assay 의 mixture prior 확장 — \(\theta_j = 0\) 가능성 허용, 기존 4PL 과 비교, 두 모형이 크게 다른 결과를 보이는 dataset 설계, Ex.2 골프 퍼팅 성공률의 nonlinear binomial 모형 — Berry-Nolan geometric 모형 유도, Table 19.1 데이터 적합 + posterior predictive check, Ex.3 Ill-posed 지수 합 \(y = A e^{-\alpha_1 x} + B e^{-\alpha_2 x}\) — parameter swap non-identifiability, 샘플 크기 \(n\) 에 따른 식별성 분석까지. 마지막으로 Ch.19 시리즈 (overview + § 19.1~19.3 심화 + § 19.4 연습) 총결산과 Part V Ch.20 basis function 예고. | |
| Apr 24, 2026 | Ch.20 Overview — Basis Function Models | Statistics, Bayesian, Basis-Functions, Splines, Shrinkage-Priors | Gelman BDA Ch.20의 4개 절을 한 편으로 조망한다. Ch.19 의 parametric nonlinear (도메인 유도 수식) 에서 한 단계 확장 — 사전 정해진 수식 대신 basis function 가중합 으로 함수를 표현. \(\mu(x) = \sum_h \beta_h b_h(x)\) 가 선형 결합이므로 Ch.14 계산 엔진 재사용. § 20.1 Gaussian radial basis 식 (20.1)·cubic B-spline 식 (20.2)·chloride 예제, § 20.2 베이즈 변수 선택 (spike-and-slab) 식 (20.3)·model probability 식 (20.4)·shrinkage priors (\(t\), Laplace, generalized double Pareto), § 20.3 non-normal 확장 (preterm birth monotone GAM), § 20.4 문헌. Ch.19 → Ch.20 → Ch.21 의 계층적 일반화의 중간 관문. | |
| Apr 24, 2026 | Ch.20 § 20.1~20.2 심화 — Splines·Basis Selection·Shrinkage Priors | Statistics, Bayesian, Basis-Functions, Splines, Variable-Selection | Gelman BDA Ch.20의 § 20.1~20.2 를 한 편으로 다룬다. § 20.1 basis expansion \(\mu(x) = \sum \beta_h b_h(x)\), Gaussian RBF 식 (20.1)·cubic B-spline 식 (20.2) 완전 수학, local basis 의 철학적 근거, chloride 예제에서 centered prior 의 ridge-form posterior 완전 유도, § 20.2 spike-and-slab prior 식 (20.3)·model probability 식 (20.4) 완전 유도, automatic multiplicity adjustment 증명, stochastic search Gibbs sampler, median probability model, shrinkage priors (\(t\), Laplace, horseshoe, generalized double Pareto) 비교, gdP scale mixture representation 과 block Gibbs sampler 완전 유도까지. | |
| Apr 24, 2026 | Ch.20 § 20.3~20.5 심화 — Non-normal Models·다변량 Regression·연습 + Ch.20 결산 | Statistics, Bayesian, Basis-Functions, Additive-Models, Monotone-Regression | Gelman BDA Ch.20의 § 20.3~20.5 를 한 편으로 마무리한다. § 20.3 non-normal 확장 — \(t\) residuals scale mixture·chloride outlier contamination 실험, GLM basis function (probit latent + data augmentation)·additive model 식 (20.5)· DDE preterm birth monotone regression with latent threshold prior·tensor product multivariate, § 20.4 Bibliographic note, § 20.5 Exercises (age-based gay attitude basis fit, golf putting basis, Pollster 시계열 hierarchical spline), 마지막으로 Ch.20 심화 3편 시리즈 총결산과 Part V 다음 편 (Ch.21 Gaussian Processes) 예고. | |
| Apr 23, 2026 | § 8.1~8.3 — 수집 모델·무시가능성·표본 조사 | Statistics, Bayesian | Ch.8 overview 가 “수집 과정이 모형에 들어가야 한다” 는 전체 지도였다면, 이 포스트는 § 8.1~8.3 의 실제 여정이다. 왜 “관측 데이터 조건부면 수집 과정이 무관하다” 는 우도 원리 주장이 틀렸는지 (주사위 세 경우 완결판), 완전 데이터 우도 \(p(y, I \mid \theta, \phi) = p(y \mid \theta) p(I \mid y, \phi)\) 에서 관측 데이터 우도로 적분이 어떻게 흘러가는지, MAR 과 distinct parameters 두 조건 아래서 식 (8.2) 가 식 (8.3) 으로 극적으로 단순화 되는 유도, ignorable/strongly ignorable/nonignorable 의 여섯 분류가 왜 propensity score 와 직결되는지, 단순·층화·군집·크기비례 네 표본조사 설계가 어떻게 같은 ignorable 수식의 특수 사례인지, 마지막으로 1988 CBS 여론조사 16 strata 계층 다항 모형이 어떻게 \((\mu_1, \mu_2, \tau_1, \tau_2, \rho)\) 의 37 차원 사후를 만드는지 — 각 수식 옆에 “왜 이 항이 \(\theta\) 사후에서 상수가 되는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 8.4~8.6 — 설계 실험·무작위화·관찰 연구 | Statistics, Bayesian | § 8.1~8.3 이 “수집 모델의 언어 + 가장 단순한 표본조사 응용” 이었다면, § 8.4~8.6 은 그 언어가 실험·무작위화·관찰 연구의 세 층위에서 어떻게 확장되는지를 다룬다. 완전 무작위 실험의 포함 모형 정의와 ignorable 성질, 잠재 결과 \((y_i^A, y_i^B)\) 의 \(n \times 2\) 행렬로 보는 인과 추정, finite-population 과 superpopulation 인과 효과의 구분, 식 (8.17) 의 점근 정규 근사, Latin square 25 plot 예제와 “설계 무시 해도 valid” 미묘함, 순차 설계가 왜 ignorable 이지만 strongly ignorable 은 아닌지, 50 마리 소 실험에서 ‘재무작위화’ 가 unknown ignorable 로 분류되는 이유, 공변량이 주어졌을 때 ABABAB 결정론 설계 대비 무작위화의 세 추가 이득 (모델 점검·사후 예측·cheating 방지), Figure 8.2 의 세 패널이 말하는 balance-sensitivity 관계, propensity score overlap 의 진단 역할, principal stratification 으로 compliance 를 covariate 처럼 다루는 법, Sommer-Zeger Indonesian vitamin A 데이터에서 ITT·CACE·NACE·IV estimate 가 식 (8.18)~(8.19) 로 어떻게 연결되는지, 마지막으로 exclusion restriction 을 완화하는 베이즈 접근까지 — 각 수식 옆에 “왜 ignorability 가 여기서 무너지는가·어떻게 되살리는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 8.7~8.10 — 검열·절단·토론·연습문제 | Statistics, Bayesian | § 8.1~8.6 이 수집 모델의 언어, 표본 조사, 실험·무작위화·관찰 연구의 세 층위를 다뤘다면, § 8.7~8.10 은 Ch.8 의 마지막 갈래 — 검열/절단 의 수리와 Discussion·Exercises 로 정리되는 통합 지도 를 다룬다. Gelman 의 weighing 예제 (\(N = 100\), \(n = 91\), \(\mathrm{N}(\theta, 1)\)) 여섯 변종에서 같은 관측값이 어떻게 여섯 다른 사후를 주는지 — MCAR known, MCAR unknown \(\pi\), known censoring at 200, unknown censoring \(\phi\) (식 (8.20) 핵심), truncated data (negative binomial 합), unknown truncation point (improper posterior) — 수식을 끝까지 전개한다. § 8.8 의 한 줄 결론 “수집 방법이 최소 모델링 수준을 결정” 이 앞 절들과 어떻게 연결되는지, § 8.9 의 Bibliographic note 에서 Rubin (1976), Rubin (1978a), Rosenbaum-Rubin (1983), Frangakis-Rubin (2002) 가 놓이는 좌표, § 8.10 의 17 개 연습문제 중 개념적 핵심 8 개 (1: randomization/ exchangeability/ignorability 교차표; 4: SUTVA 위반 비료 침투; 5: penicillin randomized blocks; 11: capture-recapture; 12: PPS phone lines; 15: biased-coin sequential; 16: vitamin A IV; 17: cell culture dish 독립성) 를 풀이 요지로 정리한다. 마지막으로 5 편으로 분화된 Ch.8 심화 포스트들을 하나의 논리 흐름으로 묶는 정리 섹션 — 각 수식 옆에 “왜 이 변종이 ignorable 인가·아닌가” 를 붙여 전개한다. | |
| Apr 23, 2026 | Ch.9 Decision Analysis — 베이즈 분석의 여섯 번째 걸음 | Statistics, Bayesian | Ch.8 이 “데이터가 어떻게 모여 왔는가” 를 모형에 넣었다면, Ch.9 는 “그래서 이 사후로 무엇을 결정할 것인가” 를 묻는다. 베이즈 분석이 여기서 결정 분석 (decision analysis) 으로 확장되어 여섯 번째 걸음을 디딘다. 이 포스트는 Ch.9 의 전체 지도를 제공한다. 결정 이론 네 단계 (결정 공간 열거·각 결정 하 확률 분포·효용 함수·기대 효용 최대화, § 9.1), 의사결정 트리와 정보의 기대 가치 (EVPI), 39 개 조사 메타분석으로 본 survey incentive 비용-편익 (§ 9.2), 95 세 남성의 폐암 진단 bronchoscopy 가 왜 “쓸모없는 검사” 가 되는지 (§ 9.3), home radon 측정·완화의 완전 통합 계층 결정 분석 (§ 9.4), 개인적 결정과 제도적 결정의 구분 (§ 9.5) 까지 — 각 수식 옆에 “왜 불확실성을 수치로 바꿔야 하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 9.1~9.3 — 결정 이론·설문 인센티브·의료 검진 | Statistics, Bayesian | Ch.9 overview 가 “무엇을 결정할 것인가” 의 지도였다면, 이 포스트는 § 9.1~9.3 의 실제 여정이다. 왜 결정 \(d\) 에는 확률을 안 주는지, 기대 효용 최대화가 왜 유일한 합리적 선택 규칙인지 (von Neumann-Morgenstern), Value of Information 의 세 변종 (EVPI, EVSI, EVPPI) 이 어떻게 관측 선택을 안내하는지, NYC Social Indicators 설문의 계층 이항 회귀 식 (9.1)~(9.3) 이 39 조사 101 조건을 하나의 사후로 묶는 구조, \(\sigma \approx 3\%\) (내부 변동) 과 \(\tau \approx 18\%\) (조사 간 변동) 의 분산 분해가 결정에 어떻게 쓰이는지, \(\$5\) postpaid 인센티브가 net \(\$4.49\) per interview 가 되는 정확한 비용 계산, 95 세 남성의 폐암 bronchoscopy 예제에서 사전 악성 확률 0.9 에서 Bayes rule 로 양성 후 0.997·음성 후 0.734 로 갱신되는 수치, 왜 두 경우 모두 radiotherapy 가 최적이어서 검사 자체가 “결정을 바꾸지 못함” 의 수학적 의미, 검사가 유용해지려면 어떤 파라미터 조합이 필요한가의 민감도 — 각 수식 옆에 “왜 이 항이 들어가는가” 와 “왜 합리적인가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 9.4~9.7 — 라돈 완전 통합·개인 vs 제도·문헌·연습 | Statistics, Bayesian | § 9.1~9.3 이 결정 이론의 언어와 단일 결정점·다단계 트리였다면, § 9.4~9.7 은 Ch.9 의 결말 — 계층 회귀·확률적 결정·효용이 한 모형에서 완전 통합 되는 사례 (home radon) 와 그 경험을 일반화하는 관점·문헌·연습이다. 미국 주거 라돈 문제의 세 결정 (무조건 완화, 방치, 장기 측정 후 결정), 식 (9.4) 의 \(R_{\mathrm{action}}\) 가 \(D_r\) (라돈당 달러 가치) 으로 어떻게 결정되는지, 가구 유형별로 미국 4 pCi/L·영국 5·스웨덴 10· 캐나다 20 의 암묵적 \(D_d\) (microlife 당 달러) 차이, 3 단계 계층 회귀 (가구·카운티·지질) 로 5000 장기 + 80000 단기 측정 을 통합하는 구조, 식 (9.5)~(9.7) 의 사후 예측 분포, 세 가지 기대 손실 \(L_1, L_2, L_3\) (식 9.8~9.11), 측정 후 완화 임계 \(y_0\) 결정 (식 9.12), L_3 의 기댓값 식 (9.13), 전국 70M 가구 집계에서 recommended 전략이 $7.3B 로 83K lives 를 구하는 반면 EPA uncorrected short-term 은 같은 비용으로 64K lives 만 구하는 정량 비교, § 9.5 의 personal vs institutional 구분 (주관 확률의 순환성, 공공 정책에서 결정 분석의 투명성 역할), § 9.6 의 문헌 지도 (Berger·DeGroot·Gneiting·Parmigiani), § 9.7 의 세 연습 (widget 수량·Oscar’s dog 다단계 VoI·bioassay 재구성) — 각 수식 옆에 “왜 계층·왜 로그 변환·왜 이 임계값” 을 붙여 전개한다. | |
| Apr 23, 2026 | Ch.10 Introduction to Bayesian Computation — Part III 의 출발점 | Statistics, Bayesian | Part I·II 가 “어떤 모형을 세울 것인가, 그 사후가 무엇을 말하는가” 였다면, Part III 부터는 “그 사후를 어떻게 실제로 계산할 것인가” 를 묻는다. Ch.10 은 Part III 의 출발점 — 해석적 계산이 불가능한 모형을 어떻게 수치·시뮬레이션으로 근사할 것인가. 이 포스트는 Ch.10 의 전체 지도를 제공한다. 정규화 안 된 밀도 \(q(\theta \mid y)\) 로 작업하는 철학, 수치 적분의 결정론적/시뮬레이션 분류, 정규 근사와 “조잡한 추정” 의 역할, 직접 시뮬레이션의 주변-조건부 분해, 기각 샘플링의 수용 확률 \(p/Mg\) 구조, 중요도 샘플링의 \(w(\theta) = q/g\) 가중, 유효 표본 크기 \(S_{\mathrm{eff}}\) 식 (10.4) 와 이것이 무한 분산일 때 신뢰성 잃는 이유, SIR 과 Pareto-smoothed importance sampling, 8 학교 예제에서 \(S = 100, 200, 10{,}000\) draws 비교로 본 “얼마나 많은 시뮬레이션이 필요한가”, 로그 스케일 작업의 overflow 방지, Stan·PyMC·JAGS 생태계, 디버깅 전략 — 각 알고리즘 옆에 “언제 쓰고 언제 실패하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 10.1~10.3 — 수치 적분·분포 근사·직접·기각 샘플링 | Statistics, Bayesian | Ch.10 overview 가 “사후를 어떻게 계산할 것인가” 의 지도였다면, 이 포스트는 § 10.1~10.3 의 실제 여정이다. Monte Carlo 추정 식 (10.1) 이 왜 \(O(1/\sqrt{S})\) 로 수렴하고 이게 차원에 독립인지, 결정론적 격자가 왜 차원 \(d\) 에 \(O(N^{-k/d})\) 로 수렴해 교차점이 \(d \approx 5\) 에서 생기는지, § 10.2 의 “조잡한 추정” 세 용도 (시작점·디버깅·위생) 가 어떻게 rat tumor·8 학교 예제에서 구체화되는지, Laplace 정규 근사의 Taylor 전개가 식별하는 \(-\log q\) 의 Hessian, 주변-조건부 분해가 “해석 가능한 부분은 적분, 나머지는 시뮬레이션” 하는 실전 패턴, Grid 절차의 5 단계 (범위 결정·평가·정규화·CDF·inverse sampling), 기각 샘플링이 \(p(\theta \mid \text{accept}) = p(\theta \mid y)\) 를 만족함의 증명, \(M\) 이 수용 효율과 어떻게 연결되는가, envelope \(g\) 의 꼬리가 \(p\) 보다 두꺼워야 하는 수학적 이유 (무한 분산), 좋은 \(g\) 설계의 실무 원칙 — 각 수식 옆에 “언제 쓰고 언제 실패하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 10.4~10.6 — 중요도 샘플링·시뮬레이션 수·계산 환경 | Statistics, Bayesian | § 10.1~10.3 이 수치 적분·분포 근사·직접 샘플링의 기초였다면, § 10.4~10.6 은 실무 베이즈 계산의 중간층 이다. 식 (10.2) 의 항등식 \(\mathbb{E}[h] = \int h \cdot (q/g) \cdot g \, d\theta\) 에서 나오는 중요도 가중치 \(w = q/g\) 의 이중 역할 (적분 가중 + 정규화 상수 추정), 식 (10.3) 의 비율 추정이 왜 “같은 표본을 분자·분모에 쓰는” 선택을 하는지, 식 (10.4) 유효 표본 크기 \(S_{\mathrm{eff}} = 1/\sum \tilde{w}^2\) 의 “가중치 집중도” 해석, 분산이 무한한 경우 (얇은 \(g\) 꼬리) 추정치가 안 수렴하는 수학적 구조, SIR 의 비복원 선택이 왜 중복을 피하는지, PSIS (Vereshchak-Gelman-Gabry 2017) 가 Pareto 꼬리 피팅으로 IS 를 안정화하는 원리, § 10.5 의 Monte Carlo 오차 \(\sqrt{1+1/S}\) 에서 \(S=100\) 이면 기여도 \(0.5\%\) 로 충분하다는 유도, 사후 확률 정확도가 \(\sqrt{p(1-p)/S}\) 로 희귀 사건에 \(S \to\) 무한대 근접 필요, 8 학교 실전 비교표 (\(S = 200 \to 10{,}000\) 에서 중앙값과 구간 실질 동등), 반-해석적 접근 (\(\Pr(\theta_1 > 50)\) 에 정규 근사 + 시뮬레이션), § 10.6 의 “왜 통합 패키지가 필요한가” 4 이유 (접근성·교육·시간·버그), Bugs 의 Gibbs 한계 → Stan 의 HMC 전환, PyMC/NumPyro/Turing.jl 지형, 블랙박스 함정 — 각 수식 옆에 “왜 이 조합이 되는가·언제 실패하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 10.7~10.9 — 디버깅·문헌·연습 + Ch.10 결산 | Statistics, Bayesian | § 10.4~10.6 이 중요도 샘플링·시뮬레이션 수·계산 환경의 실무층이었다면, § 10.7~10.9 는 Ch.10 의 결말 — “계산이 제대로 됐는지 어떻게 알 것인가” + 참고문헌 지도 + 연습문제로 개념 반복 이다. 베이즈 계산의 진짜 난제는 “코드가 돌아가는가” 가 아니라 “결과가 맞는가” — 작동하는 코드도 잘못된 답을 낼 수 있다. Fake data debugging 5 단계 (진짜 \(\theta\) 고르기·데이터 생성·사후 추론·비교·residual plot) 가 이 문제에 어떻게 대응하는지, 50% 구간이 50% 확률로 진값을 포함해야 하는 coverage 원리, “모형을 단순화해서 이상 발견” 의 점진적 재축 전략, § 10.8 문헌의 Ripley· Gentle·Liu·Kong-Liu-Wong 좌표, § 10.9 연습 1 (2.5%/97.5% quantile 정확도 \(0.1\sigma\) 얻기 위한 \(n\) 유도), 연습 2 (8 학교 \(S = 200\) 이 왜 실무적으로 충분한지), 연습 3 (두 이항 \(p_1 > p_2\) 확률 시뮬레이션), 연습 4 (기각 샘플링의 유계성 증명), 연습 6·7 (IS 의 good/bad behavior 및 분산 과소 추정 원인), 마지막으로 Ch.10 심화 시리즈 4 포스트 (overview· 10.110.3·10.410.6·10.7~10.9) 의 논리 지도 — 각 수식 옆에 “왜 이 검증이 통과되면 신뢰할 수 있는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | Ch.11 Basics of Markov Chain Simulation — 베이즈 계산의 혁명 | Statistics, Bayesian | Ch.10 이 “단순 도구로 풀 수 있는 문제” 의 한계까지 다뤘다면, Ch.11 은 그 한계 너머 — MCMC (Markov chain Monte Carlo) 로 임의 사후 분포에서 추출하는 일반 방법을 연다. 이 포스트는 Ch.11 의 전체 지도를 제공한다. Markov chain 이 “기억이 직전 상태뿐” 인 순차 추출에서 왜 목표 분포로 수렴하는지, Gibbs sampler 가 조건부 분포 \(p(\theta_j \mid \theta_{-j}, y)\) 를 순환하며 추출하는 구조, Metropolis 의 대칭 점프 + 수용률 \(\min(r, 1)\) 과 Hastings 확장의 비대칭 보정 (식 11.2) 의 유도, 왜 이 알고리즘이 detailed balance 로 정상 분포를 보장하는지, Gibbs 와 Metropolis 를 블록으로 조합하는 실무 패턴, \(\hat{R}\) (potential scale reduction) 과 split-\(\hat{R}\) 의 수렴 진단, 자기상관 시간 \(\tau\) 를 이용한 effective sample size \(n_{\mathrm{eff}}\), 8 학교 계층 정규 모형의 Gibbs 적용 — 각 알고리즘 옆에 “언제 쓰고 언제 느린가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 11.1~11.3 — Gibbs·Metropolis·Hastings 와 그 결합 | Statistics, Bayesian | Ch.11 overview 가 MCMC 의 큰 지도였다면, 이 포스트는 § 11.1~11.3 의 수식적 기초다. Gibbs sampler 의 각 조건부 추출이 왜 정상 분포를 유지하는지, Metropolis 의 수용 비율 \(r = p(\theta^*)/p(\theta^{t-1})\) 과 수용 확률 \(\min(r, 1)\) 이 왜 detailed balance 를 만족하는지 완전 유도, Hastings 확장 \(r = \frac{p(\theta^*)/J(\theta^*\mid\theta^{t-1})}{p(\theta^{t-1})/J(\theta^{t-1}\mid\theta^*)}\) (식 11.2) 의 비대칭 보정이 어떻게 같은 균형을 회복하는지, Gibbs 가 MH 의 특수 케이스 (수용 확률 항상 1) 라는 것의 명시적 증명, 이변량 정규 \(\rho = 0.8\) 에서 Gibbs 의 계단식 이동과 Metropolis 의 무작위 보행이 수렴 속도에 어떤 차이를 주는지, 블록 업데이트의 이론적 타당성, 재매개변수화로 상관 제거의 선형대수 (회전 + 스케일), 바이오 에세이 로지스틱 회귀에서 Gibbs 가 어떻게 Metropolis 안에 포섭되는가 — 각 수식 옆에 “왜 이 설계가 수렴을 보장하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 11.4~11.6 — 수렴 진단·유효 표본 크기·계층 정규 예제 | Statistics, Bayesian | § 11.1~11.3 이 Gibbs·Metropolis 알고리즘의 이론적 정합성이었다면, § 11.4~11.6 은 실무 MCMC 의 완결 — “얼마나 돌려야 충분한가” 를 객관적 통계량으로 답하고, 계층 정규 모형에서 전 과정을 실증 한다. 과분산 시작점을 어떻게 만들고 warm-up 을 왜 전반부 절반으로 하는지, Figure 11.3 의 두 함정 (mix 안 됨 vs stationarity 안 됨) 을 어떻게 split chain 이 동시 잡는지, within variance \(W\) 와 between variance \(B\) 의 가중 평균 \(\widehat{\mathrm{var}}^+\) (식 11.3) 가 왜 수렴 전 과대 추정이고 수렴 후 불편인지, \(\widehat{R}\) (식 11.4) 이 \(W\) 와 \(\widehat{\mathrm{var}}^+\) 의 비율의 제곱근인 이유, Table 11.1 의 bivariate normal 에서 50/500/2000/5000 반복으로 \(\widehat{R}\) 이 어떻게 감소하는지, 자기상관이 있는 표본의 분산 점근 공식 (식 11.5), 유효 표본 크기 정의 (식 11.6), variogram \(V_t\) 기반 \(\widehat{\rho}_t\) 추정 (식 11.7), 부분합을 음수 페어에서 자르는 정지 규칙, 식 (11.8) \(\widehat{n}_{\mathrm{eff}}\), long-tailed 변환 전처리, coagulation 4 식단 24 동물 데이터의 hierarchical normal Gibbs 4 조건부 식 (11.9)~(11.17) 완전 전개, \(\widehat{\theta}_j, V_{\theta_j}, \hat{\mu}, \hat{\sigma}^2, \hat{\tau}^2\) 의 수식적 의미, Table 11.3 의 10 chain 100 iteration 으로 \(\widehat{R} \approx 1.01{-}1.05\) 달성, Metropolis 대안에서 \((\mu, \log\sigma, \log\tau)\) 3차원 점프 + \(\theta\) 조건부 추출 의 하이브리드 구조 — 각 수식 옆에 “이 진단이 왜 실제로 수렴을 판정하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 11.8 — 연습문제 + Ch.11 결산 | Statistics, Bayesian | Ch.11 심화 시리즈의 마지막 — 연습문제 7 개의 상세 풀이와 Ch.11 전체 결산. 문제 1 의 Metropolis-Hastings 정상성 증명 (§ 11.2 의 detailed balance 재활용), 문제 2 의 bioassay 예제에서 \((\alpha, \beta)\) 2 차원 Metropolis 구현과 log-density 계산의 실전, 문제 3 의 Table 11.4 6 머신 품질 관리 데이터로 separate / pooled / hierarchical 세 모형을 Gibbs 로 비교 — 각 모형에서 6 번째 머신의 사후 평균, 6 번째 머신의 다음 측정 예측 분포, 관측 없는 7 번째 머신의 사후 분포가 어떻게 다른지, 문제 4 의 머신별 분산을 Inv-\(\chi^2\) prior 로 계층화 하는 확장, 문제 5 의 \(\widehat{\mathrm{var}}^+\) (식 11.3) 이 시작 분포 = 목표 분포 하에서 불편 추정량 임을 제곱 차이의 기댓값으로 증명, 수렴 극한에서 주변 사후 분산으로 수렴하는 조건, 문제 6 의 식 (11.5) 점근 분산 공식 완전 유도 + \(\widehat{n}_{\mathrm{eff}}\) 의 시간 변화가 실무 안정성 지표인 이유, 문제 7 의 § 8.3 stratified survey 재현 — 각 문제 옆에 “이 연습이 어떤 개념을 검증하는가” 를 붙여 전개하고, 마지막으로 Ch.11 심화 4 포스트 (overview·11.111.3·11.411.6·11.7~11.8) 의 논리 지도와 MCMC 실전 체크리스트로 마무리. | |
| Apr 23, 2026 | Ch.12 Computationally Efficient MCMC — 무작위 보행을 넘어서 | Statistics, Bayesian | Ch.11 이 MCMC 의 “이론적 정당성 + 기본 알고리즘 + 진단” 이었다면, Ch.12 는 그 한계 극복 — 고차원·강한 상관 사후에서 Gibbs/Metropolis 의 무작위 보행이 왜 느린지, 그리고 어떻게 탈출할 것인가. 이 포스트는 Ch.12 의 전체 지도를 제공한다. 재매개변수화 (선형·non-centered) 로 Gibbs 상관 제거, 보조 변수 (auxiliary variable) 로 \(t\) 분포를 정규 혼합으로 표현, parameter expansion 으로 의존성 깨뜨리기, Metropolis 의 최적 점프 스케일 \(c = 2.4/\sqrt{d}\) 와 수용률 23~44%, 적응 MCMC 의 이론적 주의점, slice sampling 의 “밀도 아래 균등 분포” 아이디어, reversible jump 로 차원 변화 모형 (모형 선택), Hamiltonian Monte Carlo 의 혁명 — 모멘텀 변수 \(\phi\) 를 도입해 물리 역학으로 무작위 보행을 억제, leapfrog 알고리즘 (half-step \(\phi\) → full-step \(\theta\) → half-step \(\phi\)), 수용 비율 식 (12.3) 의 보존 에너지 해석, 8 학교 계층 정규에서 HMC 의 성능, NUTS 의 자동 튜닝, Stan 이 어떻게 HMC + 자동 미분 + 언어 로 베이즈 실무의 표준이 되었는가 — 각 알고리즘 옆에 “언제 쓰고 왜 빠른가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 12.1~12.3 — 재매개변수화·Metropolis 튜닝·Slice·Reversible Jump | Statistics, Bayesian | Ch.12 overview 가 “무작위 보행을 넘어서” 세 축의 지도였다면, 이 포스트는 § 12.1~12.3 의 수식 유도와 구체 알고리즘 분석. § 12.1 의 선형 재매개변수화가 사후 공분산을 고유값 분해로 왜 대각화 하는지, non-centered \(\theta_j = \mu + \tau \eta_j\) 가 funnel 을 어떻게 제거하는지의 기하학적 증명, \(t_\nu\) 분포를 \(\mathrm{N}(\mu, V_i), V_i \sim \mathrm{Inv}\text{-}\chi^2(\nu, \sigma^2)\) 혼합으로 표현해 Gibbs 가능하게 만드는 유도 (식 12.1), parameter expansion 의 \(\alpha\) 도입이 왜 stuck 상태 탈출에 도움이 되는가, § 12.2 의 고차원 정규 목표에서 \(c^* = 2.4/\sqrt{d}\) 와 수용률 0.234 가 평균 제곱 점프 거리 최대화로 나오는 수식, Metropolis 의 효율 \(0.3/d\) 가 Gibbs 의 \(1/d\) 보다 3 배 나쁜 근거, Adaptive MCMC 가 정상 분포를 깰 수 있는 이유와 Andrieu-Thoms 정리의 diminishing adaptation 조건, § 12.3 의 slice sampling 증강 \((\theta, u)\) 에서 어떻게 균등 추출이 \(p(\theta \mid y)\) 샘플링을 복원하는지, reversible jump 식 (12.2) 의 Jacobian 항이 차원 변화에서 detailed balance 를 어떻게 유지하는지, simulated tempering 의 \(q_k(\theta) = p(\theta \mid y)^{1/T_k} p_0(\theta)^{1-1/T_k}\) 사다리 구조 — 각 수식 옆에 “왜 이 변형이 효율을 높이는가·언제 실패하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 12.4~12.6 — Hamiltonian Monte Carlo·NUTS·Stan | Statistics, Bayesian | Ch.12 overview 가 HMC 를 “무작위 보행 극복” 의 혁명으로 소개했다면, 이 포스트는 § 12.4~12.6 의 수식과 알고리즘 세부. HMC 가 모멘텀 변수 \(\phi \sim \mathrm{N}(0, M)\) 를 도입해 결합 사후 \(p(\theta, \phi \mid y) = p(\phi) p(\theta \mid y)\) 를 구성하는 방식, Hamilton 방정식 \(d\theta/dt = M^{-1}\phi, d\phi/dt = \nabla \log p\) 의 에너지 보존 원리, leapfrog integrator 의 symplectic 성질과 half-step/full-step/half-step 분해가 왜 time-reversible 인지, 식 (12.3) 의 수용 비율 \(p(\theta^*)p(\phi^*) / p(\theta^{t-1})p(\phi^{t-1})\) 이 연속 극한에서 1 에 수렴하는 이유, 튜닝 파라미터 \(M, \epsilon, L\) 의 세 시간 척도와 최적 수용률 65%, 8 학교 계층 정규 모형의 gradient 해석적 유도 (식 마다 sigma_j 와 tau 의 역수 항), Gelman 의 실제 튜닝 궤적 (\(\epsilon_0 = 0.1 \to 0.05\), \(L_0 = 10 \to 20\), 수용률 0.23/0.59/0.02/0.57 → 0.52/0.68/0.75/0.51), \(\tau > 0\) 제약을 \(\log \tau\) 변환으로 해소할 때 나타나는 Jacobian 항 \(\tau\) 와 gradient 의 \(-(J-1)\) 교정, NUTS 의 “U-turn 까지 계속” 알고리즘과 detailed balance 를 유지하는 양방향 확장, Riemannian HMC 의 curvature 기반 mass matrix, Stan 의 자동 미분이 어떻게 chain rule 역전파로 finite difference 보다 빠른지, warm-up 단계에서 \(M, \epsilon\) adaptive 설정 — 각 수식 옆에 “왜 이 단계가 필요한가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 12.8 — 연습문제 + Ch.12 결산 | Statistics, Bayesian | Ch.12 심화 시리즈의 결말편. § 12.8 의 4 연습문제 상세 풀이와 Ch.12 전체 결산. 문제 1 에서 Bioassay 로지스틱 회귀에 12.2 의 adaptive Metropolis (공분산 추정 + scale 조정) 를 적용해 수용률 0.23 에 수렴시키는 방법, 문제 2 에서 \(y_1 = 1.3, y_2 = 15.0\) 으로 된 Cauchy 모델의 다봉 사후 (두 관측 근처 각각 mode) 를 단순 Metropolis 로는 건너기 어려움과 simulated tempering 의 10 단 inverse-temperature 사다리로 어떻게 해결 하는지, 문제 3 의 Bioassay HMC 구현 — gradient 해석 vs 수치 검증 + 튜닝 궤적 + ESS 100 이상, 문제 4 의 Binomial logistic regression (Poisson \(n_j\) + \(t_4\) prior) 에서 Stan 적합 + 50% 구간 coverage 확인 + rejection sampling 독립 표본 1000 개 — 각 문제 옆에 “어떤 개념이 검증되는가” 를 붙여 전개하고, 마지막으로 Ch.12 심화 4 포스트 (overview·12.1~12.3· 12.4~12.6·12.8) 의 논리 지도와 현대 MCMC 실전 체크리스트로 마무리. | |
| Apr 23, 2026 | Ch.13 Modal and Distributional Approximations — MCMC 없이도 가능한 근사 | Statistics, Bayesian | Ch.10~12 가 MCMC 로 사후 분포에서 정확한 (상관된) 표본을 얻는 방법이었다면, Ch.13 은 근사 분포로 접근해 빠르고 확장 가능한 계산을 제공한다. 이 포스트는 Ch.13 의 전체 지도를 제공한다. 사후 최빈값 탐색 (Newton-Raphson, BFGS, 조건부 최대화), 8 학교의 \(\tau\) 경계 문제와 \(\mathrm{Gamma}(2, \cdot)\) 경계 회피 prior, 최빈값 중심 정규 근사 \(\mathrm{N}(\hat{\theta}, -\nabla^2 \log p (\hat{\theta})^{-1})\), EM 알고리즘으로 주변 사후 최빈값 탐색 (E-step 잠재 변수 기댓값, M-step 최적화), 조건부·주변 분해 전략, 변분 추론 의 ELBO 최대화와 평균장 근사 \(q(\theta) = \prod q_j(\theta_j)\), 기대 전파 의 factor 순차 근사, MCMC 와 근사의 trade-off — 각 방법 옆에 “언제 쓰고 어떤 편향을 감수하는가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 13.1~13.3 — Mode Finding·경계 회피 Prior·Laplace 근사 | Statistics, Bayesian | Ch.13 overview 가 근사 추론의 네 축을 지도로 제시했다면, 이 포스트는 § 13.1~13.3 의 수식 유도. § 13.1 의 mode 찾기 알고리즘 — Newton-Raphson 의 2차 Taylor 근사 \(\theta^t = \theta^{t-1} - [L''(\theta^{t-1})]^{-1} L'(\theta^{t-1})\) 수렴 조건, BFGS 의 Hessian 근사 로직, conjugate gradient 의 메모리 절약 구조, 수치 미분 식 (13.1)(13.2) 와 \(\delta \approx 10^{-4}\) 선택 기준, § 13.2 의 8 학교 \(\tau\) 경계 문제 (1000 시뮬레이션 중 절반이 \(\widehat{\tau} = 0\)), lognormal·inverse-gamma prior 가 왜 부적절한지 (경계 근처 실질적 차단), Gamma(2, ·) prior 의 linear-at-zero 성질 + likelihood 와 일관성, correlation \(\rho\) 에 Beta(2, 2) 적용, covariance matrix 에 Wishart(d+3, AI) 일반화, § 13.3 의 정규 근사 \(V_\theta = [-\nabla^2 \log p(\widehat{\theta})]^{-1}\) 수식, 변수 변환 + Jacobian 처리, Laplace’s method for integrals \(\mathbb{E}[h] \approx h(\theta_0) p(\theta_0) (2\pi)^{d/2} |-u''|^{-1/2}\) 유도, 혼합 정규 근사 설계 — 각 수식 옆에 “왜 이 선택이 필요한가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 13.4~13.6 — EM 알고리즘·조건부 분해·Coagulation 재조명 | Statistics, Bayesian | Ch.13 § 13.1~13.3 이 joint mode + Laplace 였다면, § 13.4~13.6 은 주변 mode + 조건부 분해 — 잠재 변수 · 고차원 모형에서 더 강력. § 13.4 의 EM 알고리즘 유도: 식 (13.5) 의 log p(φ|y) = E_old[log p(γ,φ|y)] - E_old[log p(γ|φ,y)] 분해, \(Q\) 함수 정의, E-step 과 M-step 의 명시적 수식, 각 반복에서 주변 사후 단조 증가 증명 (두 번째 항이 φ=φ^old 에서 최대), GEM (generalized EM) 의 완화 조건, 정규 평균·분산 예제에서 E_old(1/σ²) 의 scaled inverse-χ² 공액으로부터의 계산, M-step 의 정규 공액 업데이트 식 (13.8)(13.9), ECM/ECME/AECM 확장의 수렴 이점, SEM 의 asymptotic variance \(V = V_{\mathrm{joint}} + V_{\mathrm{joint}} D_M (I-D_M)^{-1}\) 추출법, PX-EM 의 parameter expansion 효과. § 13.5 의 조건부 분해 트릭 식 (13.9) \(p_{\mathrm{approx}}(\phi|y) = p(\gamma, \phi|y) / p_{\mathrm{approx}}(\gamma|\phi,y)\) 의 Savage-style trick, 정규 근사 특수 케이스 식 (13.10) \(p_{\mathrm{approx}}(\phi|y) \propto p(\widehat{\gamma}, \phi|y) |V_\gamma(\phi)|^{1/2}\), importance resampling 보정. § 13.6 의 Coagulation 계층 정규 재조명: stepwise ascent 3 반복 수렴 표, joint mode vs marginal mode 비교 — 각 수식 옆에 “왜 이 단계가 필요한가” 를 붙여 전개한다. | |
| Apr 23, 2026 | § 13.7~13.8 — Variational Inference·Expectation Propagation | Statistics, Bayesian | Ch.13 § 13.7~13.8 은 근사 추론의 현대판. 단일 Laplace 근사를 넘어 사후를 단순 분포 가족의 최적 fit 으로 근사하는 VI (Variational Inference) 와, factor 단위로 순차 근사 하는 EP (Expectation Propagation). 이 포스트는 두 알고리즘의 수식과 직관을 완전 전개. § 13.7 의 VI 는 KL divergence \(\mathrm{KL}(g \| p)\) 를 최소화하도록 \(g(\theta \mid \phi)\) 를 iterative 갱신 — 식 (13.15) 정의와 0 하한, mean-field 근사 \(g(\theta) = \prod g_j(\theta_j)\) 구조, 좌표 상승 update \(\log g_j \propto \mathbb{E}_{g_{-j}}[\log p(\theta \mid y)]\), ELBO 최대화와 KL 최소화 의 등가성, 8 학교 hierarchical normal 예제 (식 13.16~13.23) 에서 각 \(\alpha_j, \mu, \tau^2\) 의 \(g_j\) 형태 유도 (정규+정규+inv-\(\chi^2\)), VI 수렴 증명 (각 단계 KL 단조 감소), VI 의 과소 분산 편향과 그 수학적 원인. § 13.8 의 EP 는 목표 분포의 factor 분해 \(f(\theta) = \prod f_i(\theta)\) 에 대응해 \(g(\theta) = \prod g_i(\theta)\) 로 순차 근사 — cavity \(g_{-i} = g/g_i\), tilted \(g_{-i} f_i\), moment matching 으로 \(g_i\) 업데이트, 지수족·natural parameter·충분 통계량 구조, Bioassay 로지스틱 회귀에서 각 데이터점에 대한 6 단계 EP 업데이트 완전 전개, 수렴 보장 없음에도 실무 유효한 이유. VI vs EP tradeoff 표, 현대 발전 (ADVI, normalizing flows, VAE) 연결. | |
| Apr 23, 2026 | Ch.13 § 13.10~13.12 — Unknown Normalizing Factors·문헌·연습 심화 | Statistics, Bayesian, Modal-Approximations, Doubly-Intractable, Bridge-Sampling | Gelman BDA Ch.13의 마지막 세 절 § 13.10~13.12를 한 번에 다룬다. § 13.10은 likelihood의 정규화 상수 \(z(\theta)\) 자체가 모수 \(\theta\) 에 의존하여 계산 불가능한 doubly intractable 문제를 정의하고, Bridge/Path Sampling, Exchange algorithm, Pseudo-marginal MCMC, ABC 같은 해법 패밀리를 소개한다. § 13.11은 Ch.13 전체의 문헌을 Laplace/EM/VI/EP/정규화 상수 주제별로 분류하고, § 13.12는 EM 단조증가 증명·퇴화 mode·Probit VB·미지 정규화 상수 계산 등 핵심 연습문제를 풀이한다. 마지막으로 Ch.13 심화 4편 시리즈의 로직맵과 실전 체크리스트로 결산한다. | |
| Apr 23, 2026 | Ch.14 Overview — Introduction to Regression Models | Statistics, Bayesian, Linear-Regression, Noninformative-Prior, Regularization | Gelman BDA Ch.14의 10개 절 (§ 14.1 Conditional modeling ~ § 14.10 Exercises)을 한 편으로 조망한다. 왜 회귀에서 X를 모델링하지 않아도 되는가라는 조건부 모델링의 근거, \(y \sim N(X\beta, \sigma^2 I)\) 와 noninformative prior \(p(\beta, \sigma^2|X) \propto \sigma^{-2}\) 하의 사후분포 식 (14.1)~(14.9) 완전 유도, QR 분해 기반 효율적 시뮬레이션, 사후 예측 분포의 두 분산 성분, 회귀의 3대 목표 (이해·예측·causal), X matrix 구성 (collinearity, 변환, 상호작용, indicator), Ridge = 정규 prior, LASSO = Laplace prior의 베이즈 해석, 불등 분산·상관 오차의 GLS 처리, 수치적 prior 정보 포함까지 — Part IV의 설계도. | |
| Apr 23, 2026 | Ch.14 § 14.1~14.3 심화 — Conditional Modeling·Classical Regression·Causal Inference | Statistics, Bayesian, Linear-Regression, Causal-Inference, Posterior-Predictive | Gelman BDA Ch.14의 첫 세 절을 깊이 있게 다룬다. § 14.1 conditional modeling의 prior 독립 정당화 증명, § 14.2 표준 비정보적 prior 하의 정규 선형 회귀 사후 분포 식 (14.1)~(14.9) 완전 유도 (completing the square·β 주변화·σ² Inv-χ² 유도·multivariate t 사후 예측·QR 분해 샘플링), § 14.3 하원 현직 효과 (incumbency advantage) 예제로 potential outcomes 기반 causal 해석, ignorability 조건, 식 (14.10) 정의, Table 14.1 재현, 사후 예측 outlier 점검까지, Python 완전 구현과 함께 정리한다. | |
| Apr 23, 2026 | Ch.14 § 14.4~14.6 심화 — Goals of Regression·X Matrix Assembly·Regularization | Statistics, Bayesian, Linear-Regression, Regularization, Horseshoe | Gelman BDA Ch.14의 § 14.4~14.6을 한 편으로 다룬다. § 14.4 회귀의 3대 목표 (이해·예측·인과) 와 목표별 변수 선택 전략, § 14.5 X matrix 구성 — collinearity·identifiability·비선형 변환·indicator·상호작용·irrelevant 변수 처리, § 14.6 Regularization의 베이즈 해석 — Ridge = 정규 prior, LASSO = Laplace prior의 soft-thresholding 완전 유도, Horseshoe prior (Carvalho-Polson-Scott 2010) 의 global-local 구조와 “많은 noise + 소수 signal” 상황에서의 우위, spike-and-slab과의 비교, Regularized Horseshoe까지 — Python 구현 포함. | |
| Apr 23, 2026 | Ch.14 § 14.7~14.10 심화 — Unequal Variances·Numerical Prior·문헌·연습 + Ch.14 결산 | Statistics, Bayesian, Linear-Regression, Generalized-Least-Squares, Prior-Information | Gelman BDA Ch.14의 마지막 네 절을 한 편으로 마무리한다. § 14.7 불등 분산/상관 오차 회귀 — Σ_y known의 Cholesky 변환, 스칼라 팩터만 unknown (14.16)~(14.19), weighted linear regression, parametric variance v(w_i, φ) (14.20)~(14.22), 여러 분산 컴포넌트의 incumbency 예제 확장, § 14.8 수치적 prior 정보 — “prior = 추가 데이터 점”이라는 핵심 트릭과 식 (14.24) 유도, variance prior Inv-χ²(n_0, σ_0²), inequality 제약은 rejection으로, § 14.9 주제별 재구성한 문헌 지도, § 14.10 연습문제 핵심 풀이 (식 (14.4)(14.5)(14.7) OLS 유도, predictive 정규성, 식 (14.24) 증명, LASSO 1D), 마지막으로 Ch.14 심화 4편 시리즈의 로직맵과 결산 체크리스트를 정리한다. | |
| Apr 23, 2026 | Ch.15 Overview — Hierarchical Linear Models | Statistics, Bayesian, Hierarchical-Models, Multilevel-Regression, Varying-Coefficients | Gelman BDA Ch.15의 9개 절을 한 편으로 조망한다. § 15.1 교환 가능한 계수 배치와 varying-coefficients 모형 \(\beta \sim N(1\alpha, \sigma_\beta^2 I)\), § 15.2 미국 대통령 선거 예측의 511개 관측 × 다층 예측변수 예제, § 15.3 정규 prior를 추가 데이터로 해석하는 augmented regression 프레임, § 15.4 varying intercepts와 slopes, § 15.5 batching·transformation 기반 효율적 computation과 parameter expansion, § 15.6 ANOVA의 베이즈 재해석 (분산 컴포넌트의 batching), § 15.7 분산 컴포넌트 배치의 계층 모형까지 — Part IV의 두 번째 관문인 계층 회귀의 설계도. | |
| Apr 23, 2026 | Ch.15 § 15.1~15.3 심화 — 교환 가능 배치·대통령 선거 예측·Augmented Regression | Statistics, Bayesian, Hierarchical-Models, Multilevel-Regression, Presidential-Forecast | Gelman BDA Ch.15의 첫 세 절을 한 편으로 다룬다. § 15.1 교환 가능한 계수 배치와 varying-coefficients 모형 \(\beta \sim N(1\alpha, \sigma_\beta^2 I)\) — no-pooling/complete-pooling/partial-pooling 세 극한, intraclass correlation 동치성 \(\rho = \sigma_\beta^2 / (\sigma^2 + \sigma_\beta^2)\) 완전 증명, mixed-effects 및 여러 세트의 varying coefficients, § 15.2 미국 대통령 선거 예측 예제 — 511 관측, 비계층 모형의 posterior predictive check 실패 (Figure 15.2), 식 (15.2) 계층 모형으로의 확장 (연도·지역-연도 indicator + 3가지 variance components), 1992 예측 시 새 파라미터 시뮬레이션, § 15.3 정규 prior를 추가 데이터로 해석 — 3-level augmented regression 식 (15.3) 완전 유도, 선거 예제에 적용 (J=75, J_*=55), 여러 동등한 모형 parameterization까지. | |
| Apr 23, 2026 | Ch.15 § 15.4~15.6 심화 — Varying Intercepts and Slopes·Computation·ANOVA | Statistics, Bayesian, Hierarchical-Models, Varying-Slopes, ANOVA | Gelman BDA Ch.15의 § 15.4~15.6을 한 편으로 다룬다. § 15.4 Varying intercepts and slopes — 식 (15.4)의 2변량 공분산 모형과 (15.5)의 벡터 일반화, Inverse-Wishart prior의 한계와 Scaled Inv-Wishart 식 (15.6) redundant parameterization, 현대적 대안 LKJ prior, 비즈니스 스쿨 GMAT 예제 (59학교 × 8계수 + σ_j), § 15.5 Computation — blockwise Gibbs / all-at-once / parameter expansion 3가지 전략, 선거 예제의 ζ-확장된 모형, HMC를 위한 non-centered 8 schools, § 15.6 ANOVA 의 계층 재해석 — 식 (15.7)~(15.8) batching 표현, 식 (15.9) parameter expansion, 식 (15.10) finite-population vs superpopulation SD 구분, Web connect times 5-way factorial 예제 (Figure 15.4) 까지. | |
| Apr 23, 2026 | Ch.15 § 15.7~15.9 심화 — 분산 컴포넌트 계층화·문헌·연습 + Ch.15 결산 | Statistics, Bayesian, Hierarchical-Models, Variance-Components, Half-Cauchy | Gelman BDA Ch.15의 마지막 세 절을 한 편으로 마무리한다. § 15.7 분산 컴포넌트의 계층 모형 — 5×5×2 split-plot latin square 예제로 9개 σ_k 를 동시 추정, Half-Cauchy(0, A) hierarchy로 partial pooling, Figure 15.5(superpopulation)·Figure 15.6(finite-population) 비교, § 15.8 주제별로 재구성한 Bayesian multilevel 문헌 지도, § 15.9 연습문제 핵심 풀이 (8 schools를 linear model로·Marquardt-Snee 화학 실험 quadratic 9변수·ANOVA plot·correlation matrix positive definite 조건), 마지막으로 Ch.15 심화 4편 시리즈의 로직맵과 총결산 체크리스트로 Part IV 두 번째 장을 마무리한다. | |
| Apr 23, 2026 | Ch.16 Overview — Generalized Linear Models | Statistics, Bayesian, GLM, Logistic-Regression, MRP | Gelman BDA Ch.16의 8개 절을 한 편으로 조망한다. § 16.1 표준 GLM likelihoods (Poisson, binomial, probit, continuous, 과분산), § 16.2 canonical link·offset·잠재 연속 변수 해석·정규 근사, § 16.3 로지스틱 회귀의 weakly informative prior (Cauchy(0, 2.5)) 와 분리 문제 (Figure 16.1), § 16.4 경찰 검문 과분산 Poisson 회귀 예제, § 16.5 MRP (Multilevel Regression and Poststratification) 로 국가 여론조사에서 주 수준 추정, § 16.6 multivariate·multinomial 반응, § 16.7 loglinear 모형, Part IV의 “likelihood 확장 계단”에서 Ch.14 정규 → Ch.15 계층 → Ch.16 비정규 의 세 번째 관문. | |
| Apr 22, 2026 | Ch.6 Model Checking — 베이즈 분석의 세 번째 걸음 | Statistics, Bayesian | 베이즈 분석은 “모형 구성 → 사후분포 계산” 두 걸음으로 끝나지 않는다. 세 번째 걸음은 구성한 모형이 현실을 얼마나 잘 재현하는지 점검하는 것이다. 이 포스트는 Gelman BDA Ch.6의 전체 지도를 제공한다. 사후 예측 점검(posterior predictive check)의 철학과 수식, 복제 데이터 \(y^{rep}\) 개념, 검정량(test quantity)과 불일치 측도(discrepancy measure)의 차이, Bayesian p-value와 고전 p-value의 수학적·실질적 구분, 감도 분석과 외부 검증의 역할, 그리고 충족 통계량을 검정량으로 쓰면 안 되는 직관적 이유까지 — 각 개념의 정의 옆에 “왜 그래야 하는가”와 “어떻게 받아들일 것인가”를 덧붙여 전개한다. | |
| Apr 22, 2026 | § 6.1~6.3 — 모델 점검의 자리매김·외부 검증·사후 예측 점검의 기초 | Statistics, Bayesian | Ch.6 overview 가 모델 점검의 지도였다면, 이 포스트는 § 6.1~6.3 의 실제 여정이다. 모델 점검이 베이즈 분석에서 차지하는 자리(6.1), 외부 지식·예측 구간과의 대조가 드러내는 모형의 약점(6.2), 사후 예측 분포를 이용한 자기 일관성 검사의 수학적 기초(6.3)를 차례로 전개한다. 복제 데이터 \(y^{rep}\) 의 수식 정의, 검정량·불일치 측도의 구분, Classical vs Bayesian p-value 의 유도, 시뮬레이션 기반 계산 알고리즘, 충족 통계량을 검정량으로 쓰면 안 되는 직관, Newcomb 광속 측정의 세 검정량 심화 — 수식 옆에 “왜 그런가” 를 반복해서 붙였다. | |
| Apr 22, 2026 | § 6.4~6.7 — 그래픽 점검·8 학교 적용·문헌 노트·연습문제 심화 | Statistics, Bayesian | § 6.1~6.3 이 모델 점검의 철학과 수식 기초를 세웠다면, § 6.4~6.7 은 이를 실제 시각화·사례·이론사·연습으로 확장한다. 그래픽 점검의 세 유형 (직접 표시·요약·잔차)과 순서 정렬의 결정적 역할, 8 학교 SAT 코칭 모형의 네 가정을 네 검정량으로 전면 점검한 결과 해석, Box 의 사전 예측 접근과 Rubin 의 사후 예측 접근이 갈라지는 지점, 그리고 대표 연습문제 3 개 (SAT 동일효과 반증·사전 vs 사후 예측 대립·점수차이 분산 이질성)의 상세 풀이를 담았다. 수식·그래픽 원리마다 “왜 그 배치가 효과적인가” 를 덧붙였다. | |
| Apr 22, 2026 | Ch.7 Evaluating, Comparing, and Expanding Models — 베이즈 분석의 네 번째 걸음 | Statistics, Bayesian | Ch.6 이 “모델이 데이터를 재현하는가” 를 물었다면, Ch.7 은 “여러 모형 중 어느 것이 더 좋은가, 그리고 지금 모형을 어떻게 확장해야 하는가” 를 묻는다. 이 포스트는 Ch.7 전체 지도를 제공한다. 로그 예측 밀도 (lppd, elpd, elppd) 정의와 유도, 정보 기준 삼총사 (AIC·DIC·WAIC) 의 수학적 구조와 차이, LOO-CV 와 WAIC 의 점근 동치, Bayes factor 의 민감도 한계, 이산적 모델 선택 대신 연속 확장을 권장하는 이유, 그리고 과적합 보정의 직관까지 — 각 수식 옆에 “무엇을 재고, 왜 그 보정이 필요한가” 를 붙여 전개한다. | |
| Apr 22, 2026 | § 7.1~7.4 — 예측 정확도·정보 기준·모델 비교·Bayes factor | Statistics, Bayesian | Ch.7 overview 가 예측 평가의 지도였다면, 이 포스트는 § 7.1~7.4 의 실제 여정이다. 로그 점수가 왜 local 하고 proper 한 유일 점수인지, 점근 이론에서 \(\log p(y \mid \theta)\) 가 \(-\tfrac{1}{2}\chi^2_k\) 모양이 되는 유도, AIC·DIC·WAIC 의 수식적 관계와 \(p_{\mathrm{WAIC1}}\) 과 \(p_{\mathrm{WAIC2}}\) 의 차이, LOO-CV 와 WAIC 의 점근 동치, 8 학교 예제 Table 7.1 에서 세 모형(no/complete/hierarchical pooling) 이 네 지표로 어떻게 다르게 평가되는지, Bayes factor 의 정의와 이산 예제 (혈우병) 에서는 왜 자연스러운 반면 8 학교 연속 예제에서는 사전 분산 \(A^2\) 에 따라 결론이 완전히 바뀌는지 — 각 수식 옆에 “무엇을 재고 왜 그 보정이 필요한가” 를 붙여 전개한다. | |
| Apr 22, 2026 | § 7.5~7.8 — 연속 모델 확장·암묵적 가정·문헌 노트·연습문제 심화 | Statistics, Bayesian | Ch.7 § 7.1~7.4 가 “여러 모형을 어떻게 비교할까” 였다면, § 7.5~7.8 은 “애초에 모형을 어떻게 확장할까” 와 “데이터만으로 답할 수 없는 질문을 어떻게 다룰까” 를 묻는다. 연속 모델 확장의 네 가지 동기, 확장 수식 (7.17) 의 유도, 뉴욕주 804 개 지방자치단체 총합 추정이라는 교훈적 반례 — 정규 → 로그정규 → power 변환 → 상한 제약으로 이어지는 네 단계, “더 잘 맞는 모형이 더 나쁜 답을 주는” 현상의 수학적 이유, robust 질문 vs nonrobust 질문의 구분, 그리고 연습문제 3 개 (SAT 동일효과 Bayes factor, 사전/사후 예측 p-값 대립, 모델 확장 실습) 의 풀이까지 다룬다. | |
| Apr 22, 2026 | Ch.8 Modeling Accounting for Data Collection — 베이즈 분석의 다섯 번째 걸음 | Statistics, Bayesian | Ch.7 이 “여러 모형 중 어느 것이 더 예측을 잘하는가” 였다면, Ch.8 은 “데이터가 어떻게 모여 왔는가를 모형이 반영해야 한다” 고 주장한다. 같은 관측값도 수집 프로토콜이 다르면 결론이 달라진다 — 주사위를 열 번 던져 모두 6 이 나왔다는 관측이, 열 번만 던졌는지 / 육십 번 중 6 만 골랐는지 / 6 이 열 번 나올 때까지 계속 던졌는지에 따라 완전히 다른 추론을 낳는다. 이 포스트는 Ch.8 의 전체 지도를 제공한다. 완전 데이터 y 와 포함 지시자 I 의 분해 (8.1), 관측 데이터 우도 유도, 무시가능성 (ignorability) 정의와 충분 조건 (MAR + distinct parameters), 표본조사 (8.3)·설계실험 (8.4)·무작위화 (8.5)·관찰연구 (8.6)·검열·절단 (8.7) 의 다섯 가지 특별 경우를 관통하는 공통 구조까지 — 각 수식 옆에 “왜 수집 과정을 모형에 넣어야 하는가” 를 붙여 전개한다. | |
| Apr 21, 2026 | Git - 뒤늦은 브랜치 분리 | Engineering, Git, DevOps |
기능 브랜치 위에 다른 scope의 커밋을 쌓은 뒤에야 mismatch를 인지한 상황에서, 파괴적 git 명령(hard reset + force push)으로 커밋을 깔끔하게 분리하는 절차를 정리한다. cherry-pick 비파괴 경로와의 trade-off, 파괴적 작업이 안전한 세 조건, git branch <name> / --hard / A..B / -u / --force-with-lease 옵션들이 실전 분리 작업에서 각각 어떻게 쓰이는지 다룬다.
|
|
| Apr 21, 2026 | Azure LLM 앱 발화 데이터 저장소 — PostgreSQL로 시작하는 것이 왜 합리적인가 | Engineering, Infra, Cloud, Data Science | MINERVA 사내 AI Agent 플랫폼 리팩토링 맥락에서 발화·대화·A/B 실험 메트릭의 저장소를 결정하는 과정. MS 아키텍트의 Cosmos DB 권고, “PG로 시작 → NoSQL 전환” 초기 직관, Azure Database for PostgreSQL(Flexible Server) + 조건부 Cosmos DB for PostgreSQL(Citus) 이라는 최종 결론에 도달한 분석. “비정형 = NoSQL” 이라는 2010 년대 프레임이 2020 년대에 어떻게 낡았는지, PG JSONB + GIN + pgvector 가 어디까지 커버하는지, Cosmos DB 가 단일 제품이 아니라 다중 API 플랫폼이라 “PG → Cosmos” 가 반드시 패러다임 전환이 아닌 이유, RU/s 과금이 append-heavy 워크로드에 왜 불리한지, 단일 DB 대신 “역할 분리” 설계가 왜 장기적으로 이기는지, 벤더 권고를 필터링해서 받는 DS 의 의사결정 프레임까지를 정리한다. | |
| Apr 21, 2026 | Non-Linear Parameters — Examples (McCullagh §11.5) | Statistics, GLM, Optimization | McCullagh & Nelder (1989) §11.5 의 세 예제를 직관과 수식으로 함께 풀어낸다. (1) 토양에 숨어 있는 비료 양 \(\alpha_i\) 를 추정해 역선형 반응면을 적합하는 Bermuda 잔디 실험, (2) 살충제의 역치 \(\theta\) 와 상승제 포화 모수 \(\delta\) 를 동시에 잡아내는 Morse-Mckinlay-Spurr 실험, (3) 인슐린 유사체의 상대 효능 \(\theta\) 를 \(\log(x_1+\theta x_2)\) 로 추정하는 Darby-Ellis 실험을 다룬다. 각 예제에서 §11.4 의 선형화가 어떻게 구체적 보조 공변량으로 구현되는지, 프로파일 우도가 언제 비이차가 되는지, 표준오차가 왜 최종 반복에서 스케일되어야 하는지를 해석한다. | |
| Apr 21, 2026 | Ch.11 Exercises — 반올림 오차의 누율구조·균등분포 누율·\(\delta\) 프로파일 이탈도 (McCullagh §11.7) | Statistics, GLM | McCullagh & Nelder (1989) §11.7 의 네 연습문제를 수식과 직관으로 풀이한다. (11.1) 반올림 오차 \(R\) 의 CGF 가 \(\log(\sinh(\xi/2)/(\xi/2))\) 로 주어지고 \(R\) 과 원변수 \(Z\) 가 점근 독립이 되는 Kolassa-McCullagh 정리, (11.2) 감마 분포에서 \(d\) 자릿수 반올림 시 \(\text{var}(Y) \simeq \mu^2/\nu + \epsilon^2/12\) 의 분산 함수 보정, (11.3) \(U(0,1)\) 의 처음 네 누율 \(\frac{1}{2}, \frac{1}{12}, 0, -\frac{1}{120}\) 유도, (11.4) Powsner 초파리 발생률 데이터에 \(\log\mu = \beta_0 + \beta_1 T + \beta_{-1}/(T-\delta)\) 를 §11.4 선형화로 적합하고 \(\widehat\delta\) 의 프로파일 이탈도 곡선이 왜 비대칭인지 확인하는 과정을 다룬다. | |
| Apr 21, 2026 | Model Checking — 개관 · 체계적 이탈 vs 개별 이상점 · 잔차·햇·삭제잔차 (McCullagh Ch.12) | Statistics, GLM | McCullagh & Nelder (1989) Ch.12 Model Checking 의 개관이다. “모형 선택 → 적합 → 결론” 의 직선 파이프라인에 check 단계 를 삽입해 루프로 만드는 철학, 체계적 이탈(systematic departure)과 개별 이상점(isolated discrepancy)의 이분법, 공식(formal — 스코어·이탈도 검정)과 비공식(informal — 잔차 플롯·평활) 진단의 역할 분담, GLM 에서 Pearson·이탈도·Anscombe 잔차의 표준화와 Studentization, \(H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}\) 로 확장된 햇 행렬과 삭제잔차의 1-step 근사, 교재 §12.5 의 \(r_D^2 = h\cdot {}_1 r_P^{\prime 2} + (1-h)\cdot {}_1 r_D^{\prime 2}\) 공식까지 직관과 수식을 함께 풀어낸다. | |
| Apr 21, 2026 | Ch.12 Exercises — Neurospora 균 성장·당근 이상점 재검·고양이 심장 알로메트리 (McCullagh §12.11) | Statistics, GLM | McCullagh & Nelder (1989) §12.11 의 세 연습문제를 수식·직관·파이썬으로 풀이한다. (12.1) Schreiner-Gregoire-Lawrie (1962) 의 Neurospora crassa 균이 5% 산소 불활성 기체 속에서 보인 성장률을 분자량 \(MW\) 의 함수로 모형화. 3 링크 × 5 공변량 변환 = 15 조합 격자 탐색에서 역수 링크 + \(MW^{2/3}\) 가 최적 — \(MW^{2/3}\) 가 분자 단면적에 비례하는 물리적 근거. (12.2) Table 12.1 당근 데이터를 이탈도 잔차 index plot 으로 재분석해 Fig.12.4 의 삭제잔차 \(r^*\) 결과와 비교. 같은 점 14 가 잡히는지, 대비가 얼마나 달라지는지. (12.3) Chen-Bliss-Robbins (1942) 의 149 수컷 고양이 심장 무게·체중 데이터로 알로메트리 스케일링 법칙 \(H = a W^b\) 를 검정. log-log 회귀의 기울기가 1 (동형 isometric) 인지 확인하고, 개별 관측 회귀와 체중별 그룹 평균의 가중 회귀가 어떻게·왜 다른 답을 내는지 분해한다. 이 세 문제가 공통으로 주는 교훈을 정리한다. | |
| Apr 21, 2026 | Techniques in Model Checking — 비공식과 공식의 분업·Embedding 원리 (McCullagh §12.2) | Statistics, GLM | McCullagh & Nelder (1989) §12.2 를 심화해 모형 확인 기법의 분류 체계를 정리한다. 비공식(informal) 기법이 “패턴 없는 잔차” 를 이상으로 삼는 탐색적 도구라면, 공식(formal) 기법은 현재 모형 \(M_0\) 를 더 큰 모형 \(M_1\) 에 내포(embed) 시켜 추가 모수 \(\theta\) 의 유의성을 검정하는 확증적 도구다. 네 가지 embedding 채널 — (1) 추가 공변량, (2) 공변량 가족 \(h(x;\theta)\), (3) 링크 가족 \(g(\eta;\theta)\), (4) 구성 변량(constructed variate) \(\widehat\eta^2\) — 과, 개별 이상점을 위한 더미 공변량 기법, “가장 이상한 점을 골라 검정” 할 때의 다중 검정 보정까지를 직관과 구체적 예시와 함께 다룬다. | |
| Apr 21, 2026 | Score Tests for Extra Parameters — 한 회 반복으로 끝나는 검정 (McCullagh §12.3) | Statistics, GLM | McCullagh & Nelder (1989) §12.3 을 심화한다. 스코어 검정을 \(M_0\) 에서 계산된 로그우도의 1차 도함수 제곱 으로 유도하고, GLM 에서 이를 확장 모형 IRLS 의 한 회 반복 후 Pearson \(X^2\) 감소 로 얻는 Pregibon (1982) 의 트릭을 수식으로 풀어낸다. 이탈도(LRT)·Wald·Score 세 통계량의 점근 등가성과 소표본 차이를 Fig.12.1 의 기하로 해석하고, 재모수화 불변성이 Score·LRT 에만 성립하고 Wald 에는 성립하지 않는 이유, 그리고 정규 선형 모형에서 세 통계량이 정확히 같은 이유를 증명한다. 구성 변량 \(\widehat\eta^2\) 링크 검정을 스코어 검정으로 돌리는 실전 예제까지 포함한다. | |
| Apr 21, 2026 | Smoothing as an Aid to Informal Checks (McCullagh §12.4) | Statistics, GLM | McCullagh & Nelder (1989) §12.4 를 심화한다. 산점도의 시각적 해석 이 왜 어려운가 — 공변량 \(x\) 의 밀도가 구간별로 달라지면 눈은 \(y\) 범위 차이를 추세로 오인한다. 평활 곡선(LOWESS · kernel · spline) 이 이 밀도 편향을 어떻게 완화하는지, 대역폭(bandwidth) 선택의 편향-분산 트레이드오프가 진단에서 어떤 의미를 가지는지, 무작위 잔차에서도 평활이 그럴듯한 곡선을 내놓는 “환영(illusion)” 을 어떻게 감별할지, GLM 잔차에 평활을 적용할 때의 가중치·등정보 스케일 고려 사항까지를 직관과 수식으로 풀어낸다. | |
| Apr 21, 2026 | Raw Materials of Model Checking — 잔차·햇 행렬·삭제잔차의 완전 유도 (McCullagh §12.5) | Statistics, GLM | McCullagh & Nelder (1989) §12.5 를 심화한다. 선형 회귀의 햇 행렬 \(H = X(X^TX)^{-1}X^T\) 부터 시작해 GLM 의 \(H = W^{1/2}X(X^TWX)^{-1}X^TW^{1/2}\) 로의 확장을 사영 기하와 IRLS 구조로 유도하고, 레버리지 \(h_i\) 의 경계·합·기하적 의미를 밝힌다. 삭제잔차 \(r_i^* = (y_i-\widehat\mu_{(i)})/(s_{(i)}\sqrt{1+h_{(i)}})\) 와 Studentized 잔차 \(r_i' = (y_i-\widehat\mu_i)/(s\sqrt{1-h_i})\) 가 왜 분모에 \((1-h_i)\) vs \((1+h_{(i)})\) 를 쓰는지 독립성 관점에서 증명하고, Sherman-Morrison 으로 \(h_{(i)} = h_i/(1-h_i)\) 와 \(r_i^* = r_i' s/s_{(i)}\) 를 도출한다. Cox-Snell (1968) 의 이탈도 잔차 표준화 근거, Pierce-Schafer (1986) 의 정규성 argument, Williams (1987) 의 \(r_D^{*2} = h\,{}_1 r_P^{\prime 2} + (1-h)\,{}_1 r_D^{\prime 2}\) 공식 유도, Pregibon (1981) 의 동등 형식까지 수식과 직관으로 풀어낸다. | |
| Apr 21, 2026 | Checks for Systematic Departure — 분산·링크·공변량 척도 세 축 (McCullagh §12.6) | Statistics, GLM | McCullagh & Nelder (1989) §12.6 을 심화한다. 모형의 체계적 이탈(systematic departure) 은 세 축에서 발생한다 — 분산 함수 \(V(\mu)\), 링크 함수 \(g(\mu)\), 공변량 척도 \(x\). §12.6.1 의 세 잔차 플롯(적합값·공변량·추가 변수), §12.6.2 의 분산 함수 검정 (\(V = \mu^\zeta\) EQL 프로파일 · 자동차 보험 ζ∈(1.87, 2.85) 예제), §12.6.3 의 링크 검정 (\(z\) vs \(\widehat\eta\) 플롯 · Hinkley \(\widehat\eta^2\) 추가 검정 · 멱 링크 족), §12.6.4 의 부분 잔차 플롯 \(u = z - \widehat\eta + \widehat\gamma x\) 와 Box-Cox 동시 변환·구성 변량, §12.6.5 의 복합 진단(forward 대 backward) 까지, 직관과 수식·Python 으로 풀어낸다. | |
| Apr 21, 2026 | Checks for Isolated Departure — 레버리지·일관성·영향력의 세 측도 (McCullagh §12.7) | Statistics, GLM | McCullagh & Nelder (1989) §12.7 을 심화한다. 개별 이상점은 세 독립적 측도로 분석된다 — 레버리지 \(h_i\) (공변량 공간에서의 특이성), 일관성 (삭제잔차 \(r_i^*\)), 영향력 (Cook \(D_i\)). Fig.12.3 의 세 구성(a,b,c)이 레버리지 × 일관성 평면의 네 사분면과 어떻게 대응하는지 보이고, \(D_i = r_i^{\prime 2} h_i / \{p(1-h_i)\}\) 공식이 두 측도의 곱으로 분해되는 이유를 증명한다. Atkinson 수정 Cook 통계량 \(C_i = \sqrt{(n-p)/p \cdot h_i/(1-h_i)} \cdot |r_i^*|\) 의 정규화 효과, half-Normal / full-Normal 플롯과 순서통계량 근사 \(\Phi^{-1}((i - 3/8)/(n + 1/4))\), Atkinson (1981) 의 시뮬레이션 envelope 이 “다중 비교의 경험적 보정” 인 이유, 그리고 §12.7.5 의 체계적·개별 이탈 혼합 진단 \(r_{G0}^2 - r_{G1}^2\) 지표 플롯까지 직관과 수식으로 풀어낸다. | |
| Apr 21, 2026 | Model Checking Examples — 당근·Minitab 나무·자동차 보험금 (McCullagh §12.8) | Statistics, GLM | McCullagh & Nelder (1989) §12.8 의 세 capstone 예제를 통해 Ch.12 진단 도구들이 실전에서 어떻게 결합되는지를 보인다. (12.8.1) Phelps 당근 살충제 데이터 — 이항 GLM 에서 index plot 으로 단일 이상점 (점 14) 을 식별하고 제거 후 이탈도가 40.0→25.3 으로 개선되며, \(\widehat\eta^2\) 검정으로 링크 선택 유지 확인. (12.8.2) Minitab 흑버찌 나무 데이터 — 물리적 관계 \(v = c d^2 h\) 를 “차원 개념 없이” 적합하면 \(\widehat\eta^2\) 이 242.6 (57.5%) 을 잡아내며, 부분 잔차 플롯으로 링크 오류가 아니라 공변량 척도 (\(\log d, \log h\)) 문제임을 확인. Box-Cox 동시 변환 프로파일로 \(\widehat\theta = 0.15\), 95% CI \((-0.32, 0.63)\) 로 \(\theta = 0\) (로그) 수용. (12.8.3) 자동차 보험금 (Ch.8 연속) — 링크 \(\mu^\lambda\) 와 분산 \(\mu^\zeta\) 를 동시 프로파일로 검정하는 \((\zeta, \lambda)\) 2D 윤곽. 최소 \((2.4, 0.75)\), 원 선택 \((2, -1)\) 이 95% 윤곽 안에 위치. 축 정렬성이 두 모수의 점근 직교성을 드러냄. | |
| Apr 21, 2026 | A Strategy for Model Checking? — 진단의 한계와 실무 휴리스틱 (McCullagh §12.9) | Statistics, GLM | McCullagh & Nelder (1989) §12.9 가 제목 끝에 붙인 물음표의 의미를 심화한다. Ch.12 는 수많은 진단 도구를 제시하지만, 이들을 알고리즘으로 엮어 “완전한 자동 진단” 을 만드는 것은 여전히 먼 꿈이다. 이유는 세 가지 — (1) 이탈 간 상호작용: goodness-of-link 검정의 유의성이 링크 · 공변량 척도 · 교호작용 누락 · 이상점 중 어느 것 때문인지 구분 불가. (2) 군집 이상점: 이상점이 고립돼 있다는 가정이 깨지면 삭제잔차 기반 기법이 무력해지며, least median of squares 같은 강건 적합이 필요. (3) 행동 결정의 문맥 의존성: 이상점을 식별한 후 제거할지·확장할지·기록 확인할지는 도메인 지식에 달림. “All interesting points are wrong” 의 냉소, 그리고 Atkinson (1986) · Rousseeuw-Leroy (1988) 의 강건 대안, Ch.12 완주 후의 실무 체크리스트까지 정리한다. | |
| Apr 21, 2026 | Models for Survival Data — 개관 · Aitkin-Clayton 의 Poisson GLM 환원 (McCullagh Ch.13) | Statistics, GLM | McCullagh & Nelder (1989) Ch.13 을 개관한다. 의료 임상시험·공학 신뢰성에서 생존 데이터가 중도절단(censoring) 과 시간 의존 공변량 두 특징으로 여타 데이터와 구별된다. 생존 함수 \(S(t) = 1 - F(t)\), 위험 함수 \(h(t) = f(t)/\{1-F(t)\}\), 누적 위험 \(\Lambda(t) = \int \lambda(u) du\) 의 정의와 상호 유도를 전개한다. 비례 위험 모형 \(h(t;x) = \lambda(t) \exp(\beta^T x)\) 의 구조적 가정 — 두 개체의 위험비가 시간에 무관 — 그리고 Cox (1972a) 의 비모수 처리 vs 모수적 \(\lambda(t)\) 선택. McCullagh-Nelder 의 핵심 공헌인 Aitkin-Clayton (1980) 환원: \(\mu_i = \Lambda(t_i) e^{\eta_i}\), \(w_i\) 를 Poisson 반응으로 보면 로그 가능도가 offset \(\log \Lambda(t_i)\) 를 가진 포아송 GLM 과 동일. 지수 · 와이블 · 극치값 분포의 offset 형태와 Weibull 의 \(\alpha\) 교대 추정 절차. Freireich (1963) 백혈병 완화 시간 예제에서 지수·Weibull·Cox 세 방법의 추정치 일치를 보인다. | |
| Apr 21, 2026 | Proportional-Hazards Models — 비례 가정의 기하와 검증 (McCullagh §13.2) | Statistics, GLM | McCullagh & Nelder (1989) §13.2 의 비례 위험 모형을 심화한다. 일반 형식 \(h(t;x) = \lambda(t) \exp\{G(x;\beta)\}\) 에서 공변량 효과의 곱셈성 (multiplicativity) 이 관례이지 필연이 아니라는 Oakes (1981) 의 관찰, 그리고 이 관례가 \(\beta^T x\) 형 선형 예측자 (13.1) 로 이어지는 논리를 따라간다. 비례 가정의 기하적 의미 — 두 생존 곡선이 로그-로그 스케일에서 평행한 수직 이동 — 을 \(\log(-\log S(t;x))\) 등식으로 유도. 비례 가정 검증의 세 공식 도구: log-log 생존 플롯, Schoenfeld 잔차 · cumulative Schoenfeld, 시간 의존 계수 검정. 가정 위배 시 처방: 계층화 Cox (stratified), 시간 의존 \(\beta(t)\), 가속 고장 시간 (accelerated failure time, AFT) 대안. 마지막으로 Cox 모형과 모수적 \(\lambda(t)\) 선택 사이의 trade-off 를 실무 관점에서 정리. | |
| Apr 21, 2026 | Parametric Survival — Aitkin-Clayton 환원의 완전 유도 (McCullagh §13.3) | Statistics, GLM | McCullagh & Nelder (1989) §13.3 을 심화한다. Aitkin-Clayton (1980) 환원의 완전한 유도 — 비례 위험 로그 가능도가 왜 offset \(\log\Lambda(t_i)\) 를 가진 포아송 GLM 로그 가능도와 정확히 일치하는지 · \(\mu_i = \Lambda(t_i)e^{\eta_i}\) 치환의 대수적 매커니즘. §13.3.1 지수 분포 \(\Lambda(t) = \lambda t\) 의 offset \(\log t_i\) 직접 적합. §13.3.2 Weibull \(\Lambda(t) = t^\alpha\) 의 교대 추정 절차 — IRLS 와 \(\alpha\) 의 점수 방정식 (13.2) \(n/\widehat\alpha = \sum(\widehat\mu_i - w_i)\log t_i\) 유도 · 수렴 증명 · 이탈도 보정 \(-2n\log\widehat\alpha\) 의 Jacobian 근거. §13.3.3 극치값 분포 \(\Lambda(t) = e^{\alpha t}\) 의 \(u = e^t\) 치환으로 Weibull 환원. 세 분포의 위험 형태 비교 · 모형 선택 기준 · 세 분포 모두의 Python 구현 포함. | |
| Apr 21, 2026 | Leukaemia Remission Example — Freireich (1963) 의 완전 분석 (McCullagh §13.4) | Statistics, GLM | McCullagh & Nelder (1989) §13.4 의 Freireich et al. (1963) 급성 백혈병 완화 시간 예제를 숫자 하나하나 재현하며 심화한다. 21 환자 × 2 군 데이터의 배경 — 6-mercaptopurine vs 위약의 무작위 임상시험 · 드물게도 위약군에 중도절단이 전혀 없는 설계. Aitkin-Clayton 환원으로 지수 적합 (이탈도 54.50 null → 38.02 S, df 41 → 40) · Weibull 적합 (\(\widehat\alpha = 1.366\), 이탈도 34.13 / 39 df, LRT 3.89 한계 유의) · 두 군 각자 \(\alpha\) 추정 시 1.35, 1.37 일치 → 공통 \(\widehat\alpha\) 정당화. \(\widehat b_1 = 1.731\) 의 SE 가 \(\alpha\) 고정 시 \(\pm 0.398\), 동시 추정 시 \(\pm 0.41\) 로 증가하는 이유 — 정보 행렬의 bordering. 프로파일 이탈도 곡선의 약한 비대칭 · 95% 신뢰구간 \((0.93, 2.53)\) 의 HR 역변환 \((2.52, 12.6)\) 실무 해석. Whitehead (1980) 의 Cox 분석 (Peto · Cox 동률 처리) 과 Table 13.2 의 네 추정치 근접성 · Efron-Oakes 의 이론적 설명. | |
| Apr 21, 2026 | Cox’s Proportional-Hazards Model — 부분 우도·동률 처리·Whitehead 포아송 환원 (McCullagh §13.5) | Statistics, GLM | McCullagh & Nelder (1989) §13.5 의 Cox (1972a) 비례 위험 모형을 심화한다. 부분 우도 (partial likelihood) 의 유도 — 각 실패 시점 \(t_j\) 의 위험집합 \(R(t_j)\) 안에서 “누가 실패했는가” 의 조건부 확률 (13.4) \(\Pr = \exp(\beta^T x_j) / \sum_R \exp(\beta^T x)\) 이 \(\lambda(t_j)\) 와 무관 한 이유. §7.3.2 의 비중심 초기하 분포와의 일반화 관계 — “고정 공변량·무작위 실패 시간” 을 “고정 실패 시간·무작위 공변량 선택” 으로 역전시키는 Cox 의 코페르니쿠스적 전환. §13.5.2 의 세 가지 동률 처리 — Cox (13.5) 의 쌍 집합 합 (정확) · Peto (13.6) 의 순열 합 (grouped data 정확) · 단순 복원 추출 (13.7) — 비교와 선택 기준. §13.5.3 의 계산 방법 세 가지 — 직접 WLS · 다항 로그선형 (k_j 범주) · Whitehead (1980) 의 artificial Poisson + failure-time blocking factor 트릭. 포아송과 다항의 쌍대성 (§6.4) 이 Cox 와 GLM 을 연결. Python 구현과 실무 권고. | |
| Apr 21, 2026 | Ch.13 Exercises — 임상시험 설계와 Sukhatme 정리 (McCullagh §13.7) | Statistics, GLM | McCullagh & Nelder (1989) §13.7 의 두 연습문제를 심화한다. (13.1) 협심증 환자 대상 새 약물의 2 년 임상시험 설계 문제 — 실패 정의의 세 옵션 (전체 사망 · 관상동맥 사망 · 심장발작 전체), 시간 원점의 세 옵션 (달력 시간 · 무작위화 시점 · 증상 시작), 비준수 처리, 위험 집합 선택 (모든 생존자 · 순응자만). 각 선택이 추정 결과에 어떻게 체계적 편향을 도입하는지, lead-time bias, immortal time bias, 생존자 편향을 수식과 함께 해부한다. (13.2) Sukhatme (1937) 정리 — 단위 지수 분포의 순서 통계 \(X_{(1)} < \cdots < X_{(n)}\) 에 대해 정규화 차이 \(Y_1 = nX_{(1)}\), \(Y_i = (n-i+1)(X_{(i)} - X_{(i-1)})\) 가 i.i.d. 단위 지수. 두 가지 증명 — Jacobian 방법과 메모리리스 성질 직관. Rényi (1953) 의 포아송 과정 재해석, 지수 순서 통계의 등분산성의 실무 의의 (생존 분석에서 sequential failure 의 조건부 독립 근거). | |
| Apr 21, 2026 | Components of Dispersion — 개관 · GLMM 의 출발 (McCullagh Ch.14) | Statistics, GLM | McCullagh & Nelder (1989) Ch.14 를 개관한다. 앞선 12 개 장이 모두 독립 관측 을 가정한 반면, 실무 데이터는 계층 구조 (hierarchy) 를 가진다 — 학교 안의 학급 안의 학생, 농장 안의 젖소 안의 부위 등. 같은 군집 내 단위는 양의 상관 을 가져, 단일 산포 \(\phi\) 로 설명 불가. 해법은 여러 분산 성분 (dispersion components) \(\sigma^2, \sigma_b^2, \ldots\) 을 각 계층에 할당. §14.2 의 선형 로그 모형 \(\log Y = \alpha + \gamma + \tau + \epsilon\) 로 결핵균 assay 데이터의 within-cow CV 15% 와 between-cow CV 94% 를 분해. §14.3 의 비선형 (GLMM) 확장 — 조건부 평균 \(M\) 과 분산 함수 \(V(M)\) 은 GLM 으로 모형화, 거기에 정규 랜덤효과 \(\gamma \sim N(0, \sigma_b^2)\) 을 추가. 기대값 식 (14.4)·분산 식 (14.5) 가 주변 분산 함수에 이차항 을 추가한다는 놀라운 사실. §14.4 의 준-우도 추정 방정식 \(U = D^T V^{-1}(y - \mu) = 0\) 과 보조 방정식. 마지막으로 §14.5 salamander 교배 실험으로 GLMM 의 실제 적용을 소개. | |
| Apr 21, 2026 | Linear Mixed Models — 결핵균 assay 와 라틴 정방 설계 (McCullagh §14.2) | Statistics, GLM | McCullagh & Nelder (1989) §14.2 를 심화한다. 결핵균 assay (Table 6.1) 의 4 × 4 라틴 정방 설계를 선형 혼합 모형 \(\log Y_{ij(k)} = \alpha_i + \gamma_j + \tau_k + \epsilon_{ijk}\) 로 모형화. 네 요인 (부위·cow class·처치·오차) 중 무엇을 고정·무엇을 랜덤으로 할지의 과학적 판단 기준. 30 마리 cow 합계이므로 \(\text{var}(\gamma_j) = \sigma_b^2/30\) 스케일 조정 필요성. Table 14.1 ANOVA 분해의 각 줄 \(E(MS)\) 유도 — cow class 가 \(\sigma^2/30 + 4\sigma_b^2/30\) 을 갖는 이유, sites/treatments 가 고정효과이므로 \(\sum(\alpha_i - \bar\alpha)^2\) 항을 갖는 이유. Method of Moments 로 \(\widetilde\sigma^2 = 0.0216\) (within-CV 15%), \(\widetilde\sigma_b^2 = 0.8821\) (between-CV 94%) 추정. 라틴 정방 직교성이 부여하는 놀라운 결과: 처치·부위 대조의 SE 가 \(\sigma^2\) 만의 함수이고 \(\sigma_b^2\) 에 무관. 추정 부위 효과 \(\widehat\alpha = (0, 0.093, 0.128, -0.053)\) 과 SE \(\widetilde\sigma/\sqrt{60} = 0.019\). Python 재현과 함께 짝 맞춤 설계의 효율성을 수치로 확인한다. | |
| Apr 21, 2026 | Non-Linear Mixed Models (GLMM) — 식별 불가 설계에서 랜덤효과의 구원 (McCullagh §14.3) | Statistics, GLM | McCullagh & Nelder (1989) §14.3 을 심화한다. §14.2 가 로그 변환 후 선형 모형이었다면 §14.3 은 원 척도에서 GLM 으로 다루는 비선형 혼합 모형 — GLMM 의 원형. 조건부 평균 \(M_{ij(k)}\) 와 분산 \(\sigma^2 V(M)\) 이 로그선형 구조 (14.2) 를 따르고, cow class 효과에 정규 랜덤효과 가정 (14.3) \(\gamma_j \sim N(0, \sigma_b^2)\) 을 더한다. 가장 교훈적 상황: Table 14.2 의 alternative design 에서 처치가 cow class 와 aliasing 되어 고정효과 모형에서는 추정 불가. 랜덤효과 가정이 “데이터 없는 정보” 를 만드는 것이 아니라 \(\gamma\) 분포 제약으로 \(\tau\) 와 분리 가능하게 만든다. 주변 평균 (14.4) \(\log \mu_{\cdot j(k)} = \tau_k + \text{const}\) 의 \(e^{\sigma_b^2/2}\) 보정, 주변 분산 (14.5) 이 \(V(M) = M\) 에서 \(\sigma^2 \mu + \mu^2(e^{\sigma_b^2} - 1)\), \(V(M) = M^2\) 에서 정확히 이차가 되는 이유. 21 d.f. (residual) 와 4 d.f. (cow class) 의 이원 분산 분해 로 \(\sigma^2, \sigma_b^2\) 를 서로 다른 부분 에서 추정. | |
| Apr 21, 2026 | GLMM Parameter Estimation — 준-우도 방정식과 이차 형식 교대 추정 (McCullagh §14.4) | Statistics, GLM | McCullagh & Nelder (1989) §14.4 를 심화한다. GLMM 의 모수 추정을 완전 최대 가능도가 아닌 준-우도 (§9 의 확장) 로 처리하는 McCullagh-Nelder 의 선택과 그 근거. 식 (14.6) 의 \(\beta\) 점수 방정식 \(U = D^T V^{-1}(y - \mu(\beta)) = 0\) 은 Ch.9 에서 이미 본 구조. 새로운 요소는 공분산 \(V(\mu, \sigma^2)\) 의 가법 분해 (14.7) \(\sum_j \sigma_j^2 V_j(\mu)\) — 각 \(\sigma_j^2\) 이 식별 가능 모집단에 대응. §14.3 tuberculin 예제에서 이 분해가 \(\sigma^2 \text{diag}(\mu) + (e^{\sigma_b^2}-1) \mu J \mu^T\) 로 구체화됨 — \(J\) 는 cow class 블록 대각 단위 행렬. 이차 형식 \(Q_r = (Y-\mu)^T P_r (Y-\mu)\) 의 기대값 (14.9) \(E(Q_r) = \sum_j \text{tr}(P_r V_j)\sigma_j^2\) 이 선형 연립방정식 을 주어 분산 성분을 MoM 의 일반화로 풀 수 있음. \(\beta\) 점근 공분산 \((D^T V^{-1} D)^{-1}\) 의 \(\sigma^2\) 민감도. REML 대안 · \(\mu \to \widehat\mu\) 치환 · \(\beta \leftrightarrow \sigma^2\) 교대 반복 알고리즘. | |
| Apr 21, 2026 | Salamander 교배 실험 — 교차 랜덤효과 GLMM 의 교본 (McCullagh §14.5) | Statistics, GLM | McCullagh & Nelder (1989) §14.5 의 Salamander 교배 실험을 심화한다. Arnold-Verrell (U. Chicago) 이 Rough Butt (RB) vs Whiteside (WS) 두 Appalachian 도롱뇽 개체군의 교배 장벽 을 검증한 실험. 40 마리 × 3 반복 설계에서 각 암컷이 4 종류 수컷 조합 × 3 기회를 얻는 교차 랜덤효과 (crossed random effects) 구조. §14.5.3 의 로지스틱 모형 (14.10) 에서 개별 고정효과 접근이 \(\pm\infty\) 추정 · 부분 aliasing · 과학적 무의미 세 이유로 실패. 랜덤효과 가정 \(\sigma_F^2, \sigma_M^2\) 도입 후 준-우도 추정이 놀랍게도 단순 비율 (14.12) 이 되는 이유와 그 공분산 (14.13) 의 이차항 구조. §14.5.4 의 이차 형식 기반 분산 성분 추정 — \(\widetilde\sigma_F^2 = 0.91, \widetilde\sigma_M^2 = 0.88\). 과학적 결론 — \(\widehat\pi_{WR} = 0.21\) vs 나머지 ≈ 0.67 의 비대칭 장벽, mixed contrast \(0.345 \pm 0.09\) 의 강한 유의성, 수컷 효과 지속 · 암컷 효과 단기라는 부가 발견. | |
| Apr 21, 2026 | Ch.14 Exercises — 로지스틱-정규 근사·Kruskal 정리·Salamander 균형 조건 (McCullagh §14.7) | Statistics, GLM | McCullagh & Nelder (1989) §14.7 의 12 개 연습문제 중 이론적 · 실무적 가치가 큰 6 개를 심화한다. (14.2) 로지스틱-정규 혼합의 주변 평균 근사 \(\pi \simeq F(\alpha^*)\) 의 \(\tanh\) 보정식 — Taylor 1차보다 훨씬 정확하며 \(\sigma^2 < 2\) 에서 최대 오차 0.003. (14.6) 표본 분산 \(s^2 = \sum(Y_i - \bar Y)^2 / (n-1)\) 의 일반 기대값 공식 \(E(s^2) = \bar\kappa_{ii} - \bar\kappa_{i \neq j}\) 가 §14.4 의 이차 형식 MoM 추정의 기반. (14.8) Kruskal 정리 — 공분산 \(V\) 가 설계 공간 \(\mathcal{X}\) 를 보존하면 OLS 와 GLS 가 일치. (14.9) Salamander 에서 이 정리로 (14.12) 단순 비율 추정의 균형 조건 도출. (14.10-11) Gamma 와 로그-정규 분포의 \(\text{var}(\log Y)\) 와 CV 근사 비교 — §14.2 의 “\(\text{var}(\log Y) \simeq \text{CV}^2(Y)\)” 근사가 언제 정확한지. (14.12) Salamander 에서 \(R/R - R/W - W/R + W/W\) 대조가 유일하게 estimable 하다는 incidence matrix 증명. 나머지 6 개 연습문제 (14.1, 14.3, 14.4, 14.5, 14.7) 은 간략 요약. | |
| Apr 21, 2026 | Further Topics — 편향 보정·Bartlett 조정·GAM (McCullagh Ch.15) | Statistics, GLM | McCullagh & Nelder (1989) Ch.15 Further Topics 전체를 개관한다. 책의 마지막 본문 장으로 세 가지 현대 주제를 압축 소개: (1) §15.2 편향 보정 — MLE 의 \(O(n^{-1})\) 편향 \(b^r = -\frac{1}{2}\kappa^{r,s}\kappa^{t,u}\kappa_{s,t,u}\) 이 canonical link 에서 보조 선형 회귀 \(b = (X^TWX)^{-1}X^TW\xi\) 로 단순화되는 이유, non-canonical 모형에서 \(\xi_i = -\frac{1}{2}(\mu''/\mu')Q_{ii}\) 로의 변형, 이항 모형의 \(1 - p/m_\cdot\) shrinkage 근사. (2) §15.3 Bartlett 조정 — 우도비 통계량 \(\Lambda\) 의 기대값이 \(p(1 + b_p) + O(n^{-2})\), 조정 \(\Lambda' = \Lambda/(1+b_p)\) 가 \(\chi_p^2\) 에 \(O(n^{-2})\) 정확, 복합 귀무가설의 \(b_{pq} = (pb_p - qb_q)/(p-q)\). (3) §15.4 Generalized Additive Models (Hastie-Tibshirani, 1986) — 선형 \(\sum\beta_j x_j\) 를 평활 \(\sum f_j(x_j)\) 로 확장하는 back-fitting 알고리즘, running-lines/cubic-spline 평활, span 교차검증, effective d.f. \(\text{tr}(2S - S^TWSW^{-1})\). 세 주제가 GLM 를 확장하는 세 가지 방향 — 정확도 개선 · 점근 근사 개선 · 함수 형태 일반화. | |
| Apr 21, 2026 | Bias Adjustment — MLE 의 \(O(n^{-1})\) 편향을 보조 회귀로 교정 (McCullagh §15.2) | Statistics, GLM | McCullagh & Nelder (1989) §15.2 를 심화한다. MLE \(\widehat\beta\) 는 점근적으로 일치 추정량이지만 유한 표본에서 \(O(n^{-1})\) 편향을 갖는다. Cox-Snell (1968) 과 McCullagh (1987, Ch.7) 의 점근 전개로 편향 벡터 \(b^r = -\frac{1}{2} \kappa^{r,s} \kappa^{t,u} \kappa_{s,t,u}\) (15.1) 을 얻는다. Canonical link 모형 (logit, log, inverse) 에서 이 텐서 공식이 보조 가중 선형 회귀 \(b = (X^TWX)^{-1}X^TW\xi\) (15.3) 로 환원되며, 응답 벡터 \(\xi_i = -\frac{1}{2}Q_{ii}\kappa_{3i}/\kappa_{2i}\) 가 “레버리지 × 왜도” 의 해석을 갖는다. Non-canonical 모형에서는 \(\xi\) 가 \(-\frac{1}{2}(\mu''/\mu')Q_{ii}\) (15.4) 로 변형 — 링크별 공식 표. 이항 모형의 근사 \(b \simeq p\beta/m_\cdot\) (15.5) 이 “\(1 - p/m_\cdot\) 수축” 으로 해석되며 Firth (1993) 의 penalized likelihood 와 등가. §15.2.3 의 Lizard 예제로 \(\widehat\beta - \widehat b\) 가 \(\widehat\beta\) 의 SE 10% 내로 이동하는 구체적 수치 재현까지. | |
| Apr 21, 2026 | Bartlett Adjustment — LRT 통계량의 \(\chi^2\) 근사를 \(O(n^{-2})\) 로 개선 (McCullagh §15.3) | Statistics, GLM | McCullagh & Nelder (1989) §15.3 을 심화한다. 우도비 통계량 \(\Lambda\) 의 \(\chi_p^2\) 점근 근사는 \(O(n^{-1})\) 오차를 갖는다. Bartlett (1937) 의 놀라운 관찰 — 단일 스칼라 조정 \(\Lambda' = \Lambda/(1 + b_p)\) 가 \(\chi_p^2\) 의 모든 cumulant 를 \(O(n^{-2})\) 까지 일치시킨다. 식 (15.6) 의 cumulant 비례 성질을 증명하고, 복합 귀무가설의 \(b_{pq} = (p b_p - q b_q)/(p-q)\) (15.8) 을 유도한다. §15.3.2 의 6 개 불변 스칼라 (a)-(f) — 첨도 \(\rho_4\), 왜도 \(\rho_{13}^2, \rho_{23}^2\), 잔차 Hessian 변동 세 개 — 와 이들의 선형 결합 \(\epsilon_p = -a/4 + b/4 + c/6 - d/4 + e/2 - f/2\) (15.9). GLM 의 mixed cumulant 대칭성이라는 “놀라운 성질” 과 canonical link 에서 (d)-(f) 가 사라지는 단순화. §15.3.3 의 Feigl-Zelen 백혈병 생존 데이터로 지수 회귀 모형에서 Bartlett 보정이 단순 검정 (1 df) 에서는 미미하지만 모형 적합도 검정 (15 df) 에서는 19% 감소 라는 수치적 패턴 재현. Lattice case 경고와 현대적 대안 (bootstrap, saddlepoint). | |
| Apr 21, 2026 | Generalized Additive Models — 선형 예측자에서 평활 함수로 (McCullagh §15.4) | Statistics, GLM |
McCullagh & Nelder (1989) §15.4 Generalized Additive Models (GAM) 를 심화한다. Hastie-Tibshirani (1986, 1987ab) 의 제안은 선형 예측자 \(\eta = \sum_j \beta_j x_j\) 를 \(\eta = \alpha + \sum_j f_j(x_j)\) 로 확장해 각 공변량의 기여를 데이터가 결정하는 평활 함수 로 바꾼다. §15.4.1 의 local scoring 알고리즘 (IRLS 와 동일한 outer loop + 공변량별 평활 inner loop) 과 back-fitting (부분 잔차 + 평활의 반복) 을 수학적으로 풀어낸다. 각 \(f_j\) 의 식별성 제약 (\(\sum_i f_j(x_{ij}) = 0\)), 수렴 조건, block coordinate descent 해석. §15.4.2 의 네 가지 평활기 (running-lines · cubic spline · running-median · local likelihood) 비교와 span 의 교차검증 결정. Effective degrees of freedom \(\text{tr}(2S - S^T W S W^{-1})\) 공식의 의미 — 선형 smoother 의 “유효 모수 수”. §15.4.3 의 GAM 의 두 용도 (서술 vs 탐색) 와 partially additive model 제안. 1989 년 이후 발전: P-spline (Eilers-Marx), GCV 자동 선택 (Wood 2004), GAMM (일반화 가법 혼합 모형), Bayesian GAM (brms). Python 실전 (pygam, statsmodels.gam) 으로 비선형 회귀의 현대적 해법 시연.
|
|
| Apr 21, 2026 | Ch.15 Exercises — Lizard 편향 각도·\(P\) 사영성·지수 회귀 Bartlett 유도·\(\chi^2\) 분산 검정 (McCullagh §15.6) | Statistics, GLM | McCullagh & Nelder (1989) §15.6 의 5 개 연습문제를 심화 풀이한다. (15.1) Lizard 주효과 모형에서 \(\widehat\beta\) 와 편향 벡터 \(\widehat b\) 의 Fisher 정보 기반 각도 계산 — 근사 (15.5) \(b \simeq p\beta/m_\cdot\) 가 “\(\widehat\beta\) 와 \(\widehat b\) 가 공선” 이라고 주장하는 정도를 수치적으로 확인. (15.2) §15.3.2 의 \(P = D^{(1)} Q D^{(1)} V^{-1}\) 가 사영 행렬 (비대칭이지만 \(P^2 = P\)) 임을 증명. Range space 는 \(\mathcal{R}(D^{(1)} X)\) 로 모수에 의존. (15.3) 지수 회귀에서 식 (15.10) \(\epsilon_p = \frac{1}{6}\sum Q_{ij}^3 - \frac{1}{4}q^T(I-Q)q\) 를 (15.9) 에서 유도하고, 일원 배치 (one-way layout) 설계 행렬에서 두 번째 항이 사라지는 이유. (15.4) Bartlett (1937) 의 고전 검정 — 독립 \(Y_i \sim \sigma_i^2 \chi^2_{f_i}/f_i\) 에서 \(H_0: \sigma_i^2 = \sigma^2\) 의 Bartlett 인수 계산. 전통적 분산 동질성 검정의 출발점. (15.5) Feigl-Zelen 백혈병 데이터로 §15.3.3 의 모든 수치 검증. 각 연습이 Ch.15 의 어떤 개념을 확인하는지, 현대적 관점에서 어떤 교훈을 주는지 정리하며 McCullagh-Nelder 책 전체 블로그 시리즈의 마지막 포스트 로 회고한다. | |
| Apr 21, 2026 | Appendix A — Elementary Likelihood Theory (McCullagh & Nelder) | Statistics, GLM | McCullagh & Nelder (1989) Appendix A 를 심화한다. 책 전반에서 “증명 없이 사용되는” 가능도 이론의 기초를 정리한 부록. 로그 가능도의 미분 항등식 (A.1) \(E(U) = 0\), \(\text{Var}(U) = -E(U')\) 을 밀도 적분 = 1 의 미분으로 유도. 3차 Bartlett 항등식 (A.2) 이 Bartlett 조정 (§15.3) 의 기초임을 설명. 스코어 통계량 · Fisher 정보 · MLE 의 점근 정규성 (A.4) \(\widehat\theta \sim N(\theta, i^{-1})\) 과 LRT 의 점근 \(\chi^2_p\) (A.5) 를 Taylor 전개로 유도. 벡터 모수 확장에서 Fisher 정보 행렬의 eigenvalue 해석과 rank 조건. 방해 모수 \(\theta = (\psi, \lambda)\) 분할에서 \(\widehat\psi\) 의 정보는 Schur 보수 \(\{i^{\psi\psi}\}^{-1} = i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\) (A.6) — “방해 모수 추정으로 인한 정보 손실” 의 정량화. 프로파일 우도 · 조건부 우도 · 주변 우도 세 전략의 차이. (A.7-A.8) 의 방해 모수 하 LRT. Python 시뮬레이션으로 점근 결과들을 소표본에서 수치 검증한다. | |
| Apr 21, 2026 | Appendix B — Edgeworth Series · CLT 의 고차 보정 (McCullagh & Nelder) | Statistics, GLM | McCullagh & Nelder (1989) Appendix B 를 심화한다. 중심극한정리 (CLT) 는 표준화 합 \(X_n\) 의 점근 정규성을 보장하지만 \(O(n^{-1/2})\) 오차 를 남긴다. Edgeworth series (B.1) 은 이 오차를 cumulant 보정 으로 \(o(n^{-1})\) 까지 축소: \(E_n(x) = \Phi(x) - \phi(x)\{\rho_3(x^2-1)/(6\sqrt n) + \rho_4(x^3-3x)/(24n) + \rho_3^2(x^5-10x^3+15x)/(72n)\}\). Hermite 다항식의 등장 배경 · 왜도 \(\rho_3\) 의 \(1/\sqrt n\) 기여와 첨도 \(\rho_4\) 의 \(1/n\) 기여 · lattice (이산) 분포에서 Edgeworth 실패와 연속성 보정 + Sheppard 정밀도 조정 (B.2-3) · 이항 분포 \(Y \sim B(m, \pi)\) 에의 구체 적용 공식. Python 시뮬레이션으로 Edgeworth 근사가 CLT 보다 작은 \(n\) 에서 극적으로 정확함 을 수치 검증. 현대적 대안 (saddlepoint 근사) 과의 비교와 GLM 에서 Edgeworth 가 등장하는 맥락 (Bartlett 조정 유도 등). | |
| Apr 21, 2026 | Appendix C — Likelihood-Ratio Statistics · Bartlett 조정의 증명 (McCullagh & Nelder) | Statistics, GLM | McCullagh & Nelder (1989) Appendix C 를 심화한다. 책 전체의 가장 이론적 부록 — Bartlett 조정 인수 \(b/n = (5\rho_3^2 - 3\rho_4)/12\) (C.4) 가 어떻게 유도되는지를 스칼라 지수족 모수의 단순 경우에서 완전 증명. 로그 우도 \(l(\theta) = n\{t\theta - K(\theta)\}\), MLE \(\widehat\theta = g(t)\), 우도비 \(W^2 = 2\{l(\widehat\theta) - l(\theta_0)\}\) (C.1) 로 출발. 서명된 버전 \(W = \pm\sqrt{W^2}\) 의 표준화된 \(X = (T-\mu_0)/\sqrt{\kappa_2}\) 에서의 멱급수 전개 (C.2) \(W = X - \frac{1}{6}\rho_3 X^2 + \cdots\). 첫 두 모멘트 (C.3) 로부터 Cornish-Fisher 역 Edgeworth 전개 \(W' = X - \frac{1}{6}\rho_3(X^2-1) - \frac{1}{24}\rho_4(X^3-3X) + \frac{1}{36}\rho_3^2(4X^3-7X)\) 도출. 이 전개가 Appendix B 의 Edgeworth series 와 역관계 임을 인식 → \(W' \sim N(0,1) + O(n^{-3/2})\). 마지막 \(W^2 \sim (1+b)\chi_1^2\) 관계에서 Bartlett 인수 \(b\) 가 \(W\) 의 평균 제곱 + 분산으로 해석됨. 다모수·방해 모수 확장의 기본 구조와 Lawley (1956) · McCullagh-Cox (1986) 참고. McCullagh-Nelder (1989) 블로그 시리즈의 마지막 포스트. | |
| Apr 20, 2026 | Git - 여러 feature 브랜치를 main에 일괄 통합하기 | Engineering, Git, DevOps | 여러 로컬 환경(VM, 다른 PC)에서 각자 작업한 feature 브랜치들을 origin에 push해 둔 상태에서, 한 로컬로 모아 main에 통합하고 다시 origin에 반영하는 실전 절차를 정리한다. fetch –prune으로 원격 상태를 먼저 수집하고, –ff-only pull로 feature 브랜치를 동기화한 뒤, –no-ff merge로 통합 시점을 히스토리에 남기는 순차 방식이다. push와 merge의 분리 개념도 함께 다룬다. | |
| Apr 20, 2026 | Ch.1 Probability and Inference — 베이즈 데이터 분석의 3단계와 언어 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.1 을 상세히 다룬다. 베이즈 데이터 분석의 3단계 순환(모델·사후·점검), 표기법, 베이즈 규칙의 재해석, 혈우병 유전·맞춤법 검사 등 이산 예제, 확률의 주관적 의미, 교환가능성, 축구 포인트 스프레드 예제, 주변화·조건화의 실용 공식까지 Ch.1 의 모든 마디를 직관적 비유와 함께 재구성한다. Part I overview 의 Ch.1 압축판을 풀어 쓴 포스트. | |
| Apr 20, 2026 | Ch.1.1~1.4 — 베이즈 프로세스·표기법·베이즈 추론·이산 예제 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.1 의 첫 네 절을 교재 원문 수준으로 심화한다. § 1.1 베이즈 데이터 분석의 3단계와 “모델은 어디서 오는가” 문제, § 1.2 모수·데이터·예측의 표기 규약과 교환가능성·설명변수·계층 모형의 연결, § 1.3 베이즈 규칙·사전 예측· 사후 예측·우도 원리·오즈 형식, § 1.4 혈우병 유전 사후 갱신과 맞춤법 검사 (Google 확률 값 기반) 사후 0.325/0.002/0.673 의 해석까지 수식· 직관·순차 갱신 코드로 세밀하게 다룬다. | |
| Apr 20, 2026 | Ch.1.5~1.8 — 확률의 의미·축구·레코드 링키지·확률 이론 도구 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.1 후반 네 절을 교재 원문 수준으로 심화한다. § 1.5 확률을 불확실성의 척도로 — 대칭·도수· Dutch book 의 세 정당화와 주관/객관의 긴장, § 1.6 672 경기 미식축구 데이터의 경험적 확률과 \(d \sim N(0, 14^2)\) 모수 모델의 타협, § 1.7 Census 레코드 링키지의 혼합 모델과 외부 검증, § 1.8 반복 기댓값·반복 분산·야코비안·logit·probit 변환의 도구 상자까지. Part II~V 의 모델 점검·혼합·재매개변수화의 뿌리가 모두 이 네 절에 심어져 있음을 보여주는 상세 해설. | |
| Apr 20, 2026 | Ch.1.9·1.10·1.12 — 계산·응용 철학·연습문제 풀이 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.1 의 마지막 세 절을 상세히 다룬다. § 1.9 시뮬레이션이 베이즈 계산의 중심인 이유·역 CDF 표본추출· \(S \times k\) 사후 시뮬레이션 표·\(S = 1000\) 이 충분한 이유, § 1.10 응용 베이즈 통계학의 아홉 가지 주제 (많은 모수·계층 구조·모델 점검·구간 우선·시뮬레이션 계산·확률 모델의 도구성·배경 정보·견고한 설계), § 1.12 선정 연습문제 (조건부 정규 혼합·유전 이형접합체·Elvis 쌍둥이·Monty Hall·대기 행렬 시뮬레이션) 의 완전 풀이와 Ch.1 개념과의 연결까지. | |
| Apr 20, 2026 | Ch.2 Single-Parameter Models — 베이즈 추론의 기초 문법이 실제로 작동하는 현장 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 를 개관한다. § 2.1 이항 모델과 Beta 켤레 (여아 출생 예제), § 2.2 사후 = 사전·데이터 절충의 반복 분산 공식, § 2.3 중앙 구간 vs HPD 등 사후 요약, § 2.4 정보적 사전의 두 해석 (모집단·신념 상태) 과 하이퍼파라미터, § 2.5 알려진 분산의 정규 모델과 정밀도 가산 구조, § 2.6 Poisson·지수의 다른 표준 모델, § 2.7 암 발생률의 정보적 사전 예제, § 2.8 비정보적 사전과 Jeffreys 원리, § 2.9 약정보적 사전 까지. Ch.1 이 세운 문법이 네 가지 기본 분포에서 구체적으로 작동하는 방식을 수식과 직관으로 정리. | |
| Apr 20, 2026 | Ch.2.1~2.4 — 이항 모델·사후 절충·요약·정보적 사전 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 전반 네 절을 교재 원문 수준으로 심화한다. § 2.1 이항 모델의 교환가능성 유도·Bayes 당구대 논증·Laplace 의 1745-1770 파리 출생 데이터 (\(P(\theta \geq 0.5) \approx 10^{-42}\)) · 계승 법칙 \(\Pr(\tilde{y} = 1 \mid y) = (y+1)/(n+2)\), § 2.2 반복 기댓값/분산 공식으로 본 사후 분산 축소의 메커니즘, § 2.3 중앙 구간 vs HPD 의 구체적 차이·로짓 변환의 효과, § 2.4 Beta 켤레의 공식 정의·지수족-켤레 사전의 보편 구조· placenta previa 사례 (437/980) 의 민감도 분석 표까지 수식·직관·코드로 다룬다. | |
| Apr 20, 2026 | Ch.2.5~2.7 — 정규·Poisson·지수 켤레와 암 발생률 사례 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 중반 세 절을 상세히 다룬다. § 2.5 알려진 분산의 정규 모델 — 정규-정규 켤레의 정밀도 가산 구조·사후 평균의 세 표현·사후 예측 분산 분해·다중 관측과 \(\bar{y}\) 의 충분성, § 2.6 알려진 평균의 분산 모델 (Inv-\(\chi^2\)), Poisson-Gamma 켤레와 negative binomial 예측, 노출 (exposure) 모델 \(y_i \sim \text{Poisson}(x_i \theta)\), 천식 사망률 예제 (3/200{,}000 → Gamma(6, 7) 사후), 지수 분포의 기억 없음, § 2.7 미국 신장암 지도 역설 — 최고·최저 지역이 같은 이유와 Gamma(20, 430000) 사전으로 계층 모형을 예고하는 Bayes-adjusted 사망률 계산까지 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.2.8~2.11 — 비정보적·약정보적 사전과 연습문제 풀이 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 후반 네 절을 상세히 다룬다. § 2.8 비정보적 사전 — 적절/부적절 (proper/improper) 구분·Jeffreys 의 불변 원리와 Fisher 정보 기반 사전·이항의 Beta(1/2, 1/2) vs Beta(1, 1) vs Beta(0, 0)· 위치·스케일 모수의 피벗 (pivotal) 기반 사전·비정보적 사전의 세 난점, § 2.9 약정보적 사전 — 두 가지 구성 전략 (비정보에서 정보 추가 vs 강정보에서 완화) 과 대칭성 원칙, § 2.10 Bayes/Laplace 역사적 참고문헌, § 2.11 선정 연습문제 (Beta(4,4) 검열된 관측·사후 평균 절충 증명·항공 사고율 모델· HPD 변환 불변성 위반·검열된 지수 데이터) 의 완전 풀이. | |
| Apr 20, 2026 | Ch.3 Introduction to Multiparameter Models — 다모수 베이즈의 전 지도 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.3 를 개관한다. § 3.1 nuisance 모수 주변화의 기본 기법, § 3.2 \(\mu, \sigma^2\) 공동 추정의 정규-Inv-\(\chi^2\) 분해와 Newcomb 광속 예제, § 3.3 정규 켤레 사전, § 3.4 다항 모델과 Dirichlet 사전 (1988 대선 여론조사), § 3.5 알려진 공분산의 다변량 정규, § 3.6 Inverse-Wishart 켤레, § 3.7 bioassay 로지스틱 회귀의 격자 계산, § 3.8 모델링·계산 전략 요약까지. Ch.2 의 단일 모수 기법이 다모수로 확장될 때 필요한 모든 도구를 수식·직관·예제로 정리. | |
| Apr 20, 2026 | Ch.3.1~3.3 — 주변화와 정규 \((\mu, \sigma^2)\) 의 공동 사후 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.3 전반 세 절을 교재 원문 수준으로 심화한다. § 3.1 nuisance 모수 주변화의 두 등가 형태와 시뮬레이션 전략·Gibbs 의 원형, § 3.2 정규 \((\mu, \sigma^2)\) 비정보 사전 하의 공동 사후 완전 유도·\(\bar{y}\) 와 \(s^2\) 의 충분성·조건부 \(\mu \mid \sigma^2 \sim N(\bar{y}, \sigma^2/n)\)· 주변 \(\sigma^2 \mid y \sim \text{Inv-}\chi^2(n-1, s^2)\)·주변 \(\mu \mid y \sim t_{n-1}(\bar{y}, s^2/n)\)· 사후 예측 \(t_{n-1}(\bar{y}, s\sqrt{1 + 1/n})\)·Newcomb 광속 (1882) 예제의 진짜 값 33.0 이 95% 구간 밖에 있는 모델 실패 신호, § 3.3 정규-Inv-\(\chi^2\) 켤레 가족의 \(\mu \mid \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)\) 구조와 사후 4 하이퍼파라미터 갱신 공식까지, 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.3.4~3.6 — 다항 모델·다변량 정규의 공동 사후 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.3 중반 세 절을 상세히 다룬다. § 3.4 다항 모델과 Dirichlet 켤레 사전 (Beta 의 다차원 일반화)·1988 CBS 여론조사 \(y = (727, 583, 137)\) 에서 \(\theta_1 - \theta_2\) 의 사후 확률 > 99.9%·비정보 Dirichlet 선택과 사후 proper 조건, § 3.5 다변량 정규 \(y \mid \mu, \Sigma \sim N(\mu, \Sigma)\) 의 켤레 사전·정밀도 행렬 가산 \(\Lambda_n^{-1} = \Lambda_0^{-1} + n \Sigma^{-1}\)· 조건부 부분 벡터의 회귀 형태 해석 (Part IV 선형 모형의 뿌리)·예측 분포, § 3.6 미지 \((\mu, \Sigma)\) 의 Inverse-Wishart 켤레·4 하이퍼파라미터 갱신 공식· \(\mu\) 의 다변량 \(t\) 주변·Jeffreys 비정보·Scaled Inverse-Wishart 와 LKJ 현대 대안까지 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.3.7~3.10 — Bioassay 격자 계산과 연습문제 풀이 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.3 후반 네 절을 상세히 다룬다. § 3.7 bioassay 실험 (20 마리, 4 용량)의 로지스틱 회귀 \(\text{logit}(\theta_i) = \alpha + \beta x_i\) 격자 계산·rough MLE (0.8, 7.7)로 격자 범위 설정·1000 표본 추출·LD50 = \(-\alpha/\beta\) 의 사후·\(\Pr(\beta > 0) > 0.999\) 에서 약효 확증, § 3.8 Ch.1~3 을 종합한 5 단계 베이즈 계산 전략, § 3.9 지적 계보, § 3.10 선정 연습문제 (Dirichlet 주변 = Beta, 1988 ABC 토론 전후 \(\alpha_2 - \alpha_1\), Behrens-Fisher 닭 칼슘 유출, 베타 차단제 2×2 테이블 odds ratio, 반올림 측정) 완전 풀이까지 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.4 Asymptotics and Connections to Non-Bayesian Approaches — 점근이 만드는 다리 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.4 를 개관한다. § 4.1 사후분포의 정규 근사 (Taylor 전개·관측 정보·bioassay 재방문), § 4.2 대표본 이론 (일관성·점근 정규성·Fisher 정보·가능도 지배), § 4.3 반례 (비식별 모수·매개변수 수 증가·aliasing·무계 가능도·improper 사후· 경계 수렴·꼬리), § 4.4 빈도주의적 평가 (신뢰 포괄·일관성·효율성), § 4.5 빈도주의 방법의 베이즈 해석 (MLE·비편향·신뢰 구간·가설검정·붓스트랩· 비모수), § 4.6~4.7 참고문헌·연습까지. Ch.1~3 의 단순 모델이 Ch.4 에서 왜 빈도주의 결과와 자연스럽게 합류하는지, 그리고 언제 갈라지는지를 수식·직관· 코드로 정리. | |
| Apr 20, 2026 | Ch.4.1~4.3 — 사후 정규 근사·대표본 이론·반례 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.4 전반 세 절을 교재 원문 수준으로 심화한다. § 4.1 로그 사후의 Taylor 전개와 관측 정보 \(I(\hat\theta)\)·정규 \((\mu, \log\sigma)\) 공동 사후의 완전 유도·\(\chi^2_d\) 등고선 해석·부분 공간 정규 근사·bioassay 의 실제 vs 근사 비교, § 4.2 점근 정규성의 수학적 기반·Fisher 정보 \(J(\theta)\)·로그 사후 곡률의 사전/가능도 분해·KL 발산 최소화 모수·가능도가 사전을 지배하는 속도, § 4.3 일곱 가지 반례 (비식별 · 매개변수 수 증가 · aliasing · 무계 가능도 · improper 사후 · 경계 수렴 · 꼬리) 의 구체적 예와 해결책까지 수식·직관· 코드로 완결. | |
| Apr 20, 2026 | Ch.4.4~4.7 — 빈도주의 평가·베이즈 해석·연습문제 풀이 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.4 후반 네 절을 교재 원문 수준으로 심화한다. § 4.4 베이즈 추론의 빈도주의적 평가 — 대표본 대응·일관성·효율성·신뢰 포괄의 정확한 의미, § 4.5 빈도주의 기법의 베이즈 해석 — MLE·비편향 추정의 한계 (Galton 키 예제)·신뢰 구간·점 가설검정· 다중 비교·붓스트랩·Wilcoxon 순위 검정, § 4.6 참고문헌, § 4.7 선정 연습문제 (Cauchy 정규 근사·변환 아래의 점근 정규성·델타 방법·Bayes 손실 함수· 비편향 불가능·범위 제약 추정·bioassay 의 빈도주의 재분석) 완전 풀이. | |
| Apr 20, 2026 | Ch.5 Hierarchical Models — 부분 풀링과 shrinkage 의 수학 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.5 를 개관한다. § 5.1 쥐 종양 예제로 본 “이력 데이터로 사전 구성”, § 5.2 교환가능성과 계층 모형의 수학적 정의, § 5.3 Beta-Binomial 계층 모형의 주변-조건부 분해, § 5.4 정규 교환가능 평균 모델의 분산 성분 추정, § 5.5 8 학교 SAT 코칭 실험 — Bayesian 계층 모형이 “모두 같다” 와 “모두 다르다” 의 두 극단을 피하는 방식, § 5.6 메타분석의 계층적 처리, § 5.7 분산 모수에 대한 약정보적 사전 (half-Cauchy) 까지. Ch.5 가 Part I 을 닫는 이유 — 단순 모델 (Ch.2~3) 과 점근 (Ch.4) 위에 “계층” 을 얹어 현대 응용 베이즈의 핵심 도구 를 완성. | |
| Apr 20, 2026 | Ch.5.1~5.3 — 계층 모형의 언어와 쥐 종양 Beta-Binomial 완전 분석 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.5 전반 세 절을 교재 원문 수준으로 심화한다. § 5.1 쥐 종양 예제 (Tarone 1982, 70 이력 실험) 로 본 “이력 데이터로부터 사전 구성” 의 동기 · 고정 사전 vs Full Bayes, § 5.2 교환가능성의 수학적 정의 · de Finetti iid 혼합 정리 · 이혼율 사고실험의 세 시나리오 (정보 없음 → 산악 주 → Nevada 식별) · 공변량 조건부 교환가능 · full Bayesian treatment of hierarchical models · hyperprior 선택, § 5.3 Beta-Binomial 계층의 공동-조건부-주변 3 단계 유도 (5.6, 5.7, 5.8) · \((\log(\alpha/\beta), \log(\alpha+\beta))\) 재매개변수화 · \((\alpha+\beta)^{-5/2}\) hyperprior 의 proper 조건 · 격자 계산 · 1000 표본 추출 · 71 개 \(\theta_j\) 의 shrinkage 패턴까지 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.5.4~5.6 — 정규 계층 모형·8 학교·메타분석 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.5 중반 세 절을 교재 원문 수준으로 심화한다. § 5.4 정규 교환가능 모델의 공동 사후 (5.16)· 조건부 \(\theta_j \mid \mu, \tau, y\) 의 정밀도 가중 평균 (5.17)·\(\mu\) 주변화 후 \(p(\tau \mid y)\) 유도 (5.21)·\(p(\mu \mid \tau, y)\) 의 정규성·계산 전략· 빈도주의 \(\hat\tau^2\) 가 음수 되는 결함, § 5.5 8 학교 SAT 코칭 실험 — no pooling vs complete pooling 의 문제·\(p(\tau \mid y)\) 와 shrinkage 패턴· “학교 A 가 최고” 라는 결론이 사라지는 이유·다중 비교의 자동 해결, § 5.6 베타차단제 22 임상 시험 메타분석·\(\mu\) 의 95% 구간 odds ratio [0.69, 0.90]·complete pooling [0.70, 0.85] 의 과신·새 연구 예측 분포의 넓은 꼬리까지 수식·직관·코드로 완결. | |
| Apr 20, 2026 | Ch.5.7~5.9 — 분산 모수의 약정보 사전과 계층 연습문제 심화 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.5 후반 세 절을 교재 원문 수준으로 심화한다. § 5.7 계층 분산 모수의 사전 선택 — 균등 사전의 \(J\) 제약·\(\log\tau\) 균등의 improper·Inverse-Gamma(\(\epsilon, \epsilon\)) 의 결함· Half-Cauchy 의 실용성·8 학교에서 세 사전 비교·3 학교 문제로 드러나는 약정보 사전의 필요성, § 5.8 지적 계보 (Stein shrinkage → Efron-Morris → 현대 계층 모형), § 5.9 선정 연습문제 (교환가능성·다중 비교·2 \(J\) 모수의 mixture 역설·de Finetti 반례·계층 로그 오즈·분산 사전 proper 조건) 완전 풀이까지 수식·직관·코드로 완결. Part I (Ch.1~5) 의 마지막 심화. | |
| Apr 20, 2026 | Part I: Fundamentals of Bayesian Inference — 베이즈 추론의 언어와 문법 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) 의 Part I 다섯 장을 한 장으로 조망한다. Ch.1 확률 모델의 3단계, Ch.2 켤레 사전과 단일 모수 추론, Ch.3 다모수 주변화, Ch.4 사후 정규 근사와 빈도주의 연결, Ch.5 교환가능성 기반 계층 모형·shrinkage 를 수식·직관·응용 예제를 함께 정리한다. 후속 챕터별 상세 포스트의 출발점이 되는 지도. | |
| Apr 20, 2026 | Part II: Fundamentals of Bayesian Data Analysis — 점검·비교·수집·결정의 사이클 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) 의 Part II 네 장을 한 장으로 조망한다. Ch.6 사후 예측 점검과 민감도 분석, Ch.7 WAIC·LOO-CV·베이즈 팩터·모델 확장, Ch.8 무시가능성(ignorability)·표본조사·관찰 연구, Ch.9 효용 함수와 기대 효용 최대화를 수식·직관·응용 예제와 함께 정리한다. Part I 의 “언어” 가 Part II 에서 “분석 사이클” 로 어떻게 이어지는지 보여주는 지도. | |
| Apr 20, 2026 | Part III: Advanced Computation — 사후분포를 어떻게 실제로 계산하는가 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) 의 Part III 네 장을 한 장으로 조망한다. Ch.10 기각·중요도 표본추출, Ch.11 Gibbs 와 Metropolis-Hastings 의 기본 MCMC, Ch.12 HMC·NUTS·재매개변수화로 이어지는 효율적 MCMC, Ch.13 정규·EM·변분·EP 근사를 수식·직관·디버깅 규칙과 함께 정리한다. “분석의 의미” 를 다룬 Part I·II 뒤에서 “그 사후분포를 실제로 계산하는 엔진” 이 어떻게 조립되는지를 보여주는 지도. | |
| Apr 20, 2026 | Part IV: Regression Models — 선형에서 결측까지, 베이즈 회귀의 전 지형 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) 의 Part IV 다섯 장을 한 장으로 조망한다. Ch.14 정규 선형 회귀의 베이즈 분석, Ch.15 계층적 회귀(varying intercepts/slopes·ANOVA), Ch.16 GLM 의 베이즈 확장(logistic·Poisson·과분산·MRP), Ch.17 t 분포 기반 robust 추론, Ch.18 결측자료의 다중 대체까지, Part III 계산 엔진 위에서 어떻게 구체적 모델들이 조립되는지를 수식·직관·cross-link 로 정리한다. | |
| Apr 20, 2026 | Part V: Nonlinear and Nonparametric Models — 파라미터 회귀 너머의 베이즈 | Statistics, Bayesian | Gelman et al. Bayesian Data Analysis (3rd ed., 2013) 의 Part V 다섯 장을 한 장으로 조망한다. Ch.19 매개 비선형 모델(약동학·serial dilution), Ch.20 기저 함수·스플라인 회귀, Ch.21 Gaussian Process 와 공분산 함수 설계, Ch.22 유한 혼합 모형과 라벨 스위칭, Ch.23 Dirichlet Process 와 무한 혼합까지, 함수 자체가 사전분포의 대상이 되는 비모수 베이즈 프레임워크를 수식·직관·응용 예제와 함께 정리한다. | |
| Apr 19, 2026 | Extended Quasi-likelihood — 분산 함수와 산포 모수까지 동시에 추정하기 | Statistics, GLM | McCullagh & Nelder (1989) §9.6 의 Extended Quasi-likelihood 를 상세히 전개한다. 준우도 \(Q(\mu;y)\) 가 \(\beta\)-도함수만 다룰 수 있는 한계, \(\sigma^2\) 도함수에 대해서도 우도처럼 작동하도록 설계된 \(Q^+(\mu,\sigma^2;y) = -D(y;\mu)/(2\sigma^2) - \tfrac{1}{2}\log\sigma^2\), \(E[\partial Q^+/\partial\sigma^2]=0\) 제약으로부터 \(h_1(\sigma^2)=\log\sigma^2\) 유도, saddlepoint 근사적 정당화와 누적률 조건 (9.21), 스코어 모멘트 및 정보 대각성, 분산 함수 선택 비교, 산포 모수를 공변량 함수로 모델링하는 길(Ch.10) 을 직관적 해석과 함께 다룬다. | |
| Apr 19, 2026 | Quasi-likelihood 심화 결과와 연습 — 11개 연습문제의 통합 해설 | Statistics, GLM | McCullagh & Nelder (1989) §9.8 의 연습문제 9.1~9.11 을 주제별로 통합 해설한다. Poisson-Gamma 혼합의 세 가지 분산 함수 형태(Ex 9.1), Voter Transition 우도 재표현과 EM 해석(Ex 9.2-9.3), 선적분 항등식(Ex 9.4), Löwner 역부등식(Ex 9.7), 타원 적합 확장(Ex 9.5), 준우도 존재성의 공분산 구조 조건(Ex 9.6), 정규 가정 오류 하의 강건성(Ex 9.8-9.9), Mantel-Haenszel 추정량의 추정함수 유도(Ex 9.10-9.11) 을 직관적 해석과 함께 다룬다. | |
| Apr 19, 2026 | Joint Modelling of Mean and Dispersion — 평균과 산포를 동시에 회귀하는 이중 GLM | Statistics, GLM, Experimentation | 관측값의 평균 \(\mu_i\) 뿐 아니라 산포 \(\phi_i\) 자체를 공변량의 함수로 모형화한다. Q⁺ 기준, 첨도·자유도 보정, Godambe-Thompson 결합 최적 추정방정식, Leaf-spring 실험(Taguchi 품질 공학)으로 이어지는 전체 체계를 유도한다. | |
| Apr 19, 2026 | Model Specification for Joint Mean-Dispersion — 평균-산포 이중 GLM 의 모듈 설계 | Statistics, GLM | Joint mean-dispersion 모형을 “한 쌍의 GLM” 으로 명시적으로 분해한다. \(\phi_i V(\mu_i)\) 의 승법 구조, 산포 응답 \(d_i\) 의 두 선택지 (\(r_P^2\) vs \(r_D^2\)), 산포 연결함수 (identity vs log), 산포 분산함수 \(V_D(\phi)\) 선택, 그리고 두 모형의 상호 의존성에서 교대 IRLS 가 자연스럽게 도출되는 원리를 상세히 다룬다. | |
| Apr 19, 2026 | Interaction between Mean and Dispersion Effects — 평균 모형의 누락이 산포 추정을 어떻게 오염시키는가 | Statistics, GLM | 이중 GLM 에서 평균 모형이 조금만 잘못되어도 그 오차가 산포 모형에 허위 효과로 번진다. null 대조(null contrast)와 replicate 대조(replicate contrast)의 차이, 누락된 주효과·상호작용이 산포 공변량 이차항으로 위장되는 메커니즘, 그리고 \(V(\mu)\) 오선택이 산포 추정을 왜곡하는 경로를 직관과 수식으로 풀어낸다. | |
| Apr 19, 2026 | Extended Quasi-Likelihood as a Criterion — Q⁺ 를 이중 GLM 의 적합 기준으로 삼기 | Statistics, GLM | §9.6 의 Q⁺ 를 평균·산포 결합 추정의 목적함수로 채택한다. \(\beta\) 에 대한 편미분이 가중 Wedderburn 방정식을 주고, \(\gamma\) 에 대한 편미분이 응답변수 \(d_i\)·분산함수 \(V_D(\phi)=\phi^2\) 의 감마 GLM 과 동치임을 유도한다. Q⁺ 최적화는 “산포 응답이 감마-로그 GLM 을 따른다”는 암묵적 가정이며, 이는 근사일 뿐이다. | |
| Apr 19, 2026 | Adjustments of the Estimating Equations — 첨도·자유도 보정과 \(Q_M^+\) (McCullagh §10.5) | Statistics, GLM | \(Q^+\) 로 유도된 산포 추정식은 \(d_i \sim \phi_i \chi_1^2\) 를 암묵적으로 가정한다. 실제 자료는 첨도 \(\rho_4\) 와 평균 모형에 적합된 \(p\) 개 모수 때문에 \(d_i\) 의 평균·분산이 표준 감마 가정에서 벗어난다. §10.5 는 두 보정 — 사전 가중 \((1+\rho_4/2)^{-1}\) 과 자유도 계수 \(\nu/n\) — 을 통해 \(Q_M^+\) 를 정의하고, \(r_P^2\)/\(r_D^2\) · 가중/무가중 · df-보정/무보정의 2³=8 조합을 체계화한다. | |
| Apr 19, 2026 | Joint Optimum Estimating Equations — Godambe-Thompson 이중 추정 (McCullagh §10.6) | Statistics, GLM, Math | \(Q^+\) 기반 산포 추정식 (10.5) 는 \(\kappa_3 = 0\) 가정을 묵시적으로 내포한다. §10.6 은 이 가정을 풀고 4 차까지의 누율 정보 \((\kappa_2, \kappa_3, \kappa_4)\) 를 모두 사용하는 공동 최적 추정 방정식을 유도한다. 평균 응답 \(g_{1i} = Y_i - \mu_i\) 와 산포 응답 \(g_{2i} = (Y_i-\mu_i)^2 - \phi_i V(\mu_i)\) 의 공분산 구조를 명시적으로 쓴 \(D_i^\top V_i^{-1}\) 가중이 (10.7) 이다. | |
| Apr 19, 2026 | Leaf-spring Example — 트럭 판스프링 \(2^{5-1}\) 공정 실험의 이중 GLM (McCullagh §10.7) | Statistics, GLM, Experimentation | Pignatiello & Ramberg (1985) 의 트럭 판스프링 \(2^{5-1}\) factorial 실험을 이중 GLM 으로 재분석한다. 평균 모형 \(M=(B+C)\cdot O + E\) 는 깔끔히 적합되지만, 산포 모형은 replicate 대조(Table 10.3)와 null 대조(Table 10.5) 에서 \(B, C\) 계수의 부호가 완전히 반대로 나온다. 이 역전은 조합 분석 (Table 10.4) 에서 효과를 상쇄시켜 “효과 없음” 이라는 잘못된 결론을 유도한다. 세 분석의 충돌과 그 진단을 §10.2-§10.5 이론으로 설명한다. | |
| Apr 19, 2026 | Ch.10 Exercises — 지수 이탈도 \(7/6\)·공통 모수·Table 10.1 유도·블록 대각 정보 (McCullagh §10.9) | Statistics, GLM | McCullagh & Nelder Ch.10 의 네 연습문제를 풀이한다. (10.1) 지수 오차에서 감마 평균 이탈도가 \(7/6\) 인 이유, (10.2) (10.7) 유도에서 \(\beta, \gamma\) 공통 모수 배제 조건의 필요성, (10.3) Table 10.1 의 포아송·이항 첨도 계수 유도, (10.4) \(Q^+\) 기반 기대 Fisher 정보 행렬의 블록 대각 구조. | |
| Apr 19, 2026 | Models with Additional Non-Linear Parameters — 변동함수·연결함수·공변량 속에 숨어 있는 미지 모수 | Statistics, GLM, Engineering, Optimization | GLM 의 분산함수 \(V(\mu)\), 연결함수 \(g(\mu)\), 또는 공변량 변환에 미지의 비선형 모수가 들어가는 모형을 다룬다. Pregibon 의 linearization, Box-Tidwell 반복법, 음이항의 \(k\), 권력 연결 \(\mu^\lambda\) 의 프로파일 이탈도를 하나의 체계로 정리한다. | |
| Apr 19, 2026 | Parameters in the Variance Function — 음이항의 \(k\) 와 반올림 오차 분산 | Statistics, GLM | 분산함수 \(V(\mu)\) 내부에 미지의 비-산포(non-dispersion) 모수가 있을 때의 추정 체계를 음이항의 \(k\) 와 반올림 오차 분산 \(V = \tau^2 + \sigma^2 \mu^2\) 를 중심으로 전개한다. Poisson-Gamma 혼합의 유도, canonical link 문제, profile likelihood, Exercise 11.1 의 누율 전개까지 하나의 논리로 정리한다. | |
| Apr 19, 2026 | Parameters in the Link Function — Box-Cox 멱 링크와 Pregibon 선형화 | Statistics, GLM | 멱 링크 \(\eta = \mu^\lambda\) 의 \(\lambda\), shifted power \((\mu+\alpha)^\lambda\), 이항 데이터의 logit-cloglog 연속 가족을 Pregibon (1980) Taylor 선형화로 통합 처리한다. Goodness-of-link 검정의 score 기하학, 자동차 보험 예제, 데이터 변환과 적합값 변환의 철학적 차이까지 유도 중심으로 정리한다. | |
| Apr 19, 2026 | Non-Linear Parameters in the Covariates (McCullagh §11.4) | Statistics, GLM, Engineering, Optimization | GLM 의 설계행렬 안에 모수가 선형으로 들어오지 않는 상황, 즉 공변량 자체가 \(g(x;\theta)\) 꼴로 미지 모수 \(\theta\) 를 담는 경우를 다룬다. Box-Tidwell(1962) 선형화를 유도하고, 보조 공변량 \(v=\partial g/\partial \theta\) 를 더한 이중 IRLS 가 어떻게 \(\theta\) 를 끌어올리는지, 분산 행렬이 왜 최종 반복에서 \(\hat{\beta}v\) 로 재계산되어야 하는지, 지수합 \(\sum \beta_j e^{k_j x_j}\) 에서 식별성이 쉽게 붕괴되는 이유, 약물 혼합 \(\log(x_1+\theta x_2)\) 에서 profile RSS 곡선이 선형화의 대안이 되는 맥락을 직관과 수식으로 함께 풀어낸다. | |
| Apr 18, 2026 | 주변 우도와 조건부 우도 — 장해 모수를 다루는 세 가지 전략 | Statistics | 통계 모형에 관심 모수와 장해 모수가 공존할 때, 전체 우도 대신 축약 우도를 사용하는 세 가지 전략 — 주변 우도(적분), 조건부 우도(조건부화), 프로파일 우도(플러그인) — 의 정의, 수학적 구조, 직관적 해석, 정보 손실 비교를 다룬다. 베이지안 맥락에서의 주변 우도(모형 증거)와 REML의 연결도 함께 정리한다. | |
| Apr 18, 2026 | 초기하분포족 — 중심, 비중심, 다변량 확장과 조건부 추론 | Statistics, GLM, Math | 조건부 우도의 핵심 도구인 초기하분포족을 체계적으로 다룬다. 중심 초기하분포의 유한 모집단 추출 해석과 이항 조건부화 해석, 비중심 초기하분포의 지수 가중 구조와 오즈비 모수화, 다변량 확장과 그 근사 공식, \(2 \times 2\) 표에서의 조건부 추론 응용까지 수식과 직관을 병행하여 전개한다. | |
| Apr 18, 2026 | Some Applications Involving Binary Data | Statistics, GLM, Experimentation, Epidemiology | 조건부 우도 이론을 이항 자료에 적용한다. 단일 2x2 표에서 프로파일 이탈도와 조건부 이탈도를 비교하고, 여러 층화 표를 Mantel-Haenszel 검정으로 결합한 뒤, Ille-et-Vilaine 식도암 사례-대조 연구로 실전 적용을 시연한다. | |
| Apr 18, 2026 | Some Applications Involving Polytomous Data | Statistics, GLM | 조건부 우도 이론을 다범주 반응(polytomous data)에 적용한다. 명목형 매칭 쌍에서 quasi-symmetry/Bradley-Terry 모형을 유도하고, 순서형 반응에서 비례 오즈 모형의 조건부 추정을 전개한 뒤, 치즈 맛 실험으로 반복 계산 과정을 시연한다. | |
| Apr 18, 2026 | Conditional Likelihoods — Further Results and Exercises | Statistics, GLM | Ch.7 조건부 우도의 심화 결과와 연습문제를 재구성한다. 정규 모형의 축약 우도와 Bartlett (1936) 결과, 공간 공분산의 REML 유도, Fieller-Creasy 문제, 사영 행렬과 일반화역행렬, 초기하 반복 알고리즘, 순서형 분산 근사, Ille-et-Vilaine 확장 모형을 다룬다. | |
| Apr 18, 2026 | Models for Data with Constant Coefficient of Variation | Statistics, GLM | 변동계수가 일정한 연속 자료를 위한 GLM 프레임워크. 감마 분포의 밀도·적률·정규화 변환, 정준(역수)·로그·항등 연결의 세 모형 계열, 이탈도와 산포 모수 추정, 자동차 보험·혈액 응고 예제까지 McCullagh & Nelder Ch.8 전체를 상세히 전개한다. | |
| Apr 18, 2026 | The Gamma Distribution | Statistics, GLM, Math | 감마 분포를 McCullagh & Nelder의 \((\mu,\nu)\) 매개변수화로 상세히 다룬다. 밀도 함수의 유도, 누율 생성 함수, 형태 모수 \(\nu\) 의 역할, 합성 성질, 세제곱근 정규화 변환까지 직관적 설명과 함께 전개한다. | |
| Apr 18, 2026 | Models with Gamma-Distributed Observations | Statistics, GLM | 감마 GLM의 모형 구성 요소를 상세히 다룬다. 분산 함수 \(V(\mu)=\mu^2\) 의 지수족 유도, 이탈도와 \(D^+\) 대안, 정준(역수) 연결의 역다항식 반응곡면, 로그 연결의 곱셈적 모형과 가중 함수 동일성, 항등 연결의 분산 성분 추정, 산포 모수의 MLE(디감마 방정식)와 모멘트 추정량까지 McCullagh §8.3 전체를 전개한다. | |
| Apr 18, 2026 | Gamma GLM Examples | Statistics, GLM | 감마 GLM의 네 가지 실전 예제를 상세히 다룬다. 자동차 보험 청구금(역수 연결, 3원 요인), 혈액 응고 시간(역수 연결, 비례 모형), 일일 강수량(마르코프 체인 + 감마 로그 연결의 2단계), 초파리 배아 발생률(역수 연결, 온도 반응곡선)까지 McCullagh §8.4 전체를 데이터·모형·적합도·해석과 함께 전개한다. | |
| Apr 18, 2026 | Gamma GLM — Further Results and Exercises | Statistics, GLM | Ch.8 감마 GLM의 심화 결과와 연습문제를 재구성한다. log Y 의 표준편차와 CV 근사, 감마 CGF, 표본 평균과 Dirichlet 통계량의 독립성, MLE 의 mu-nu 독립성, 산포 추정의 편향 보정, 보리-잡초 경쟁 실험, 로그 변환 최소제곱의 점근 효율, 감마 복합 가설의 정확 검정을 다룬다. | |
| Apr 18, 2026 | Quasi-likelihood Functions — 개관 | Statistics, GLM | 완전한 확률분포를 특정하지 않고, 오직 평균과 분산의 관계 \(\operatorname{var}(Y) = \sigma^2 V(\mu)\) 만으로 GLM 수준의 추론을 수행하는 준우도(quasi-likelihood) 방법을 개관한다. 준-스코어의 세 성질, 독립·종속 관측에서의 준우도 구성, Table 9.1 의 분산함수-준우도 대응, 경로 독립성 조건과 정준 모수, 보리 잎 반점(leaf-blotch) 예제, 과산포·GEE 와의 연결까지 다룬다. | |
| Apr 18, 2026 | Independent Observations — 준우도 상세 | Statistics, GLM, Math | 독립 관측 하의 준우도 이론을 처음 원리부터 상세히 전개한다. 공분산 행렬의 대각성 및 함수적 독립 가정이 왜 필요한가, 준-스코어의 세 모멘트 성질을 직접 유도하고, Table 9.1 의 모든 분산함수 조합에 대한 준우도 적분을 단계별로 계산한다. Newton-Raphson·Fisher 스코어링의 대수적 구조와 IRLS 의 작업 반응·가중치, 1단계 추정량의 점근 성질, \(\sigma^2\) 의 Pearson 추정, leaf-blotch 자료의 완전한 수치 적합까지 포함한다. | |
| Apr 18, 2026 | Dependent Observations — 준우도의 확장과 경로 독립성 | Statistics, GLM, LDA | 관측이 독립이 아닌 경우의 준우도 이론을 상세히 다룬다. 공분산 행렬이 비대각일 때 준-스코어는 여전히 세 성질을 유지하지만, 스칼라 함수로서의 \(Q\) 가 존재하려면 경로 독립성 조건이 필요하다. 볼록 함수 \(b^*(\mu)\) 와 정준모수의 자연 복원, \(\mathbf{V}^{-1}\) 의 분해 조건, 직선 경로 선적분 표현, voter transition 예제의 완전한 수치, GEE 와의 직접 연결까지 전개한다. | |
| Apr 18, 2026 | Optimal Estimating Functions — 준스코어의 일반화와 D, V, g의 최적 결합 | Statistics, GLM, Math | McCullagh & Nelder (1989) §9.4 의 Optimal Estimating Functions 를 상세히 전개한다. 추정함수(estimating function) 의 정의, 기본 추정함수 \(g_i\) 의 조건부 무편향성, 계수행렬 \(D = -E[\partial g/\partial\theta\,|\,A]\) 의 유도, 표준 결합 공식 \(U = D^\top V^{-1} g\) 의 선형변환 불변성, 점근 분산 \((D^\top V^{-1} D)^{-1}\), 마팅게일 이론과의 연결, Fieller-Creasy 문제(부수모수 제거), Avebury 거석환(원 적합) 예제를 직관적 해석과 함께 다룬다. | |
| Apr 18, 2026 | Optimality Criteria — 준스코어의 최적성을 엄밀히 증명하기 | Statistics, GLM, Math | McCullagh & Nelder (1989) §9.5 의 Optimality Criteria 를 상세히 전개한다. 준스코어(9.5)와 최적 추정함수(9.15)의 “최적” 이 무슨 뜻인지 비교 클래스와 기준을 명시적으로 정의하고, 선형 추정함수 클래스 내에서 공분산 차이가 NND 임을 사영(residual covariance) 으로 해석하며, Gauss-Markov 정리와의 유비, 등호 조건 \(H \in \operatorname{col}(V^{-1}D)\), 비선형 추정함수로의 조건부 확장, 그리고 최적성 주장의 한계(점근성·조건화 모호성) 를 직관적 해석과 함께 다룬다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 01: 기획과 의도 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | MINERVA 프로젝트 3대 과제 중 데이터 표준화 도우미 Agent의 ML 브랜치가 수행하는 도메인 그룹 분류 task의 기획 배경, 문제 정의, Rule·ML·RAG 하이브리드 엔진 내 역할, 성공 기준, 그리고 이 시리즈가 답할 핵심 질문 네 가지를 정리한다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 02: 데이터 큐레이션 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | 도메인 분류기가 학습한 7,698건의 데이터가 어떤 경로로 구성되었는지 추적한다. LLM 합성·규칙 기반 합성·RAG grounded 합성 세 소스의 통합 배경, “일반” → “일반단어” 라벨 정규화, 실측 분포 분석, 그리고 표준 용어 레코드의 여러 컬럼 중 왜 도메인명 한 컬럼만 학습 입력으로 선택했는가에 대한 서비스 스키마 일치· redundancy+noise 분해·접미사 신호 집중 세 근거를 정리한다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 03: 모델 후보 선정 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | BiLSTM·KoBERT·mBERT·ALBERT(Kor)·DistilKoBERT·KLUE-RoBERTa·XLM-RoBERTa· multilingual-e5 여덟 개 모델이 후보에 포함된 근거를 커버리지 매트릭스 (from-scratch / 한국어 전용 / 다국어 / 임베딩 동결 × 경량~대형)로 정리한다. 각 모델에 대해 선정 전략·기술 구조·장점·단점·사전 가설·사후 실측 요약을 상세히 다룬다. “왜 이 모델인가”라는 의문이 제기될 때 수치로 답할 수 있는 근거를 쌓는 것이 이 편의 목적이다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 04: 실험 설계와 학습 파이프라인 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | 8개 후보 모델을 공정하게 비교하기 위한 실험 파이프라인 설계를 다룬다. Train/Val/Test 분할 전략(60/20/20 vs 70/10/20)의 근거, Best Epoch 추적·복원 메커니즘, random_state·LabelEncoder·training_summary 표준화, 그리고 K-Fold CV가 드러낸 단일 split의 한계를 통합적으로 정리한다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 05: 결과 분석과 통계 검증 | Data Science, Machine Learning, Deep Learning, NLP, Statistics, MINERVA | 8개 후보 모델의 단일 split 결과를 통계적으로 해석한다. Test Acc·Macro F1·Weighted F1 비교, 95% 신뢰구간 계산, 페어드 McNemar 검정, Holm 다중비교 보정, 파레토 프론티어 시각화를 거쳐 “정확도 1~2%p 차이가 통계적으로 의미 있는가”라는 질문에 수치로 답하는 것이 이 편의 목적이다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 06: Task 재정의 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | 5편까지 누적된 단서들(상위 5개 묶음, ALBERT≡mBERT 동률, 일반단어 공통 천장)을 한 방향으로 엮는다. 실험 2 접미사 ablation, 실험 1 RAG-only holdout, 실험 4 일반단어 noise floor 측정 결과를 통해 “이 task가 무엇이었나”를 재정의한다. 의미 이해가 아니라 한국어 복합명사의 마지막 1~2 형태소 식별이라는 결론과 그 결론이 모델 비교에 소급 작용하는 방식을 정리한다. | |
| Apr 17, 2026 | MINERVA 도메인 분류기 07: 배포 의사결정과 후속 실험 | Data Science, Machine Learning, Deep Learning, NLP, MINERVA | 실험 5 latency 실측, 실험 6 K-Fold CV, 그리고 6편까지의 Task 재정의를 통합해 최종 배포 결정을 내린다. ALBERT의 추론 속도 역설(12.49ms - 가장 느림), BiLSTM의 격상 근거(CV 96.18%, 1.48ms, 671K), 시나리오별 권장 매트릭스, 실험 7·실험 8 후속 실험 로드맵, 그리고 이 시리즈가 남기는 방법론적 자산을 정리한다. | |
| Apr 16, 2026 | Prompt · Context · Harness Engineering — 세 층위의 구분과 포함 관계 | Agent, Architecture, Engineering | AI 에이전트 시스템을 설계하다 보면 Prompt Engineering, Context Engineering, Harness Engineering 세 용어가 혼용된다. 특히 Skill-based Prompt Engineering 같은 최근 기법이 세 층을 가로지르는 듯 보여 “Context와 Harness Engineering이 Prompt Engineering의 하위 카테고리인가” 하는 혼동이 생긴다. 이 글은 세 층위의 정확한 정의, 작업 단위, 질문의 차이, 포함 관계, 그리고 같은 증상을 어느 층에서 진단할지의 실무 기준을 정리한다. | |
| Apr 16, 2026 | AGENT_GUIDE 체계를 3 층으로 해부하기 — Cross-cutting Concern 과 아키텍트·아키텍처 | Agent, Architecture, Engineering | 이전 포스트에서 정의한 Prompt·Context·Harness 3 층위를 이 블로그 프로젝트의 AGENT_GUIDE 체계 에 적용해 해부한다. 이 프로젝트는 Prompt + Context 두 층을 적극적으로 설계하지만 Harness 는 Claude Code·Gemini CLI 의 기본값을 차용한다. 하네스를 만들지 않으면서도 하네스의 한계를 의식해 방어하는 패턴을 Harness-aware Context Engineering 이라 명명한다. 또한 “Skill-based Prompt Engineering 이 세 층을 관통하는 것처럼 보이는” 혼란을 소프트웨어 공학의 cross-cutting concern 개념으로 정리하고, 아키텍트 (설계자) 와 아키텍처 (설계 결과물) 를 구분한다. | |
| Apr 15, 2026 | Claude Code vs GitHub Copilot CLI — 하네스 설계 차이와 Task 선택 가이드 | Agent, Architecture, Engineering | Claude Code 와 GitHub Copilot CLI 가 동일한 Claude Sonnet 4.6 모델과 동일한 시스템 프롬프트 환경에서도 다르게 동작하는 이유를, 관찰 가능한 행동 차이로부터 출발해 하네스 내부 설계 원칙까지 역추적한다. Auto-compaction, Tool result lifecycle, 응답 길이 제약, Skill 로딩 정책, Protected zone 다섯 축으로 두 하네스를 대조하고, Task 유형별 적재적소 선택 기준을 제시한다. 한쪽을 편드는 것이 아니라 각각이 적합한 영역을 식별하는 것이 목적이다. | |
| Apr 15, 2026 | SQL 코딩 테스트: CASE WHEN 문제 모음 | Code Test, SQL | Level 2 CASE WHEN 유형 풀이 모음. 조건부 값 분류, END AS 파생 컬럼 생성, CASE 순서와 범위 조건 패턴 등. CASE WHEN + GROUP BY 다중 컬럼 조합, 경계값 처리, NULL 함정 포함. | |
| Apr 15, 2026 | SQL 필수 구문 레퍼런스 (Level 1) | Code Test | Programmers SQL Level 1에서 반복적으로 등장하는 SELECT, WHERE, ORDER BY, 기본 집계 함수, ROUND·IFNULL·날짜 추출·문자열 함수를 실전 패턴 중심으로 정리한다. | |
| Apr 15, 2026 | SQL 필수 구문 레퍼런스 (Level 2) | Code Test | Programmers SQL Level 2에서 반복적으로 등장하는 JOIN, GROUP BY, HAVING, CASE WHEN, 서브쿼리, EXISTS, 정렬 보조 함수(FIELD), 문자열·숫자·NULL 처리 내장 함수를 DS·AIE 트랙 우선순위로 정리한다. | |
| Apr 15, 2026 | SQL 필수 구문 레퍼런스 (Level 3) | Code Test | Programmers SQL Level 3에서 반복적으로 등장하는 복합 JOIN, 상관 서브쿼리, EXISTS, UNION, 조건부 집계, GROUP_CONCAT, CTE 기본, JOIN USING 등을 DS·AIE 트랙 우선순위로 정리한다. | |
| Apr 15, 2026 | SQL 필수 구문 레퍼런스 (Level 4) | Code Test | Programmers SQL Level 4에서 핵심인 윈도우 함수(ROW_NUMBER, RANK, LAG/LEAD), 이동 평균, 누적합, CTE, FIRST_VALUE/LAST_VALUE, WINDOW 절, GROUP_CONCAT, 재귀 CTE 기초를 DS·AIE 트랙 우선순위로 정리한다. | |
| Apr 15, 2026 | SQL 필수 구문 레퍼런스 (Level 5) | Code Test | Programmers SQL Level 5의 재귀 CTE, Island & Gaps, PIVOT, 고급 윈도우 프레임, GROUPING SETS/CUBE, LATERAL JOIN, 정규 표현식, 세션화 패턴을 DS·AIE 트랙 우선순위로 정리한다. | |
| Apr 15, 2026 | 공정한 NLP 모델 벤치마킹 | Deep Learning, Machine Learning, NLP | 여러 사전학습 NLP 모델을 비교할 때 “무엇을 통일하고 무엇을 통일하지 말아야 하는가” 를 정리한다. 토크나이저·임베딩이 모델 아키텍처의 일부인 이유, Subword tokenization 이 fine-tuning 에 주는 영향, 학습 데이터·Test·평가 지표·시드는 통일하고 LR·Batch·Epoch 는 모델별 최적값을 써야 하는 이유를 수식과 코드로 함께 전개한다. | |
| Apr 15, 2026 | Train/Val/Test 분할 비율 선택 | Machine Learning, Deep Learning, Data Science | 모델 학습을 위한 데이터 분할 비율을 어떻게 정할지 체계적으로 정리한다. Train·Val·Test 각 부분의 역할, 세 가지 대표 비율의 트레이드오프, 데이터 규모별 권장 분할, Early Stopping 여부가 선택에 미치는 영향, K-Fold CV 로의 전환 지점을 수식과 실무 수치로 함께 전개한다. | |
| Apr 15, 2026 | 모델 정확도 차이의 통계적 유의성 | Statistics, Machine Learning, Deep Learning | 두 분류 모델의 정확도 차이가 통계적으로 유의한지 판단하는 두 접근을 비교한다. 이항분포 표준오차 기반 신뢰구간의 유도와 한계, McNemar’s paired test 의 원리와 우위, 학습 확률성을 고려한 다중 시드 반복, 실무에서의 “의미 있는 차이” 임계값을 수식과 코드로 함께 전개한다. | |
| Apr 15, 2026 | Models for Polytomous Data — 개관 | Statistics, GLM | 반응변수가 세 개 이상의 범주를 가질 때 필요한 모형 체계를 개관한다. 측정 척도(명목·순서·구간·계층)별로 링크함수가 달라지는 이유, 비례 오즈 모형, 기준 범주 로짓, 연속로그로그 모형의 위치를 정리한다. | |
| Apr 15, 2026 | Measurement Scales for Polytomous Data | Statistics, GLM | 다범주 반응의 네 가지 측정 척도(명목·순서·구간·계층)를 정의하고, 각 척도에 왜 다른 링크함수가 필요한지 수식과 직관을 함께 전개한다. 비례 오즈, 점수 기반 로그선형, 기준 범주 로짓, 중첩 이항으로 이어지는 모형 선택 논리를 정리한다. | |
| Apr 15, 2026 | The Multinomial Distribution | Statistics, GLM, Math | 다범주 GLM 의 확률분포 기반인 다항분포를 체계적으로 정리한다. 이항의 \(k\) 범주 확장으로서의 생성, 모멘트 생성 함수와 누적률, 특이 공분산 행렬의 일반화역행렬, Pearson \(X^2\) 이차형식, 주변·조건부 분포와 누적 벡터의 Markov 성질을 수식과 직관으로 함께 전개한다. | |
| Apr 15, 2026 | Likelihood Functions for Polytomous GLMs | Statistics, GLM | 다범주 GLM 의 로그우도 구조를 정리한다. 제약 \(\sum_j \pi_j = 1\) 하의 미분, \(\pi\) 표현과 \(\gamma\) 표현의 등가성, 비례오즈·로그선형 모형의 스코어 방정식과 적률법 동치성, 이탈도 \(D = 2\sum y_{ij}\log(y_{ij}/\hat{\mu}_{ij})\) 의 유도, 과산포 보정까지 수식과 직관을 함께 전개한다. | |
| Apr 15, 2026 | Over-dispersion in Polytomous GLMs | Statistics, GLM | 다범주 반응의 과산포 현상을 체계적으로 정리한다. 군집 샘플링 유도로부터 \(\sigma^2\) 의 범위와 의미, 베타-이항·Dirichlet-multinomial 대안, 복제·잔차 기반 \(\sigma^2\) 추정의 비교, 표준오차 보정과 Quasi-likelihood 와의 연결을 수식과 직관으로 함께 전개한다. | |
| Apr 15, 2026 | Polytomous GLM Examples — 치즈 맛과 탄광부 진폐증 | Statistics, GLM, Experimentation, Epidemiology | McCullagh & Nelder 의 두 고전 예제를 끝까지 전개한다. (1) 치즈 맛 실험의 희소 데이터 편향 시뮬레이션, (2) 탄광부 진폐증의 비례 오즈 vs 연속비율 모형 비교, 로그 노출 변환, 누적 잔차 기반 진단이 단위 셀 잔차보다 왜 우수한가를 수식과 직관으로 정리한다. | |
| Apr 15, 2026 | Polytomous GLM — Further Results and Exercises | Statistics, GLM | Ch.5 의 마무리 절들을 주제별로 재구성한다. §5.7 참고문헌의 요점, §5.8 연습문제 1–16 의 핵심 결과를 (1) 조합·분포 기초 (2) 점근 정보행렬 (3) 로짓·보완로그로그·연속비율 등가성 (4) 점수검정과 Wilcoxon·Yates 의 연결 (5) Logistic 판별과 LDA의 관계 (6) 실데이터 연습 다섯 주제로 묶어 수식과 직관을 함께 전개한다. | |
| Apr 15, 2026 | Log-linear Models — 개관 | Statistics, GLM | 이항·다항이 비율(proportion) 데이터를 다뤘다면, 로그선형 모형은 상한 없는 카운트 데이터를 다룬다. 포아송 가정의 근거와 한계, \(\log \mu = \boldsymbol{\beta}^\top \mathbf{x}\) 의 곱셈적 해석, 과산포 식 \(\mathrm{Var}(Y) = \sigma^2 \mathrm{E}(Y)\) 의 의미, Ch.6 가 Ch.4~5 의 다항 반응 모형과 어떻게 쌍대적으로 연결되는지를 수식과 직관으로 정리한다. | |
| Apr 15, 2026 | Likelihood Functions for Log-linear Models | Statistics, GLM | 로그선형 모형의 우도 구조를 정리한다. 포아송 로그우도 \(\sum(y\log\mu - \mu)\) 의 기하, 이탈도 \(D = 2\sum y\log(y/\hat\mu)\) 의 Kullback–Leibler 해석과 \(\mu^{1/3}\) 근사, 과산포의 세 메커니즘(랜덤 구간, 클러스터 포아송, 감마 혼합 → 음이항), quasi-Poisson 와 NB 의 실무 선택, IRLS 점근 이론을 수식과 직관으로 함께 전개한다. | |
| Apr 15, 2026 | Log-linear Models — 예제 | Statistics, GLM | 로그선형 모형의 실제 적용을 두 고전 예제로 전개한다. (1) Fisher (1949) 결핵균 검정 — 라틴 정방 설계와 곱셈적 처리효과, (2) Lloyd’s 선박 파도 손상 데이터 — offset 을 통한 rate 회귀, 과산포 진단, 주효과 vs 교호작용 해석, 조건부 자유도 계산까지 수식과 직관으로 풀어낸다. | |
| Apr 15, 2026 | Log-linear Models 과 Multinomial Response Models | Statistics, GLM | 독립 포아송의 합을 조건으로 고정하면 다항이 된다는 사실로부터 출발해, 로그선형 모형이 어떻게 다항 반응 모형(이항·다항 로지스틱) 과 동치가 되는지 체계적으로 정리한다. 두 포아송 평균 비교의 조건부 검정, 식 (6.6)의 행 효과 \(\phi_i\) 분해, 식 (6.7)의 소프트맥스 파라미터화, 식 (6.8) 도마뱀 데이터의 구체적 동치, 어느 다항 모형이 쌍대성을 갖지 않는가까지 수식과 직관으로 전개한다. | |
| Apr 15, 2026 | Multiple Responses in Log-linear Models | Statistics, GLM | 한 관측 단위에 여러 범주형 반응이 동시에 기록될 때의 로그선형 모형을 정리한다. 경로 모형과 조건부 독립성, 분해가능성(decomposability)의 정의와 의미, 독립과 포화 사이의 정준상관·log-bilinear 모형, 다변량 로지스틱 회귀의 contrast 구성, 모형식 표기법을 수식과 직관을 함께 전개한다. | |
| Apr 15, 2026 | Log-linear Models — Respiratory Ailments 예제 | Statistics, GLM | Ashford & Sowden (1970) 의 탄광부 호흡기 질환 데이터로 §6.5 의 다변량 반응 회귀 이론을 실제 적용한다. 경험 로짓·오즈비 플롯으로 선형 관계 확인, 식 (6.25) 이변량 로지스틱 모형, 주변 vs 결합 우도의 효율 비교, 이변량 로짓과 로그선형이 주는 계수 해석의 근본적 차이, 선택 편향이 오즈비 감소에 미치는 영향까지 수식과 직관으로 풀어낸다. | |
| Apr 15, 2026 | Log-linear Models — Further Results and Exercises | Statistics, GLM | Ch.6 의 마무리 절들을 주제별로 재구성한다. §6.7 Haberman·Darroch–Lauritzen–Speed· Cox 의 고전 문헌 요지, §6.8 의 16개 연습문제를 (1) 포아송 변환의 고차 모멘트 (2) 음이항 유도 (3) 결핵균 실데이터 (4) 이변량 지표와 로짓 (5) 다변량 로짓 알고리즘 (6) Solomon·APA 투표·유전학·말발굽 사고 실데이터 다섯 주제로 묶어 수식과 직관을 함께 전개한다. | |
| Apr 15, 2026 | Conditional Likelihoods — Ch.7 전체 개관 | Statistics, GLM | Ch.7 전체의 지도. §7.1 문제 정의, §7.2 네 가지 축약 우도 기법(주변·조건부·지수족·Profile), §7.3 중심·비중심·다변량 초기하분포 족, §7.4 2×2 표 이항 비교와 여러 표의 통합, §7.5 매칭 쌍 명목·순서 반응(Quasi-symmetry·Bradley–Terry·치즈 맛 예제), §7.6~§7.7 지적 계보와 연습의 요지를 수식과 직관으로 전개한다. | |
| Apr 14, 2026 | SQL 코딩 테스트: JOIN 문제 모음 | Code Test, SQL | Level 2 JOIN 유형 풀이 모음. INNER JOIN 기본 구조, 테이블 별칭(alias), JOIN 순서와 WHERE 위치, 컬럼 귀속 명시 패턴 등. | |
| Apr 14, 2026 | SQL 코딩 테스트: 기본 서브쿼리 문제 모음 | Code Test, SQL | Level 2 기본 서브쿼리 유형 풀이 모음. WHERE 절의 MAX·MIN 스칼라 서브쿼리와 공동 1위(tie) 처리, SELECT 절 AVG 스칼라 서브쿼리와 각 행에 집계값 부착, FROM 절 인라인 뷰(derived table)로 그룹별 평균 부착 후 카테고리 평균 비교, 별칭 스코프 규칙(인라인 뷰 컬럼 vs SELECT 별칭), NOT IN의 3값 논리 NULL 함정과 NOT EXISTS·LEFT JOIN 대안, IN 패턴의 NULL-safe 동작과 NOT IN과의 비대칭성 등. | |
| Apr 14, 2026 | GLM Process of Model Fitting — 모델 선택·추정·예측의 통합 워크플로우 | Statistics, GLM | McCullagh & Nelder (1989) §2.1 “The process of model fitting” 를 전개한다. 통계 모델링이 단일 단계가 아닌 모델 선택(model selection) — 추정(estimation) — 예측(prediction) 의 순환 워크플로우임을 설명하고, 각 단계에서 GLM 사용자가 내려야 할 판단(공변량 선택, 척도 결정, link·variance function 선택, 점추정과 불확실성 동반, 예측 척도 선택)을 직관과 수식을 병행해 정리한다. | |
| Apr 14, 2026 | The Components of a GLM — Random·Systematic·Link 의 상세 해부 | Statistics, GLM | McCullagh & Nelder (1989) §2.2 “The components of a generalized linear model” 을 전개한다. 확률 성분(random component, exponential dispersion family), 체계적 성분(systematic component, linear predictor), 연결 성분(link function) 을 각각 형식적으로 정의하고, 평균-분산 관계의 유도, 분산함수의 의미, 정의역 보장의 역할을 직관과 수식을 병행해 상세히 설명한다. | |
| Apr 14, 2026 | GLM 적합도 측정 — Deviance·Pearson·Analysis of Deviance | Statistics, GLM | McCullagh & Nelder (1989) §2.3 의 적합도 측정 이론을 전개한다. null 모형·full 모형·중간 모형의 3단 구도에서 적합의 불일치(discrepancy)를 로그우도비로 정의하고, 이탈도(deviance)와 일반화 Pearson \(X^2\) 통계량의 수식·분포·비교·ANOVA 확장인 analysis of deviance 를 직관과 함께 정리한다. | |
| Apr 14, 2026 | GLM 잔차의 세 유형 — Pearson·Anscombe·Deviance Residuals | Statistics, GLM | McCullagh & Nelder (1989) §2.4 의 잔차 이론을 전개한다. 정규 선형모형의 “원시 잔차” 가 GLM 에서 왜 부족한지, 이를 확장한 Pearson·Anscombe·Deviance 세 잔차의 정의·수식·분포적 성질·수치 비교를 Poisson 을 중심 사례로 정리하고, 잔차 진단의 실무 선택 기준을 제시한다. | |
| Apr 14, 2026 | GLM 적합 알고리즘 — IRLS 의 완전한 유도 | Statistics, GLM, Math, Engineering, Optimization | McCullagh & Nelder (1989) §2.5 의 GLM 적합 알고리즘을 유도한다. MLE 가 닫힌 해를 갖지 않는 일반 GLM 에서 “작업 반응 z 와 가중치 W 를 매 반복에 갱신하는 가중 최소제곱” 이 어떻게 Fisher scoring 과 동치가 되는지, 스코어 방정식부터 IRLS 업데이트까지 단계별로 전개하고 정준링크의 특례, 시작값·수렴·정규방정식 변형을 정리한다. | |
| Apr 14, 2026 | GLM 의 지적 계보 — Bibliographic Notes | Statistics, GLM | McCullagh & Nelder (1989) §2.6 의 짧은 참고문헌 절을 확장해 GLM 이론의 지적 계보(intellectual lineage) 를 재구성한다. Fisher(1935) 의 scoring 방법, Nelder-Wedderburn(1972) 의 통합, Barndorff-Nielsen(1978) 의 엄밀화, Green(1984)·Jorgensen(1984) 의 확장까지 — 각 기여가 해결한 문제와 남긴 기법을 연결해 본다. | |
| Apr 14, 2026 | GLM 심화 결과와 연습 — Exponential Tilting·CLT·McCullagh Angular Family | Statistics, GLM, Math | McCullagh & Nelder (1989) §2.7 의 15개 연습문제를 6개 핵심 결과로 재구성한다. 임의 분포를 지수족으로 만드는 exponential tilting, 누적률 항등식 \(\kappa_3 = \kappa_2 \kappa_2'\), 지수족의 중심극한정리, McCullagh 의 각도 분포(angular density), 지수 기울임 로지스틱과 F-분포의 연결까지 — 각 결과의 직관과 증명 핵심을 정리한다. | |
| Apr 14, 2026 | 정규-항등 GLM 개관 — Models for Continuous Data with Constant Variance | Statistics, GLM | McCullagh & Nelder (1989) Ch.3 의 “등분산 연속 반응 모형” 을 개관한다. 정규분포·항등링크·상수분산의 조합이 어떻게 GLM 의 원점(baseline)이 되는지, 오차구조의 진짜 가정은 정규성이 아니라 “등분산” 이라는 점, 모형식 연산자 대수(+, *, /, ., ^), aliasing, 추정의 기하학적 해석(사영), QR·정보행렬 기반 알고리즘, 공변량 선택까지 — 각 절의 핵심과 후속 장(Ch.4~8)으로의 연결을 직관과 수식으로 정리한다. | |
| Apr 14, 2026 | 선형모형 심화 결과와 연습 — Ch.3 Exercises 재구성 | Statistics, GLM, Math, linear_algebra | McCullagh & Nelder (1989) §3.11 의 11개 연습을 6개 핵심 결과로 재구성한다. Hamilton 의 suppression 효과, 블록 설계의 모형 행렬, 삼각·라틴스퀘어 제한 설계, 계수 상관의 기하적 유도, sweep 연산자의 자기 역성, 주효과 없는 교호작용만 있는 지수감쇠 모형까지 — 각 결과의 주장·증명 핵심·실무 의의를 직관과 수식으로 정리한다. | |
| Apr 14, 2026 | 정규 선형모형의 오차 구조 — Error Structure | Statistics, GLM | McCullagh & Nelder (1989) §3.2 의 오차 구조를 심화한다. 고전 선형모형의 세 가정(독립·등분산·정규성) 중 점추정 타당성의 핵심은 정규성이 아니라 등분산이라는 사실, Gauss-Markov 정리의 2차 모멘트 기반 유도, 정규분포의 통계적 성질(68/95/99.8 규칙, 로그우도 포물선), 정규 가정이 깨지는 양상과 처방(로그 변환·감마·준우도)까지 — 수식과 직관을 병행해 정리한다. | |
| Apr 14, 2026 | 선형 예측자의 구성 — Systematic Component | Statistics, GLM | McCullagh & Nelder (1989) §3.3 의 체계적 성분(선형 예측자)을 심화한다. “모수에 대한 선형” 의 정확한 의미, 연속 공변량의 다항·변환·교호, 범주형 요인의 수준 구조와 더미 변수, 절편과 주효과의 구조적 aliasing, 기울기가 범주에 따라 변하는 혼합항까지 — 설계 행렬 \(\mathbf{X}\) 가 어떻게 조립되는지를 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 모형식 대수 — Model Formulae for Linear Predictors | Statistics, GLM, Math | McCullagh & Nelder (1989) §3.4 의 모형식 (model formula) 대수를 심화한다. Wilkinson-Rogers (1973) 표기법의 다섯 연산자 — 점(.)·합(+)·교차(*)· 중첩(/)·제거(-)·지수(**) — 의 정의, 우선순위, 대수 법칙, 설계 행렬 생성 규칙까지. R, SAS, Python(statsmodels) 의 공통 문법의 뿌리가 되는 이 표기법이 왜 그렇게 설계됐는지를 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | Aliasing — 식별불가의 두 얼굴과 추정가능함수 | Statistics, GLM, Math, linear_algebra | McCullagh & Nelder (1989) §3.5 의 aliasing 이론을 심화한다. 설계 행렬의 부분공간이 겹칠 때 발생하는 식별불가(non-identifiability)를 intrinsic (모형식 자체) 과 extrinsic (데이터 분포) 로 구분하고, marginality 관계, estimable function, 제약의 선택이 왜 “모형의 일부가 아닌 관례”인지, 다항 회귀의 functional marginality 까지 — 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 선형모형의 추정 — MLE·사영 기하·정보·다중공선성 | Statistics, GLM, Math, linear_algebra | McCullagh & Nelder (1989) §3.6 의 선형모형 추정 이론을 심화한다. MLE 방정식의 “직교 잔차” 해석, 해를 정사영으로 보는 기하학적 관점, 정보 곡선·표면과 추정 정밀도의 관계, 두 공변량의 사영으로 본 “조정된 vs 조정 이전” 제곱합, 각도로 본 다중공선성과 안정성까지 — 수식과 그림 없이도 손에 잡히는 기하적 직관으로 정리한다. | |
| Apr 14, 2026 | 표 형태 데이터의 회귀 — Tables as Data | Statistics, GLM | McCullagh & Nelder (1989) §3.7 의 집계표 회귀 이론을 심화한다. 원 데이터 대신 다원 분류표 (means·totals·counts) 를 반응으로 쓸 때의 사전가중치(prior weight) 구조, 빈 셀 (empty cells) 의 두 종류 — 필연적(necessarily) vs 우연적(accidentally) — 과 모형에 미치는 영향, 유전 데이터의 융합 셀 (fused cells) 처리까지, 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 최소제곱 알고리즘 — Sweep·Cholesky·QR·Gram-Schmidt | Statistics, GLM, Math, linear_algebra, Engineering, Optimization | McCullagh & Nelder (1989) §3.8 의 최소제곱 수치 알고리즘을 심화한다. 정보행렬 기반(Sweep·Cholesky) 과 직접 분해(QR: Householder·Givens· Gram-Schmidt) 의 두 계열, 각각의 통계적 의미와 수치 안정성 비교, condition number 의 제곱 효과, 그리고 IRLS 로 GLM 에 확장하며 드러나는 unbounded 추정·pseudo-aliasing·수렴 진단까지 정리한다. | |
| Apr 14, 2026 | 공변량 선택 — Parsimony, 통일 기준, 자동 절차의 함정 | Statistics, GLM | McCullagh & Nelder (1989) §3.9 의 공변량 선택 이론을 심화한다. Atkinson (1981b) 의 통일 공식 \(Q = D + \alpha q \phi\) 가 F-기준·AIC·BIC 를 어떻게 하나의 틀로 묶는지, marginality·comparability 원칙, forward·backward· stepwise·GLIMPSE 알고리즘, 그리고 자동 선택의 한계와 실무 지침까지 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 이항 자료 GLM 개관 — Binary Data | Statistics, GLM | McCullagh & Nelder (1989) Ch.4 의 이항 자료 모형을 개관한다. GLM 지도에서 이항이 “Normal-identity 의 반대편 극단”임을 자리매김하고, covariate class 집계, 분할표 연결, logit·probit·cloglog 링크 비교, 오즈비 해석, 후향 샘플링 (case-control), 로그우도·이탈도·과산포, Hauck-Donner 효과 까지 — Ch.4 전체 구조를 한 장으로 정리하고 각 절로 들어가는 연결을 놓는다. | |
| Apr 14, 2026 | 이항분포 — Genesis·Cumulants·극한·변환 | Statistics, GLM, Math | McCullagh & Nelder (1989) §4.2 의 이항분포 이론을 GLM 맥락에서 심화한다. Poisson 조건부·동질 Bernoulli 합의 두 발생 경로, cumulant 생성함수와 \(m \times\) polynomial 구조, 정규·Poisson 극한과 근사 오차 차수, Edgeworth 보정, 경험 로짓 변환(empirical logistic transformation) 까지 — 이항이 GLM 안에서 어떻게 작동하는지를 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 이항 반응 모형 — 링크 함수·모수 해석·후향 샘플링 | Statistics, GLM, Machine_Learning | McCullagh & Nelder (1989) §4.3 의 이항 반응 모형을 심화한다. 네 링크(logit·probit·cloglog·loglog) 의 정의와 기하적 비교, 선형 예측자와 확률 척도의 해석 비대칭, 다양한 척도에서의 모수 효과 크기, 그리고 logit 의 유일한 성질 — 후향(case-control) 표본에서도 계수가 불변하는 이유 — 를 Bayes 정리 유도와 직관으로 정리한다. | |
| Apr 14, 2026 | 이항 자료의 우도함수 — 로그우도·추정·이탈도·편향·희소성·외삽 | Statistics, GLM | McCullagh & Nelder (1989) §4.4 의 이항 우도 이론을 심화한다. 로짓 링크에서 \(\mathbf{X}^\top \mathbf{y}\) 가 충분통계량이 되는 구조, IRLS 유도, 이탈도의 두 용도 (절대 적합도 vs 모형 비교), 충분한 자유도 아래 편향의 3차 cumulant 공식, 이진 자료(\(m=1\))에서 이탈도가 갖는 치명적 축약, 그리고 외삽 시 링크 함수의 엄청난 차이 — 수식과 직관으로 정리한다. | |
| Apr 14, 2026 | 이항 자료의 과산포 — Over-dispersion | Statistics, GLM | McCullagh & Nelder (1989) §4.5 의 과산포 이론을 심화한다. 이항 분산 \(m\pi(1-\pi)\) 을 초과하는 현상의 근원 (클러스터링, \(\pi\) 의 집단 간 변동), 분산 팽창 계수 \(\sigma^2 = 1 + (k-1)\tau^2\) 의 구조, 복제 기반 vs Pearson 기반 추정, 그리고 Beta-binomial 모형과의 비교 — 실무에서 과산포를 왜 “기본값으로 가정” 해야 하는지의 수학적·통계적 근거를 정리한다. | |
| Apr 14, 2026 | 이항 GLM 심화 결과와 연습 — Ch.4 Exercises 재구성 | Statistics, GLM | McCullagh & Nelder (1989) §4.8 의 23 개 연습을 6 개 핵심 결과로 재구성한다. Bernoulli·Binomial·Poisson 의 상호 관계, 이질성 분산 구조의 Beta-Binomial/ 클러스터 모형, Efron (1975) 의 로지스틱 판별 분석, 편향 \(O(m^{-2})\) 를 만드는 Haldane \(c=1/2\), Fieller 신뢰집합, 그리고 로지스틱 분포의 cumulant 구조까지 — 각 결과의 주장·유도 핵심·의의를 직관과 수식으로 정리한다. | |
| Apr 13, 2026 | AST 파싱과 구조 변환 — 텍스트 편집 대신 트리 변환으로 코드 자동화하기 | Engineering, Python |
정규식으로 코드를 긁어내는 대신, 언어가 파싱한 추상 구문 트리(AST)를 직접 다뤄 구조적 코드 변환을 수행하는 방법을 정리한다. AST의 정의, 텍스트 대비 우월성, Python ast 모듈 기본 API, 구조 변환의 6단계 파이프라인, 그리고 .py 클래스를 디버깅 노트북으로 자동 생성하는 구체 사례를 다룬다.
|
|
| Apr 13, 2026 | 수치 선형대수 개요 (Numerical Linear Algebra Overview) | Mathematics, Machine Learning, Deep Learning | 수치 선형대수는 “종이 위의 선형대수”를 컴퓨터에서 안정적으로 실행하는 방법을 다룬다. 부동소수점 산술의 본질적 오차, 문제 자체의 민감도인 조건수, 알고리즘의 전향/후향 안정성, 직접법(LU, QR, Cholesky, SVD)과 반복법(Jacobi, CG, Krylov)의 선택 기준, 고유값 알고리즘의 구조를 하나의 지도로 엮어 제시한다. ML/DL의 최적화, 회귀, 차원 축소, 그래프 임베딩이 왜 이 수치적 토대 위에서만 성립하는지 직관적으로 설명한다. | |
| Apr 13, 2026 | 실전 가우스 소거법 (Gaussian Elimination in Practice) | Mathematics, Machine Learning | 교과서의 가우스 소거는 “왼쪽 위부터 내려가면서 0을 만든다”로 끝나지만, 실전에서는 피벗 선택, 부동소수점 오차, 연산량, 희소성 보존까지 고려한다. 이 포스트는 부분 피벗팅(Partial Pivoting), PA=LU 분해, 전방·후방 대입, 연산량 \(\frac{2}{3}n^3\) 의 유도, 성장 인자(growth factor), 블록 알고리즘, 희소 행렬 전략을 수식·코드·기하 직관으로 정리한다. | |
| Apr 13, 2026 | 노름과 조건수 (Norms and Condition Numbers) | Mathematics, Machine Learning | 행렬 노름은 “행렬이 벡터를 얼마나 늘리는가”의 최악값이다. 조건수는 “입력 오차가 해에 얼마나 증폭되는가”의 상한이다. 이 포스트는 Strang §9.2 를 뼈대로 삼아 벡터 노름 → 행렬 노름의 공리 → 연산자 노름의 정의 → Rayleigh 몫으로 \(\|A\| = \sigma_{\max}\) 유도 → 조건수 \(c = \|A\|\|A^{-1}\|\) → 상대오차 부등식의 증명까지를 한 줄기로 정리한다. SVD의 타원체 기하, “\(\log c\) 자리수 손실” 규칙의 의미, 실무 회귀·역문제·PageRank에서의 함의도 함께 다룬다. | |
| Apr 13, 2026 | 반복법과 전처리기 (Iterative Methods and Preconditioners) | Mathematics, Machine Learning | 직접법(LU·QR·Cholesky)은 \(O(n^3)\) 의 비용으로 정확한 해를 한 번에 구하지만, \(n\) 이 수백만인 대규모 희소 행렬에는 불가능하다. 반복법은 초기 추정에서 출발해 단계적으로 참해에 다가가는 전략이다. 이 포스트는 Strang §9.3 을 뼈대로 분할(splitting) \(A = S - T\) 프레임워크 → 수렴 조건 \(\rho(S^{-1}T) < 1\) → Jacobi / Gauss-Seidel / SOR / ILU → Multigrid → Krylov (CG, GMRES) → 전처리기까지, 왜 각 기법이 필요한지와 언제 어떤 것을 선택해야 하는지를 직관과 수식으로 정리한다. | |
| Apr 13, 2026 | 복소 벡터와 행렬 개요 (Complex Vectors and Matrices Overview) | Mathematics, Machine Learning, Deep Learning | 회전 행렬은 실 벡터로는 불변 방향을 갖지 않지만, 복소 벡터로 확장하면 \(e^{i\theta}\) 와 그 켤레쌍이 고유값으로 등장한다. 실행렬도 복소 고유값을 갖고, 많은 선형대수 도구(푸리에 변환, 양자역학, 신호처리)는 복소 공간에서만 정확히 작동한다. 이 포스트는 Strang Ch.10 을 뼈대로 복소수 기본 → 켤레전치(Hermitian) → 복소 내적 → Hermitian/Unitary 행렬의 스펙트럼 정리 → 푸리에 행렬과 FFT → ML·DL 응용까지를 한 편에 개관한다. 각 섹션은 실수 세계의 대응 개념과 짝지어 “무엇이 바뀌고 무엇이 보존되는가”를 명시한다. | |
| Apr 13, 2026 | 복소수 (Complex Numbers) | Mathematics, Machine Learning | 이 포스트는 Strang Ch.10 §10.1 을 뼈대로 복소수의 기본 연산, 복소평면, 켤레와 절댓값, 극형식 \(z = re^{i\theta}\), Euler 공식 \(e^{i\theta} = \cos\theta + i\sin\theta\), De Moivre 정리, 1의 \(n\) 제곱근을 한다 체로 정리한다. 각 개념의 “왜 이렇게 정의하는가”, “어떤 문제를 풀기 위해 태어났는가”를 기하학적 직관과 함께 다루며, 이후 Hermitian·Unitary·FFT에서 이 언어가 어떻게 쓰이는지 미리 연결 고리를 만든다. | |
| Apr 13, 2026 | Hermitian 행렬과 Unitary 행렬 (Hermitian and Unitary Matrices) | Mathematics, Machine Learning, Deep Learning | 실 대칭 행렬 \(A = A^\top\) 이 선형대수의 가장 좋은 행렬인 이유는 고유값이 실수이고 고유벡터가 직교하여 \(A = Q\Lambda Q^\top\) 로 완벽히 진단되기 때문이다. 복소 세계에서 이 세 장점을 그대로 이어받는 것이 Hermitian 행렬 \(A = A^H\) 이고, 실 직교 행렬 \(Q^\top Q = I\) 의 복소 짝이 Unitary 행렬 \(U^H U = I\) 다. 이 포스트는 Strang §10.2 를 뼈대로 켤레전치 \(^H\) 의 정의, 복소 내적, Hermitian의 세 가지 핵심 성질과 증명, 스펙트럼 정리 \(A = U \Lambda U^H\), Unitary의 기하학적 의미, Skew-Hermitian과 정규(normal) 행렬, 양자역학·신호처리에서의 역할까지를 직관과 수식으로 정리한다. | |
| Apr 13, 2026 | 고속 푸리에 변환 (The Fast Fourier Transform) | Mathematics, Machine Learning, Deep Learning | 푸리에 행렬 \(F_n\) 은 시간 도메인 신호를 주파수 도메인으로 옮기는 unitary 행렬이다. 직접 곱셈 \(F_n \mathbf{c}\) 는 \(n^2\) 연산이지만, Cooley-Tukey의 FFT는 \(F_n\) 을 두 개의 \(F_{n/2}\) 로 재귀 분해하여 \(\frac{n}{2}\log_2 n\) 연산에 끝낸다. 이 포스트는 Strang §10.3 을 뼈대로 1의 \(n\) 제곱근과 푸리에 행렬 \(F_n\) 의 구조, \(F_n F_n^H = nI\) 증명, 한 단계 재귀 분해 (\(F_n\) 에서 \(F_{n/2}\) 둘로), butterfly 다이어그램, bit-reversal 순서, 전체 연산량 \(\frac{1}{2}n\log n\) 유도를 정리한다. 실무 응용(JPEG, 오디오, CNN, Multigrid)까지 폭을 넓힌다. | |
| Apr 13, 2026 | GLM의 기원과 배경 — McCullagh & Nelder Ch.1 | Statistics, GLM | 일반화 선형 모형(GLM)이 “왜” 태어났는가를 McCullagh & Nelder (1989) Ch.1 의 논리를 따라 정리한다. 통계 모형의 철학적 기초 (systematic effects vs random effects, 절약성·범위·모수 불변성), GLM 이전의 개별 사례들 (희석검정의 cloglog, Bliss 의 probit, Berkson 의 logit, 로그선형 모형, 역다항식, 생존 분석), 그리고 Nelder-Wedderburn 이 이들을 하나의 클래스로 묶은 통합의 의미를 수식과 직관을 병행하여 설명한다. | |
| Apr 13, 2026 | GLM 이론 기초 — 지수족·정준연결·이탈도·IRLS | Statistics, GLM, Math | 일반화 선형 모형(GLM)의 이론적 뼈대를 McCullagh & Nelder (1989)의 표기법과 논리 전개를 따라 정리한다. 확률 성분(지수 분산족), 체계적 성분(선형예측자), 연결함수의 세 구성요소를 엄밀히 정의하고, 정준연결의 수학적 편의성, 이탈도에 의한 적합도 평가, 반복 재가중 최소제곱(IRLS)에 의한 추정 알고리즘을 직관과 수식을 병행하여 설명한다. | |
| Apr 13, 2026 | Generalized Linear Models | Statistics, GLM | 일반화 선형 모형(GLM) 시리즈. 지수족 분포, 연결함수, 이탈도, IRLS 알고리즘, 로지스틱 회귀 등 McCullagh & Nelder 교재를 뼈대로 전개한다. | |
| Apr 12, 2026 | X^T X 가 왜 분산인가 | Mathematics, Statistics | 데이터 행렬 X의 자기 내적 X^T X 가 통계학의 분산-공분산 행렬과 어떻게 연결되는지를 수식으로 유도하고, Gram Matrix·Scatter Matrix·Sample Covariance Matrix의 관계를 기하학적 직관과 함께 설명한다. X^T X vs XX^T 의 차원과 역할 차이도 다룬다. | |
| Apr 12, 2026 | Ch.8 Applications — 선형대수의 7가지 응용 종합 개요 | Math, Linear Algebra | Strang Introduction to Linear Algebra Ch.8의 7개 절을 한 편으로 통합한다. 강성 행렬 \(K = A^\top C A\), 접속 행렬과 키르히호프, 마르코프 정상분포, 선형계획의 코너 최적성, 푸리에 급수의 무한차원 직교성, 가중 최소제곱과 PCA, 동차 좌표 기반 4×4 변환을 공통 구조 — “차분 → 물성 → 균형” 또는 “고유값·직교성 분해” — 로 꿰어낸다. | |
| Apr 12, 2026 | Ch.8 §8.1 Matrices in Engineering — 차분-물성-균형의 삼위일체와 강성행렬 \(K = A^\top C A\) | Math, Linear Algebra | Strang Ch.8 §8.1을 단독으로 상세히 다룬다. 스프링과 질량으로 이루어진 1차원 모델에서 강성행렬 \(K = A^\top C A\) 가 어떻게 자연스럽게 등장하는지, 왜 이 형태가 항상 대칭이며 대부분의 경우 양정치인지, 그리고 경계조건(fixed-fixed, fixed-free, free-free, circular)이 어떻게 행렬의 정칙성과 영공간을 바꾸는지 직관과 손계산으로 함께 설명한다. 마지막으로 이산 모델이 연속체 극한에서 미분방정식 \(-\frac{d}{dx}(c(x)\frac{du}{dx}) = f(x)\) 로 바뀌는 과정을 통해 유한요소법(FEM)의 출발점을 살펴본다. | |
| Apr 12, 2026 | Ch.8 §8.2 Graphs and Networks — 접속행렬 \(A\), 키르히호프 법칙, 그리고 그래프 라플라시안 \(A^\top C A\) | Math, Linear Algebra | Strang Ch.8 §8.2를 단독으로 상세히 다룬다. 방향 그래프의 접속행렬(incidence matrix) \(A\) 가 어떻게 키르히호프의 두 법칙(KVL, KCL)을 자동으로 만들어 내는지, 그리고 컨덕턴스 대각행렬 \(C\) 와 함께 그래프 라플라시안 \(L = A^\top C A\) 를 구성하는 과정을 §8.1의 \(K = A^\top C A\) 와 같은 골격으로 전개한다. 4-노드 완전 그래프에 전류원을 넣은 손계산 예제, 영공간/좌영공간의 물리적 해석, 오일러 공식, 그리고 스펙트럴 그래프 이론·랜덤워크·GNN·PageRank로 이어지는 현대적 응용도 함께 정리한다. | |
| Apr 12, 2026 | Ch.8 §8.3 Markov Matrices, Population, and Economics — \(\lambda_{\max}\) 가 다스리는 세계 | Math, Linear Algebra | Strang Ch.8 §8.3을 단독으로 상세히 다룬다. 양의(또는 비음의) 행렬 \(A\) 의 거듭제곱 \(A^k\) 는 거의 항상 가장 큰 고유값 \(\lambda_{\max}\) 와 그 고유벡터 한 방향에 의해 지배된다는 사실 (Perron-Frobenius 정리)이 마르코프 체인의 정상 분포, Leslie 인구 모델의 장기 성장률, Leontief 산업연관표의 생산 가능성 (\((I - A)^{-1}\) 가 비음일 조건)을 모두 한 줄로 설명한다. 대각화를 통한 손계산, 렌터카·인구·경제 예제, NumPy 시뮬레이션, PageRank·MCMC 등 현대 데이터 사이언스 응용까지 정리한다. | |
| Apr 12, 2026 | Ch.8 §8.4 Linear Programming — 부등식·최소화가 선형대수를 만났을 때 | Math, Linear Algebra | 선형계획법(LP)은 선형대수에 부등식과 최소화라는 두 가지 도구를 추가한 것이다. 왜 최적해가 다면체의 코너에서 나오는지, Simplex 방법이 어떻게 코너를 순회하는지, 쌍대성 정리가 왜 min = max를 보장하는지, 내부점법이 어떻게 장벽 함수로 내부를 관통하는지를 기하학적 직관과 함께 상세히 전개한다 (Strang, 2009, §8.4). | |
| Apr 12, 2026 | Ch.8 §8.5 Fourier Series — 함수 공간에서의 선형대수 | Math, Linear Algebra | 푸리에 급수는 선형대수를 무한차원으로 확장한 것이다. 벡터를 함수로, 합을 적분으로 바꾸면 내적·직교성·정사영이 그대로 살아남는다. sin/cos가 왜 직교 기저인지, 푸리에 계수가 왜 내적인지, Parseval 정리가 왜 길이 보존인지를 유한차원 대응물과 나란히 전개한다 (Strang, 2009, §8.5). | |
| Apr 12, 2026 | Ch.8 §8.6 Linear Algebra for Statistics and Probability — 가중 ���소제곱·공분산·PCA | Math, Linear Algebra, Statistics | 통계학의 핵심 도구 — 가중 최소제곱(WLS), 공분산 행렬, 다변량 정규분포, PCA — 는 모두 선형대수의 \(A^\top A\) 구조 위에 세워져 있다. 측정의 신뢰도가 다를 때 왜 \(\Sigma^{-1}\)을 곱하는지, Gauss-Markov의 BLUE가 왜 최적인지, 공분산 행렬의 고유분해가 왜 다변량 정규분포를 독립 성분으로 쪼개는지, PCA가 왜 SVD인지를 직관과 함께 전개한다 (Strang, 2009, §8.6). | |
| Apr 12, 2026 | Ch.8 §8.7 Computer Graphics — 동차 좌표와 4x4 행렬의 세계 | Math, Linear Algebra | 컴퓨터 그래픽의 네 가지 핵심 변환 — 평행이동, 스케일링, 회전, 투영 — 은 모두 행렬 곱셈으로 표현된다. 그런데 평행이동은 선형 변환이 아니다. 이 문제를 해결하기 위해 동차 좌표(homogeneous coordinates)를 도입하고, 4x4 행렬로 모든 변환을 통일하는 방법을 직관과 함께 전개한다 (Strang, 2009, §8.7). | |
| Apr 12, 2026 | 회귀 모델의 샘플 수 추정 | Statistics | 선형 회귀에서 “파라미터당 10개”라는 경험칙이 어디서 나오는지를 F-검정 자유도, 잔차 분산 안정성, 검정력 분석의 세 관점에서 유도한다. 효과 크기에 따른 비중심 분포 기반 샘플 수 계산, 다중공선성(VIF) 보정, 로지스틱 회귀 EPV 규칙, 경험칙과 검정력 분석의 관계, 그리고 실무 4단계 파이프라인을 다룬다. | |
| Apr 12, 2026 | 대표본에서 p-값의 구조적 한계와 실무 대안 지표 | Statistics, Experimentation | 표본 크기가 커지면 p-값은 아무리 작은 효과도 유의하다고 판정한다. 이 현상의 수학적 메커니즘(표준오차 축소, 검정통계량 발산)을 정밀하게 유도하고, 희귀질환 데이터 통합 사례로 직관을 쌓은 뒤, 임상 시험(MCID, NNT, HR/OR)과 온라인 실험(MDE, CI 기반 의사결정, CUPED, Bayesian)에서 효과 크기를 n과 분리하여 평가하는 실무 지표 설계 원리를 제시한다. | |
| Apr 11, 2026 | Ch.6 §6.7 — 특이값 분해 (Singular Value Decomposition, SVD) | Math, Linear Algebra | SVD는 정방행렬뿐 아니라 임의의 m×n 행렬을 세 직교/대각 행렬의 곱으로 완전히 분해한다. 고유값 분해의 한계를 극복하고, 네 가지 기본 부분공간에 직교정규 기저를 동시에 제공한다. 이미지 압축·PCA·추천 시스템·의사역행렬 등 현대 데이터 사이언스의 핵심 도구임을 수식과 직관으로 설명한다. | |
| Apr 11, 2026 | Ch.7 Overview — 선형 변환 (Linear Transformations) | Math, Linear Algebra | 행렬 곱 \(\mathbf{A}\mathbf{x}\) 를 “벡터를 입력받아 벡터를 출력하는 함수” \(T(\mathbf{x})\) 로 재해석한다. 선형 변환의 두 공리(가법성·동차성)에서 출발해 기하학적 직관, 기저 선택과 행렬 표현의 대응, 기저 변환에 의한 유사 변환, 그리고 딥러닝·컴퓨터 그래픽스·PCA에서의 응용까지 일관된 관점으로 연결한다. | |
| Apr 11, 2026 | Ch.7 §7.2 — 선형 변환의 행렬 (The Matrix of a Linear Transformation) | Math, Linear Algebra | §7.1 에서 “모든 선형 변환은 행렬이다” 라는 대응을 세웠다면, §7.2 는 그 행렬을 실제로 써 내려가는 레시피를 다룬다. 입력·출력 기저를 선택한 뒤 \(j\) 번째 입력 기저 벡터의 상을 출력 기저로 분해해 \(j\) 번째 열에 적는다는 단일 규칙으로, 다항식의 미분·적분 연산자, 회전·사영 행렬, 기저 변환 행렬이 모두 같은 공식에서 나온다는 사실을 보인다. 그리고 행렬 곱이 그런 모양으로 정의된 이유 — “합성 = 행렬 곱” — 이 이 구성에서 자연스럽게 귀결됨을 다룬다. | |
| Apr 11, 2026 | Ch.7 §7.3 — 대각화와 의사역행렬 (Diagonalization and the Pseudoinverse) | Math, Linear Algebra | §7.2 에서 “기저를 정하면 행렬이 결정된다” 는 레시피를 만들었다면, §7.3 은 그 자유도를 적극적으로 써서 가장 단순한 행렬 — 대각 행렬 을 얻는 두 가지 길을 다룬다. 같은 기저(고유벡터)로 대각화하면 \(\Lambda\) 가 나오고, 입력·출력에 서로 다른 두 정규직교 기저(특이벡터)를 쓰면 \(\Sigma\) 가 나온다. 후자가 SVD 이고, 여기서 곧장 극분해 \(A=QH\) 와 의사역행렬 \(A^+ = V\Sigma^+ U^T\) 가 따라 나온다. 의사역행렬은 역행렬이 존재하지 않을 때조차 “열공간을 행공간으로 되돌려보내는” 합리적 역할을 떠맡고, 통계의 최소제곱과 연결된다. | |
| Apr 11, 2026 | Strang 부록 — 행렬 분해 카탈로그 (Matrix Factorizations) | Math, Linear Algebra | Strang, Introduction to Linear Algebra (4th ed.) 565 페이지 부록 “Matrix Factorizations” 는 책 전체의 정수를 한 페이지로 응축한 카탈로그다. \(A = LU\) 부터 \(A = U\Sigma V^\top\), 의사역행렬 \(A^+\), 극분해 \(A = QH\), Schur, FFT 재귀까지 11개 핵심 분해의 정의·요건·의미를 한 자리에 모은다. 이 포스트는 그 카탈로그를 (1) 왜 필요한가, (2) 삼각·직교·스펙트럼 세 가족으로 묶어 보기, (3) 각 분해의 한 줄 직관과 미니 예시, (4) 어떤 문제에 어떤 분해를 골라야 하는지 의사결정 표, (5) NumPy 로 모든 분해를 직접 확인하는 코드까지 다룬다. | |
| Apr 10, 2026 | VS Code Jupyter 커널 연결은 됐는데 셀이 실행 안 되는 문제 | Engineering, DevOps, Python | VS Code에서 Jupyter 커널이 “Started” 상태임에도 셀이 실행되지 않는 현상을 진단한다. 환경·커널·kernelspec이 전부 정상인데도 셀 번호가 [ ]에서 멈추는 경우, Python 확장의 인터프리터 디스커버리 실패가 원인이다. VS Code를 우회한 직접 진단 기법과 결정적 해결 절차를 정리한다. | |
| Apr 10, 2026 | Ch.4 Overview — 직교성(Orthogonality) | Math, Linear Algebra | 내적이 0이라는 단순한 조건에서 시작하여 행렬의 네 부분공간이 쌍으로 직교 보공간을 이룬다는 선형대수 기본정리 Part 2를 직관 중심으로 정리한다. 이후 투영(projection), 최소제곱법(least squares), Gram-Schmidt 과정의 논리적 토대가 되는 직교성의 핵심 개념을 다룬다. | |
| Apr 10, 2026 | Ch.4 §4.1 — Orthogonality of the Four Subspaces | Math, Linear Algebra | 행렬의 네 부분공간이 서로 수직인 이유를 두 가지 방식으로 증명하고, ’직교’와 ’직교 보공간’의 차이를 차원 관점에서 명확히 한다. 모든 벡터가 행공간 성분과 영공간 성분으로 유일하게 분해되며, A는 행공간에서 열공간으로 일대일 대응을 이룬다는 사실을 직관·수식·코드로 상세히 정리한다. | |
| Apr 10, 2026 | Ch.4 §4.2 — Projections (투영) | Math, Linear Algebra | 한 벡터를 다른 벡터(직선) 또는 부분공간(열공간) 위에 “가장 가까운” 점으로 떨어뜨리는 투영을 기하학(수직 조건) → 대수(내적=0) → 행렬(정규방정식) 순서로 유도한다. 투영 행렬의 대칭·멱등 성질과 \(A^\top A\) 의 가역성 조건을 증명하며, 이것이 §4.3 최소제곱법의 토대임을 보인다. | |
| Apr 10, 2026 | Ch.4 §4.3 — Least Squares Approximations (최소제곱 근사) | Math, Linear Algebra | 과결정(overdetermined) 연립방정식 \(Ax=b\) 가 해를 갖지 않을 때, 오차의 제곱합 \(\|Ax-b\|^2\) 를 최소화하는 \(\hat{x}\) 를 구한다. 정규방정식 \(A^\top A \hat{x} = A^\top b\) 를 기하학(수직 조건), 대수 (\(b = p + e\) 분해), 미적분(편미분 = 0) 세 가지 방식으로 유도하고, 직선·포물선 적합 예시와 이상치 민감성을 상세히 다룬다. | |
| Apr 10, 2026 | Ch.4 §4.4 — Orthogonal Bases and Gram-Schmidt (정규직교 기저와 그람-슈미트) | Math, Linear Algebra | 직교에 “단위 길이” 조건을 더한 정규직교(orthonormal) 기저가 왜 “계산의 천국”인지 보인다. \(Q^\top Q = I\) 가 만드는 투영 공식의 단순화, 길이·각도 보존, Gram-Schmidt 과정의 기하학적 해석, \(A = QR\) 분해 유도, 최소제곱법이 후치환 한 번으로 풀리는 과정까지 직관과 수식으로 정리한다. | |
| Apr 10, 2026 | Ch.5 Overview — Determinants (행렬식) | Math, Linear Algebra | 정사각 행렬이 담고 있는 정보를 단 하나의 숫자로 요약하는 행렬식을 소개한다. 세 가지 정의 성질 (항등, 부호 반전, 선형성)에서 시작하여 열 가지 파생 성질을 유도하고, 세 가지 계산 공식(피벗 곱, big formula, 여인수 전개)과 세 가지 기하·대수적 응용(Cramer 공식, \(n\) 차원 부피, 고윳값 방정식)의 전체 로드맵을 직관 중심으로 정리한다. | |
| Apr 10, 2026 | Ch.5 §5.1 — The Properties of Determinants (행렬식의 성질) | Math, Linear Algebra | 행렬식을 \(n!\) 개 항의 복잡한 공식으로 먼저 정의하는 대신, Strang의 접근을 따라 세 가지 단순한 공리(det I=1, 행 교환 부호 반전, 행별 선형성)에서 시작한다. 이 세 성질이 행렬식을 유일하게 결정하며, 나머지 일곱 가지 성질(두 같은 행=0, 소거 불변, 삼각 대각 곱, 특이⟺0, 곱셈 규칙, 전치 동일성)이 모두 순수 추론으로 유도됨을 증명과 직관으로 상세히 정리한다. | |
| Apr 10, 2026 | Ch.5 §5.2 — Permutations and Cofactors (순열과 여인수) | Math, Linear Algebra | 피벗 공식만으로는 행렬식을 개별 성분 \(a_{ij}\) 와 직접 연결할 수 없다. §5.2는 \(n!\) 개 항의 빅 공식(Leibniz)과 \((n-1)\) 차 행렬식으로 재귀 환원하는 여인수 공식(Laplace)을 공리에서 유도하고, 두 공식이 같은 값을 주는 이유, 부호 패턴 \((-1)^{i+j}\) 의 기원, 희소 행렬에서의 실전 활용을 Strang의 \(-1, 2, -1\) 삼대각 행렬과 Hessenberg/Fibonacci 예시로 상세히 다룬다. | |
| Apr 10, 2026 | Ch.5 §5.3 — Cramer’s Rule, Inverses, and Volumes (크래머 공식·역행렬·부피) | Math, Linear Algebra | 행렬식이 단순한 “가역성 판별기”에서 벗어나 \(\mathbf{A}\mathbf{x}=\mathbf{b}\) 의 명시적 해(Cramer), 역행렬의 닫힌 형태 (\(\mathbf{C}^\top / \det \mathbf{A}\)), 그리고 \(n\) 차원 평행육면체의 부피라는 세 가지 응용으로 어떻게 뻗어나가는지를 보인다. 야코비안으로서의 변수 치환, 외적(cross product)의 행렬식 정의까지 — §5.3의 모든 응용을 기하학적 직관과 함께 정리한다. | |
| Apr 10, 2026 | Ch.6 Overview — 고유값과 고유벡터 (Eigenvalues and Eigenvectors) | Math, Linear Algebra | 행렬이 벡터에 작용할 때 방향을 바꾸지 않는 특별한 벡터, 고유벡터와 그 배율인 고유값을 체계적으로 다룬다. 기하학적 직관을 중심으로 정의·특성 방정식·핵심 성질을 전개하고, 동적 시스템, PCA, PageRank 등 데이터 사이언스 실무에서의 응용을 연결한다. | |
| Apr 10, 2026 | Ch.6 §6.2 — 행렬의 대각화 (Diagonalizing a Matrix) | Math, Linear Algebra | 독립 고유벡터로 구성된 행렬 S 와 고유값을 대각에 둔 Λ 를 사용해 A = SΛS⁻¹ 로 분해하는 대각화(diagonalization)를 상세히 전개한다. 좌표 변환의 관점에서 왜 이것이 “행렬을 가장 단순한 형태로 보는” 일인지 직관적으로 풀고, 거듭제곱·스펙트럼 분해·행렬 함수·결함 행렬·PCA 응용까지 연결한다. | |
| Apr 10, 2026 | Ch.6 §6.3 — 미분방정식에의 응용 (Applications to Differential Equations) | Math, Linear Algebra | 상수 계수 선형 연립 미분방정식 du/dt = Au 를 고유값·고유벡터로 푸는 절차를 상세히 전개한다. 지수 해 e^(λt)x 의 기원, 고유 좌표계에서의 독립 성분 분해, 실수·복소 고유값에 따른 성장/감쇠/진동, 2×2 행렬의 trace-determinant 안정성 지도, 행렬 지수 함수 e^(At) = S e^(Λt) S⁻¹, 2계 방정식의 1계 변환까지 직관적 설명과 함께 다룬다. | |
| Apr 10, 2026 | Ch.6 §6.4 — 대칭 행렬 (Symmetric Matrices) | Math, Linear Algebra | Strang Ch.6.4를 기반으로 대칭 행렬이 왜 선형대수에서 가장 중요한 행렬 부류인지 다룬다. 실수 고유값과 직교 고유벡터의 증명, 스펙트럼 정리 \(A = Q\Lambda Q^\top\) 의 기하학적 해석, 피벗과 고유값 부호 일치, 반복 고유값에서도 대각화가 보장되는 Schur 정리, 그리고 PCA·커널·그래프 라플라시안 등 ML 응용까지 직관과 수식을 함께 제시한다. | |
| Apr 10, 2026 | Ch.6 §6.5 — 양정치 행렬 (Positive Definite Matrices) | Math, Linear Algebra | Strang Ch.6.5를 기반으로 양정치 행렬이 왜 “가장 아름다운 행렬 부류”인지 다룬다. 다섯 가지 동치 조건(고유값·피벗·선행 주부분 행렬식·에너지·\(\mathbf{R}^\top \mathbf{R}\))의 직관적 의미, 이차형식 \(\mathbf{x}^\top \mathbf{A}\mathbf{x}\) 의 기하학(타원체·주축·밥그릇), 완전제곱식과 피벗의 관계, 촐레스키 분해 \(\mathbf{A} = \mathbf{L}\mathbf{L}^\top\), 그리고 헤시안 판정·PCA·공분산·Newton 최적화·커널 방법 등 ML 응용까지 수식과 직관을 함께 제시한다. | |
| Apr 10, 2026 | Ch.6 §6.6 — 닮음 행렬 (Similar Matrices) | Math, Linear Algebra | Strang Ch.6.6을 기반으로 닮음 행렬 \(\mathbf{B} = \mathbf{M}^{-1}\mathbf{A}\mathbf{M}\) 의 의미와 “같은 선형 변환의 서로 다른 좌표 표현”이라는 직관을 다룬다. 닮음 불변량(고유값·특성다항식·행렬식·대각합·랭크·최소다항식), 결함 행렬과 조르당 표준형의 구조, 조르당 체인(일반화 고유벡터), 그리고 행렬 거듭제곱·미분방정식·딥러닝 헤시안 스펙트럼 분석 등 응용까지 수식과 직관을 함께 제시한다. | |
| Apr 10, 2026 | 종단 연구 개요 (Longitudinal Studies Overview) | Statistics, Longitudinal Data Analysis | 종단 연구(Longitudinal Study)의 정의와 필요성을 횡단 연구와의 대비에서 시작해 설명한다. Hedeker & Gibbons(2006) Ch.1을 뼈대로, 종단 연구의 네 가지 장점, 분석의 도전 과제, 표기법과 데이터 배치, 분석 방법 분류, 가장 단순한 종단 분석(변화점수·ANCOVA), 공분산 구조, LMM 주변 분포, within-between 분해, 표본 크기 공식까지 수식과 직관을 함께 제시한다. | |
| Apr 10, 2026 | 반복측정 ANOVA의 종단 데이터 적용 (ANOVA Approaches to Longitudinal Data) | Statistics, Longitudinal Data Analysis | Hedeker & Gibbons(2006) Ch.2를 뼈대로, 반복측정 ANOVA를 종단 데이터에 적용하는 두 가지 설계(단일 표본 임의블록 ANOVA, 다중 표본 분할구획 ANOVA)를 수식과 함께 설명한다. 시간 효과의 대비 분해(직교 다항식, 기준셀, 프로파일, Helmert, 이탈 대비), 복합대칭 가정·구형성 조건, Mauchly 검정, Greenhouse-Geisser 보정, 그리고 Bock(1975)의 어휘 성장 예제를 통해 분석 절차를 직관적으로 시연한다. | |
| Apr 10, 2026 | ANOVA Illustration — Bock 어휘 성장 데이터 수치 예시 | Statistics, Longitudinal Data Analysis | Bock(1975)의 어휘 성장 데이터(N=64, 4시점)를 이용하여 단일 표본 반복측정 ANOVA의 전체 계산 절차를 단계별로 수행한다. 피험자 SS · 시간 SS · 잔차 SS를 수기로 유도하고, 분산 성분(σ̂²_π, σ̂²_e)과 ICC(=0.80)를 추정한다. 직교 다항식 대비 행렬 C로 선형·이차·삼차 추세를 분리하고 각 추세의 F 검정을 수행하며, Mauchly 구형성 검정으로 전제 조건을 확인한다. | |
| Apr 10, 2026 | MANOVA Approaches to Longitudinal Data | Statistics, Longitudinal Data Analysis | Hedeker & Gibbons(2006) Ch.3을 뼈대로, MANOVA를 종단 데이터에 적용하는 다변량 접근법을 수식과 직관으로 상세히 설명한다. 데이터 배치(long vs wide), 일표본 MANOVA 모형, 직교 다항식 성장곡선 분석, SSCP 행렬 분해, Wilks’ Λ·Roy 최대근 등 다변량 검정 통계량, 다표본 집단×시간 교호작용, 그리고 RM ANOVA와의 검정력 비교까지 다룬다. | |
| Apr 10, 2026 | ANOVA vs MANOVA: 데이터 배치 구조와 수식적 함의 | Statistics, Longitudinal Data Analysis | 반복측정 데이터를 분석하는 두 가지 접근법(ANOVA와 MANOVA)은 데이터를 구조화하는 방식이 근본적으로 다르다. Long format(단변량 배치)은 하나의 종속변수를 여러 행에 걸쳐 배치하고, Wide format(다변량 배치)은 각 시점을 별도 변수로 만든다. 이 구조적 차이가 결측치 처리, 모형 가정, 검정력에 어떤 수식적 함의를 갖는지 직관과 수식을 함께 설명한다. | |
| Apr 10, 2026 | MANOVA for Repeated Measurements (일표본) | Statistics, Longitudinal Data Analysis | Hedeker & Gibbons(2006) §3.2를 뼈대로, 일표본 반복측정 MANOVA를 수식과 직관으로 상세히 설명한다. 모형 정의(비구조적 공분산), 직교 다항식 P 행렬 유도, SSCP 행렬(SST, SSR)의 대각원소 해석, 일변량 RM ANOVA 결과 추출, 행렬식 방정식·Cholesky 분해 기반 다변량 시간 효과 검정, 구형성 충족/위반 시 개별 추세 F-검정과 검정력 비교까지 다룬다. | |
| Apr 10, 2026 | MANOVA of Repeated Measures — 다표본(s 집단) 케이스 | Statistics, Longitudinal Data Analysis | Hedeker & Gibbons(2006) §3.3을 뼈대로, s개 집단의 다표본 반복측정 MANOVA를 수식과 직관으로 상세히 설명한다. 다표본 모형 정의(집단 효과 벡터 γ_h), 세 SSCP 행렬(SST, SSG, SSR*)의 대각원소 해석, 분할구획 ANOVA 결과 추출, 집단 효과· 집단×시간 교호작용의 올바른 F-검정 분모 선택, 다변량 행렬식 방정식·Wilks’ Λ· 개별 추세 F-검정(3.14)까지 상세히 다룬다. | |
| Apr 10, 2026 | MANOVA Illustration — Bock 어휘 성장 데이터 수치 예시 | Statistics, Longitudinal Data Analysis | Bock(1975)의 어휘 성장 데이터(N=64, 4시점)를 이용하여 반복측정 MANOVA의 전체 계산 절차를 단계별로 수행한다. 직교 다항식 P 행렬로 평균 벡터를 변환하고, SST* · SSR* SSCP 행렬을 구성한 뒤, 결정방정식으로 Roy’s largest root와 Wilks’ Λ를 도출하고 ANOVA vs MANOVA 검정력을 수치로 비교한다. | |
| Apr 10, 2026 | 혼합효과 회귀모형 — 연속 반응변수 개요 | Statistics, Longitudinal Data Analysis | ANOVA/MANOVA의 한계(구형성 가정, 완전 데이터 요구)를 극복하는 혼합효과 회귀모형(MRM)의 이론적 구조를 단계별로 전개한다. 단순 선형회귀 → 랜덤 절편 모형 → 랜덤 절편+기울기 모형으로 확장하며, 수준-1/수준-2 위계 표현, 행렬 공식화(y_i = X_i β + Z_i v_i + ε_i), 공분산 구조 V(y_i) = Z_i Σ_v Z_i’ + σ²I, 경험 베이즈 추정, ML/REML 비교를 Reisby 정신과 데이터(N=66, 6시점)로 실증한다. | |
| Apr 10, 2026 | 단순 선형회귀 모형 — 혼합효과 회귀모형의 출발점 | Statistics, Longitudinal Data Analysis | 혼합효과 회귀모형(MRM)은 단순 선형회귀의 두 가지 근본적 한계를 해결하기 위해 등장한다. 이 포스트에서는 단순 선형회귀의 수식 체계와 iid 가정을 완전히 해부하고, 같은 피험자의 반복 측정이 왜 독립 가정을 위반하는지, 모든 사람이 동일한 기울기를 갖는다는 가정이 왜 이질성을 무시하는지를 직관과 수리 두 측면에서 상세히 설명한다. Reisby 정신과 데이터(N=66, 6시점)로 실증한다. | |
| Apr 10, 2026 | 랜덤 절편 MRM — 모형 구조, 불완전 데이터, 복합대칭, 추정과 검정 | Statistics, Longitudinal Data Analysis | 단순 선형회귀의 두 한계(독립 가정 위반, 이질성 무시)를 해결하는 첫 번째 MRM인 랜덤 절편 모형을 상세히 다룬다. 피험자별 랜덤 절편 v_{0i}의 수리적 역할, 종단 데이터의 불완전 구조(결측 시점·불균등 관측 횟수)를 MAR 가정 아래 ML 추정이 어떻게 다루는지, 복합대칭 공분산 구조와 ICC의 해석, Wald·LRT 검정의 적용 범위와 경계값 문제, OLS 대비 분산 분해의 의미를 Reisby 정신과 데이터(N=66, 6시점)로 실증한다. | |
| Apr 10, 2026 | 랜덤 절편·추세 MRM — 개인별 기울기 이질성, 이변량 랜덤 효과, 시간 코딩 | Statistics, Longitudinal Data Analysis | 랜덤 절편에 랜덤 기울기를 추가해 개인별 시간 추세의 이질성을 모형화한다. 이변량 정규분포 랜덤 효과, 시간 코딩 방식에 따른 모수 해석 변화, LRT를 통한 복합대칭 가정 기각, 진단 공변수 모형, 행렬 공식화, 경험 베이즈 추정까지 다룬다. | |
| Apr 10, 2026 | 혼합효과 회귀모형의 행렬 공식화 — MRM 전체 구조의 통합 표현 | Statistics, Longitudinal Data Analysis | 랜덤 절편·추세 MRM을 행렬-벡터 형식으로 통합 표현한다. X, Z, β, v_i 각 행렬의 역할과 차원, 고정/랜덤 효과 설계 행렬 구분, 결합 다변량 정규분포에서 경험 베이즈 도출, 공분산 구조 수치 전개, Reisby 모형 적합 평가, 시변 공변수 모형까지 다룬다. | |
| Apr 10, 2026 | MRM 추정론 — ML, REML, EM 알고리즘, Fisher Scoring | Statistics, Longitudinal Data Analysis | MRM의 고정 효과(β), 분산 모수(Σ_v, σ²), 랜덤 효과(v_i)를 동시에 추정하는 완전한 추정 이론을 다룬다. 주변 로그 우도 도출, EM 알고리즘 반복 공식, Newton-Raphson/Fisher Scoring, REML의 원리와 한계, ML vs REML 선택 기준까지 포함한다. | |
| Apr 10, 2026 | 종단 데이터 분석 (Longitudinal Data Analysis) | Statistics | Hedeker & Gibbons 교재 기반 종단 데이터 분석 시리즈. LDA 기초, 혼합효과 모형, GLMM, GEE, 패널 데이터 분석 등 관련 포스트 목록. | |
| Apr 9, 2026 | DL 학습 데이터가 거의 없을 때: 도메인 분류기 증강 전략 | Data Science, Machine Learning, Deep Learning, NLP | 14개 도메인 그룹을 분류하는 Korean NLP 분류기를 개발할 때, 클래스당 데이터가 1개뿐인 극단적 불균형 상황에서 어떤 증강 전략을 쓸 수 있는지, 그리고 클래스당 몇 개의 샘플을 만들어야 하는지 추정하는 과정을 다룬다. | |
| Apr 9, 2026 | Fine-tuning 클래스당 샘플 수 추정: 모델별 이론과 Learning Curve 실험 | Deep Learning, Machine Learning, NLP | 사전학습 모델 fine-tuning에 필요한 클래스당 샘플 수는 모델마다 크게 다르다. KoBERT / ALBERT / BiLSTM / fastText / TF-IDF+SVM 각각의 추정 근거와 PAC-Bayes 이론적 지지를 분석하고, 이론 추정의 한계를 Learning Curve 실험으로 보완하는 방법을 다룬다. | |
| Apr 9, 2026 | BERT Fine-tuning 시 GPU 저활용 문제 분석 및 해결 | Deep Learning, Engineering, PyTorch | BERT fine-tuning 중 GPU utilization이 10~20%에 머무는 현상의 원인을 분석하고 해결한다. 매 배치마다 발생하는 CUDA synchronization 병목, batch size와 GPU 효율의 관계, batch size 변경 시 반드시 따라야 하는 learning rate 조정 원칙까지 정리한다. | |
| Apr 9, 2026 | Ch.3 §3.1 — Spaces of Vectors and Subspaces Overview | Math, Linear Algebra | 벡터 공간(vector space)의 정의와 8가지 공리, 부분공간(subspace)의 두 조건, 열공간 C(A)의 개념을 Strang 교재 §3.1 기준으로 직관 중심으로 정리한다. Ax=b의 해가 존재하는 조건을 열공간 소속 여부로 재해석하는 것이 이 챕터의 핵심이다. | |
| Apr 9, 2026 | Ch.3 §3.1 심화 — Spaces of Vectors | Math, Linear Algebra | R^n 이외의 벡터 공간(행렬 공간 M, 다항식 공간 P_n, 함수 공간 F)을 상세히 다루고, 부분공간의 교집합과 합이 가지는 성질, 열공간의 핵심 성질들을 직관과 수식으로 정리한다. mit-03-1의 기초 정의 위에서 벡터 공간 개념을 추상적으로 확장한다. | |
| Apr 9, 2026 | Ch.3 §3.2 — The Nullspace of A: Solving Ax = 0 | Mathematics, Linear Algebra | 영공간 N(A)가 왜 부분공간인지 증명하고, 소거법으로 Ax=0의 모든 해를 구하는 방법을 다룬다. 피벗 변수와 자유 변수의 구분, 특수해 생성 규칙, RREF까지 단계별로 전개한다. | |
| Apr 9, 2026 | Ch.3 §3.3 — The Rank and the Row Reduced Form | Mathematics, Linear Algebra | 행렬의 랭크(rank)를 피벗 수·독립 행/열 수·열 공간 차원의 세 가지 관점으로 이해한다. RREF R의 유일성, 자유 열이 피벗 열의 결합임을 증명하고, 랭크-1 행렬 A = uvᵀ 분해, 영공간 행렬 N = [-F; I] 구조까지 단계별로 전개한다. | |
| Apr 9, 2026 | Ch.3 §3.4 — The Complete Solution to Ax = b | Mathematics, Linear Algebra | Ax=b의 완전해(complete solution)가 특정해(particular solution)와 영공간의 합으로 구성됨을 증명한다. 첨가 행렬 [A|b]로 가해 조건을 도출하고, 전랭크(full column/row rank) 각각의 해 구조를 이해한다. 랭크 r, m, n의 관계로 결정되는 네 가지 경우를 정리한다. | |
| Apr 9, 2026 | Ch.3 §3.5 — Independence, Basis and Dimension | Mathematics, Linear Algebra | 선형 독립·생성·기저·차원의 정의와 증명을 다룬다. 피벗 열이 열 공간의 기저가 되고, 차원이 랭크와 일치함을 보인다. 행렬 공간·함수 공간으로 개념을 확장한다. | |
| Apr 9, 2026 | Ch.3 §3.6 — Dimensions of the Four Subspaces | Mathematics, Linear Algebra | m×n 행렬 A의 네 근본 부분공간(열 공간·영공간·행 공간·좌영공간)의 차원과 기저를 소거법으로 구하는 방법을 다룬다. 랭크-영공간 정리의 완성판인 Big Picture를 정리한다. | |
| Apr 9, 2026 | 가설검정 개요 — 귀무가설, 기각역, 검정력, UMP | Statistics | 가설검정의 기본 구조(가설, 기각역, 검정통계량)에서 출발하여 우도비 검정(LRT), 검정력 함수, 두 종류의 오류, 크기·수준, UMP 검정, 네이만-피어슨 보조정리까지 직관과 수식을 함께 설명한다. | |
| Apr 9, 2026 | 검정 도출 방법 — 우도비 검정(LRT)의 완전한 이해 | Statistics | 가설검정 절차를 도출하는 방법론을 다룬다. 우도비 검정(LRT)의 정의·구성·예시, 충분통계량과 LRT의 관계, 방해모수가 있는 경우의 LRT, 베이즈 검정, 합집합-교집합 검정, 그리고 점근적 LRT(-2 log λ → χ²)까지 직관과 수식을 함께 전개한다. | |
| Apr 9, 2026 | 베이즈 검정 — 사후확률로 가설을 판단하는 방법 | Statistics | 베이즈 검정의 구조와 이론을 다룬다. 사전·사후분포 기반 의사결정, 베이즈 인수(Bayes Factor), 손실함수 최적성(0-1 손실, 일반화 손실), 빈도론 LRT와의 비교, 켤레 사전분포를 이용한 정규·포아송 모형 예시까지 직관과 수식을 함께 전개한다. | |
| Apr 9, 2026 | 검정 도출 방법 — 합집합-교집합 검정과 교집합-합집합 검정 | Statistics | 복잡한 귀무가설을 단순한 하위 가설들로 분해하여 검정을 구성하는 두 가지 방법, 합집합-교집합 검정(UIT)과 교집합-합집합 검정(IUT)을 직관과 수식으로 체계적으로 설명한다. 크기(size) 보정 방법과 실무 응용까지 다룬다. | |
| Apr 9, 2026 | 검정 평가 방법 — 오류 확률과 검정력 함수 | Statistics | 가설검정에서 발생하는 두 종류의 오류와 이를 하나의 함수로 통합하는 검정력 함수(power function)를 직관과 수식으로 설명한다. 크기(size), 수준(level), 불편 검정, 최강력 검정(UMP), Neyman-Pearson 보조정리, 단조 우도비(MLR), Karlin-Rubin 정리까지 체계적으로 다룬다. | |
| Apr 9, 2026 | 검정 평가 방법 — 최강력 검정과 균일 최강력 검정 | Statistics | 최강력 검정(UMP)의 구성과 존재 조건을 체계적으로 다룬다. Neyman-Pearson 보조정리의 완전한 증명과 단계별 적용법, 충분통계량 활용, 단조 우도비(MLR)와 Karlin-Rubin 정리, UMP 비존재 조건, 균일 최강력 불편(UMPU) 검정까지 수식과 직관으로 상세히 설명한다. | |
| Apr 9, 2026 | 검정 평가 방법 — 합집합-교집합·교집합-합집합 검정의 크기 | Statistics | 합집합-교집합 검정(UIT)과 교집합-합집합 검정(IUT)의 크기(size)를 제어하는 세 가지 핵심 정리(8.3.21, 8.3.23, 8.3.24)를 완전한 증명과 직관으로 설명한다. UIT의 보수적 검정력 손실, IUT의 보수성, 정확한 크기 조건까지 체계적으로 다룬다. | |
| Apr 9, 2026 | 검정 평가 방법 — p-값의 이론과 실무 | Statistics | p-값을 유효한 검정 통계량으로 엄밀히 정의하고, Theorem 8.3.27로 유효 p-값을 구성하는 방법, 충분통계량을 이용한 조건부 p-값, Fisher 정확 검정을 체계적으로 설명한다. ASA 공식 입장, 표본 크기 문제, 흔한 오해와 올바른 실무 활용법까지 통합하여 다룬다. | |
| Apr 9, 2026 | 검정 평가 방법 — 손실함수 최적성 (Loss Function Optimality) | Statistics | 가설검정을 의사결정 이론(Ch.7.3.4)의 틀로 재해석한다. 행동 공간 {a₀, a₁}, 0-1 손실, 일반화 0-1 손실을 정의하고, 위험함수가 검정력 함수의 선형 결합으로 표현됨을 보인다. UMP 검정의 위험함수 예시, 비대칭 손실의 실무 해석, 그리고 검정에서 손실함수 선택이 최적성 기준을 어떻게 바꾸는지 직관적으로 설명한다. | |
| Apr 9, 2026 | 순열 p-값 (Permuted p-Value) | Statistics | 이론적 귀무 분포를 가정할 수 없거나 가정이 위반될 때 사용하는 순열 기반 p-값을 다룬다. 귀무 가설 하에서 관측값 교환 가능성(exchangeability)이 순열의 수학적 근거임을 보이고, 순열 p-값 공식과 알고리즘을 단계별로 설명한다. 이론적 p-값과의 비교, 다중 검정에서 FDR 추정으로의 확장, 적용 조건과 한계까지 직관적으로 서술한다. | |
| Apr 9, 2026 | 유전체 전장 순열 p-값 (Genome-Wide Permuted p-Value) | Statistics | 수십만~수백만 개의 SNP를 동시에 검정하는 GWAS에서 Bonferroni 보정이 왜 문제가 되는지, 그리고 표현형 레이블 순열이 연관불평형(LD) 구조를 보존하면서 genome-wide significance threshold를 직접 추정하는 이유를 수식과 직관으로 설명한다. Min-P 절차, 적응형 순열, 일반 순열 p-값(Ch.13.5, ISLR)과의 차이를 다룬다. | |
| Apr 9, 2026 | 다중 검정 (Multiple Testing) | Statistics | 하나의 가설 검정에서 α = 0.05는 5% 오류율을 보장한다. 그러나 가설이 m개로 늘어나면 1개 이상 틀릴 확률은 FWER = 1 - (1-α)^m 로 급증한다. 이 포스트는 m개의 귀무가설을 동시에 검정하는 문제의 핵심 오류 지표(FWER, FDR)와 이를 제어하는 Bonferroni, Holm, Benjamini-Hochberg 절차를 수식과 직관, 코드로 완전히 설명한다. | |
| Apr 9, 2026 | q-값 (q-Value) | Statistics | Benjamini-Hochberg(BH) 절차는 FDR을 제어하지만 참 귀무가설 비율 π₀를 보수적으로 1로 가정한다. Storey(2002)의 q-값은 π₀를 데이터로 추정하여 BH보다 더 많은 가설을 기각하면서 FDR을 더 정밀하게 추정한다. q-값의 정의, π₀ 추정 방법, BH p-값과의 관계, local FDR과의 비교를 직관과 수식으로 설명한다. | |
| Apr 9, 2026 | 표본 크기 결정 (Sample Size Calculation) | Statistics | 가설 검정에서 Type I 오류(α), Type II 오류(β), 효과 크기(δ), 분산(σ²)의 네 요소가 표본 크기 n을 결정한다. 이 포스트는 단일/이표본 정규 검정에서 n의 닫힌 형식 공식을 유도하고, ANOVA·비율 검정·비모수 검정으로 확장하며, 효과 크기의 직관(Cohen’s d, f, h)과 통계적 검정력 곡선을 설명한다. | |
| Apr 9, 2026 | 단일 표본 반복측정 ANOVA: 시간 효과 분해 | Statistics, Longitudinal Data Analysis | 동일 피험자를 여러 시점에 반복 측정할 때 시간 효과를 어떻게 분리하는지 수식과 직관으로 상세히 설명한다. 임의블록 설계의 데이터 구조, 복합대칭 공분산 행렬, 식별 조건, 독립 표본 설계와의 비교를 포함하는 설계 구조 섹션과, 전체 변동을 피험자·시간·잔차로 분해하는 SS 항등식, 각 MS의 기댓값과 F-통계량의 정당성, ICC를 통한 분산 성분 추정, 직교 다항식·기준셀·Helmert 대비를 이용한 시간 효과의 심층 분해를 다룬다. | |
| Apr 9, 2026 | 다중 표본 반복측정 ANOVA: 분할구획 설계의 수식과 직관 | Statistics, Longitudinal Data Analysis | 여러 집단을 여러 시점에 반복 측정하는 분할구획(Split-Plot) 설계의 통계 구조를 수식과 직관으로 상세히 설명한다. 피험자-내(within) 층위와 피험자-간(between) 층위의 분리, SS 완전 분해, 각 MS의 기댓값 유도, 집단 효과의 올바른 분모 선택, 집단×시간 교호작용의 직교 다항식 분해와 단순 효과 분석, 코드까지 다룬다. | |
| Apr 8, 2026 | SQL 코딩 테스트: 집계 · DISTINCT 문제 모음 | Code Test, SQL | Level 1 기본 집계 유형 풀이 모음. COUNT, SUM, AVG, MAX, MIN 집계 함수, DISTINCT 중복 제거, ROUND 반올림, NULL 자동 제외 동작, GROUP BY 없는 전체 집계 등. | |
| Apr 8, 2026 | SQL 코딩 테스트: ORDER BY · LIMIT 문제 모음 | Code Test, SQL | Level 1 정렬 및 상위 N개 조회 유형 풀이 모음. 단일 정렬(ASC/DESC), 다중 정렬 기준(콤마 구분), LIMIT으로 상위 N개 제한, 동률(tie) 처리, 정렬 기준 컬럼 혼동 패턴 등. | |
| Apr 8, 2026 | MIT 18.06 Linear Algebra — 코스 전체 개요 | Math, Linear Algebra | Gilbert Strang(MIT)의 선형대수학 강의 전체 구조와 핵심 질문을 정리한다. 벡터에서 시작해 행렬·부분공간·직교성·행렬식·고유값·SVD로 이어지는 흐름을 조망하고, 각 장이 머신러닝·딥러닝·통계학에서 어떤 역할을 하는지 연결한다. | |
| Apr 8, 2026 | Ch.1 §1.2 — Lengths and Dot Products | Math, Linear Algebra | Gilbert Strang의 Introduction to Linear Algebra §1.2를 상세히 다룬다. 두 벡터의 내적(dot product)을 정의하고, 길이(norm), 단위벡터, 코사인 공식을 유도한다. 슈바르츠 부등식과 삼각 부등식을 증명하고, 내적이 ML/DL/통계에서 어떤 역할을 하는지 살펴본다. | |
| Apr 8, 2026 | Ch.2 Solving Linear Equations — 챕터 개요 | Math, Linear Algebra | 선형 연립방정식 Ax=b를 세 가지 시각(행 그림·열 그림·행렬 형태)으로 이해하고, 소거법부터 LU 분해까지 챕터 전체의 흐름과 핵심 개념을 정리한다. | |
| Apr 8, 2026 | Ch.2 §2.1 — Vectors and Linear Equations | Math, Linear Algebra | 선형 연립방정식 Ax=b를 행 그림(직선·평면의 교점), 열 그림(열벡터의 선형 결합), 행렬 형태 세 가지로 해석하고, Ax 곱셈의 두 방법과 해의 존재성을 다룬다. | |
| Apr 8, 2026 | Ch.2 §2.2 — The Idea of Elimination | Math, Linear Algebra | 소거법의 핵심 아이디어인 피벗과 승수를 정의하고, 2×2에서 3×3으로 확장하며 전방 소거→후방 대입의 전 과정을 단계별로 다룬다. 소거의 성공·실패·복구 세 시나리오와 n×n 일반화까지 포함한다. | |
| Apr 8, 2026 | Ch.2 §2.3 — Elimination Using Matrices | Math, Linear Algebra | 소거법의 각 단계를 소거 행렬 E_ij로 표현하고, 행렬 곱셈의 결합·비가환 법칙을 이해하며, 확장 행렬 [A|b]로 좌우를 동시에 처리하는 방법을 다룬다. 직관적 설명 중심. | |
| Apr 8, 2026 | Ch.2 §2.4 — Rules for Matrix Operations | Math, Linear Algebra | 행렬 덧셈과 스칼라 곱의 기본 규칙, 행렬 곱셈의 네 가지 관점(내적·열·행·열×행), 교환 법칙이 깨지는 이유, 블록 행렬 곱셈과 슈어 여인수까지 직관 중심으로 다룬다. | |
| Apr 8, 2026 | Ch.2 §2.6 — Elimination = Factorization: A = LU | Math, Linear Algebra | 가우스 소거법의 각 단계를 소거 행렬 E_ij로 표현하고, 그 역행렬들의 곱이 하삼각 행렬 L이 됨을 유도한다. L에 승수가 간섭 없이 들어가는 이유, A = LDU 변형, 두 삼각 시스템으로 Ax = b 풀기, 연산량 분석까지 직관 중심으로 다룬다. | |
| Apr 8, 2026 | Ch.2 §2.7 — Transposes and Permutations | Math, Linear Algebra | 전치 행렬의 정의와 규칙, (AB)^T = B^T A^T의 직관, 대칭 행렬과 A = LDL^T 분해, R^T R의 자동 대칭성, 치환 행렬과 P^T = P^{-1}, 행 교환을 포함한 PA = LU 분해까지 직관 중심으로 다룬다. | |
| Apr 7, 2026 | SQL 코딩 테스트: WHERE 조건 필터링 문제 모음 | Code Test, SQL | Level 1 WHERE 조건 필터링 유형 풀이 모음. 단순 조건(=, >, <, >=, <=), AND/OR 조합, LIKE 패턴, IN, BETWEEN, IS NULL / IS NOT NULL, 날짜 비교 및 경계값(> vs >=) 등. | |
| Apr 7, 2026 | SQL 코딩 테스트: GROUP BY · HAVING 문제 모음 | Code Test, SQL | Level 2 GROUP BY·HAVING 유형 풀이 모음. 다중 컬럼 GROUP BY, HAVING 조건 필터링, WHERE vs HAVING 구분 패턴 등. | |
| Apr 7, 2026 | Regression Models Overview | Statistics, Regression | 회귀 분석의 전체 지형을 한 포스트에서 조망한다. 단순 선형 회귀(SLR)에서 출발하여 다중 회귀, 일반화 선형 모형(GLM), 정규화 회귀(Ridge/Lasso), 혼합 모형, 비모수 회귀까지 각 모형이 왜 필요한지, 이전 모형의 어떤 한계를 극복하는지, 그리고 실무에서 어떻게 선택하는지를 체계적으로 정리한다. | |
| Apr 7, 2026 | Regression with Errors in Variables | Statistics, Regression | 설명변수 X에도 측정오차가 있을 때의 회귀 모형(Errors-in-Variables, EIV)을 다룬다. 기능적 관계(Functional)와 구조적 관계(Structural)의 구분, 통상 OLS의 감쇠 편향(attenuation bias), 직교 최소제곱(orthogonal least squares), MLE의 식별 불가능성과 분산비 가정을 Casella & Berger Ch.12 기반으로 정리한다. | |
| Apr 7, 2026 | EIV Regression: A Least Squares Solution | Statistics, Regression | 설명변수에 측정오차가 있을 때 통상 OLS 대신 직교 최소제곱(Orthogonal/Total Least Squares)을 사용하는 이유와 해의 유도 과정을 상세히 다룬다. 수직 거리 vs 직교 거리의 기하학적 차이, 목적함수의 단계별 최소화, OLS·역OLS·직교LS 세 직선의 관계를 Casella & Berger §12.2.2 기반으로 전개한다. | |
| Apr 7, 2026 | EIV Regression: Maximum Likelihood Estimation | Statistics, Regression | EIV 모형에서 최대우도추정의 근본적 어려움(우도 함수의 무한 발산, 안장점 문제)을 다루고, 분산비 가정 σ_δ² = λσ_ε² 하에서 단계별 MLE 유도 과정을 전개한다. Functional/Structural 모형 각각의 MLE, 직교 LS와의 동치 관계(λ=1), 분산 추정량의 일치성 문제, 신뢰구간 구성의 한계를 Casella & Berger §12.2.3–12.2.4 기반으로 정리한다. | |
| Apr 7, 2026 | EIV Regression: Confidence Sets | Statistics, Regression | 측정오차 모형(EIV)에서 기울기 β에 대한 신뢰 집합을 구성하는 문제를 다룬다. Gleser-Hwang(1987) 불가능성 정리(유한 길이 신뢰구간의 피복률이 0임)를 증명하고, 정보량 모수 τ² = σ_ξ²/σ_δ²의 역할을 분석한다. CLT 기반 근사 신뢰구간과 Gleser 수정안의 한계를 설명하고, 피봇 통계량 r_λ(β)에 기반한 Creasy-Williams 정확 신뢰 집합과 그 구조적 특성을 Casella & Berger §12.2.4 기반으로 전개한다. | |
| Apr 7, 2026 | Robust Regression | Statistics, Regression | 이상치에 취약한 최소제곱(OLS) 회귀의 한계를 이론과 실례로 보이고, 강건 대안으로 최소절대편차(LAD) 회귀와 M-추정 회귀를 전개한다. 평균-중앙값 유추에서 OLS-LAD 유추를 도출하고, LAD 추정량의 점근 정규성을 테일러 전개로 엄밀하게 유도하며, Huber ρ 함수를 이용한 회귀 M-추정량을 정의하고 IRLS로 계산하는 절차를 Casella & Berger §12.4 기반으로 전개한다. | |
| Apr 7, 2026 | Multiple Linear Regression | Statistics | 단순 선형 회귀를 여러 예측변수로 확장한다. 행렬 표기로 OLS를 유도하고, Gauss-Markov 정리로 BLUE 성질을 증명하며, t·F 검정과 R², 다중공선성, 변수 선택까지 MLR의 전체 이론 체계를 전개한다. | |
| Apr 7, 2026 | Logistic Regression: Estimation | Statistics, GLM, Machine_Learning, Engineering, Optimization | 로지스틱 회귀의 MLE를 구하는 수치 알고리즘을 상세하게 전개한다. 로그 우도의 헤시안 행렬을 유도하고, 헤시안이 음정치(negative definite)임을 증명하여 로그 우도의 전역 순오목성을 확립한다. Newton-Raphson 업데이트 공식에서 IRLS(Iteratively Reweighted Least Squares)를 조정 반응변수와 가중행렬로 재표현하고, Fisher scoring과의 동치를 보인다. 다중 로지스틱 회귀로의 확장, 이탈도 함수, 수렴 진단을 Casella §12.3과 McCullagh & Nelder §2.5·§4.4 기반으로 전개한다. | |
| Apr 7, 2026 | Logistic Regression: The Model | Statistics, GLM, Machine_Learning | 로지스틱 회귀를 GLM(Generalized Linear Model)의 특수 사례로 정확하게 정의하고, GLM의 세 구성요소(랜덤·선형·링크)를 체계적으로 전개한다. 로지스틱 함수의 수학적 성질(단조성, 대칭성, 도함수)과 모수 α·β의 오즈비 해석을 다루고, 베르누이 우도에서 MLE 스코어 방정식을 유도하며, 피셔 정보행렬과 근사 신뢰구간, Wald 검정과 우도비 검정을 Casella & Berger §12.3 기반으로 전개한다. | |
| Apr 7, 2026 | Writing | Writing | 논리적 글쓰기 훈련 기록. R1~R7 루브릭 기반 채점 및 단계적 피드백. Lv.1(중학생)부터 Lv.7(학술 논문)까지 7단계, 한국어/영어 통합. | |
| Apr 6, 2026 | VS Code Jupyter 커널 연결 실패: pyenv + Poetry 환경에서의 충돌 분석 | Engineering, DevOps, Python |
pyenv + Poetry 환경으로 전환 후 VS Code에서 Jupyter 커널이 간헐적으로 연결되지 않는 문제를 분석한다. jupyter.kernelCreationMode와 jupyter.preferredKernelSpec 설정이 Python extension의 interpreter 선택과 충돌하면서 발생하는 무한 뺑뺑이 현상의 원인과 해결 방법을 정리한다.
|
|
| Apr 6, 2026 | Ch.1 Introduction to Vectors — 선형결합, 내적, 코사인 | Math, Linear Algebra | Gilbert Strang의 Introduction to Linear Algebra Ch.1을 다룬다. 벡터의 두 핵심 연산(덧셈, 스칼라 곱)과 선형결합 cv+dw의 기하학적 구조를 소개하고, 내적(dot product), 벡터의 길이(노름), 코사인 공식을 유도한다. | |
| Apr 6, 2026 | Ch.1 §1.1 — Vectors and Linear Combinations | Math, Linear Algebra | Gilbert Strang의 Introduction to Linear Algebra §1.1을 상세히 다룬다. 벡터의 두 핵심 연산(덧셈, 스칼라 곱)을 정의하고, 선형결합 cv+dw의 기하학적 의미를 분석한다. 1개·2개·3개 벡터의 선형결합이 만드는 집합(직선·평면·공간)을 직관적으로 이해하고, 이것이 선형방정식 Ax=b와 어떻게 연결되는지 살펴본다. | |
| Apr 6, 2026 | 변수의 유형과 역할 | Statistics | 통계 분석에서 변수를 분류하는 두 축(역할과 척도)을 정리한다. 독립·종속·매개·조절·외생· 내생·억압·통제 변수의 정의와 실무 예시, 이산·연속·질적·양적 변수의 구분, 그리고 연구 설계에서 변수 통제의 중요성을 다룬다. | |
| Apr 6, 2026 | The ANOVA F Test: 기하학적 유도와 실무 진단 | Statistics | 일원분류 ANOVA의 F 검정을 Casella & Berger §11.2.4의 대수적 유도를 넘어 선형대수적·기하학적 관점에서 재해석한다. ANOVA 가정 진단(정규성, 등분산성, 독립성)과 위배 시 대안(Welch, Kruskal-Wallis), 효과크기(\(\eta^2\), \(\omega^2\), Cohen’s \(f\)), 비중심 F 분포 기반 검정력 분석, Type I/II/III 제곱합을 실무 코드와 함께 다룬다. | |
| Apr 6, 2026 | Simultaneous Estimation of Contrasts | Statistics | 일원분류 ANOVA 의 사후 분석(post-hoc)에서 여러 대비를 동시에 추론할 때 발생하는 다중비교 문제를 체계적으로 다룬다. 가계 오류율(FWER)과 개별 오류율의 구분, Bonferroni 의 한계, Scheffé 의 완전 동시성, Tukey HSD 의 쌍별 최적성, Dunnett 의 대조군 비교, Holm step-down, Benjamini-Hochberg FDR 을 비교하고, 언제 어느 방법을 선택해야 하는지를 이론적 근거와 실무 지침으로 정리한다. | |
| Apr 6, 2026 | Partitioning Sums of Squares | Statistics | 일원분류 ANOVA 의 \(\mathrm{SST} = \mathrm{SSB} + \mathrm{SSW}\) 항등식을 출발점으로 제곱합 분해 이론을 Cochran 정리, 이원 이상 ANOVA 의 직교/비직교 분해, 기대 평균제곱 (EMS), Type I/II/III 제곱합의 엄밀 정의, 회귀 분석의 \(R^2 \cdot\) 수정 \(R^2\) 까지 통합한다. Casella & Berger §11.2.6 의 이론을 뼈대로, 선형 모형 전반의 공통 구조를 제시한다. | |
| Apr 6, 2026 | Simple Linear Regression: Overview | Statistics, Regression | 단순 선형 회귀(Simple Linear Regression, SLR)의 전체 지형을 한 포스트에 정리한다. 모형 정의와 Gauss-Markov 가정, 최소제곱 추정량의 유도와 분포, 계수·평균 반응·예측 구간의 추론, 결정계수와 잔차 진단, 확장과 한계까지 다룬다. Casella & Berger §11.3 의 이론을 뼈대로, 후속 포스트의 진입점을 제공한다. | |
| Apr 6, 2026 | Simple Linear Regression: Least Squares — A Mathematical Solution | Statistics, Regression | 단순 선형 회귀의 최소제곱 해를 통계적 가정(정규성, 독립성) 없이 순수한 수학적 최적화 문제로 유도한다. 왜 제곱 손실인가, 미적분·선형대수·기하 세 경로의 유도, 정규방정식과 사영행렬, 해의 유일성 조건, 수치적으로 안정한 계산법(QR/SVD), 다른 손실함수(L1, Huber)와의 철학적 비교까지 Casella & Berger §11.3.1 의 “수학적 해법” 관점을 완전히 풀어낸다. | |
| Apr 6, 2026 | Simple Linear Regression: Best Linear Unbiased Estimators — A Statistical Solution | Statistics, Regression | 단순 선형 회귀의 최소제곱 추정량을 확률분포 가정 없이, 오직 1·2차 모멘트 가정 (평균의 선형성과 등분산·무상관)만으로 “선형 불편 추정량 중 최소 분산”임을 증명한다. 선형 추정량의 정의와 불편성 제약, 분산 최소화 문제, Lemma 11.2.7 기반 유도, 기하학적 해석(Figure 11.3.2), 절편의 BLUE, 공분산, 실험설계 함의, 일반 Gauss-Markov 정리와의 관계까지 Casella & Berger §11.3.2를 완결적으로 풀어낸다. | |
| Apr 6, 2026 | Simple Linear Regression: Models and Distribution Assumptions | Statistics, Regression | 단순 선형 회귀에서 분포 가정의 계층 구조를 정리한다. §11.3.1(가정 없음) → §11.3.2(1·2차 모멘트) → §11.3.3(완전한 분포)로 이어지는 가정 강화 과정을 따라가며, 조건부 정규 모형(conditional normal model)의 정의·결합 PDF·MLE 유도, 분산 추정량의 편향과 불편 보정, Lemma 11.3.2(선형 추정량의 공분산), Theorem 11.3.3(표본분포), 이변량 정규 모형과의 관계, 그리고 “분포를 추가하면 무엇을 얻는가”를 엄밀하게 풀어낸다. | |
| Apr 6, 2026 | Simple Linear Regression: Estimation and Testing with Normal Errors | Statistics, Regression | 조건부 정규 회귀 모형 하에서 Theorem 11.3.3(표본분포)을 활용해 t-통계량, 기울기 검정(β=0), 회귀 ANOVA, 제곱합 분해, 결정계수 R², β의 신뢰구간, 특정 x₀에서의 평균 추정과 예측구간까지 단순 선형 회귀의 추론 절차 전체를 유도하고 해석한다. | |
| Apr 6, 2026 | Simple Linear Regression: Estimation and Prediction at a Specified x = x₀ | Statistics, Regression | 특정 설명변수 값 x₀에서 (1) 평균 반응 E(Y|x₀)의 점추정·분산·신뢰구간과 (2) 새 관측 Y₀의 예측구간을 유도하고, 두 구간의 근본적 차이(추정 불확실성 vs 관측 내재 변동)를 분석한다. 나아가 §11.3.6의 동시 추론 — Bonferroni 보정과 Scheffé 동시 신뢰대(Theorem 11.3.6)의 유도, 비교, 실험 설계 함의까지 다룬다. | |
| Apr 6, 2026 | Simple Linear Regression: Simultaneous Estimation and Confidence Bands | Statistics, Regression | 다중 x₀ 에서의 동시 추론을 다룬다. Bonferroni 부등식 기반 동시 구간의 구성, Theorem 11.3.6(Scheffé 동시 신뢰대)의 완전한 증명, Bonferroni–Scheffé 전환점의 정확한 계산, ANOVA Scheffé(§11.2)와의 구조적 대응, 직선형 대(Gafarian)· 유한구간 Scheffé 대(Casella–Strawderman)의 소개, 동시 예측구간의 한계, 그리고 외삽에서의 신뢰대 해석까지 완결적으로 풀어낸다. | |
| Apr 5, 2026 | Ablation Study | Deep Learning, Research Methodology | Ablation study는 딥러닝 모델의 각 구성 요소를 체계적으로 제거하거나 변형하여 각 컴포넌트의 기여도를 정량적으로 측정하는 실험 방법론이다. 설계 원칙, 실제 논문 사례, 결과 해석, PyTorch 구현까지 상세히 다룬다. | |
| Apr 5, 2026 | Git을 AI Agent 지식 베이스로 활용하기 — xlsx → JSON 변환 | Engineering, Agent | xlsx, csv, md 등 다양한 형식의 문서를 AI Copilot Agent가 읽을 수 있는 JSON으로 변환하여 Git 저장소를 팀 지식 베이스로 활용하는 방법과 DRM 주의사항을 다룬다. | |
| Apr 5, 2026 | 분산 계산 알고리즘 — Two-pass, Single-pass, Welford, 벡터화 | Engineering, Statistics | 분산을 계산하는 세 가지 알고리즘(Two-pass, Single-pass, Welford)의 계산 복잡도, 수치적 안정성, 벡터화 친화성을 비교하고 NumPy/Pandas가 내부적으로 어떤 방식을 채택하는지 설명한다. | |
| Apr 5, 2026 | 회귀 구현 방식의 계산 복잡도 — for-loop vs 행렬 연산 | Engineering, Statistics, Machine_Learning | 선형 회귀를 for-loop으로 구현하는 방식과 정규 방정식(Normal Equation) 기반 행렬 연산으로 구현하는 방식의 계산 복잡도, 하드웨어 효율, 수치 안정성을 비교한다. n >> p 조건에서 행렬 방식이 빠른 이유와 p가 커질 때의 분기 전략을 다룬다. | |
| Apr 5, 2026 | 주석자 간 신뢰도 — Cohen’s Kappa와 ICC | Statistics, Measurement, FDA, Data Science | AI 모델 평가, 임상시험, 의료기기 규제 검증에서 gold standard는 인간 전문가의 판단으로 만들어진다. 이 gold standard 자체가 얼마나 일관된지를 정량화하는 것이 주석자 간 신뢰도(inter-rater reliability)이다. Cohen’s Kappa(명목 범주형 2인), Fleiss’ Kappa(3인 이상), ICC(연속형)의 수학적 정의, 해석 기준, 언제 어떤 지표를 쓰는지, R·Python 구현을 다룬다. | |
| Apr 5, 2026 | 부트스트랩 표준오차 (Bootstrap Standard Errors) | Statistics | 부트스트랩의 핵심 아이디어와 표준오차 계산 원리를 다룬다. 비모수 부트스트랩의 완전 열거 공식과 B 표본 근사 공식을 유도하고, Delta Method가 실패하는 비단조 함수에서 부트스트랩이 자동으로 문제를 해결하는 원리를 보인다. 비모수 vs 모수 부트스트랩의 차이와 일치성 조건을 논의한다. | |
| Apr 5, 2026 | 점근적 강건성: 평균과 중앙값 (Asymptotic Robustness: The Mean and the Median) | Statistics | 추정량의 강건성(robustness)을 정의하고, 표본 평균과 중앙값을 세 기준으로 비교한다. ε-오염 모형에서의 분산 폭발, 붕괴점(breakdown value), 중앙값의 점근 정규성을 유도하고, ARE로 정규 모형에서의 효율성 손실을 정량화한다. Huber M-추정량으로 강건성과 효율성의 균형을 잡는 방법을 다룬다. | |
| Apr 5, 2026 | M-추정량 (M-Estimators) | Statistics | M-추정량을 손실함수 최소화의 통합 프레임워크로 정의하고, 주요 ρ 함수 계열(Huber, Bisquare, Andrews, Hampel)을 비교한다. 점근 정규성의 완전한 유도, 영향함수(influence function)와 점근 분산의 연결, 붕괴점과 ψ 유계성의 관계를 다룬다. 척도 미지 시 MAD 기반 처리와 IRLS 알고리즘을 포함한다. | |
| Apr 5, 2026 | 가설검정: LRT의 점근 분포 (Asymptotic Distribution of LRTs) | Statistics, Hypothesis Testing, Asymptotic Theory | 우도비검정 통계량 -2log λ(X)의 점근 카이제곱 분포 (Theorem 10.3.1, 10.3.3), Wald 검정과 Score 검정의 점근 동등성, 다항분포·포아송·이항 예시를 통한 세 검정의 비교를 다룬다. | |
| Apr 5, 2026 | 가설검정: 기타 대표본 검정들 (Other Large-Sample Tests) | Statistics, Hypothesis Testing, Asymptotic Theory, Robust Statistics | 점근 정규성에 기반한 대표본 검정들을 상세히 다룬다. Wald 검정의 단측·양측·다모수 확장, Score 검정의 완전 유도, 이항·포아송 예시 비교, Delta Method Wald 검정, Huber M-추정량 기반 강건 검정과 검정력 시뮬레이션 테이블을 포함한다. | |
| Apr 5, 2026 | Analysis of Variance and Regression | Statistics, Regression | ANOVA와 회귀분석은 서로 다른 방법론처럼 보이지만, 수학적으로는 동일한 선형 모델 Y = Xβ + ε의 두 가지 적용이다. Casella & Berger Ch.11의 모형 정의, 분산 분해(SST = SSB + SSW), F 검정, 최소제곱 추정을 중심으로 두 방법의 통합된 이해를 코드와 함께 제시한다. | |
| Apr 5, 2026 | Oneway Analysis of Variance: The Classic ANOVA Hypothesis | Statistics | 일원분류 분산분석(Oneway ANOVA)의 가설을 대비(contrast)의 언어로 재정의하고, 합집합-교집합 방법(Union-Intersection Method)으로 F 통계량을 유도한다. Scheffé 동시 신뢰구간과 제곱합 분해(SST = SSB + SSW)를 포함하며, Casella & Berger Ch.11의 이론 체계를 따른다. | |
| Apr 5, 2026 | Oneway ANOVA: Inferences Regarding Linear Combinations of Means | Statistics | 일원분류 ANOVA에서 처리 평균들의 선형결합(linear combination)에 대한 추론 체계를 상세히 다룬다. 합동 분산 추정량의 분포, t 통계량의 유도, 개별 대비 검정과 신뢰구간, 계획 비교(planned comparisons), 직교 대비(orthogonal contrasts)까지 Casella & Berger §11.2.3을 중심으로 설명한다. | |
| Apr 4, 2026 | Python 필수 내장 함수·자료구조 레퍼런스 (Level 1~2) | Code Test | Programmers Level 1~2에서 반복적으로 등장하는 Python 내장 함수와 자료구조를 실전 패턴 중심으로 정리한다. 이론보다 ’언제 쓰는가’와 ’어떻게 쓰는가’에 집중한다. | |
| Apr 4, 2026 | Python 필수 내장 함수·자료구조 레퍼런스 (Level 3) | Code Test | Programmers Level 3에서 반복적으로 등장하는 Python 도구를 Data Scientist와 AI Engineer 트랙별 우선순위로 정리한다. 이진 탐색, 힙, 메모이제이션, 그래프 기초가 핵심이다. | |
| Apr 4, 2026 | Python 필수 내장 함수·자료구조 레퍼런스 (Level 4) | Code Test | Programmers Level 4에서 요구하는 Python 고급 도구와 알고리즘 패턴을 Data Scientist와 AI Engineer 트랙별 우선순위로 정리한다. Dijkstra, DP 최적화, 유니온 파인드, SQL 윈도우 함수가 핵심이다. | |
| Apr 4, 2026 | Python 필수 내장 함수·자료구조 레퍼런스 (Level 5) | Code Test | Programmers Level 5의 고난도 알고리즘 패턴을 Data Scientist와 AI Engineer 트랙별 우선순위로 정리한다. 세그먼트 트리, 재귀 CTE, 고급 DP, 문자열 알고리즘이 핵심이다. | |
| Apr 4, 2026 | 알고리즘: 정렬 문제 모음 | Code Test, Algorithm Test | DS 트랙 정렬 유형 문제 풀이 모음. 리스트 슬라이싱, sorted() 함수 활용, 인덱스 보정 및 K번째 수 추출 로직을 다룬다. | |
| Apr 4, 2026 | String 문제 모음 (Level 1) | Code Test | Programmers Level 1 String 문제들. 문자열 조작, 정렬, 변환 등의 기초 패턴을 다룬다. | |
| Apr 4, 2026 | 점추정: 일관성 (Point Estimation: Consistency) | Statistics | 추정량의 대표본 성질인 일관성(Consistency)을 수학적으로 정의하고, 평균제곱오차(MSE)와의 관계 및 대수의 법칙(WLLN)을 통한 증명 과정을 다룬다. | |
| Apr 4, 2026 | 피벗 양 (Pivotal Quantities) | Statistics | 피벗(pivot)이란 분포가 미지의 모수에 무관한 통계량이다. 위치·척도·위치-척도족에서 자연스럽게 발생하는 피벗의 정의와 구성 원리, 피벗을 이용한 신뢰구간 역전 절차, 정규·지수·균등 분포에서의 구체적 예시를 Casella & Berger Ch.9를 뼈대로 전개한다. | |
| Apr 4, 2026 | CDF 피벗팅 (Pivoting the CDF) | Statistics | CDF 피벗팅은 확률적분변환(PIT)에 기반한 구간추정 방법으로, 위치·척도 구조가 없어 피벗을 찾기 어려운 상황에서도 적용 가능한 완전 일반적 방법이다. 연속(Theorem 9.2.12)·이산(Theorem 9.2.14) CDF 피벗팅의 이론, 보수성 문제, 포아송·이항·위치지수 분포 예시, Python/R 코드를 Casella & Berger Ch.9를 뼈대로 전개한다. | |
| Apr 4, 2026 | 베이즈 구간 (Bayesian Intervals) | Statistics | 베이즈 구간추정은 사후분포로부터 직접 신용집합(credible set)을 구성한다. 등꼬리 신용구간과 HPD 영역의 차이, Corollary 9.3.10(HPD 최단 최적성), 정규-정규·포아송-감마·이항-베타 공액 모형 예시, 그리고 빈도주의 신뢰구간과의 해석·피복확률 상호 평가를 Casella & Berger Ch.9를 뼈대로 전개한다. | |
| Apr 4, 2026 | 구간 추정량 평가 방법 (Methods of Evaluating Interval Estimators) | Statistics | 신뢰집합을 파생하는 방법은 여러 가지가 있다. 같은 문제에서 다른 신뢰집합을 얻을 수 있으므로 ’최선’을 고르는 기준이 필요하다. 크기(최단 구간)·피복확률·검정 최적성(UMA)·손실함수 관점에서 구간 추정량을 평가하는 방법을 Casella & Berger §9.3을 중심으로 상세히 정리한다. | |
| Apr 4, 2026 | 크기와 피복확률 (Size and Coverage Probability) | Statistics | 신뢰구간 평가의 두 핵심 축인 크기(size)와 피복확률(coverage probability)을 수학적으로 엄밀하게 다룬다. 피복확률이 모수의 함수로 변동하는 이유, 신뢰계수의 infimum 정의가 왜 필요한지, 그리고 지정된 피복확률 하에서 최단 구간을 보장하는 Theorem 9.3.2의 조건과 한계를 Casella & Berger §9.1 · §9.3.1을 중심으로 상세히 정리한다. | |
| Apr 4, 2026 | 점근적 평가 개요 (Asymptotic Evaluations: Overview) | Statistics | 유한 표본 기준을 넘어 표본 크기가 무한대로 커질 때의 추정량 성질을 다룬다. 일관성·효율성·로버스트성·점근 가설검정·점근 구간추정의 핵심 개념과 MLE의 점근적 우수성을 개관한다. | |
| Apr 4, 2026 | 점근적 점추정: 일관성 (Asymptotic Point Estimation: Consistency) | Statistics | 일관성(consistency)은 추정량의 가장 기본적인 점근 성질로, 표본 크기가 무한히 커질 때 추정량이 참 모수에 확률 수렴함을 요구한다. 정의·충분조건·MLE 일관성·정칙 조건을 엄밀히 다룬다. | |
| Apr 4, 2026 | 점근적 점추정: 효율성 (Asymptotic Point Estimation: Efficiency) | Statistics | 일관성이 “수렴 여부”를 묻는다면, 효율성은 “수렴 속도”를 묻는다. 극한 분산과 점근 분산의 차이, Cramér-Rao 하한을 달성하는 점근 효율성, MLE의 점근 효율성 증명, 점근 상대 효율(ARE)을 상세히 다룬다. | |
| Apr 4, 2026 | 점근적 계산과 비교 (Asymptotic Calculations and Comparisons) | Statistics | 점근 효율성 이론을 실전에 적용하는 방법. 분산 근사 공식 (10.1.7)의 유도, 관측 정보 vs 기대 정보, 비단조 함수의 함정, Poisson ARE, 그리고 Gamma 평균 추정에서 계산 편의성 vs 효율성의 trade-off를 상세히 다룬다. | |
| Apr 3, 2026 | Git 브랜치 동기화 | Engineering, Git, DevOps | 로컬과 원격(origin) 브랜치가 어긋났을 때 git reset –hard, git stash, git clean으로 강제 동기화하는 방법을 상황별로 정리한다. git branch -vv로 상태를 파악하고, 안전하게 동기화하는 실전 워크플로를 다룬다. | |
| Apr 3, 2026 | Git 머지 충돌 해결: 개념과 전략 | Engineering, Git, DevOps | Git 머지 충돌의 원리(Merge Base, 3-way Merge)를 설명하고, 충돌 해소를 위한 다양한 전략(-X ours/theirs, 파일별 선택, 날짜 기반 비교)을 체계적으로 정리한다. 실전 케이스는 별도 포스트에서 다룬다. | |
| Apr 3, 2026 | Git 머지 충돌 해결: 실전 케이스 | Engineering, Git, DevOps | 실제 프로젝트에서 발생한 Git 머지 충돌 4가지 케이스를 상세히 기록한다. -X ours 일괄 해결, 날짜 기반 파일별 선택, PR 머지 후 재충돌, stash 활용까지 실제 명령어와 출력을 그대로 보존하여 재현 가능한 가이드로 정리한다. | |
| Apr 3, 2026 | 구간추정 개요 (Interval Estimation: Overview) | Statistics | 점추정이 하나의 숫자만 제시하는 데 반해, 구간추정은 모수가 속할 범위와 그 확신의 정도를 함께 제공한다. Casella & Berger Ch.9를 뼈대로, 구간추정량을 찾는 네 가지 방법과 평가 기준을 하나의 포스트에 정리한다. | |
| Apr 3, 2026 | 구간추정량 탐색 방법 (Methods of Finding Interval Estimators) | Statistics | 구간추정량을 구성하는 네 가지 방법을 이론·증명·예시 수준으로 상세히 다룬다. 검정의 역전(Theorem 9.2.2), 피벗(Def 9.2.6), CDF 피벗팅(Thm 9.2.12·9.2.14), 베이즈 신용집합까지 정규·지수·포아송·이항 분포 예시와 함께 전개한다. | |
| Apr 3, 2026 | 검정의 역전 (Inverting a Test Statistic) | Statistics | 수용역을 역전하여 신뢰집합을 구성하는 방법을 이론·증명·기하학적 해석·예시 수준으로 상세히 다룬다. Theorem 9.2.2의 완전한 증명, 정규·지수·이항 분포 예시, 검정 성질(UMP, 비편향, 충분성)이 구간 성질(UMAU, 비편향 구간)로 전이되는 원리, 역전이 구간을 보장하지 않는 반례까지 포함한다. | |
| Apr 2, 2026 | VS Code Jupyter 커널 무응답 — ZMQ 소켓 충돌 진단과 해결 | Engineering, DevOps | VS Code에서 Jupyter 커널이 응답하지 않는 현상의 근본 원인을 단계적으로 진단한다. 환경 자체는 정상인데도 커널이 무응답인 경우, 두 Python 프로세스가 동일한 ZMQ 소켓을 선점하는 충돌이 원인이다. 즉각 조치·근본 조치·재발 방지까지 체계적으로 정리한다. | |
| Apr 2, 2026 | 추정량 탐색 방법 (Methods of Finding Estimators) | Statistics | 점추정량을 찾는 네 가지 체계적 방법을 심층적으로 다룬다. 적률법의 연립방정식 풀이, MLE의 우도 최대화와 불변성 원리, 베이즈 추정의 사전-사후 업데이트와 켤레 가족, EM 알고리즘의 E-step/M-step 반복과 단조 수렴 정리까지 Casella & Berger Ch.7.2의 핵심을 세분화하여 정리한다. | |
| Apr 2, 2026 | 최대우도추정량 (Maximum Likelihood Estimators) | Statistics | MLE의 형식적 정의와 직관, 로그우도를 통한 최대화 기법, 다양한 분포에서의 상세 유도, 프로파일 우도와 순차 최대화, 불변성 정리의 증명, 모수 범위 제한 처리, 수치적 불안정성 문제, 그리고 MLE의 점근적 성질까지 심층적으로 다룬다. Casella & Berger Ch.7.2.2의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 베이즈 추정량 (Bayes Estimators) | Statistics | 베이지안 추론의 핵심인 사전-사후 업데이트 메커니즘을 심층적으로 다룬다. 이항-베타, 포아송-감마, 정규-정규 켤레 모형의 상세 유도, 베이즈 추정량의 가중평균 해석, 무정보 사전분포(Jeffreys, 균등), 사전분포 민감도와 로버스트 베이즈, 그리고 빈도주의와의 비교까지 Casella & Berger Ch.7.2.3의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | EM 알고리즘 (The EM Algorithm) | Statistics | EM 알고리즘의 동기와 형식적 정의, 완전/불완전 데이터의 관계, E-step과 M-step의 수학적 구조, 단조 수렴 정리의 증명 스케치, 다중 포아송 비율 예시, 가우시안 혼합 모형의 상세 유도, 수렴 속도와 한계, 그리고 현대적 확장까지 심층적으로 다룬다. Casella & Berger Ch.7.2.4의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 추정량 평가 방법 (Methods of Evaluating Estimators) | Statistics | 추정량을 평가하는 핵심 도구를 심층적으로 다룬다. MSE와 편향-분산 분해의 원리, Cramer-Rao 부등식의 증명과 피셔 정보, Rao-Blackwell 정리에 의한 추정량 개선, 완비충분통계량과 UMVUE의 관계, 그리고 손실함수 기반 의사결정 이론의 기초까지 Casella & Berger Ch.7.3의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 최선 비편향 추정량 (Best Unbiased Estimators) | Statistics | 비편향 추정량 중 분산이 최소인 UMVUE를 찾는 체계적 방법을 심층적으로 다룬다. Cramer-Rao 부등식의 등호 조건과 효율적 추정량, 피셔 정보의 다양한 계산법, Rao-Blackwell화의 구체적 적용 절차, 완비성과 0의 비편향 추정량의 관계, Lehmann-Scheffe 정리에 의한 UMVUE 구성, 그리고 정칙 조건 위반 시의 대안까지 Casella & Berger Ch.7.3.2-7.3.3의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 충분성과 비편향성 (Sufficiency and Unbiasedness) | Statistics | 충분통계량과 비편향성을 결합하여 최적 추정량을 구성하는 원리를 심층적으로 다룬다. Rao-Blackwell 정리가 왜 작동하는지의 메커니즘 해부, 비충분통계량 조건화의 실패 사례, 조건부 기댓값의 구체적 계산 방법, 완비성이 0의 비편향 추정량을 소거하는 원리, 그리고 포아송, 이항, 균등, 정규 분포에서의 UMVUE 구성 예시까지 Casella & Berger Ch.7.3.3의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 손실함수 최적성 (Loss Function Optimality) | Statistics | 추정량 평가의 일반화된 프레임워크인 의사결정 이론을 심층적으로 다룬다. 손실함수의 설계 원칙, 위험함수와 MSE의 관계, 허용성과 비허용 추정량, 미니맥스 원칙, 베이즈 위험과 사후 기대 손실에 의한 베이즈 규칙 도출, 정규 분산 추정에서의 최적 수축 계수, 그리고 Stein 손실함수까지 Casella & Berger Ch.7.3.4의 핵심을 상세히 정리한다. | |
| Apr 2, 2026 | 충분성 원리 (The Sufficiency Principle) | Statistics | 충분통계량의 조건부 분포 정의와 “두 실험자” 직관, 인수분해 정리의 증명과 활용법, 지수족에서의 체계적 충분통계량 도출, 그리고 비지수족에서의 한계까지 심층적으로 다룬다. Casella & Berger Ch.6.2.1의 핵심을 세분화하여 정리한다. | |
| Apr 2, 2026 | 우도원리 (The Likelihood Principle) | Statistics | 우도함수의 정의와 확률 분포와의 구별, 우도원리의 형식적 정의와 그 함의, 증거함수 형식론, 형식적 충분성 원리와 조건부 원리, 비른바움 정리의 증명 스케치, 이항-음이항 예시, 빈도주의와의 충돌, 그리고 실무적 논쟁까지 심층적으로 다룬다. Casella & Berger Ch.6.3의 핵심을 세분화하여 정리한다. | |
| Apr 2, 2026 | 등변원리 (The Equivariance Principle) | Statistics | 등변원리의 두 구성 요소인 측정 등변성과 형식적 불변성의 정의와 직관, 변환군과 불변 가족의 수학적 형식론, 이항분포/정규 위치/척도 모수의 등변 추정량, 그리고 충분성/우도원리와의 비교까지 심층적으로 다룬다. Casella & Berger Ch.6.4의 핵심을 세분화하여 정리한다. | |
| Apr 2, 2026 | 점추정 개요 (Point Estimation: Overview) | Statistics | 점추정의 두 축인 추정량 탐색 방법과 평가 방법의 전체 구조를 조망한다. 적률법, 최대우도추정법, 베이즈 추정, EM 알고리즘의 핵심 아이디어, 그리고 MSE, 비편향성, Cramer-Rao 하한, Rao-Blackwell 정리, UMVUE까지 Casella & Berger Ch.7의 핵심을 하나의 포스트에 정리한다. | |
| Mar 31, 2026 | 알고리즘: 데이터 조작 문제 모음 | Code Test, Algorithm Test | DS 트랙 데이터 조작 유형 문제 풀이 모음. 부서별 평균 급여, IQR 이상치 제거 + 이동평균, K-Way Merge + 이중 힙 러닝 메디안 + 이상 구간 탐지. | |
| Mar 31, 2026 | Git - Fork와 원격 저장소 동기화 | Engineering, Git | GitHub에서 저장소를 포크하는 방법과 gh CLI vs git CLI의 역할 차이를 정리한다. 원천 저장소가 업데이트될 때 내 포크를 최신 상태로 유지하는 세 가지 동기화 전략을 다룬다. | |
| Mar 31, 2026 | 확률수렴 (Convergence in Probability) | Statistics | 확률수렴(convergence in probability)의 엄밀한 정의와 직관적 해석을 다룬다. 체비셰프 부등식을 이용한 약한 대수의 법칙(WLLN)의 증명, 표본분산의 일관성, 연속함수 정리(Continuous Mapping Theorem), 그리고 확률수렴과 거의 확실한 수렴의 차이를 구체적인 반례와 시뮬레이션을 통해 제시한다. | |
| Mar 31, 2026 | 확률 표본의 성질 개요 (Properties of a Random Sample: Overview) | Statistics | 확률 표본(random sample)의 정의와 성질, 표본평균과 표본분산의 분포, 정규 모집단에서의 표본분포(카이제곱, t, F), 순서통계량, 수렴 개념까지 Casella & Berger Ch.5의 전체 구조를 조망한다. 이론적 확률론(Ch.1-4)에서 통계적 추론(Ch.7-9)으로 전환되는 핵심 가교 역할을 하는 장이다. | |
| Mar 31, 2026 | 확률 표본의 기본 개념 (Basic Concepts of Random Samples) | Statistics | 확률 표본(random sample)의 수학적 정의인 iid(independent and identically distributed) 조건을 엄밀하게 다룬다. 무한 모집단(복원 추출)과 유한 모집단(비복원 추출)에서의 표본 추출 차이, 결합 pdf의 곱셈 구조, 그리고 iid 가정이 통계적 추론의 토대가 되는 이유를 직관적 설명과 함께 제시한다. | |
| Mar 31, 2026 | 확률변수 합의 표본분포 (Sums of Random Variables from a Random Sample) | Statistics | 확률 표본에서 계산되는 통계량(statistic)의 정의와 표본분포(sampling distribution)의 개념을 다룬다. 표본평균과 표본분산의 기댓값, 분산, 비편향성을 증명하고, 적률생성함수(mgf) 기법과 컨볼루션 공식을 통해 표본평균의 정확한 분포를 도출하는 방법을 제시한다. 위치-척도 모임과 지수족에서의 특수한 결과도 포함한다. | |
| Mar 31, 2026 | 정규 모집단에서의 표본분포 (Sampling from the Normal Distribution) | Statistics | 정규 모집단에서 추출한 확률 표본의 특별한 성질을 다룬다. 표본평균과 표본분산의 독립성(Theorem 5.3.1), 카이제곱 분포의 기본 성질, Student’s t 분포와 Snedecor’s F 분포의 정의와 도출 과정, 그리고 이 분포들 간의 관계를 제시한다. 이 세 분포는 모수적 추론(추정, 검정, 신뢰구간)의 핵심 도구이다. | |
| Mar 31, 2026 | 순서통계량 (Order Statistics) | Statistics | 확률 표본을 크기순으로 재배열한 순서통계량(order statistics)의 정의, 주변 pdf, 결합 pdf를 다룬다. 이산 모집단에서의 순서통계량 분포(Theorem 5.4.3), 연속 모집단에서의 j번째 순서통계량 pdf(Theorem 5.4.4), 두 순서통계량의 결합 pdf(Theorem 5.4.6)를 증명하고, 균일분포 순서통계량의 베타분포 연결, 범위(range)와 중간범위(midrange)의 분포 도출까지 제시한다. | |
| Mar 31, 2026 | 수렴 개념 (Convergence Concepts) | Statistics | 표본 크기가 커질 때 통계량이 어떻게 행동하는지를 기술하는 세 가지 수렴 개념(확률수렴, 거의 확실한 수렴, 분포수렴)을 다룬다. 약한/강한 대수의 법칙(LLN), 중심극한정리(CLT), Slutsky 정리, 델타 방법(Delta Method)의 정의, 증명, 직관적 해석을 제시한다. 이 결과들은 유한 표본의 결과를 무한 표본으로 외삽하는 점근 이론(asymptotic theory)의 기초이다. | |
| Mar 31, 2026 | 거의 확실한 수렴 (Almost Sure Convergence) | Statistics | 거의 확실한 수렴(almost sure convergence)의 엄밀한 정의를 확률변수의 함수적 본질에서 출발하여 설명한다. 확률수렴과의 차이를 lim과 P의 순서 교환으로 해석하고, 구체적 예시와 반례를 통해 두 수렴의 간극을 보인다. 강한 대수의 법칙(SLLN)의 의미와 약한 대수의 법칙(WLLN)과의 관계, 그리고 수렴 유형 간 함의 관계를 정리한다. | |
| Mar 31, 2026 | 분포수렴 (Convergence in Distribution) | Statistics | 분포수렴(convergence in distribution)의 정의와 다른 수렴 유형과의 관계를 다룬다. 중심극한정리(CLT)의 mgf 증명, Slutsky 정리에 의한 분산 대체, 델타 방법(Delta Method)에 의한 통계량 함수의 점근 분포 도출까지 상세히 제시한다. 이 세 도구는 대표본 점근 추론의 근간이다. | |
| Mar 31, 2026 | 확률 표본의 생성 (Generating a Random Sample) | Statistics | 컴퓨터로 특정 분포에서 확률 표본을 생성하는 방법론을 다룬다. 균일 난수로부터 출발하여 역변환법(inverse transform), Box-Muller 알고리즘, 수락-기각 알고리즘(Accept/Reject), Metropolis 알고리즘까지의 체계를 제시한다. 각 방법의 원리, 장단점, 적용 조건을 증명과 함께 설명하고 시뮬레이션으로 검증한다. | |
| Mar 30, 2026 | 지수족 (Exponential Family) | Statistics | 지수족은 정규, 이항, 포아송, 감마, 베타 등 대부분의 표준 분포를 하나의 수학적 틀로 통합한다. 이 포스트에서는 지수족의 정의와 자연모수화, 충분통계량과의 관계, 곡선 지수족 개념을 교재 기반으로 엄밀히 다루고, GLM 및 베이지안 추론과의 연결까지 코드와 함께 살펴본다. | |
| Mar 30, 2026 | 위치-척도족 (Location-Scale Family) | Statistics | 위치-척도족은 하나의 표준 PDF로부터 위치와 척도 변환을 통해 분포 가족을 생성하는 구조이다. z-score 표준화, t-통계량, 배치 정규화 등 실무에서 흔히 사용하는 기법이 모두 이 구조에 기반한다. 이 포스트에서는 위치족, 척도족, 위치-척도족의 정의를 교재 기반으로 엄밀히 다루고, 표준화 정리, 피벗 양, 그리고 데이터 사이언스 응용까지 코드와 함께 살펴본다. | |
| Mar 30, 2026 | 확률 부등식과 항등식 (Inequalities and Identities) | Statistics | 통계학에서 분포의 정확한 형태를 모르더라도, 적률 정보만으로 확률을 바운딩하거나 적률을 계산할 수 있다. 이 포스트에서는 확률 부등식(체비셰프, 젠센, 코시-슈바르츠 등)과 항등식(스타인 보조정리, 황 항등식)을 교재 기반으로 다루고, 실무 응용(이상 탐지, EM 알고리즘, 상관계수 바운드)까지 살펴본다. | |
| Mar 30, 2026 | 다변량 확률변수 개요 (Multiple Random Variables Overview) | Statistics | 현실의 데이터는 하나의 변수만으로 구성되지 않는다. 다변량 확률변수의 결합분포에서 출발하여 주변분포, 조건부분포, 독립성, 이변량 변환, 계층모형과 혼합분포, 공분산과 상관계수, 그리고 다변량 정규분포까지의 이론적 흐름을 개관한다. | |
| Mar 30, 2026 | 결합분포와 주변분포 (Joint and Marginal Distributions) | Statistics | 두 개 이상의 확률변수를 동시에 다루려면 결합분포가 필요하다. 결합분포에서 주변분포를 유도하는 것은 항상 가능하지만, 역방향 복원은 일반적으로 불가능하다. 이 포스트에서는 결합 PMF/PDF의 정의, 주변분포 유도, 결합 CDF와의 관계를 교재 기반으로 다루고, 정보 손실의 구조를 코드와 함께 살펴본다. | |
| Mar 30, 2026 | 조건부분포와 독립성 (Conditional Distributions and Independence) | Statistics | 결합분포��서 한 변수의 값을 관측하면 다른 변수의 불확실성이 어떻게 변하는가? 조건부분포는 이 질문에 답한다. 독립성은 조건부분포가 주변분포와 같아지는 특별한 경우이다. 이 포스트에서는 조건부 PMF/PDF의 정의, 조건부 기댓값과 분산, 독립성의 정의와 판별법, 그리고 독립 확률변수의 MGF 곱 정리를 교재 기반으로 다룬다. | |
| Mar 30, 2026 | 이변량 변환 (Bivariate Transformations) | Statistics | 두 확률변수의 함수 (U, V) = g(X, Y)의 분포를 어떻게 구하는가? 이산 경우에는 확률 직접 합산, 연속 경우에는 야코비안 방법을 사용한다. 이 포스트에서는 이변량 변환의 이론과 대표적 응용 (포아송 합, 정규 합과 차, 정규비 = 코시)을 교재 기반으로 다루고 코드로 검증한다. | |
| Mar 30, 2026 | 계층모형과 혼합분포 (Hierarchical Models and Mixture Distributions) | Statistics | 계층모형은 복잡한 확률 구조를 단순한 조건부 모형의 층으로 분해하는 전략이다. 이 구조에서 전체 기대값의 법칙과 전체 분산의 법칙이 자연스럽게 따라 나오며, 혼합분포의 개념이 등장한다. 이 포스트에서는 이항-포아송, 베타-이항, 포아송-감마 계층을 교재 기반으로 다루고, ANOVA와 베이지안 추론과의 연결을 살펴본다. | |
| Mar 30, 2026 | 공분산과 상관계수 (Covariance and Correlation) | Statistics | 공분산은 두 확률변수가 함께 변하는 방향과 강도를 측정하고, 상관계수는 이를 [-1, 1]로 표준화한다. 이 포스트에서는 공분산과 상관계수의 정의, 합의 분산 공식, 상관계수의 범위 증명, 그리고 무상관과 독립의 차이를 교재 기반으로 다루고 코드로 시각화한다. | |
| Mar 30, 2026 | 수치 부등식 (Numerical Inequalities) | Statistics | 수치 부등식은 확률변수의 적률 사이의 관계를 바운딩하는 도구이다. 횔더 부등식에서 코시-슈바르츠, 리아푸노프, 민코프스키 부등식이 모두 파생된다. 이 포스트에서는 각 부등식의 정의와 증명 핵심을 다루고, 부등식 간의 계층 관계와 실무 응용을 살펴본다. | |
| Mar 30, 2026 | 함수 부등식 (Functional Inequalities) | Statistics | 함수 부등식은 볼록/오목 함수의 성질을 활용하여 기대값을 바운딩한다. 젠센 부등식은 EM 알고리즘의 ELBO, KL 발산의 비음수성, AM-GM 부등식 등 통계학과 머신러닝의 핵심 결과를 한 줄로 증명하는 도구이다. 이 포스트에서는 젠센 부등식, 공분산 부등식, 그리고 그 응용을 교재 기반으로 심층적으로 다룬다. | |
| Mar 29, 2026 | AI Coding Assistant의 SW Tool SDK 명세 | Agent, Architecture | AI Coding Assistant가 사용자 질의를 처리하기 위해 호출하는 SW 도구의 전체 명세를 정리한다. Claude Code 네이티브 도구, Anthropic Claude API Tool Use 스펙, GitHub Copilot 도구를 역할·동작 방식·공식 문서 링크와 함께 비교한다. | |
| Mar 29, 2026 | 자체 개발 Agent에 Claude·Copilot 도구 연결하기 | Agent, Architecture, MCP, Claude Code, GitHub Copilot | 자체 개발한 Agent에 Claude 도구와 GitHub Copilot 도구를 연결하는 세 가지 경로를 다룬다. Anthropic API Tool Use로 Claude 도구를 직접 호출하고, MCP 서버로 도구를 양방향 노출하며, GitHub Models API와 Copilot Extensions로 Copilot 생태계에 연결하는 구현 패턴을 정리한다. | |
| Mar 29, 2026 | Claude·Copilot 도구 생태계에 커스텀 도구 추가하기 | Agent, Architecture, MCP, Tool | Claude Code·GitHub Copilot의 내장 도구가 커버하지 못하는 상황을 진단하고, 커스텀 도구를 직접 개발하여 기존 도구 목록에 추가하는 전 과정을 다룬다. MCP 서버 구현, 도구 발견(discovery) 메커니즘, LLM이 도구를 정확히 호출하게 만드는 명세 설계 원칙, 디버깅 방법까지 실전 구현 중심으로 정리한다. | |
| Mar 29, 2026 | GitHub Copilot CLI SW Tool 명세와 Claude Code 대조 분석 | Agent, Architecture | GitHub Copilot CLI(터미널)가 제공하는 네이티브 도구, GitHub MCP 서버 내장 도구, 슬래시 커맨드의 전체 명세를 정리한다. Claude Code 네이티브 도구와의 1:1 대조 분석을 통해 두 CLI의 설계 철학 차이를 명확히 한다. | |
| Mar 29, 2026 | 기대값 vs 실현값 (Expected Value vs Realized Value) | Statistics | E[X]는 분포에 대한 고정된 상수이고, X(ω)는 실험 후 얻은 숫자이다. 이 둘의 구분은 추정량과 추정값, 모평균과 표본 평균, 기대 손실과 경험 손실을 구분하는 통계학의 핵심 언어이다. | |
| Mar 29, 2026 | 연속 분포 — 정규, 감마, 베타, 코시, 로그정규 이론과 실무 | Statistics | 통계학에서 자주 사용되는 핵심 연속 분포를 체계적으로 정리한다. 정규, 감마(지수·카이제곱 포함), 베타, 코시, 로그정규 분포의 수학적 정의와 성질, 상호 관계, 그리고 데이터 사이언스 실무에서의 응용을 다룬다. | |
| Mar 29, 2026 | 정규 분포 (Normal Distribution) | Statistics | 정규 분포는 분석적 다루기 쉬움, 대칭 종 모양, 중심극한정리 세 가지 이유로 통계학의 중심에 위치한다. PDF 정규화 증명(가우시안 적분), 평균·분산·MGF 유도, 선형 변환 닫힘성, 정규 근사와 연속성 수정, 관련 분포(카이제곱, t, F)를 다룬다. | |
| Mar 29, 2026 | 감마 분포 (Gamma Distribution) | Statistics | 감마 분포는 양수 지지 위에서 형상과 척도 두 모수로 정의되는 유연한 분포族이다. 감마 함수에서 PDF를 유도하고, 커널 기법으로 평균·분산·MGF를 계산한다. 지수 분포(α=1), 카이제곱 분포(α=ν/2, β=2)를 특수 케이스로 통합하고 포아송 과정, 닫힘성, 모수화 혼동 주의사항을 다룬다. | |
| Mar 29, 2026 | 지수 분포 (Exponential Distribution) | Statistics | 지수 분포는 감마 분포의 특수 케이스(α=1)이자, 연속 분포 중 무기억성을 가진 유일한 분포이다. 무기억성의 완전 증명, 포아송 과정과의 이중성, 위험함수(hazard function), 이산 유사체인 기하 분포와의 대응, 와이블 일반화를 다룬다. | |
| Mar 29, 2026 | 카이제곱 분포 (Chi-Squared Distribution) | Statistics | 카이제곱 분포는 감마 분포의 특수 케이스(α=p/2, β=2)이자, 정규 모집단에서의 통계적 추론의 핵심이다. Z² ~ χ²(1) 관계, 독립 카이제곱의 가산성, 표본분산 분포 (n-1)S²/σ² ~ χ²(n-1) 증명, 카이제곱 검정(적합도, 독립성)까지 다룬다. | |
| Mar 29, 2026 | 베타 분포 (Beta Distribution) | Statistics | 베타 분포는 (0,1) 위에 정의된 유연한 연속 분포로, 비율과 확률을 모델링하는 데 쓰인다. 베타 함수와 감마 함수의 관계, 커널 트릭으로 유도하는 평균·분산, 모수별 형태 분류, U(0,1) 순서통계량 연결, 이항분포의 베이지안 켤레 사전분포까지 다룬다. | |
| Mar 29, 2026 | 코시 분포 (Cauchy Distribution) | Statistics | 코시 분포는 겉보기에 정규 분포와 유사하지만, 평균·분산·MGF가 모두 존재하지 않는 극단적 중꼬리 분포이다. 위치-척도족, 두 표준정규의 비율, t(1) 분포와의 동치, iid 표본 평균이 원래 분포를 유지하는 CLT 반례로서의 역할을 다룬다. | |
| Mar 29, 2026 | 로그정규 분포 (Log-Normal Distribution) | Statistics | 로그정규 분포는 로그 변환을 취하면 정규 분포가 되는 양의 실수 분포이다. 정규 분포와의 관계를 통한 적률 유도, 곱셈 중심극한정리와의 연결, 소득·주가·생물학적 측정값 등 우편향 데이터 모델링의 기반 이론을 다룬다. | |
| Mar 29, 2026 | 라플라스 분포 (Laplace Distribution) | Statistics | 라플라스 분포(이중지수 분포)는 지수 분포를 평균 주위로 대칭 반사한 분포로, 정규보다 두꺼운 꼬리를 가지면서도 모든 적률이 존재한다. 위치-척도족, 이중지수 특성, LASSO 회귀의 베이지안 해석, 강건 통계에서의 역할을 다룬다. | |
| Mar 28, 2026 | LLM 지시 준수 메커니즘 — 에이전트가 규칙을 뭉개는 이유 | Agent, Architecture, Prompt Engineering | LLM Agent가 시스템 프롬프트의 지시를 형식적으로 읽거나 단계를 압축하는 현상을 분석한다. 속도 최적화 편향, 리다이렉트 손실, 암묵적 지식 과신 세 가지 구조적 원인을 규명하고, 동일한 프롬프트에 대해 Copilot CLI와 Claude Code가 다르게 반응하는 이유를 비교한다. 출력 의무 체크포인트, Self-Check 강제, 인라인 규칙화 등 준수율을 높이는 구체적 설계 패턴을 정리한다. | |
| Mar 28, 2026 | 시스템 프롬프트 동적 주입 아키텍처 | Agent, Architecture, Prompt Engineering | LLM Agent의 시스템 프롬프트가 분산될수록 컨텍스트 비용이 커지는 문제를 해결하는 세 가지 동적 주입 아키텍처를 정리한다. 방법 1(슬래시 커맨드 기반 결정론적 라우터), 방법 2(RAG 기반 규칙 검색), 방법 3(CORE + 플랫폼 래퍼 계층 분리)의 구조와 트레이드오프를 비교하고, Claude Code · Copilot CLI · Cursor · Gemini에 범용 적용 가능한 Single Source of Truth 아키텍처 설계를 제시한다. | |
| Mar 28, 2026 | Business Understanding — 문제 정의와 ROI 계산 | Data Science | 데이터를 만지기 전에 반드시 먼저 해야 하는 일이 있다. 비즈니스 문제를 정의하고, 그것이 어떤 데이터 마이닝 태스크로 변환되는지 판단하며, ROI를 추정하는 것이다. CRISP-DM의 첫 번째 단계인 Business Understanding을 체계적으로 다룬다. | |
| Mar 28, 2026 | Data Understanding — EDA와 데이터 품질 진단 | Data Science | 비즈니스 문제를 정의했다고 해서 바로 모델을 만들 수 있는 것이 아니다. 데이터가 실제로 그 문제를 풀기에 적합한지 확인해야 한다. CRISP-DM Phase 2인 Data Understanding의 목적, EDA 방법론, 데이터 품질 6차원, 레이블 품질 검토를 다룬다. | |
| Mar 28, 2026 | 확률론 개요 (Probability Theory) | Statistics | 확률론은 통계학 전체의 언어이다. 표본공간과 사건의 집합론적 구조, 콜모고로프 공리, 조건부 확률과 독립성, 확률변수와 분포 함수, 밀도 함수와 주요 분포까지 — Casella & Berger Ch.1의 흐름을 조감하고 각 주제가 데이터 사이언스 실무에서 왜 중요한지를 연결한다. | |
| Mar 28, 2026 | 변환과 기대값 개요 (Transformations & Expectations) | Statistics | 확률변수의 변환(transformation)과 기대값(expectation)은 통계적 추론의 핵심 도구이다. 변수변환의 PDF 유도, 기댓값과 분산의 정의와 성질, 공분산과 상관계수, 적률과 적률생성함수(MGF)까지 — Casella & Berger Ch.2의 흐름을 조감하고 각 개념이 데이터 사이언스 실무에서 어떻게 사용되는지를 연결한다. | |
| Mar 28, 2026 | 확률변수 함수의 분포 (Distributions of Functions of a Random Variable) | Statistics | 확률변수 X 의 분포를 알 때 Y = g(X) 의 분포를 구하는 문제를 체계적으로 다룬다. CDF법, 변수변환법(야코비안), MGF법의 세 가지 전략을 정의·증명·예시와 함께 제시하고, 각 방법의 적용 조건과 데이터 사이언스 실무에서의 활용을 연결한다. | |
| Mar 28, 2026 | 기대값 (Expected Values) | Statistics | 기대값은 확률변수의 분포를 하나의 숫자로 요약하는 가장 기본적인 도구이다. 기대값의 엄밀한 정의와 존재 조건, LOTUS, 선형성을 시작으로 분산, 적률, 적률생성함수(MGF)까지 — Casella & Berger Ch.2의 핵심을 체계적으로 다루고 각 개념이 데이터 사이언스 실무에서 어떻게 사용되는지를 연결한다. | |
| Mar 28, 2026 | 적률과 적률생성함수 (Moments and Moment Generating Functions) | Statistics | 적률(moment)은 분포의 형태를 숫자들의 수열로 요약하고, 적률생성함수(MGF)는 그 수열을 하나의 함수에 담아 대수적 조작을 가능하게 한다. 적률의 분류(원점·중심·표준화·팩토리얼), MGF의 존재 조건과 유일성 정리, 큐뮬런트 생성함수, 특성함수, 체르노프 바운드까지 체계적으로 다룬다. | |
| Mar 28, 2026 | 적분 기호 아래서의 미분 (Differentiating Under an Integral Sign) | Statistics | 모수에 대해 기댓값을 미분하는 것은 통계학 전반에서 반복적으로 등장하는 연산이다. 라이프니츠 규칙과 지배수렴정리를 통해 적분과 미분의 교환이 정당화되는 조건을 다루고, MLE 스코어 함수, 피셔 정보량, 지수족 성질 유도 등 실무적 응용을 연결한다. | |
| Mar 28, 2026 | 분포 가족 개요 (Common Families of Distributions) | Statistics | 통계적 추론은 데이터가 어떤 분포에서 왔는지를 가정하는 데서 출발한다. 이산 분포와 연속 분포의 주요 가족, 지수족의 통합적 구조, 위치-척도족의 표준화 원리, 확률 부등식까지 — Casella & Berger Ch.3의 흐름을 조감하고 각 분포 가족이 데이터 사이언스 실무에서 왜 중요한지를 연결한다. | |
| Mar 28, 2026 | 이산 분포 (Discrete Distributions) | Statistics | 카운트 데이터와 이진 결과를 모형화하는 6가지 핵심 이산 분포를 체계적으로 정리한다. PMF, 평균, 분산, MGF의 수학적 도출과 함께, 분포 간 극한 관계(이항→포아송, 기하⊂음이항)를 증명하고 데이터 사이언스 실무에서의 분포 선택 기준을 제시한다. | |
| Mar 28, 2026 | 연속균등 분포 (Continuous Uniform Distribution) | Statistics | 연속균등 분포는 모든 연속 분포의 기초이다. 확률적분변환(PIT)을 통해 임의의 연속 분포에서 난수를 생성할 수 있고, 순서통계량의 분포는 베타 분포와 연결된다. 정의, 평균, 분산, MGF를 수학적으로 도출하고, 시뮬레이션과 난수 생성의 실무 맥락을 다룬다. | |
| Mar 28, 2026 | 이산균등 분포 (Discrete Uniform Distribution) | Statistics | 이산균등 분포는 유한 집합의 모든 원소에 동일한 확률을 부여하는 가장 단순한 이산 분포이다. PMF, CDF, 적률, MGF를 수학적으로 도출하고, 최대 엔트로피 성질, 연속균등 분포와의 관계, 해싱, 암호학, 무작위 배정 등 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 초기하 분포 (Hypergeometric Distribution) | Statistics | 초기하 분포는 유한 모집단에서 비복원 추출할 때 관심 범주의 개수를 모형화하는 분포이다. PMF의 조합론적 유도, 평균·분산의 축소 기법 증명, 유한 모집단 교정인자, 이항 분포로의 극한 수렴, 피셔 정확검정과의 연결, 수용 표본 추출 등 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 베르누이 분포 (Bernoulli Distribution) | Statistics | 베르누이 분포는 성공/실패 두 가지 결과만 갖는 가장 단순한 확률 분포이다. PMF, 적률, MGF, 지수족 표현을 수학적으로 도출하고, MLE와 피셔 정보량, 엔트로피, 로지스틱 회귀와의 연결, A/B 테스트 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 이항 분포 (Binomial Distribution) | Statistics | 이항 분포는 독립 베르누이 시행의 성공 횟수를 모형화하는 핵심 이산 분포이다. PMF의 조합론적 유도, 평균·분산·MGF 증명, 정규 근사(CLT)와 포아송 극한, 지수족 표현, MLE와 피셔 정보량, A/B 테스트와 품질 관리의 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 포아송 분포 (Poisson Distribution) | Statistics | 포아송 분포는 단위 시간·공간당 희귀 사건의 발생 횟수를 모형화하는 핵심 분포이다. PMF, 평균=분산(등산포), MGF, 포아송 과정의 공리, 이항에서의 극한 수렴, 감마-포아송 관계, 과산포 진단, GLM에서의 포아송 회귀 연결을 체계적으로 다룬다. | |
| Mar 28, 2026 | 음이항 분포 (Negative Binomial Distribution) | Statistics | 음이항 분포는 r번째 성공까지의 실패 횟수를 모형화하는 분포이다. PMF 유도, 평균·분산, 음이항계수의 명칭 유래, 과산포 재모수화, 포아송 극한 수렴, 기하 분포와의 관계, 역이항 표본 추출, 음이항 회귀의 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 기하 분포 (Geometric Distribution) | Statistics | 기하 분포는 첫 번째 성공까지의 대기 시간을 모형화하는 가장 단순한 대기 시간 분포이다. PMF, 평균·분산, MGF, 무기억성의 증명과 유일성, 연속 지수 분포와의 대응, 쿠폰 수집 문제, 기하 분포 기반 신뢰 구간, 실무 응용을 체계적으로 다룬다. | |
| Mar 28, 2026 | 시계열 회귀 vs 일반 회귀 — 오차항 독립성과 외부 변수 포함 모델 | Statistics | 일반 OLS 회귀와 시계열 회귀의 근본적 차이인 오차항 독립성 가정을 분석한다. 자기상관, 정상성, spurious regression, 공적분 개념을 다루고, 외부 변수(X)를 포함하는 시계열 모델(ARIMAX, VAR, ADL, ECM 등)을 선택 기준과 함께 비교 정리한다. X→Y 즉각 효과·지연 효과·장기 효과의 해석 방법을 포함한다. | |
| Mar 27, 2026 | ReAct Agent: LangChain v1 create_agent | Agent, LangChain | ReAct(Reasoning and Acting) 패턴의 핵심 원리를 정리하고, LangChain v1에서 도입된 create_agent 함수를 활용한 구현 방법을 다룬다. 기존 LangGraph create_react_agent와의 차이점과 마이그레이션 맥락을 함께 설명한다. | |
| Mar 27, 2026 | ReAct Agent와 Playwright 브라우저 자동화 | Agent, LangChain, Playwright | Playwright 브라우저 툴킷을 ReAct Agent에 통합하여 웹 검색, 페이지 탐색, 동적 사이트 상호작용을 자동화하는 방법을 다룬다. LangChain v1 create_agent 기반 구현과 실전 프롬프트 설계를 포함한다. | |
| Mar 27, 2026 | Agent 스킬 설계와 생성 | Agent, Architecture, Prompt Engineering | Agent 스킬의 내부 구조(SKILL.md, 스크립트, 리소스)를 분석하고, 스킬을 직접 설계-작성-등록하는 실전 절차를 정리한다. | |
| Mar 27, 2026 | MCP 기반 도구 통합 | Agent, Architecture, MCP | MCP(Model Context Protocol)의 개념과 아키텍처를 설명하고, Agent가 외부 도구와 연동하는 세 가지 연결 방식(웹, 커스텀, 로컬)의 특징과 실전 적용 기준을 정리한다. | |
| Mar 27, 2026 | SKILL.md 명세와 작성법 | Agent, Architecture, Prompt Engineering | Claude Code가 채택한 SKILL.md 기반 Agent 스킬의 공식 명세를 정리한다. Custom Commands에서 SKILL.md로의 진화 배경, 프론트매터 필드, 마크다운 본문 작성법, 디렉토리 구조, 동적 변수, 스킬 생태계 활용법을 다룬다. | |
| Mar 27, 2026 | code-review-graph: 로컬 지식 그래프 기반 토큰 최적화 | Agent, Architecture, Code Review | code-review-graph는 코드베이스를 Tree-sitter로 파싱하여 로컬 SQLite 지식 그래프를 구축하고, 변경 영향 범위(blast radius)만 Claude에 전달하여 토큰 사용량을 평균 8.2배 절감하는 도구이다. 아키텍처, 핵심 메커니즘, 벤치마크, 실전 활용법을 정리한다. | |
| Mar 27, 2026 | 스킬 라우팅의 확장성과 한계 | Agent, Architecture, Prompt Engineering | 스킬 기반 Agent가 프롬프트 기반 Agent의 파편화를 어떻게 줄이는지 분석하고, 라우팅 확장성의 수학적 근거, 시퀀셜 절차 심화의 리스크, 동일 도메인 내 스킬 간 의미적 중첩 문제와 해결 전략을 정리한다. | |
| Mar 27, 2026 | Multi-Repo 코드베이스 분석 Agent 설계 | Agent, Engineering | 수십 개의 repo로 구성된 대규모 코드베이스를 분석하는 Agent를 설계할 때, 단순 1-repo-1-agent 분할이 실패하는 이유와 계층적 구조·정적 온톨로지로 depth 문제를 해결하는 방법을 다룬다. | |
| Mar 27, 2026 | 데이터 거버넌스란 무엇인가 | Data Governance | 데이터 거버넌스의 정의와 DAMA DMBOK 10대 지식 영역의 구조, 데이터 라이프사이클, 통합 프레임워크의 설계 철학, 데이터를 자산으로 보는 관점 전환을 다룬다. | |
| Mar 27, 2026 | 데이터 라이프사이클 설계 | Data Governance | 데이터 거버넌스의 6단계 라이프사이클 각 단계별 설계 결정을 다룬다. 표준 3계층, ERD의 살아있는 역할, 메타 자동수집 경계, 보안-활용 균형, 품질 진단 3단계, 피드백 루프 설계를 구체적으로 설명한다. | |
| Mar 27, 2026 | ROI 분석과 단계적 도입 전략 | Data Governance | 데이터 거버넌스 도입의 ROI를 품질 비용 3요소와 솔루션 통합 효과로 정량화하는 방법, 성숙도 5단계별 시작점 설계, 업종별 우선순위, 조직 변화 관리 전략을 다룬다. 시리즈 전체(Part 01~10)를 마무리한다. | |
| Mar 27, 2026 | 데이터 표준 관리 | Data Governance | 데이터 표준의 3계층 구조(용어, 단어, 도메인)가 왜 필요한지, 각 계층이 어떤 문제를 해결하는지, 복수 표준을 현실적으로 관리하는 방법, AI 자동화와의 연결, 표준이 품질 진단 규칙으로 변환되는 메커니즘을 다룬다. | |
| Mar 27, 2026 | 데이터 구조 관리 | Data Governance | 스키마 자동 수집 아키텍처, DBMS별 수집 전략, 갭 분석(개발-운영, ERD-DBMS, 표준-실제), 변경 요청 워크플로, 작업 규칙 자동 검증, 변경 이력 관리, 환경별 스키마 관리를 다룬다. | |
| Mar 27, 2026 | 공통코드와 마스터 데이터 관리 | Data Governance | 공통코드와 마스터 데이터의 개념적 차이, 코드 그룹-코드 값 데이터 모델, 코드 변경 워크플로, 코드 갭 분석, MDM 3가지 구현 패턴, 코드 도메인과 품질 진단 연결, 멀티 환경 배포 전략, 코드 관리 안티패턴을 다룬다. | |
| Mar 27, 2026 | 중요데이터 관리와 비식별화 | Data Governance | 중요데이터 5등급 체계의 설계 근거, 개인정보 별도 관리 원칙, 비식별화 기법별 설계 패턴, 시나리오별 비식별화 전략, 접근 통제와 SQL 로깅, ISMS 인증 대응까지를 다룬다. | |
| Mar 27, 2026 | 데이터 품질 관리 | Data Governance | 프로파일링이 도메인 규칙 설계의 기반이 되는 방식, 도메인 규칙과 업무 규칙의 차이와 DBMS별 진단 쿼리 설계 패턴, 품질 점수를 경영 지표로 만드는 방법, 클린징 워크플로의 자동화 설계를 다룬다. | |
| Mar 27, 2026 | 데이터 활용 | Data Governance | Data Federation 아키텍처의 설계 원리, 비즈 뷰 개념과 권한 승인 프로세스, 캐시 전략, 인덱스 기반 1,000행 조회 제한의 근거, BI 연동과 엑셀 추출 설계를 다룬다. | |
| Mar 27, 2026 | 변경 관리 워크플로 | Data Governance | 데이터 거버넌스에서 변경 관리의 역할, 5가지 변경 유형(스키마, 코드, 마스터, 데이터 정정, 비즈메타)의 공통 워크플로, 결재 단계 메타데이터 설계, 변경 전후 값 암호화, 영향도 분석 재귀 쿼리, 분야별 응용 사례를 다룬다. | |
| Mar 27, 2026 | 통합 아키텍처 설계 | Data Governance | 데이터 거버넌스 시스템의 아키텍처 선택(단일 패키지 vs 컴포넌트 방식), 멀티 DBMS 추상화를 위한 Strategy Pattern 설계, 커넥션 풀 분리 전략, RBAC 역할 체계, 스케줄러 설계와 시간 분산 전략을 다룬다. | |
| Mar 27, 2026 | Fine-tuning 학습 데이터 샘플 수 추정 | Machine Learning, Statistics | Pretrained 언어 모델(KoBERT)의 fine-tuning에 필요한 클래스당 샘플 수를 통계적으로 추정하는 방법과 한계를 다룬다. 14개 도메인 그룹 분류 사례를 통해 경험적 기준표의 조건, 합성 데이터의 리스크, Learning Curve 실험의 필요성을 설명한다. | |
| Mar 27, 2026 | 확률론의 언어: 집합론 (Set Theory) | Statistics | 확률론은 집합론 위에 세워진다. 표본공간, 사건, 합집합/교집합/여집합 연산, 드모르간 법칙, 시그마 대수(σ-algebra)까지 — 확률을 엄밀하게 정의하기 위한 최소한의 수학적 언어를 다룬다. | |
| Mar 27, 2026 | 확률론의 공리적 기초 (Axiomatic Foundations of Probability) | Statistics | 확률을 엄밀하게 정의하는 방법은 무엇인가. 콜모고로프의 세 공리를 출발점으로, 고전적·빈도주의·주관적 확률 해석의 차이를 비교하고, 공리만으로 유도되는 확률의 주요 성질과 포함-배제 원리를 증명한다. | |
| Mar 27, 2026 | 확률의 계산 규칙 (The Calculus of Probabilities) | Statistics | 공리로부터 출발해 확률을 실제로 계산하는 규칙들을 유도한다. 조건부 확률 정의, 곱셈 법칙, 전확률 정리, 독립성의 수학적 정의, 유한 표본공간에서의 조합론(순열·조합·이항계수)까지 다룬다. | |
| Mar 27, 2026 | 경우의 수와 조합론 (Counting & Combinatorics) | Statistics | 유한 표본공간에서 확률은 경우의 수 세기로 귀결된다. 곱의 법칙부터 시작해 순열(반복 허용/불허), 조합, 이항계수, 이항 정리까지 — 조합론의 핵심 기초를 증명과 함께 다룬다. 심화편(중복조합·다항계수·비둘기집·포함-배제)은 별도 포스트 46번 참조. | |
| Mar 27, 2026 | 결과 열거법 (Enumerating Outcomes) | Statistics | 표본공간을 어떻게 체계적으로 열거하는가. 트리 다이어그램으로 구조를 시각화하고, 순서·중복 여부에 따라 나뉘는 4가지 추출 방식(ordered/unordered × with/without replacement)의 경우의 수 공식을 도출한다. 복합 실험의 표본공간 구성과 실무 적용까지 다룬다. | |
| Mar 27, 2026 | 조건부 확률과 베이즈 정리 (Conditional Probability & Bayes’ Theorem) | Statistics | 조건부 확률은 새로운 정보가 불확실성을 어떻게 바꾸는지를 수학화한다. 정의와 성질, 곱셈 법칙, 전확률 정리를 엄밀히 다루고, 베이즈 정리로 역방향 추론(결과→원인)을 수행한다. 독립성의 수학적 정의는 심화편을 참조한다. | |
| Mar 27, 2026 | 확률변수 (Random Variables) | Statistics | 확률변수는 표본공간의 결과를 실수로 대응시키는 함수다. 가측함수(measurable function)로서의 엄밀한 정의부터 시작해 이산형의 PMF, 연속형의 PDF, 모든 확률변수를 아우르는 CDF의 성질을 체계적으로 다룬다. 분포의 동일성 조건, 혼합형 확률변수, 확률변수의 함수까지 포함한다. | |
| Mar 27, 2026 | 분포 함수 (Distribution Functions) | Statistics | 분포 함수(CDF)는 확률변수의 분포를 완전히 특성화한다. CDF의 필요충분조건 엄밀 증명, 분위수 함수(역CDF), 생존 함수와 위험 함수, 확률 적분 변환(Probability Integral Transform), 경험적 분포 함수, 확률적 순서(stochastic ordering)까지 체계적으로 다룬다. | |
| Mar 27, 2026 | 밀도 함수와 질량 함수 (Density and Mass Functions) | Statistics | 확률밀도함수(PDF)와 확률질량함수(PMF)를 측도론적 관점에서 엄밀히 정의한다. 라돈-니코딤 정리와 절대연속성, PDF·PMF의 존재 조건, 지지 집합(support), 커널(kernel) 표현을 체계적으로 다룬다. 주요 분포의 PDF·PMF와 혼합 분포는 심화편을 참조한다. | |
| Mar 27, 2026 | 조합론 심화 (Advanced Combinatorics) | Statistics | 경우의 수와 조합론의 심화편. 중복조합(별과 막대 방법), 다항계수와 다항 정리, 비둘기집 원리, 포함-배제 원리, 완전 순열(교란 순열)을 증명과 응용 코드를 포함해 체계적으로 다룬다. | |
| Mar 27, 2026 | 독립성 (Independence) | Statistics | 조건부 확률과 베이즈 정리의 심화편. 독립의 수학적 정의와 서로소와의 결정적 차이, 쌍별 독립 vs 상호 독립(Bernstein 반례), 조건부 독립의 미묘함 — 실무 코드와 함께 엄밀히 다룬다. | |
| Mar 27, 2026 | 주요 분포의 밀도 함수 (Distribution Families) | Statistics | 밀도 함수와 질량 함수의 심화편. 베르누이·이항·포아송·균등·정규·지수·감마·베타 분포의 PDF·PMF를 체계적으로 정리하고, 합/적분이 1임을 증명한다. 혼합 분포(GMM)와 응용 코드도 포함한다. | |
| Mar 26, 2026 | ML 모델 가중치 관리 및 배포 패턴 | Engineering, Deep Learning, Machine Learning | 딥러닝 모델 가중치 파일을 서버에 배포하고 관리하는 실무 패턴을 정리한다. Git LFS, 클라우드 스토리지, DVC 등 전송 방법부터 서비스 규모별 아키텍처까지 다룬다. | |
| Mar 26, 2026 | 온프레미스 GPU 서버에서 Python 개발 환경 구축 | Engineering, Infrastructure | 사내 온프레미스 GPU 서버에 접속한 뒤 pyenv로 Python을 설치하고, Poetry로 프로젝트 의존성을 관리하며, SSH 터널로 Jupyter에 접속하는 전체 워크플로를 다룬다. | |
| Mar 26, 2026 | 메타데이터 관리 시스템 설계 — 개념과 범위 정의 | Data Governance | 메타데이터 관리 시스템의 개념, 메타데이터 3가지 유형(기술/비즈니스/운영), 시스템 범위 결정 기준, 저장소-대상 DB 분리 원칙, 사용자 역할별 요구사항을 다룬다. | |
| Mar 26, 2026 | 메타데이터 관리 시스템 설계 — 저장소 데이터 모델 | Data Governance | 메타데이터 저장소의 데이터 모델 설계 원칙과 핵심 엔티티 구조를 다룬다. 기술/비즈니스 메타데이터 분리, 표준 관리, 공통 코드, 중요데이터, 이력 테이블, 갭 분석 결과 저장까지 전체 스키마를 설계한다. | |
| Mar 26, 2026 | 메타데이터 관리 시스템 설계 — 수집과 변경 관리 | Data Governance | 메타데이터 자동 수집 아키텍처(DBMS별 시스템 카탈로그 쿼리, 수집기 설계), 변경 관리 워크플로(상태 머신, 결재, 작업 규칙 검증), DDL/DML 자동 생성, 데이터 변경 전후 값 암호화 저장을 다룬다. | |
| Mar 26, 2026 | 메타데이터 관리 시스템 설계 — 품질 관리와 데이터 보안 | Data Governance | 데이터 품질 관리의 3단계(프로파일링, 도메인 규칙, 업무 규칙) 설계와 중요데이터 등급 체계, 비식별화 규칙, 조회 권한 설계, ISMS 인증 대응을 다룬다. | |
| Mar 26, 2026 | 메타데이터 관리 시스템 설계 — 아키텍처와 구축 우선순위 | Data Governance | 메타데이터 관리 시스템의 전체 아키텍처(프레젠테이션/애플리케이션/데이터 레이어), ERD 모델링 통합, Data Lineage 설계, 5단계 구현 우선순위를 다룬다. | |
| Mar 26, 2026 | Monte Carlo Simulation | Statistics | Monte Carlo Simulation의 핵심 아이디어, 수학적 근거, 그리고 실무 활용을 다룬다. 난수 생성부터 적분 근사, 불확실성 추정까지 단계별로 설명한다. | |
| Mar 25, 2026 | 시스템 프롬프트 분해 6단계 | Agent, Architecture, Prompt Engineering | 하나의 긴 시스템 프롬프트를 코어 + 스킬 모듈 구조로 분해하는 6단계 방법론을 정리한다. 소프트웨어 설계의 모듈화 원칙(SRP, lazy loading, 라우팅)을 프롬프트에 적용하여, 독립 태스크 식별 → 공통 요소 추출 → 코어/스킬 분류 → 라우팅 테이블 → 도메인 분리 → 전/후처리 식별의 순서로 단일 파일 프롬프트를 체계적으로 모듈화하는 과정을 다룬다. 범용 의사결정 트리와 어떤 유형의 시스템 프롬프트에든 적용되는 3가지 원칙도 함께 제시한다. | |
| Mar 25, 2026 | 시스템 프롬프트 유형 분류와 혼합 설계 | Agent, Architecture, Prompt Engineering | 시스템 프롬프트 분해 6단계가 그대로 적용되지 않는 경우를 다룬다. 시스템 프롬프트를 4가지 유형(멀티태스크/파이프라인/페르소나/도구 중심)으로 분류하고, 각 유형에 맞는 분해 전략을 제시한다. 혼합 유형에서의 계층적 라우팅(Layered Routing) 설계와 “컨텍스트 윈도우의 밀도”를 핵심 설계 목표로 두는 이유를 구체적 예시와 함께 설명한다. | |
| Mar 25, 2026 | 프롬프트 설계와 SW 설계의 구조적 대응 | Agent, Architecture, Prompt Engineering | Skill-based 프롬프트 설계가 전통적 SW 개발 프로세스(요구사항→SRS→ERD→모듈 설계→구현)와 본질적으로 같은 과정임을 단계별로 대응시켜 설명한다. 특히 ERD 설계와의 강한 유사성(엔티티=스킬, 정규화=공통 추출, 반정규화=의도적 복제)을 분석하고, SW 설계와의 결정적 차이(결정론 vs 확률)가 프롬프트 설계 전략에 미치는 영향을 다룬다. “언제 정규화하고 언제 반정규화하는가”의 판단 기준을 실제 블로그 프로젝트의 예시로 제시한다. | |
| Mar 25, 2026 | Skill-Based Prompt의 실전 제약: 어텐션 희석과 2-Pass 워크플로우 | Agent, Architecture, Prompt Engineering | Skill-Based Prompt 체계를 실전 운영하면서 발견한 핵심 제약인 어텐션 희석(Attention Dilution)을 분석한다. 규칙을 추가할수록 오히려 품질이 떨어지는 역설의 원인을 규명하고, 반정규화와 2-Pass 워크플로우로 대응하는 전략을 제시한다. 시스템 프롬프트 분해 방법론(09번 포스트)의 후속 주제이다. | |
| Mar 25, 2026 | 코드베이스 분석 Agent의 시스템 프롬프트 스킬 설계 | Agent, Architecture, Prompt Engineering | GraphRAG 없이 시스템 프롬프트 설계만으로 범용 AI Copilot보다 우월한 코드베이스 분석 성능을 내는 방법을 다룬다. AST 기반 메타데이터 생성, 스킬 레이어 설계, context-assembly의 상세 구조, 소규모에서 대규모(20만줄 × 35레포)로의 확장 전략, 개발자 숙련도별 사고 모델링, 그리고 예상 정확도 분석까지 실전 설계 전 과정을 정리한다. Skill-Based Prompt 분해 방법론의 실전 적용 사례이다. | |
| Mar 24, 2026 | 범용 코드베이스 분석 Agent의 기술적 타당성 | GraphRAG, Code Analysis, Agent, Architecture, Data Governance | GraphRAG 기반 코드 분석 Agent를 범용으로 확장할 수 있는지를 검토한다. 파이프라인의 각 단계(AST 파싱 → 온톨로지 매핑 → 그래프 쿼리 → LLM 설명)는 이미 검증된 기술이지만, “범용”으로 가는 순간 동적 호출 누락, 언어별 파서 차이, 온톨로지 유지보수 비용이라는 현실적 난제가 부상한다. 기존 도구(CodeQL, Joern)와의 비교를 통해 GraphRAG만의 차별적 가치와 현실적 타협점을 정리한다. | |
| Mar 24, 2026 | 온톨로지 개론 | Data Governance, Data Engineering, AI, Agent | 온톨로지는 특정 도메인의 개념, 관계, 제약을 형식적으로 정의한 지식 표현 모델이다. 이 글에서는 온톨로지의 정의와 수준 체계, 데이터 모델과의 핵심 차이, 설계 방법론(METHONTOLOGY, 역량 질문, 설계 패턴), 구현 기술(OWL, Property Graph, RDB), 평가 기준까지를 6개 교재를 종합하여 정리한다. | |
| Mar 24, 2026 | 온톨로지와 메타데이터 저장소 설계 | Data Governance, Data Engineering, AI, Agent | 온톨로지는 특정 구현 기술이 아니라 개념과 관계를 정의하는 설계 사상이다. RDB와 GraphDB는 이 설계를 물리적으로 구현하는 서로 다른 방법일 뿐이다. 코드베이스 메타데이터(구조 정보 + 도메인 용어)를 예시로, 온톨로지 설계부터 구현 기술 선택까지의 의사결정 과정을 정리한다. | |
| Mar 24, 2026 | 그래프 이론 기초 | Mathematics, Data Governance, AI, Agent, Data Engineering | 그래프 이론은 개체(노드)와 관계(엣지)로 구성된 구조를 수학적으로 다루는 분야이다. 이 글에서는 그래프의 정의, 유형, 표현 방법, 탐색 알고리즘, 최단 경로, 중심성 지표까지를 다루며, 온톨로지·지식 그래프·GraphRAG의 수학적 기반을 제공한다. | |
| Mar 23, 2026 | Prompt Analytics - 발화 데이터 관리 및 분석 파이프라인 | Prompt Engineering, AI, Agent, Data Engineering | AI Agent 서비스에서 사용자 발화 데이터를 체계적으로 수집, 저장, 분석하는 파이프라인을 설계한다. 코퍼스 언어학(McEnery)의 주석 체계, 대화 분석(Sidnell)의 턴테이킹/수리 구조, 화용론(Huang)의 화행 분류, 대화 시스템(Jurafsky)의 대화 행위 태깅을 통합하여 session → turn → utterance 3계층 스키마를 설계하고, 구조 분석 → 의도 분석 → 패턴 분석 → 세그먼테이션의 4단계 분석 파이프라인을 구축한다. | |
| Mar 23, 2026 | 시스템 프롬프트 평가 — AGENT_GUIDE.md 사례 분석 | Prompt Engineering, Agent, Architecture | 실제 프로덕션 수준의 Agent 시스템 프롬프트(AGENT_GUIDE.md)를 프롬프트 엔지니어링 관점에서 분석한다. WRONG/CORRECT 패턴, XML 태그 분리, Chain-of-Action, Decision Matrix, Progressive Deepening, Boundary 설정 등 6가지 강점 기법을 식별하고, 우선순위 부재, 검증 단계 약화, 피드백 루프 부재 등 개선 가능 지점을 구체적으로 진단한다. 12개 프롬프트 엔지니어링 기법에 대한 체크리스트 평가를 통해 시스템 프롬프트 설계의 best practice를 정리한다. | |
| Mar 23, 2026 | 함수의 합과 합성함수 — 구조가 다르면 최적화도 다르다 | Mathematics, Machine Learning, Data Science, Statistics | 함수의 합 \(f(x)+g(x)\)와 합성함수 \(g(f(x))\)의 구조적 차이를 정의하고, 이 차이가 머신러닝의 Sequential 추정과 Joint 추정으로 어떻게 연결되는지 수식과 직관으로 설명한다. 전처리-모델 파이프라인, 앙상블, 딥러닝의 구조를 함수 합/합성 관점에서 분류하고, 각 추정 방식의 성능-해석성-안정성 트레이드오프를 분석한다. | |
| Mar 22, 2026 | RAG 오케스트레이션 고도화 로드맵 | RAG, Corrective RAG, Self-RAG, AutoRAG, Agentic RAG, LangGraph, Agent | RAG 파이프라인을 단방향 체인에서 Agentic RAG까지 단계적으로 고도화하는 로드맵을 제시한다. 각 단계의 전제 조건, 진입 시점 판단 기준, 서비스 유형별 RAG 전략 선택 가이드를 다룬다. | |
| Mar 22, 2026 | Long Context 모델의 한계: NIAH에서 추론까지 | RAG, Agent, Long Context, LLM | Long Context(LC) 모델이 RAG를 대체할 수 있다는 주장이 확산되고 있다. 이 글에서는 LC 모델의 대표적 논거 6가지를 기술적으로 검증하고, 각 주장이 성립하는 조건과 성립하지 않는 조건을 구분한다. | |
| Mar 22, 2026 | 구조화된 RAG 아키텍처: AST 온톨로지 + GraphRAG + Agentic RAG | RAG, GraphRAG, Agentic RAG, Agent, Ontology, Code Analysis | 코드 분석 에이전트를 위한 구조화된 RAG 아키텍처를 설계한다. AST 기반 온톨로지로 코드의 구조적 의미를 명시화하고, GraphRAG로 결정론적 검색을, Agentic RAG로 자율 추론을 수행하는 2-Layer 구조의 원리와 각 레이어의 역할을 분석한다. | |
| Mar 22, 2026 | RAG vs Long Context: 유즈케이스별 선택 프레임워크 | RAG, GraphRAG, Long Context, Agent, LLM | 구조화된 RAG와 Long Context 모델의 장단점을 유즈케이스별로 비교하고, 실무에서 어떤 접근법을 선택해야 하는지 판단 프레임워크를 제시한다. 단일 선택이 아닌 하이브리드 전략의 설계 원칙도 다룬다. | |
| Mar 21, 2026 | AI Agent A/B 테스트 개요 | Experimentation, Agent | AI Agent(특히 RAG 기반)의 성능을 과학적으로 측정하고 비교하려면 기존 웹 A/B 테스트와는 다른 실험설계가 필요하다. 비결정적 출력, 평가의 주관성, 제한된 트래픽이라는 Agent 고유의 도전을 정의하고, 오프라인 평가부터 프로덕션 동적 라우팅까지의 실험설계 로드맵을 제시한다. | |
| Mar 21, 2026 | AI Agent 오프라인 평가 설계 | Experimentation, Agent | 온라인 A/B 테스트는 트래픽과 시간이 든다. 오프라인 평가로 후보 구성을 사전 스크리닝하면 온라인 실험의 효율을 극적으로 높일 수 있다. Golden dataset 구축 방법, RAG 특화 평가 지표 (Relevance, Faithfulness, Groundedness), 자동 평가 파이프라인 설계를 다룬다. | |
| Mar 21, 2026 | Agent 실험 메트릭 설계 | Experimentation, Agent | 실험 설계의 첫 번째 질문은 “무엇을 측정할 것인가”이다. RAG 기반 Agent의 메트릭 체계를 North Star / Proxy / Guardrail로 구분하여 정의하고, 오프라인 평가 지표를 온라인 메트릭으로 전환하는 논리를 제시한다. Overall Evaluation Criterion(OEC) 설계 방법을 다룬다. | |
| Mar 21, 2026 | Agent 단순 A/B 테스트 설계 | Experimentation, Agent | 가장 기본적인 Agent A/B 테스트를 설계한다. 단일 변수(프롬프트 변형, retrieval 파라미터)를 대상으로 무작위 배정 단위 결정, 트래픽 분할, 실험 기간 산정까지의 전체 과정을 다룬다. MINERVA QnA Chatbot의 프롬프트 실험을 구체적 예시로 사용한다. | |
| Mar 21, 2026 | Agent 실험의 표본 크기와 검정력 | Experimentation, Statistics | 기업 내부 Agent는 일일 트래픽이 수십~수백 건에 불과하다. 이 환경에서 MDE(최소감지효과)를 현실적으로 설정하고, 검정력을 확보하기 위한 전략을 다룬다. 분산 감소, 층화, 복합 메트릭 등 표본 크기를 줄이는 실무적 기법을 제시한다. | |
| Mar 21, 2026 | Sequential Testing과 조기 종료 | Experimentation, Statistics | 고정 표본 설계는 목표 표본에 도달할 때까지 기다려야 한다. 트래픽이 적은 Agent 실험에서는 이것이 수개월이 될 수 있다. Sequential testing은 중간 분석(interim analysis)을 허용하면서도 1종 오류를 통제하는 방법이다. Group Sequential Design과 Alpha Spending Function을 다룬다. | |
| Mar 21, 2026 | 다중 비교 실험 설계 | Experimentation, Statistics | MINERVA의 3종 Agent를 동시에 비교하거나, 모델 × 프롬프트 × retrieval 파라미터를 조합 실험할 때의 설계 방법을 다룬다. Multiple testing 보정(Bonferroni, Holm, FDR)과 Factorial design의 상호작용 효과 분석을 포함한다. | |
| Mar 21, 2026 | Human-in-the-Loop 평가 | Experimentation, Agent | LLM-as-Judge와 자동 지표만으로는 Agent 응답 품질을 완전히 포착할 수 없다. 인간 평가의 설계(루브릭, 평가자 훈련), 신뢰도 측정(Cohen’s κ, ICC), 자동 평가와의 상관 검증 방법을 다룬다. | |
| Mar 21, 2026 | 실험 결과 분석과 의사결정 | Experimentation, Statistics | 실험 설계와 실행이 끝나면 결과를 분석하고 의사결정을 내려야 한다. p-value를 넘어 효과 크기와 신뢰구간 중심의 해석, 가드레일 위반 처리, 그리고 조직의 Go/No-Go 의사결정 프레임워크를 제시한다. | |
| Mar 21, 2026 | Thompson Sampling 동적 라우팅 | Experimentation, Agent | 고정 50:50 배분은 열등한 변형에 절반의 트래픽을 낭비한다. Thompson Sampling은 Beta 분포를 활용하여 성능이 좋은 변형에 자동으로 더 많은 트래픽을 보내면서도 탐색을 유지한다. Agent/프롬프트/파라미터 조합의 실시간 동적 최적화를 다룬다. | |
| Mar 21, 2026 | 프로덕션 A/B 플랫폼 설계 | Experimentation, Agent, Engineering | 실험이 일회성이 아니라 조직의 반복 프로세스가 되려면 플랫폼이 필요하다. Agent 실험 플랫폼의 핵심 컴포넌트(배정 서비스, 로깅, 분석 엔진, 자동 중단), Feature flag 통합, MINERVA의 Azure 인프라와의 연동 방안을 설계한다. | |
| Mar 20, 2026 | 스킬 패턴의 실전 적용: 블로그 지식 관리 시스템 구축 | Agent, Architecture, Claude Code | LangChain이 공개한 Claude Code용 스킬 패턴(YAML frontmatter, 계층 구조, 트리거 기반 로딩)을 기술 블로그의 지식 관리 시스템에 적용한 실전 사례를 정리한다. 스킬 파일의 구조를 “코드 작성 가이드”에서 “블로그 운영 매뉴얼”로 확장한 과정, 설계 결정의 근거, 그리고 실제 동작 결과를 기록한다. | |
| Mar 20, 2026 | Codebase Analyzer Agent: Architecture 비교 | Agent, Architecture | 코드베이스 분석 에이전트를 구현할 때, Copilot/Claude Code 기반 접근과 Agentic RAG + GraphRAG 기반 접근을 비교한다. 코드 메타데이터, 온톨로지, Skill-based Prompt를 공통 기반으로 두고, 환각률, 구현 난이도, 유지보수 비용, 가성비를 다각도로 분석한다. | |
| Mar 20, 2026 | A/B 테스트 개요 | Experimentation, Statistics | A/B 테스트의 정의, 역학적 원류(RCT), 통계적 프레임워크(가설 검정, 표본 크기, 검정력), 실험 설계부터 분석까지의 전체 파이프라인, 그리고 실무에서 마주하는 도전을 개관한다. 이 포스트는 A/B 테스트 시리즈의 진입점으로서, 각 세부 주제로의 학습 경로를 제시한다. | |
| Mar 20, 2026 | 인과 추론 개요 | Experimentation, Causal Inference | 인과 추론의 정의, 핵심 문제(교란, 반사실), 두 대 프레임워크(Potential Outcomes, SCM/DAG), 주요 방법론 지도, 그리고 이 시리즈의 로드맵을 개관한다. Hernán & Robins (2020)을 주요 교재로, 실험/관찰 데이터 맥락 모두를 다룬다. | |
| Mar 20, 2026 | 인과 효과의 정의와 잠재 결과 | Experimentation, Causal Inference | 개체 수준 인과 효과와 평균 인과 효과를 잠재 결과(potential outcomes) 표기법으로 정의한다. 인과 추론의 근본 문제, 효과 지표(risk difference, risk ratio, odds ratio), 인과(causation)와 연관(association)의 수학적 구분을 다룬다. Hernán & Robins (2020) Ch.1을 기반으로 작성하였다. | |
| Mar 20, 2026 | 무작위 실험과 교환가능성 | Experimentation, Causal Inference | 무작위 배정이 교환가능성(exchangeability)을 보장하여 연관을 인과로 해석할 수 있게 하는 원리를 다룬다. 주변 무작위화와 조건부 무작위화를 구분하고, 표준화(standardization)와 역확률 가중치(IPW)로 인과 효과를 추정하는 두 가지 방법을 소개한다. Hernán & Robins (2020) Ch.2를 기반으로 작성하였다. | |
| Mar 20, 2026 | 관찰 연구와 식별 조건 | Experimentation, Causal Inference | 관찰 연구를 조건부 무작위 실험의 유사체로 보는 관점을 소개한다. 식별 가능성(identifiability)의 세 조건 — 교환가능성, 양성, 일관성 — 이 관찰 데이터에서 어떻게 적용되고, 어떤 상황에서 위반되는지를 다룬다. Hernán & Robins (2020) Ch.3을 기반으로 작성하였다. | |
| Mar 20, 2026 | 효과 수정과 상호작용 | Experimentation, Causal Inference | 효과 수정(effect modification)과 상호작용(interaction)의 정의, 차이, 식별 방법을 다룬다. 가산적·승법적 효과 수정, 층화 분석, 반사실적 반응 유형, 충분원인 모형을 소개한다. Hernán & Robins (2020) Ch.4-5를 기반으로 작성하였다. | |
| Mar 20, 2026 | DAG와 인과 다이어그램 | Experimentation, Causal Inference | 인과 다이어그램(DAG)의 정의와 기본 규칙, 경로(path)의 유형, d-분리(d-separation), 충돌자(collider)의 역할, 그리고 DAG를 활용한 교란·선택편향의 구조적 분류를 다룬다. Hernán & Robins (2020) Ch.6을 기반으로 작성하였다. | |
| Mar 20, 2026 | 교란 | Experimentation, Causal Inference | 교란(confounding)의 DAG 기반 구조적 정의, 뒷문 경로(backdoor path)와 뒷문 기준(backdoor criterion), 교환가능성과의 관계, 교란 변수(confounder)의 정의 문제, M-편향, 부호화 DAG를 통한 편향 방향 예측, 그리고 교란 보정 방법론을 다룬다. Hernán & Robins (2020) Ch.7을 기반으로 작성하였다. | |
| Mar 20, 2026 | 선택 편향 | Experimentation, Causal Inference | 선택 편향(selection bias)의 DAG 기반 구조적 정의, 충돌자(collider) 조건화, 중도탈락·자기선택·건강한 근로자 편향 등 실제 사례, 교란과의 비교, IP 가중치를 통한 보정, 그리고 선택이 편향을 유발하지 않는 특수 조건을 다룬다. Hernán & Robins (2020) Ch.8을 기반으로 작성하였다. | |
| Mar 20, 2026 | 측정 오차와 랜덤 변동 | Experimentation, Causal Inference | 측정 오차(measurement error)의 구조(독립/비독립, 차등/비차등), 교란 변수 오측정의 영향, 비인과적 화살표 문제, 식별(identification) vs. 추정(estimation), 초모집단 개념, 조건성 원리, 차원의 저주를 다룬다. Hernán & Robins (2020) Ch.9-10을 기반으로 작성하였다. | |
| Mar 20, 2026 | 통계학 개요 | Statistics | 통계학의 정의, 핵심 프레임워크(기술통계 vs 추론통계, 모집단 vs 표본), 통계적 추론의 전체 파이프라인, 주요 분야 체계, 그리고 다양한 응용 분야를 개관한다. 이 포스트는 Statistics 카테고리 전체의 진입점으로서, 각 세부 주제로의 학습 경로를 제시한다. | |
| Mar 20, 2026 | 데이터 축소의 원리 (Principles of Data Reduction) | Statistics | 표본 전체를 다루지 않고도 모수에 대한 정보를 보존하는 데이터 축소의 핵심 원리를 다룬다. 충분통계량과 인수분해 정리, 최소충분통계량, 보조통계량, 완비통계량, 바수 정리, 우도원리와 비른바움 정리, 등변원리까지 Casella & Berger Ch.6의 핵심을 정리한다. | |
| Mar 20, 2026 | 생존 분석 개요 | Statistics, Survival Analysis | 생존 분석의 정의, 핵심 개념(생존 함수, 위험 함수, 중도절단), 다른 통계 기법과의 차이, 그리고 의학/공학/비즈니스 분야에서의 활용을 개관한다. Kleinbaum & Klein Ch.1을 기반으로 작성하였다. | |
| Mar 18, 2026 | RAG 변형 비교: Self-RAG, Corrective RAG, AutoRAG, Agentic RAG | RAG, Self-RAG, Corrective RAG, AutoRAG, Agentic RAG, LangGraph | Vanilla RAG의 한계를 해결하기 위해 등장한 4가지 RAG 변형(Self-RAG, Corrective RAG, AutoRAG, Agentic RAG)의 핵심 메커니즘, 아키텍처, 구현 패턴을 비교 분석한다. 각 변형이 해결하는 문제와 적용 시점, 그리고 실무에서 효과적인 하이브리드 조합 전략을 다룬다. | |
| Mar 18, 2026 | Custom RAG vs 범용 Agent 선택 전략 | RAG, Agent, Architecture | 사내 특화 챗봇을 구축할 때 Custom RAG와 범용 Agent 중 어떤 접근을 선택해야 하는지에 대한 의사결정 프레임워크를 제시한다. 두 접근의 본질적 차이, 4가지 핵심 판단 기준, Hybrid 아키텍처 설계, 그리고 단계별 도입 전략까지 실무 관점에서 다룬다. | |
| Mar 18, 2026 | LangSmith CLI/SDK 자동화 | AI, LangChain, LangSmith, Evaluation | LangSmith는 웹 대시보드뿐 아니라 CLI와 SDK를 통한 터미널 기반 모니터링 및 자동화 환경을 제공한다. 실무 운영 단계에서 필수적인 CLI watch 모드, SDK 자동 평가, 그리고 최신 에이전트 도구 트렌드를 분석한다. | |
| Mar 18, 2026 | LangSmith vs 자체 평가 시스템 구축 | AI, LangChain, LangSmith, Evaluation, DSPy | LangSmith를 활용한 평가와 자체 커스텀 평가 시스템 구축 사이의 트레이드오프를 분석한다. DSPy 결합 전략, RAG 성능 메트릭(The RAG Triad), Agent 궤적 메트릭, 운영 메트릭까지 실무에서 바로 적용 가능한 평가 체계를 다룬다. | |
| Mar 18, 2026 | LangSmith 보안 및 거버넌스 | AI, LangChain, LangSmith, Security, Governance | LangSmith의 데이터 저장 위치, PII 마스킹, 암호화 메커니즘, 규제 준수(SOC2, HIPAA, GDPR) 현황을 분석한다. SaaS, BYOC, Self-hosted 배포 옵션별 보안 수준과 트레이드오프를 비교하여 엔터프라이즈 도입 시 판단 기준을 제공한다. | |
| Mar 18, 2026 | LangChain에서 LangGraph로의 전환 전략 | LangChain, LangGraph, Agent, Migration | LangChain의 Chain 기반 단방향 파이프라인에서 LangGraph의 StateGraph 기반 양방향 그래프로 전환해야 하는 시점과 방법을 다룬다. 전환 판단의 3가지 Tipping Point, State 스키마 설계 패턴, 단계별 마이그레이션 절차를 코드 비교와 함께 설명한다. | |
| Mar 18, 2026 | GraphRAG 기반 Blackbox 코드 분석기 아키텍처 | GraphRAG, Code Analysis, Agent, Architecture | GraphRAG을 코드 분석에 적용하기 위한 아키텍처를 다룬다. AST 파서로 생성한 Fact Graph를 불변의 전제로 고정하고, LLM이 생성하는 Semantic Edge를 제한된 집합으로 통제하여 신뢰할 수 있는 코드 분석 Agent를 구축하는 전략을 설명한다. 성공과 실패를 결정하는 5가지 핵심 조건과 실질적 성과 기준을 정리한다. | |
| Mar 18, 2026 | 멀티에이전트 플랫폼 설계 패턴 | Agent, Architecture, Multi-Agent, LangGraph | 멀티에이전트 시스템을 구축할 때 적용할 수 있는 공식화된 설계 패턴을 정리한다. Supervisor, Hierarchical, Reflection, Plan-and-Execute 패턴의 구조와 적용 시점을 설명하고, Agent 간 결합도 관리, 인터페이스 설계, 관찰 가능성 확보 등 건강한 플랫폼을 위한 핵심 원칙을 다룬다. | |
| Mar 18, 2026 | Agent 기술 스택의 진화 | AI, Agent, LangChain, LangGraph | 2026년 현재 에이전트 기술 생태계는 단순 검색(Retrieval)을 넘어 실행의 자율성과 시스템 제어권을 확보하는 방향으로 급격히 이동하고 있다. Orchestrator, MCP, Evaluator 등 차세대 핵심 기술 도구를 분석한다. | |
| Mar 18, 2026 | Azure Document Intelligence 출력 형식 활용 가이드 | AI, Cloud, Azure, RAG | Azure Document Intelligence의 출력 형식(JSON, Markdown, Plain Text)별 특성과 활용법을 비교 분석한다. JSON 스키마의 구조적 활용, Markdown 변환 방법(Studio GUI, Python SDK, 배치 처리), 그리고 RAG 파이프라인과의 통합 아키텍처를 실무 관점에서 다룬다. | |
| Mar 16, 2026 | AI 서비스의 사용자 분류와 데이터 수집 전략 | Prompt Engineering, AI, Agent | AI 서비스 제공자는 사용자를 단일 집단으로 취급하지 않는다. 사용자 행동을 기반으로 유형을 분류하고, 각 유형별로 차별화된 샘플링 전략을 적용하여 모델 개선에 필요한 고품질 데이터를 확보한다. 본 문서는 사용자 유형 분류 특징, 데이터 수집 파이프라인, 계층 샘플링, Hard Example Mining, 그리고 Human Preference Data의 가치를 다룬다. | |
| Mar 16, 2026 | LLM의 구조적 한계 | Deep Learning, NLP, LLM, Transformer | 대규모 언어 모델(LLM)은 강력한 성능을 보이지만 Transformer 아키텍처와 학습 데이터에서 비롯되는 구조적 한계를 가진다. 본 문서는 긴 문맥에서의 Attention 희석, Lost in the Middle 현상, 학습 데이터의 Selection Bias, 그리고 Hallucination의 근본 원인을 수학적 관점에서 분석하고 최신 연구의 해결 방향을 정리한다. | |
| Mar 16, 2026 | A/B 테스트의 핵심 메커니즘 | Experimentation, Statistics | A/B 테스트의 핵심은 단순한 랜덤 라우팅이 아니라, 통계적 유의성을 확보하기 위한 무작위 배정과 대조군 설정에 있다. 본 문서는 A/B 테스트의 기술적 정의, 가설 검정 프로세스, 실무 구현 방식, 그리고 한계와 대안까지 체계적으로 다룬다. | |
| Mar 16, 2026 | 전후 비교(Before-and-After)가 위험한 이유 | Experimentation, Statistics | 전후 비교는 시간의 경과에 따른 외생 변수를 통제할 수 없어 인과관계 입증에 치명적인 결함이 있다. 본 문서는 전후 비교의 통계적 한계를 수학적으로 분석하고, 무작위 배정이 불가능한 상황에서 활용할 수 있는 이중차분법(DiD), 합성 대조군(Synthetic Control), 회귀 불연속 설계(RDD) 등 준실험 설계를 다룬다. | |
| Mar 16, 2026 | 피어슨 상관계수의 정의와 한계 | Statistics, Correlation, Data Science | 피어슨 상관계수는 두 변수 간의 선형적 강도와 방향을 계량화한 수치이다. 본 문서는 피어슨 상관계수의 수학적 정의, 결정계수와의 관계, 비선형 관계와 이상치에 대한 한계, 그리고 스피어만, 켄달, 상호정보량 등 대안적 상관 측도를 체계적으로 다룬다. | |
| Mar 16, 2026 | 상관계수를 예측 정확도로 쓰면 안 되는 이유 | Statistics, Model Evaluation, Data Science | 피어슨 상관계수가 높다고 해서 예측이 정확한 것은 아니다. 상관계수는 두 변수의 선형적 패턴이 일치하는지를 측정할 뿐, 실제 값과 예측 값의 절대적 일치를 보장하지 않는다. 본 문서는 상관성과 일치성의 수학적 차이, 상관계수가 정확도 지표로 부적절한 통계적 근거, 그리고 MSE, CCC 등 올바른 예측 평가 지표를 다룬다. | |
| Mar 12, 2026 | 스킬 기반 Agent 패턴 | Agent, Architecture, LangChain | LangChain이 공개한 AI 코딩 에이전트용 스킬 세트를 분석하고, 프로그레시브 디스클로저 패턴이 Agent 아키텍처 설계에 주는 시사점을 정리한다. | |
| Mar 12, 2026 | Agent 컨텍스트 관리 전략 | Agent, Architecture, Context Management | Agent에게 어떤 정보를 언제, 얼마나 제공할지에 따라 성능이 크게 달라진다. 컨텍스트 관리의 핵심 전략과 설계 원칙을 정리한다. | |
| Mar 12, 2026 | RAG + 스킬 하이브리드 Agent 설계 | Agent, Architecture, RAG | RAG의 유연한 검색 능력과 스킬의 정확한 컨텍스트 제공을 결합한 하이브리드 Agent 아키텍처의 설계 원칙과 구현 방향을 정리한다. | |
| Mar 12, 2026 | Claude Code의 Long Context 대응 전략 | Agent, Architecture, Claude Code, LLM | Claude Opus는 모델 학습과 Extended Thinking으로, Claude Code는 컨텍스트 압축, 서브에이전트, Progressive Disclosure, 메모리 외부화 등의 아키텍처 전략으로 Long Context 문제에 대응한다. 모델의 한계를 아키텍처로 보상하는 실전 사례를 분석한다. | |
| Mar 12, 2026 | 스킬 역분석: Agent용 시스템 프롬프트 작성 원리 | Agent, Architecture | LangChain이 공개한 11개 스킬(SKILL.md)을 프롬프트 엔지니어링 관점에서 역분석한다. 실험과 검증을 거친 완성품에서 시스템 프롬프트 작성의 원리와 방법론을 추출한다. | |
| Mar 12, 2026 | 프롬프트 길이와 구조 설계 | Prompt Engineering, LLM, Agent | 프롬프트 길이에 대한 실무 가이드라인을 정리한다. 길이 자체보다 구조와 밀도가 중요하며, Lost in the Middle 현상, 비용, 디버깅 난이도 등 길어질 때 발생하는 실제 문제와 대응 전략을 다룬다. | |
| Mar 12, 2026 | 스킬 기반 프롬프트 아키텍처 실전 적용 | Agent, Architecture, Prompt Engineering | 실제 멀티 Agent 프로젝트(RAG Chatbot, Data Standardizer, Code Analyzer)에 스킬 기반 프롬프트 작성 원리를 적용하는 3단계 진화 전략을 정리한다. POC 단계의 모놀리식 프롬프트를 플랫폼형 스킬 시스템으로 발전시키는 구체적 방법론을 다룬다. | |
| Mar 11, 2026 | 비개발자를 위한 Git 시작 가이드 | Engineering, Git, DevOps | Git을 한 번도 써본 적 없는 사무직 비개발자를 위한 실용 가이드이다. clone, add, commit, push, pull 5가지만 익히면 충분하다. 각자 담당 폴더를 맡아 작업하면 충돌 없이 팀 전체가 한 곳에서 파일을 관리할 수 있다. | |
| Mar 11, 2026 | SSH로 Private Git 패키지 설치 | Engineering, Infrastructure, Security, Python, DevOps, Poetry | 조직 내부의 비공개 Git 저장소에 있는 Python 패키지를 SSH 인증으로 설치하는 전체 과정을 다룬다. SSH Config에 호스트 별칭 등록, ssh-agent 설정, Poetry의 Git dependency 설정, 설치/업데이트 과정을 단계별로 정리한다. | |
| Mar 8, 2026 | 그래프 DB 없이 GraphRAG 구현하기 | AI, RAG, GraphRAG | 기존 GraphRAG는 Neo4j 같은 별도 그래프 데이터베이스가 필요해 구축 비용이 높았다. langchain-graph-retriever는 이미 사용 중인 벡터 스토어의 메타데이터를 엣지로 활용하여 그래프 DB 없이 GraphRAG를 구현하는 방식을 제안한다. 이 파일은 그 핵심 아이디어와 기존 방식과의 차이를 설명한다. | |
| Mar 8, 2026 | 환경 설정 & Hello GraphRAG | AI, RAG, GraphRAG | langchain-graph-retriever를 설치하고, Animals 데이터셋을 활용해 첫 번째 GraphRAG를 실행한다. In-memory 방식으로 외부 서비스 없이 로컬에서 바로 실습할 수 있으며, GraphRetriever의 세 가지 핵심 파라미터(store, edges, strategy)를 이해한다. | |
| Mar 8, 2026 | Node & Edge 완전 이해 | AI, RAG, GraphRAG | langchain-graph-retriever의 핵심 자료구조인 Node와 Edge를 깊이 이해한다. Node는 탐색 중인 문서를 나타내며, depth/similarity_score/incoming&outgoing_edges를 추적한다. Edge는 MetadataEdge(메타데이터 값으로 연결)와 IdEdge(ID로 직접 연결) 두 가지 타입이 있다. | |
| Mar 8, 2026 | Traversal Strategies: Eager, MMR, Scored | AI, RAG, GraphRAG | langchain-graph-retriever의 세 가지 traversal strategy를 비교한다. Eager(BFS)는 발견된 모든 노드를 즉시 탐색, MMR은 관련성+다양성 균형, Scored는 커스텀 스코어 기반 선택이다. 각 전략의 파라미터와 적합한 사용 시나리오를 정리한다. | |
| Mar 8, 2026 | Vector Store Adapters | AI, RAG, GraphRAG | langchain-graph-retriever가 지원하는 벡터 스토어 Adapter를 비교한다. Adapter는 graph-retriever와 각 벡터 스토어를 연결하는 인터페이스로, Shredding 필요 여부, 중첩 메타데이터 지원 여부, 인접 쿼리 최적화 여부가 핵심 차이다. | |
| Mar 8, 2026 | Document Transformers | AI, RAG, GraphRAG | langchain-graph-retriever의 Document Transformer들을 살펴본다. ShreddingTransformer는 리스트 메타데이터를 벡터 스토어가 이해할 수 있는 형태로 변환하고, GLiNER/Spacy는 텍스트에서 엔티티를 추출하며, KeyBERT는 키워드를 추출하여 자동으로 엣지를 만든다. | |
| Mar 8, 2026 | 실전 예제 1: Movie Reviews GraphRAG | AI, RAG, GraphRAG |
Rotten Tomatoes 영화 리뷰 데이터를 활용한 GraphRAG 실전 예제. 리뷰 문서와 영화 정보 문서를 reviewed_movie_id → movie_id 엣지로 연결하여, 리뷰 검색 시 자동으로 영화 상세 정보도 함께 가져오는 시스템을 구축한다. 서로 다른 타입의 문서를 하나의 그래프로 연결하는 Heterogeneous Graph 패턴을 배운다.
|
|
| Mar 8, 2026 | 실전 예제 2: Code Generation GraphRAG | AI, RAG, GraphRAG | AstraPy 라이브러리 문서를 GraphRAG로 탐색하여 코드 생성 품질을 향상시키는 예제. 일반 Vector RAG와 GraphRAG의 코드 생성 품질 차이를 직접 비교하고, 커스텀 Strategy(CodeExamples)로 예제 코드가 있는 문서를 우선 선택하는 방법을 배운다. | |
| Mar 8, 2026 | Lazy GraphRAG: 커뮤니티 기반 계층적 요약 | AI, RAG, GraphRAG | Microsoft의 LazyGraphRAG를 langchain-graph-retriever로 구현한다. 전통적 GraphRAG는 사전에 지식 그래프를 완전히 구축(비용 높음)하지만, LazyGraphRAG는 질의 시점에 on-demand로 그래프를 탐색하고 커뮤니티를 감지하여 클레임을 추출하는 방식으로 비용을 대폭 절감한다. | |
| Mar 8, 2026 | Wikipedia Multi-hop QA | AI, RAG, GraphRAG | Wikipedia 문서 간 상호 참조(mentions)와 공통 엔티티(entities)를 엣지로 활용하여 Multi-hop 질문에 답하는 GraphRAG 시스템을 구축한다. 2wikimultihop 데이터셋을 기반으로, 일반 Vector RAG가 실패하는 복잡한 추론 질문에서 GraphRAG가 어떻게 다단계 연결을 통해 답을 찾는지 보여준다. | |
| Mar 8, 2026 | 비구조화 문서 → 그래프 변환 | AI, RAG, GraphRAG | 비구조화 문서(HTML, PDF, 텍스트)를 GraphRAG용 문서 그래프로 변환하는 전체 파이프라인을 구축한다. HtmlTransformer로 파싱, RecursiveCharacterTextSplitter로 청크 분할, ParentTransformer로 부모-자식 관계 생성, KeybertTransformer로 키워드 추출, GlinerTransformer로 엔티티 추출 후 ShreddingTransformer로 최종 변환한다. | |
| Mar 8, 2026 | GraphRAG 평가 방법론 | AI, RAG, GraphRAG | GraphRAG 시스템을 어떻게 평가할 것인가? Multi-hop QA 메트릭, 검색 품질 측정, Vector RAG와의 성능 비교 방법을 다룬다. RAGAS 프레임워크 활용법과 GraphRAG 특화 평가 포인트(그래프 탐색 깊이, 연결 문서 수 등)를 정리한다. | |
| Mar 8, 2026 | GraphRAG 프로덕션 배포 전략 | AI, RAG, GraphRAG | langchain-graph-retriever 기반 GraphRAG를 프로덕션에 배포하기 위한 전략을 다룬다. Vector Store 선택 기준(AstraDB vs PGVector vs Chroma), 비용 최적화, 문서 업데이트 파이프라인, 성능 모니터링, LangGraph 에이전트와의 통합까지 정리한다. | |
| Mar 8, 2026 | Neo4j GraphRAG: 왜 진짜 그래프 DB가 필요한가 | AI, RAG, GraphRAG, Neo4j | langchain-graph-retriever(메타데이터 기반)와 Neo4j GraphRAG(명시적 KG 기반)의 차이를 비교한다. Neo4j는 노드-관계-속성으로 구성된 Property Graph DB로, LLM이 문서에서 추출한 엔티티와 관계를 저장하고 Cypher로 정밀하게 탐색한다. 이 시리즈는 Neo4j 기반 Full GraphRAG 파이프라인을 단계별로 구축한다. | |
| Mar 8, 2026 | Neo4j 설치 & 첫 연결 | AI, RAG, GraphRAG, Neo4j | Neo4j를 Docker로 설치하고, Python에서 직접 연결하는 방법과 LangChain의 Neo4jGraph를 통해 그래프를 조작하는 방법을 다룬다. Neo4j Browser에서 데이터를 시각적으로 확인하는 방법도 포함한다. | |
| Mar 8, 2026 | Cypher 기초: Neo4j 그래프 쿼리 언어 | AI, RAG, GraphRAG, Neo4j | Neo4j의 쿼리 언어 Cypher의 핵심 문법을 GraphRAG 관점에서 정리한다. SQL과 비교하며 노드/관계 생성(CREATE), 탐색(MATCH), 필터링(WHERE), 패턴 매칭, 경로 탐색, 집계까지 GraphRAG 구축에 필요한 Cypher 패턴을 다룬다. | |
| Mar 8, 2026 | LLMGraphTransformer: 문서 → 지식 그래프 | AI, RAG, GraphRAG, Neo4j | LangChain의 LLMGraphTransformer를 사용해 비구조화 텍스트에서 엔티티(노드)와 관계(엣지)를 LLM으로 자동 추출하고 Neo4j에 저장하는 파이프라인을 구축한다. 스키마 정의, 엔티티 해결(Entity Resolution), 대규모 문서 배치 처리 방법을 포함한다. | |
| Mar 8, 2026 | Neo4j 벡터 인덱스 | AI, RAG, GraphRAG, Neo4j | Neo4j에 벡터 인덱스를 생성하여 그래프 탐색과 의미적 유사도 검색을 하나의 DB에서 수행한다. 노드에 임베딩 속성을 저장하고, Neo4jVector로 LangChain에서 활용하며, neo4j-graphrag-python의 VectorRetriever를 사용하는 방법을 다룬다. | |
| Mar 8, 2026 | 하이브리드 검색: 벡터 + Cypher 탐색 | AI, RAG, GraphRAG, Neo4j | Neo4j의 벡터 유사도 검색과 Cypher 그래프 탐색을 결합하여 더 정확하고 풍부한 컨텍스트를 검색하는 하이브리드 방식을 구현한다. VectorCypherRetriever, GraphCypherQAChain, Neo4jVector의 retrieval_query를 활용한다. | |
| Mar 8, 2026 | GDS: 커뮤니티 감지 (Louvain, Label Propagation) | AI, RAG, GraphRAG, Neo4j, GDS | Neo4j Graph Data Science(GDS) 라이브러리의 커뮤니티 감지 알고리즘을 활용한다. Louvain과 Label Propagation으로 지식 그래프에서 관련 엔티티 클러스터를 자동 식별하고, Microsoft GraphRAG의 Global Search 방식을 구현하기 위한 커뮤니티 요약을 생성한다. | |
| Mar 8, 2026 | GDS: PageRank & 중심성 분석 | AI, RAG, GraphRAG, Neo4j, GDS | Neo4j GDS의 PageRank와 중심성(Centrality) 알고리즘으로 지식 그래프에서 중요한 엔티티를 식별한다. 검색 결과 재랭킹, 허브 노드 우선 탐색, 중요도 기반 커뮤니티 요약에 PageRank 점수를 활용하는 방법을 다룬다. | |
| Mar 8, 2026 | Microsoft GraphRAG 방식 구현 | AI, RAG, GraphRAG, Neo4j | Microsoft Research(2024)의 GraphRAG 논문에서 제안한 Global Search와 Local Search를 Neo4j로 구현한다. Global Search는 전체 커뮤니티 요약을 활용하고, Local Search는 특정 엔티티 주변의 그래프를 탐색하여 상세한 답변을 생성한다. | |
| Mar 8, 2026 | Text2Cypher QA 시스템 | AI, RAG, GraphRAG, Neo4j | 자연어 질문을 Cypher 쿼리로 자동 변환하는 Text2Cypher 시스템을 구현한다. GraphCypherQAChain의 기본 사용법부터 스키마 주입, Few-shot 예시 기반 정확도 향상, Cypher 검증, 오류 처리까지 실무에서 필요한 Text2Cypher 패턴을 다룬다. | |
| Mar 8, 2026 | 평가: Neo4j GraphRAG vs 메타데이터 기반 GraphRAG | AI, RAG, GraphRAG, Neo4j | Neo4j 기반 Full GraphRAG와 langchain-graph-retriever(메타데이터 기반)를 Multi-hop QA 성능, 구축 비용, 운영 복잡도 측면에서 비교한다. 어떤 상황에서 어느 방식이 적합한지 의사결정 가이드를 제시한다. | |
| Mar 8, 2026 | DL for Longitudinal Data — Overview | Statistics, Deep Learning | 종단 데이터에 적용 가능한 딥러닝 기법의 전체 그림을 제시한다. LSTM/GRU, TCN, Temporal Transformer, Neural ODE의 위치와 역할을 요약하고, 각 기법의 상세는 개별 파일(25~28번)에서 다룬다. | |
| Mar 8, 2026 | RL for Longitudinal Data — Overview | Statistics, Reinforcement Learning | 종단 데이터에서 강화학습을 활용한 동적 의사결정의 전체 그림을 제시한다. A/B 테스트 → Contextual Bandit → DTR → Offline RL의 진화 경로와 각 기법의 위치를 요약한다. 각 기법의 상세는 개별 파일(29~31번)에서 다룬다. | |
| Mar 8, 2026 | LSTM/GRU for Longitudinal Data | Statistics, Deep Learning | 종단 데이터의 가변 길이 시퀀스를 처리하는 LSTM/GRU를 상세히 다룬다. Vanilla RNN의 기울기 소실 문제부터 LSTM의 게이트 메커니즘, GRU의 단순화, 양방향 LSTM, 그리고 실무 구현까지 설명한다. | |
| Mar 8, 2026 | Temporal Convolutional Network (TCN) | Statistics, Deep Learning | LSTM의 순차 처리 병목을 해결하는 TCN을 다룬다. Causal Convolution, Dilated Convolution, Residual Connection의 원리부터 완전한 PyTorch 구현, LSTM 대비 비교까지 설명한다. | |
| Mar 8, 2026 | Temporal Transformer for Longitudinal Data | Statistics, Deep Learning | Attention 메커니즘의 직관부터 Scaled Dot-Product Attention, Multi-Head Attention, Positional Encoding, Causal Mask까지 상세히 다룬다. Temporal Transformer의 PyTorch 구현과 Attention Weight 시각화를 통한 해석 가능성을 실무 예시와 함께 설명한다. | |
| Mar 8, 2026 | Neural ODE — 연속 시간 역학으로 종단 데이터 모델링 | Statistics, Deep Learning, Differential Equations | 불규칙 시점, 결측, 연속 시간 역학을 자연스럽게 다루는 Neural ODE를 종단 데이터 맥락에서 다룬다. ODE 기초, Adjoint Method, Latent ODE, AI Agent 사용자 만족도 궤적 예측 실무 예시를 Python(torchdiffeq)과 개념적 R 코드로 구현한다. | |
| Mar 8, 2026 | Contextual Bandit for Personalization | Statistics, Reinforcement Learning | A/B 테스트의 정적 배정 한계를 넘어 실시간으로 최적 전략을 선택하는 Contextual Bandit을 다룬다. Multi-Armed Bandit의 기초부터 LinUCB, Thompson Sampling의 수학적 원리와 구현까지 상세히 설명하고, AI Agent 프롬프트 전략 최적화 시뮬레이션으로 효과를 검증한다. | |
| Mar 8, 2026 | Dynamic Treatment Regime (DTR) | Statistics, Reinforcement Learning | Contextual Bandit이 각 시점을 독립으로 보는 반면, DTR은 현재 행동이 미래 상태에 영향을 미치는 순차적 구조를 명시적으로 모델링한다. MDP 프레임워크, Q-learning의 수학적 원리, 환경 시뮬레이션 구현, DQN 확장, 그리고 SMART 임상시험 설계까지 다룬다. | |
| Mar 8, 2026 | Offline RL for Safe Policy Learning | Statistics, Reinforcement Learning | 온라인 탐색이 위험한 환경(의료, 금융, 서비스)에서 기존 로그 데이터만으로 최적 정책을 학습하는 Offline RL을 다룬다. Distribution Shift 문제, Importance Sampling, Conservative Q-Learning(CQL), BCQ의 원리와 구현, Off-Policy Evaluation, 그리고 A/B → Bandit → DTR → Offline RL 진화 경로를 정리한다. | |
| Mar 8, 2026 | 연구 설계 (Study Design) 대분류 — Overview | Statistics, Epidemiology, Experimentation | 역학과 임상시험에서 정립된 연구 설계 체계를 전체적으로 조망한다. 이 파일은 전체 지도 역할이며, 각 설계의 상세는 개별 파일에서 다룬다. | |
| Mar 8, 2026 | 각 연구 설계 상세 | Statistics, Epidemiology, Experimentation | RCT의 ITT 희석 효과와 LATE 복원 원리, Factorial Design의 주 효과·상호작용 분리, Multi-Armed Bandit의 Thompson Sampling 구현, Synthetic Control Method의 가중합 최적화, IV(도구변수) 2SLS 추정, Nested Case-Control·Case-Cohort 비용 절감 설계, 그리고 종단 연구의 LMM·GEE 분석까지 — 별도 확장 파일이 없는 설계를 중심으로 수식·Python 코드·IT 적용 예시를 함께 정리한다. | |
| Mar 8, 2026 | 타당성·편향·인과 추론·효과 지표 | Statistics, Epidemiology, Experimentation | 연구 설계의 질을 평가하는 타당성(Validity)과 편향(Bias) 체계를 정리하고, 반사실 프레임워크에 기반한 인과 효과 추정량(ATE, SATE, PATE, CATE, LATE), Propensity Score Matching, 효과 측정 지표(RR/OR/HR/ARR/NNT), 그리고 A/B 테스트에 적용된 임상시험 원칙을 다룬다. | |
| Mar 8, 2026 | RCT와 A/B 테스트의 설계 원칙 | Statistics, Epidemiology, Experimentation | 무작위 대조 시험(RCT)의 역사적 기원부터 현대 IT A/B 테스트까지의 설계 원칙을 다룬다. Fisher의 무작위 배정, 층화 배정, 검정력 분석, ITT/Per-Protocol/LATE, 그리고 Sequential Testing까지 — 임상시험 방법론이 IT 실험에 어떻게 이식되었는지를 정리한다. | |
| Mar 8, 2026 | 관찰 연구 설계: 코호트, 케이스-컨트롤, 단면 연구 | Statistics, Epidemiology, Experimentation | 무작위 배정이 불가능한 상황에서 인과관계를 탐색하는 관찰 연구 설계를 다룬다. 코호트 연구, 케이스-컨트롤 연구, 단면 연구의 구조와 차이, RR/OR/HR/ARR/NNT 등 효과 측정 지표, 그리고 IT 로그 분석에의 적용을 정리한다. | |
| Mar 8, 2026 | 준실험적 설계: ITS, RDD, Stepped Wedge | Statistics, Epidemiology, Experimentation | 무작위 배정이 불가능할 때 자연 실험(Natural Experiment)을 활용하는 준실험적 설계를 다룬다. Interrupted Time Series(ITS), Regression Discontinuity Design(RDD), Stepped Wedge Design의 원리, 수식, 가정, 그리고 IT/이커머스에의 적용을 정리한다. | |
| Mar 8, 2026 | 인과 추론 프레임워크 총정리 | Statistics, Causal Inference, Study Design | 인과 추론의 두 대 프레임워크(Rubin Causal Model과 Pearl의 Structural Causal Model), 핵심 도구(Matching, Propensity Score, Instrumental Variables, Mediation Analysis), 그리고 종단 데이터 맥락의 인과 추론(G-methods, Marginal Structural Model)을 Python과 R 코드로 정리한다. | |
| Mar 8, 2026 | ML for Longitudinal Data — Overview | Statistics, Machine Learning | 종단 데이터에 적용 가능한 머신러닝 기법의 전체 그림을 제시한다. Random Survival Forest, XGBoost + 시간 피처 공학, Hidden Markov Model, Lasso/Elastic Net의 위치와 역할을 요약하고, 통계 모델과의 선택 기준을 정리한다. 각 기법의 상세는 개별 파일(21~24번)에서 다룬다. | |
| Mar 8, 2026 | Random Survival Forest (RSF) | Statistics, Machine Learning, Survival Analysis | Cox Proportional Hazard 모델의 한계를 넘어서는 Random Survival Forest를 상세히 다룬다. Log-rank split criterion, Nelson-Aalen 누적 위험 추정, C-index 평가, 변수 중요도(VIMP, SHAP)를 수식과 함께 설명하고, AI Agent 이탈 예측 실무 예시를 Python(sksurv)과 R(randomForestSRC)로 구현한다. | |
| Mar 8, 2026 | XGBoost + 시간 피처 공학 (Temporal Feature Engineering) | Statistics, Machine Learning, Feature Engineering | 반복 측정 데이터를 XGBoost에 적용하려면 시간적 의존성을 명시적 피처로 변환해야 한다. Lag, Rolling, Trend, Cumulative 피처 공학을 상세히 다루고, 데이터 누출 방지(GroupShuffleSplit, Walk-forward), SHAP 해석, LMM+XGBoost 앙상블까지 Python과 R 코드로 구현한다. | |
| Mar 8, 2026 | Hidden Markov Model (HMM) for Longitudinal Data | Statistics, Machine Learning, Latent Variable Models | 종단 데이터에서 관찰 가능한 행동 이면의 잠재 상태를 발견하는 Hidden Markov Model을 다룬다. HMM의 수학적 구조(초기 확률 π, 전환 행렬 A, 방출 분포 B), 3대 핵심 문제(Forward, Viterbi, Baum-Welch), 잠재 상태 수 결정(BIC/AIC), AI Agent 사용자 상태 전환 실무 예시를 Python(hmmlearn)과 R(depmixS4)로 구현한다. | |
| Mar 8, 2026 | Lasso / Elastic Net / glmmLasso — 종단 데이터의 변수 선택 | Statistics, Machine Learning, Regularization | 종단 데이터 분석에서 변수 선택이 왜 중요한지, L1/L2 정규화의 수학적 원리, glmmLasso로 혼합 모델과 Lasso를 결합하는 방법, AI Agent 개인화 실험의 고차원 피처 선택 실무 예시를 Python(sklearn, statsmodels)과 R(glmnet, glmmLasso)로 구현한다. | |
| Mar 7, 2026 | Agent User Segmentation | Agent, AI, Statistics, Experimentation | AI Agent 서비스에서 사용자 발화 데이터를 기반으로 세그먼트를 분류하고, 세그먼트별 프롬프트 전략을 수립하며, A/B 테스트로 효과를 검증하는 전체 파이프라인을 설계한다. 언어학과 심리학 이론을 도입하여 LLM 기반 자동 태깅 시스템을 구축하고, 통계적 실험 설계로 의사결정의 근거를 확보하는 실무 방법론을 다룬다. | |
| Mar 7, 2026 | Agent Personalization | Agent, AI, Statistics, Experimentation | Segmentation(그룹 전략)에서 Personalization(개인 전략)으로 확장하는 방법을 다룬다. 프롬프트 템플릿 + 변수 주입 방식, 단일 Retriever에 메타데이터 필터를 적용하는 검색 개인화, 그리고 개인화 효과를 측정하기 위한 실험 설계(within-subject design, mixed effects model)를 포함한다. 1000명의 고유한 사용자에게 1000개의 프롬프트를 작성하지 않고도 개인화를 구현하는 실무 아키텍처를 설계한다. | |
| Mar 7, 2026 | Agent Hyperpersonalization | Agent, AI, Statistics, Experimentation | Personalization(과거 프로필 기반)에서 Hyperpersonalization(실시간 컨텍스트 기반)으로 확장하는 방법을 다룬다. 실시간 신호 수집, 컨텍스트 융합 아키텍처, 이탈 예측 모델, 다음 질문 예측, 선제적 개입 전략, 그리고 프라이버시와 윤리적 고려사항까지 end-to-end 파이프라인을 설계한다. | |
| Mar 7, 2026 | Generalized Linear Model (GLM) | Statistics, Regression | 일반화 선형 모델(GLM)은 t-test, ANOVA, 로지스틱 회귀, 포아송 회귀 등을 하나의 프레임워크로 통합한다. 설계 행렬(Design Matrix)과 Link Function의 개념을 중심으로, GLM이 왜 그룹 비교와 트렌드 분석에 강력한지를 구체적인 예시와 코드로 설명한다. | |
| Mar 7, 2026 | 종단 데이터 탐색적 분석 (EDA) | Statistics, Longitudinal Data | 모델 적합 전에 종단 데이터의 구조를 파악하는 탐색적 분석 기법을 다룬다. 개인 궤적 시각화(Spaghetti Plot), 시점별 분포 변화, 공분산/상관 구조 탐색, 결측 데이터 패턴, 그룹 간 궤적 비교, ICC 사전 추정까지 모델 선택의 근거를 마련하는 전체 EDA 파이프라인을 설명한다. | |
| Mar 7, 2026 | Linear Mixed Model (1): 왜 Mixed Model인가 | Statistics, Mixed Model | 선형 혼합 모델(Linear Mixed Model, LMM)의 필요성을 GLM의 한계에서 출발해 설명한다. 계층적 데이터 구조, Fixed Effect와 Random Effect의 차이, Intraclass Correlation Coefficient(ICC)를 구체적인 예시로 다룬다. | |
| Mar 7, 2026 | Linear Mixed Model (2): 모델 구조 | Statistics, Longitudinal Data | LMM의 세 가지 구조(Random Intercept, Random Slope, 둘 다)를 수식과 그림으로 설명한다. 각 구조가 데이터에서 어떤 패턴을 가정하는지, 공분산 행렬이 어떻게 구성되는지, R과 Python 코드로 어떻게 명세하는지 다룬다. | |
| Mar 7, 2026 | Linear Mixed Model (3): 추정과 모델 선택 | Statistics, Longitudinal Data | LMM의 파라미터 추정 방법인 ML과 REML의 차이, 모델 간 비교를 위한 Likelihood Ratio Test(LRT), 정보 기준(AIC/BIC), 그리고 실무에서 자주 만나는 수렴 문제와 해결법을 다룬다. | |
| Mar 7, 2026 | Linear Mixed Model (4): 실무 예시 | Statistics, Longitudinal Data | LMM을 두 가지 실무 데이터에 완전 적용한다. AI Agent 개인화 실험(사용자 반복 측정)과 NYC Airbnb 가격 분석(동네 계층 구조)을 데이터 탐색부터 모델 적합, 진단, 해석, 보고까지 전 과정을 다룬다. | |
| Mar 7, 2026 | 회귀 진단 (Diagnostics) | Statistics, Longitudinal Data | 선형 모델과 혼합 모델의 가정을 검토하는 진단 기법을 다룬다. 잔차 분석(정규성, 이분산성, 자기상관), Cook’s distance 기반 이상치 탐지, 이상치 대응 전략(로그 변환, Robust Regression), 그리고 가정이 깨질 때의 Bootstrap 추론까지 포함한다. | |
| Mar 7, 2026 | Panel Data Analysis (1): 개념과 Fixed/Random Effects | Statistics, Panel Data, Longitudinal Data | 계량경제학의 패널 데이터 분석을 다룬다. 관찰되지 않은 개인 이질성(unobserved heterogeneity)과 내생성(endogeneity) 문제를 Fixed Effects 모델이 어떻게 해결하는지, Random Effects와의 차이, Hausman Test로 어느 모델을 선택하는지 설명한다. LMM과의 관계도 명확히 정리한다. | |
| Mar 7, 2026 | Panel Data Analysis (2): Difference-in-Differences | Statistics, Panel Data, Causal Inference, Longitudinal Data | Difference-in-Differences(DiD)는 처치가 무작위 배정되지 않을 때 관찰 데이터에서 인과 효과를 추정하는 핵심 기법이다. 평행 추세 가정, 표준 DiD 수식, 이벤트 스터디, Staggered DiD, 그리고 A/B 테스트와의 관계를 구체적 예시로 설명한다. | |
| Mar 7, 2026 | GAM/GAMM: 비선형 종단 데이터 분석 | Statistics, Longitudinal Data, GAM | GAM(Generalized Additive Model)은 선형 가정을 완화하여 공변량과 결과의 비선형 관계를 데이터에서 학습한다. GAMM은 여기에 랜덤 효과를 더해 반복 측정 데이터의 비선형 궤적을 분석한다. Spline의 직관적 이해, 자유도(EDF) 해석, 종단 성장 궤적 모델링을 다룬다. | |
| Mar 7, 2026 | Functional Data Analysis (FDA) 개요 | Statistics, Longitudinal Data, Funtional Data | FDA는 반복 측정 데이터를 이산적 관측치가 아닌 연속 함수로 바라본다. Basis 표현, Functional PCA(FPCA), Functional Regression, 그리고 종단 성장 궤적 분석에의 적용을 다룬다. 기존 Statistics/FDA 폴더의 내용과 연계하여 통합적으로 설명한다. | |
| Mar 7, 2026 | GEE: Generalized Estimating Equations 개요 | Statistics, Longitudinal Data, GEE | GEE(일반화 추정 방정식)는 군집/반복 측정 데이터에서 모집단 평균 효과(Marginal Effect)를 추정한다. GLMM의 Conditional 효과와의 차이, Working Correlation 구조 선택, 그리고 언제 GEE를 선택해야 하는지를 구체적 예시와 함께 설명한다. | |
| Mar 7, 2026 | GLMM (1): Generalized Linear Mixed Model 개요 | Statistics, Longitudinal Data, GLMM | GLMM은 LMM(정규분포 가정)을 이진형, 카운트형 등 비정규 결과 변수로 확장한다. GLM의 Link Function과 LMM의 Random Effect를 결합한 구조를 설명하고, 로지스틱 혼합 모델과 포아송 혼합 모델의 기초를 다룬다. | |
| Mar 7, 2026 | GLMM (2): 이진 결과 — 로지스틱 혼합 모델 | Statistics, Longitudinal Data, GLMM | 이진 결과 변수(0/1)가 반복 측정되는 데이터에 GLMM을 적용한다. 로지스틱 혼합 모델의 추정, 해석(Conditional OR vs Marginal OR), 모델 진단, 그리고 AI Agent 전환율 분석 실무 예시를 다룬다. | |
| Mar 7, 2026 | GLMM (3): 카운트 결과 — 포아송 및 음이항 혼합 모델 | Statistics, Longitudinal Data, GLMM | 카운트 결과 변수(0, 1, 2, …)가 반복 측정되는 데이터에 GLMM을 적용한다. 포아송 혼합 모델의 구조와 과산포 문제, 음이항 혼합 모델로의 확장, Zero-Inflation 처리, 그리고 세션당 턴 수 분석 실무 예시를 다룬다. | |
| Mar 7, 2026 | Stratified Analysis & Nesting | Statistics, Mixed Model | 계층적 데이터에서 그룹별 별도 모델을 적합하는 Stratified Analysis와 R의 nest() + map() 패턴을 다룬다. 교호작용 모델과 층화 분석의 트레이드오프, 층화 결과의 시각화, 그리고 Mixed Model로의 자연스러운 확장을 설명한다. | |
| Mar 7, 2026 | 종단 데이터 분석 기법 비교 및 선택 가이드 | Statistics, Longitudinal Data | 종단 데이터 분석에 쓰이는 다섯 가지 기법(LMM, GLMM, GEE, GAMM, FDA)을 한 자리에서 비교한다. 결과 변수 유형, 관심 효과, 데이터 구조에 따른 선택 기준과 실무 결정 트리를 제공한다. | |
| Mar 7, 2026 | GLM 응용 통합 — 고전 검정부터 분포 확장까지 | Statistics, GLM, Machine_Learning | 일반화 선형 모델(GLM)은 t-test, ANOVA, 로지스틱 회귀, 포아송 회귀 등을 하나의 프레임워크로 통합한다. 설계 행렬(Design Matrix)과 Link Function의 개념을 중심으로, GLM이 왜 그룹 비교와 트렌드 분석에 강력한지를 구체적인 예시와 코드로 설명한다. | |
| Mar 6, 2026 | 분류 모델 성능 지표 완전 정리 | Data Science, Machine Learning, Statistics | Accuracy, Precision, Recall, Specificity, F1, F-beta, ROC-AUC, PR-AUC, MCC 등 분류 모델의 핵심 성능 지표를 체계적으로 정리한다. 통계학의 Type I/II 오류, 검정력(Power), 유의 수준(α)과의 관계를 명확히 하고, 지표별 적합한 상황과 클래스 불균형 문제에서의 올바른 선택 기준을 제시한다. | |
| Feb 14, 2026 | Python Logging | Engineering, Python, Logging, Debugging | Python에서 디버깅과 로그 관리를 위해 print 함수와 logging 모듈을 사용할 수 있다. print는 간단한 디버깅에 적합하지만, logging은 로그 레벨 제어, 파일 저장, 타임스탬프 자동 기록 등 프로덕션 환경에 필수적인 기능을 제공한다. Streamlit과 같은 웹 애플리케이션 환경에서도 logging을 활용하면 체계적인 로그 관리와 문제 추적이 가능하다. | |
| Feb 14, 2026 |
세션 개념 정리: 웹 세션부터 Streamlit session_state까지
|
Engineering, Python, Web, Streamlit |
세션은 사용자별 상태를 관리하는 핵심 개념이다. 이 글은 HTTP의 무상태성, 서버/클라이언트 세션 저장 방식, 보안·확장성 문제를 설명하고 Streamlit의 session_state를 입문부터 심화까지 다룬다.
|
|
| Feb 14, 2026 | Streamlit, Flask/Django, React 비교 — 언제 어떤 도구를 선택할까 | Engineering, Web, Streamlit, Frontend | Streamlit은 데이터 중심의 빠른 POC에 매우 적합하다. 반면 Flask, Django는 서버 사이드 웹 앱에 강하고, React는 대화형 프론트엔드 구성과 확장성에서 우수하다. 이 글은 각 도구의 특성과 적합한 사용 사례, 그리고 왜 요즘 React로 프론트엔드를 개발하는지 설명한다. | |
| Feb 14, 2026 | Streamlit Session State | Engineering, Python, Streamlit, Web Development | Streamlit은 사용자 상호작용마다 스크립트 전체를 재실행하는 독특한 방식으로 동작한다. session_state는 이러한 재실행 간에도 데이터를 유지하기 위한 핵심 메커니즘으로, 채팅 이력, 사용자 설정, 캐싱 등 다양한 상태 관리에 활용된다. Streamlit의 동작 원리를 이해하면 효과적인 웹 애플리케이션 개발이 가능하다. | |
| Feb 13, 2026 | 2026년 주목받는 로컬 오픈소스 LLM | AI, Agent, LLM, Open Source | 2026년 현재 가장 성능이 우수한 오픈소스 LLM 모델들을 소개하고, Ollama를 통한 로컬 설치 및 실행 방법을 다룬다. | |
| Feb 13, 2026 | 2026년 주목받는 로컬 오픈소스 LLM | AI, Agent, LLM, Open Source | 2026년 현재 가장 성능이 우수한 오픈소스 LLM 모델들을 소개하고, Ollama를 통한 로컬 설치 및 실행 방법을 다룬다. | |
| Feb 5, 2026 | 프롬프트 정성적 평가: 3단계 분석과 루브릭 기반 측정 | AI, Prompt Engineering, Testing | 프롬프트 정성적 평가를 3단계로 체계화한다: 목적 확인, 구조 분석, 효율성 평가. 1단계(목적 확인): 핵심 키워드 6개 추출 표, 정보 흐름 3단계 분석 (역할→구조→제약), “five words” 제약 유무 비교로 출력 형식 변화 확인 (4단어 vs 12단어). 2단계(구조 분석): 실험 1(Question Generator) 섹션 순서 변경 실험 결과 “차이 없음”, 실험 2(번역 Task) “한국어로 번역해줘” 위치 변경 시 튜터 모드 vs 번역 모드로 완전히 다른 결과, 독립적 섹션 vs 프레이밍 섹션 패턴 대조 표, LLM 내부 처리 추정. 3단계(효율성 평가): 원본(100 토큰) vs 간단 버전(20 토큰) vs 최적화 버전(60 토큰, -40% 절약) 비교, 5개 입력 테스트 결과 표 (반말 준수율 100%→20%, 카테고리 구분 100%→0%), 제거 시 문제 발생 요소 분석, 연간 $5,760 절약 사례. 루브릭: 5점 척도 평가 기준 (목적/구조/효율성), 3가지 버전 평가 예시 (원본 13점, 간단 11점, 최적화 15점). 점수 측정 방법 3가지: 사람(30분/개, 높은 정확도), LLM(10초/개, 메타 프롬프트+JSON 출력), 하이브리드(50개→3.2시간, 87% 시간 절약, LLM 스크리닝+사람 정밀 검증). 신뢰도 향상: 복수 평가자(표준편차 0.58), 캘리브레이션 세션 상세 예시 (4명 평가자, 1차 표준편차 2.16→2차 0.5, 효율성 기준 통일 과정, 실제 테스트 절차 합의). 질문 생성기 프롬프트를 일관된 예시로 사용하여 모든 단계 설명. | |
| Feb 4, 2026 | 프롬프트 테스트 실전 가이드: 7단계 업무 절차와 평가 방법론 | AI, Prompt Engineering, Testing | 프롬프트 테스트의 실무 적용 방법을 7단계 업무 절차로 체계화한다. 1단계(테스트 기준 마련): 6가지 구체적 기준 설정으로 주관적 논쟁을 객관적 판단으로 전환. 2단계(품질 분석): 실행 전 프롬프트 검토로 1일 시간 절약 사례. 3단계(결과 정리): Type 1 vs Type 2 비교 표로 근거 있는 의사결정 기록. 4단계(선별): 성공률 60% vs 80% 데이터 기반 선택과 검증 로직 보완 전략. 5단계(사용자 피드백): 베타 테스트 20명, 10가지 실제 입력으로 이슈율 38%→8% 개선. 6단계(언어 분석): 영어/한국어 조합 3가지 테스트, 반말 준수율 70%→95% 향상. 7단계(지속적 개선): 3개월 주기 개선 사이클, 모델 업데이트 감지와 누적 개선 관리. 질문 생성기 프롬프트를 일관된 예시로 사용하여 각 단계의 실제 적용 방법을 구체화. 정성적 방법(“의도대로 작동하는가”)과 정량적 방법(“얼마나 안정적인가”)의 순차적 검증 구조. Prompt Testbed 도구 소개: 반복 실행, 결과 비교, 패턴 분석을 위한 테스트 환경. 회의 시나리오, 의사결정 기록 템플릿, 이슈 추적 표를 포함한 실무 즉시 적용 가능한 가이드. | |
| Feb 3, 2026 | 프롬프트 품질 관리를 위한 9가지 테스트 규칙 | AI | 프롬프트 엔지니어링의 3가지 어려움(확률적 응답, 정답 없음, 빠른 모델 변화)에 대응하는 9가지 테스트 규칙과 실무 적용 방법을 체계적으로 설명한다. 4개 클러스터로 구조화된 규칙: 식별과 추적(규칙 1-3, 버전 관리와 이름 체계), 기준선 정의(규칙 4, 목표와 기대 성능 문서화), 테스트 데이터 품질(규칙 5-6, 실제 사용자 발화와 데이터셋 구성), 실행과 평가(규칙 7-9, 반복 테스트, 다중 평가자, 다중 모델 검증). 각 규칙마다 구체적 예시 제공: 프롬프트 버전 비교(간결 vs 구조화), 이름 체계(CustomerSupport_Returns_v1), 테스트 데이터셋 JSON 구조(50개 케이스), 10회 반복 테스트 결과표, 3인 평가자 루브릭(5점 척도), 6개 모델 비교 분석. 프롬프트-테스트 데이터 분리 관리, 실제 데이터 수집 방법(베타 테스트, CS 로그), 문서화 3층 구조(원문, 파라미터, 메타정보)를 포함한 완전한 품질 관리 가이드를 제공한다. | |
| Feb 2, 2026 | 단일 기능 프롬프트 제작: 실무 템플릿 설계 가이드 | Prompt Engineering, LLM, AI, Agent | 하나의 명확한 목적을 가진 단일 기능 프롬프트 제작 방법을 체계적으로 설명한다. 슬라이드 아이디에이션, 비즈니스 이메일 작성, 한국어 문장 교정, 문서 요약, 텍스트 고도화 등 실무에서 자주 사용하는 5가지 프롬프트 유형별 설계 전략을 다룬다. 페르소나 설정의 암묵적 제약, 변수 처리 방법([[주제]] 템플릿화), 이중 지시의 효과적 활용(“최대한 자세하게” + “짧은 단어로”), 한국어 이메일 관습 반영, 2단계 요약 프로세스, 가중치 기반 텍스트 재작성 등 프로덕션 환경에서 재사용 가능한 프롬프트 라이브러리 구축 노하우를 제시한다. 각 프롬프트는 ChatGPT, Claude 등 범용 AI 서비스에서 즉시 활용 가능하도록 설계되었다. | |
| Feb 2, 2026 | 직군별 프롬프트 템플릿: 도메인 특화 실무 가이드 | Prompt Engineering, LLM, AI, Agent | 5가지 주요 직군(리서치/보고서 작성, Product Manager, 엔지니어, 마케터)의 실무에 즉시 활용 가능한 프롬프트 템플릿과 설계 전략을 체계적으로 제시한다. 비즈니스 보고서 9단계 구조(Title Page ~ Appendices), PM 브레인스토밍 5단계 프로세스, Python 코드 리서치용 XML 태그 구조, 디버깅용 5단계 debug_analysis, 마케터용 메타 프롬프트 생성 기법 등 각 직군의 업무 프로세스와 산출물에 최적화된 템플릿 구조를 상세히 분석한다. 변수 설계({{REPORT_TOPIC}}, {{PYTHON_CODE}}, {{MARKETING_GOAL}}), 페르소나 정의(professional/factual/objective), 출력 형식 제어, 체크리스트 기반 자기 검토 등 프롬프트 엔지니어링의 핵심 설계 원칙과 템플릿 커스터마이징, 조합, 라이브러리 구축 전략을 포함한 완전한 실무 가이드를 제공한다. | |
| Feb 2, 2026 | 이미지 생성 프롬프트 엔지니어링: DALL·E 3 실전 가이드 | Prompt Engineering, LLM, AI, Agent | DALL·E 3를 활용한 AI 이미지 생성의 핵심 원리와 실전 프롬프트 작성 기법을 체계적으로 설명한다. 감각적 표현(explosion of flavors), 복합 장면 구성(전경-중경-원경 레이어링), 초현실적 개념 이미지(커피 바다의 차원 포털), 유머와 역설(스케일 역전) 등 다양한 유형의 프롬프트 예시를 분석하며 각각의 설계 전략을 제시한다. 스타일(Realistic, Abstract, Surrealistic), 매체(Oil painting, Digital art, Watercolor), 조명(Golden hour, Dramatic shadows), 구도(Rule of thirds, Close-up) 등 이미지 생성을 제어하는 핵심 요소들의 사용법을 다룬다. 10가지 실전 팁(구체적 디테일, 예술 운동 참조, 조명 명시, 부정 프롬프트, 반복적 접근 등)과 편집 기법(Variations, Upscale, Outpaint, Inpaint)을 통해 전문가 수준의 AI 이미지 생성 역량을 구축하는 완전한 가이드를 제공한다. | |
| Jan 31, 2026 | AI Agent 플랫폼 운영 자동화와 DevOps | Engineering, System, Architecture Design, AI, Platform, DevOps | AI Agent 플랫폼의 운영 자동화와 DevOps 전략을 다룬다. CI/CD 파이프라인 구축, 변경 감지 기반 테스트 자동화, Blue-Green/Canary 배포 전략, Agent별 모니터링 대시보드, 구조화된 로깅, 알림 시스템, API 키 관리 등 실제 운영에 필요한 모든 자동화 전략을 구체적으로 제시한다. | |
| Jan 30, 2026 | AI Agent 플랫폼 데이터 표준화 계층 | Engineering, System, Architecture Design, Agent, Platform | AI Agent 플랫폼의 데이터 표준화 계층을 설계한다. 프롬프트 버전 관리와 A/B 테스트, 벡터 데이터 자동 업데이트, 표준 메타데이터 스키마, 설정 관리 방법을 구체적으로 다룬다. 실제 PromptRegistry, VectorStoreManager 구현과 함께 Agent 간 데이터 일관성을 유지하고, 변경 추적 및 롤백이 가능한 체계적인 데이터 관리 전략을 제시한다. | |
| Jan 29, 2026 | AI Agent 플랫폼 인터페이스 설계 | Engineering, System, Architecture Design, Agent, Platform | AI Agent 플랫폼의 핵심 인터페이스 설계를 다룬다. BaseAgent 추상 클래스 설계, Template Method Pattern 적용, AgentRegistry를 통한 Dependency Inversion 구현, Orchestrator로 Agent 실행 관리 방법을 구체적으로 설명한다. 실제 Agent 구현 예시와 함께 표준 인터페이스가 왜 중요한지, 어떻게 설계해야 유지보수성과 확장성을 모두 확보할 수 있는지 제시한다. | |
| Jan 28, 2026 | AI Agent 플랫폼 저장소 전략 | Software Architecture, Platform Engineering, Agent, Monorepo | AI Agent 플랫폼을 위한 저장소 전략을 다룬다. Monorepo 선택 근거, 디렉토리 구조 설계 원칙, core/shared/agents 모듈 아키텍처, 의존성 관리, 빌드 도구 선택 기준을 실제 사례와 함께 제시한다. Phase 1-4를 거쳐 발견한 공통 패턴을 바탕으로 효율적인 코드 재사용과 확장 가능한 플랫폼 구조를 구축하는 방법을 구체적으로 설명한다. | |
| Jan 27, 2026 | AI Agent 플랫폼 설계의 5대 원칙과 점진적 추상화 전략 | Engineering, System, Architecture Design, Agent, Platform | 조기 추상화의 위험성을 실증 데이터로 제시하고, POC를 통해 자연스럽게 공통 패턴을 발견하는 점진적 추상화 전략(Phase 1-4)을 단계별로 안내한다. Interface Segregation, Dependency Inversion, Open-Closed, Single Responsibility, Composability의 5대 설계 원칙과 Rule of Three, YAGNI 원칙을 실제 적용하는 방법을 다룬다. Google AWS, Airbnb ML 플랫폼 등 실제 사례를 통해 “구체적 사례 → 패턴 발견 → 추상화”가 왜 유일하게 안전한 경로인지 증명한다. | |
| Jan 26, 2026 | AI Agent 플랫폼 구축의 관점 선택 | Engineering, System, Architecture Design, Agent, Platform | AI 에이전트 플랫폼 구축 시 어떤 관점으로 접근할 것인가? Platform Engineering(개발자 경험 최적화), Software Architecture(구조 설계), Systems Engineering(물리적 통합)의 세 가지 관점을 명확히 정의하고 실제 사례로 비교한다. Spotify Backstage(IDP), Netflix Conductor(워크플로우), Twitter Monorepo, Uber ML Platform 등 글로벌 기업들의 플랫폼 구축 사례를 통해 각 관점이 답하는 질문과 해결 방식의 차이를 이해한다. AI Agent 플랫폼에는 Software Architecture + Platform Engineering 융합 접근이 최적임을 증명하고, Systems Engineering이 왜 부적합한지 명확히 한다. | |
| Dec 26, 2025 | Relevance and Ranking | AI, Cloud, Azure | Relevance scoring과 ranking 알고리즘(BM25, vector, RRF, semantic reranker)과 실무적 하이브리드 패턴을 정리한다. 파라미터 튜닝, fusion 전략, 성능·비용 고려사항을 다룬다. | |
| Dec 24, 2025 | Azure AI Search 서비스 제한사항 | AI, Cloud, Azure, Search | Azure AI Search의 서비스 제한, Quota, 용량 제약사항을 카테고리별로 상세히 정리한다. | |
| Dec 23, 2025 | Azure Search — Vector Search 심층 가이드 | AI, Cloud, Azure | 임베딩 기반 벡터 검색의 원리와 구현(임베딩 모델, HNSW, multi-vector, 필터링 모드), 하이브리드 검색 패턴 및 Azure에서의 구성·튜닝·비용 최적화 팁을 정리한다. | |
| Dec 22, 2025 | Azure Search — BM25(전통 검색) 개요 | AI, Cloud, Azure, Search | 전통적 풀텍스트 검색의 핵심인 BM25 알고리즘과 Lucene 계열 쿼리 아키텍처를 정리한다. 용어 빈도/역문서빈도 기반 스코어링, 필터링 최적화, 퍼지·와일드카드 성능 고려사항 등을 다룬다. | |
| Dec 22, 2025 | Azure Search — Semantic Search 및 Hybrid Search 개요 | AI, Cloud, Azure, Search | Semantic Search의 원리와 Azure에서의 구성(semantic configuration, answers, captions), 비용·성능 특성을 정리한다. 임베딩·reranker·hybrid 패턴 및 실전 튜닝 팁을 제공한다. | |
| Dec 21, 2025 | Azure AI Search 지역 지원 및 계층 선택 | AI, Cloud, Azure, Search | Azure AI Search의 지역별 기능 지원, 가용성 영역, 서비스 계층별 특징과 선택 가이드를 정리한다. | |
| Dec 20, 2025 | Azure VM에서 팀 협업하기 | Engineering, DevOps, Git, Azure | 하나의 Azure VM에서 여러 개발자가 협업할 때 발생하는 혼란을 정리한다. Git 브랜치와 파일시스템의 관계, Remote SSH 개발 흐름, 단일 VM에 복수의 클론을 두는 현실적인 구조와 포트 분리 운영까지 다룬다. | |
| Dec 20, 2025 | Azure AI Search 지역, 계층 및 서비스 제한사항 | AI, Cloud, Azure, Agent | Azure AI Search의 지역별 기능 지원, 서비스 계층 비교, 구독 제한, 인덱스 제한, 벡터 quota, 인덱서 제한, API 제한을 포괄적으로 정리한다. 계층 선택 가이드와 벡터 압축을 통한 최적화 방법을 다룬다. | |
| Dec 19, 2025 | Azure AI Search 개요 및 구성 | AI, Cloud, Azure, Search | Azure AI Search의 핵심 기능, 아키텍처, 서비스 생성 및 관리 방법을 정리한다. Classic Search와 Agentic Retrieval의 차이, Vector Search, Hybrid Search, AI Enrichment 등 주요 기능을 다룬다. | |
| Dec 18, 2025 | Azure Regsion간 가상 네트워크 연결 | Cloud, Azure, Network | Korea Central VM과 East US Azure OpenAI 리소스를 연결하기 위한 VNet Peering 설정 방법을 단계별로 설명한다. | |
| Dec 17, 2025 | Azure AI Foundry Quota 및 제한 사항 | AI, Cloud, Azure | Azure AI Foundry의 Quota 시스템, TPM/RPM 제한, 사용량 계층 및 할당량 증가 요청 방법을 정리한다. | |
| Dec 16, 2025 | Azure OpenAI 배포 유형과 지역 가이드 | AI, Cloud, Azure | Azure OpenAI의 배포 유형(Deployment Types)과 지역(Regions)별로 지원되는 배포 유형을 정리한다. | |
| Dec 11, 2025 | VS Code Remote SSH 원격 개발 | Engineering, Infrastructure, Security, DevOps | VS Code Remote SSH를 이용한 원격 개발 환경 구축을 다룬다. VS Code Server의 작동 원리, 설정 단계, Git 동기화 방식과의 비교, ML 학습/데이터 처리/팀 서버 등 실무 시나리오, 트러블슈팅까지 정리한다. | |
| Dec 11, 2025 | 전략 분석 이론 체계 | Strategy Frameworks, Data Science | 게임 이론, 의사결정 이론, 행동경제학 등 전략적 상황 분석을 위한 주요 이론 체계를 정리한다. 추론 방법론과의 관계, 각 이론의 정의와 활용 목적을 체계적으로 설명하고, AI 에이전트 생태계 설계, 전략 기획, 정책 설계에서의 실무 적용 방법을 제시한다. 게임 이론, 의사결정 이론, 행동경제학, 계약 이론, 메커니즘 디자인, 시스템 다이내믹스 등 10가지 주요 분석 이론의 개념, 특징, 적용 사례를 스탠포드 철학 백과사전 등 권위 있는 학술 자료를 근거로 제공한다. | |
| Dec 11, 2025 | 추론 방법론 체계 | Strategy Frameworks, Data Science | 연역적, 귀납적, 가추적 추론 등 10가지 주요 추론 방법론을 체계적으로 정리한다. 각 추론 방식의 정의, 특징, 적용 사례를 통해 논리적 사고의 기초를 다지고, AI 시스템, 프롬프트 엔지니어링, 데이터 분석에서 어떻게 활용되는지 설명한다. 스탠포드 철학 백과사전(Stanford Encyclopedia of Philosophy)을 비롯한 권위 있는 학술 자료를 근거로 각 방법론의 이론적 배경을 제공한다. | |
| Dec 8, 2025 | 데이터 분석 생태계의 보완 요소 | Statistics, Data Science, Data Engineering | 데이터 분석의 핵심 기술(통계, 머신러닝, AI) 외에도 실무에서 필수적인 데이터 엔지니어링, 시각화, 비즈니스 인텔리전스, 실험 설계, 인과 추론 등 데이터 분석 생태계를 구성하는 보완 요소들을 다룬다. | |
| Dec 8, 2025 | 데이터 분석의 개념과 도구 생태계 | Statistics, Data Science, Machine Learning, AI | 데이터 분석의 기본 개념인 Analysis와 Analytics의 차이를 명확히 하고, 데이터 분석에 활용되는 핵심 기술들(통계, 머신러닝, 딥러닝, AI, 생성형 AI)의 정의와 특징, 그리고 상호 관계를 체계적으로 정리한다. 또한 데이터 엔지니어링, 시각화, BI, 실험 설계 등 데이터 분석 생태계를 구성하는 필수 요소들을 함께 다룬다. | |
| Nov 28, 2025 | SSH 보안 강화 | Engineering, Infrastructure, Security | SSH 서버의 보안을 강화하는 방법을 다룬다. 비밀번호 인증 비활성화, root 로그인 차단, 포트 변경, Fail2Ban으로 브루트포스 방어, 2FA(Google Authenticator), 접속 로그 모니터링까지 실무 보안 설정을 정리한다. | |
| Nov 27, 2025 | SSH 포트 포워딩과 터널링 | Engineering, Infrastructure, Security | SSH 포트 포워딩의 세 가지 유형을 다룬다. 로컬 포트 포워딩으로 원격 DB 접속, 리모트 포트 포워딩으로 로컬 서버 공개, 다이나믹 포트 포워딩(SOCKS 프록시), Bastion Host 아키텍처까지 정리한다. | |
| Nov 26, 2025 | Agent 개발을 위한 Poetry로 Python 가상환경 관리하기 | Engineering, DevOps, Python, Agent, Cloud, Azure, Poetry | Poetry를 활용한 Python 프로젝트의 가상환경 생성 및 디펜던시 관리 방법을 다룬다. poetry new vs poetry init 비교, virtualenvs.in-project 설정, Python 패키지 구조 요구사항, pyproject.toml 설정, 가상환경 활성화/비활성화 방법, 그리고 Poetry 2.0+ 변경사항까지 실전 예제와 함께 단계별로 설명한다. | |
| Nov 26, 2025 | Azure VM에 Poetry로 Agent 프로젝트 디펜던시 관리하기 | Engineering, DevOps, Python, Poetry, Agent, Cloud, Azure | Poetry를 활용하여 Agent 프로젝트의 가상환경을 생성하고 디펜던시를 관리하는 방법을 다룬다. 프로젝트 초기화부터 pyproject.toml 설정, 그리고 LangChain, FastAPI 등 Agent 개발에 필요한 핵심 패키지 설치까지 전 과정을 단계별로 설명한다. | |
| Nov 26, 2025 | Azure Blob Storage Data Lake 구성하기 | Engineering, DevOps, Agent, Cloud, Azure | Azure Portal에서 Blob Storage를 Data Lake로 구성하는 전체 과정을 다룬다. 스토리지 계정 생성, 계층 구조 네임스페이스 활성화, 네트워크 보안 설정, 컨테이너 생성 및 VM에서 NFS 마운트까지 실무 설정을 단계별로 설명한다. | |
| Nov 26, 2025 | SSH Config와 접속 | Engineering, Infrastructure, Security | SSH Config 파일의 구조와 주요 옵션을 다룬다. 접속 명령을 별칭으로 간소화하는 방법, 와일드카드 매칭, 연결 유지 설정, SCP/SFTP를 이용한 파일 전송, rsync를 이용한 디렉터리 동기화까지 정리한다. | |
| Nov 25, 2025 | Azure VM에 개발 환경 구축하기 | Engineering, DevOps, Infrastructure, Azure, Cloud, Poetry | Azure Portal에서 Ubuntu 24.04 LTS VM을 생성한 후 개발 환경을 구축하는 과정에서 마주칠 수 있는 문제들과 해결 방법을 정리한다. 웹 브라우저 콘솔의 sudo 제약, SSH 접속 방법, Git/Conda/Poetry 설치 과정에서의 권한 문제, 그리고 여러 SSH Key를 효율적으로 관리하는 방법을 다룬다. 각 문제의 원인과 해결책을 단계별로 설명하며, 실무에서 사용 가능한 SSH Key 관리 전략을 포함한다. | |
| Nov 25, 2025 | SSH 키 생성과 관리 | Engineering, Infrastructure, Security | SSH 키 쌍(공개키/개인키)의 생성, 서버에 공개키 등록, 파일 권한 설정, ssh-agent를 이용한 패스프레이즈 관리, 용도별 다중 키 운용 전략을 다룬다. | |
| Nov 24, 2025 | Python 개발 & 배포 생태계 | Engineering, DevOps, Python, Docker, Kubernetes | Python 프로젝트의 전체 라이프사이클을 다루는 3단계 생태계를 이해한다. 개발 단계: venv, pyenv, Poetry, Conda의 차이점과 선택 기준 배포 단계: Docker를 통한 환경 캡슐화 및 재현성 보장 운영 단계: Kubernetes를 통한 대규모 자동화 및 무중단 배포 각 단계의 도구, 사용 시기, 장단점, 그리고 실무 선택 기준을 상세히 살펴본다 | |
| Nov 24, 2025 | Azure VM 생성부터 개발 환경 구축까지 | Engineering, DevOps, Infrastructure, Azure, Cloud | Azure Portal에서 Ubuntu 24.04 LTS VM을 처음부터 생성하는 전체 과정을 다룬다. VM 생성 시 주요 설정 항목(리전, 크기, 인증 방식, 네트워크, 디스크)을 설명한다. | |
| Nov 24, 2025 | SSH 개요와 작동 원리 | Engineering, Infrastructure, Security | SSH(Secure Shell)의 탄생 배경과 작동 원리를 다룬다. Telnet/rsh의 보안 문제, SSH의 3단계 연결 과정 (서버 인증, 키 교환, 사용자 인증), 비대칭 암호화 원리, 암호화 알고리즘 비교, 설치 방법까지 정리한다. | |
| Nov 19, 2025 | Multi-Agent 시스템 | AI, Agent, LangChain | Multi-Agent 패턴을 활용하여 각각의 전문성을 가진 여러 에이전트가 협력하여 복잡한 문제를 해결하는 시스템 구현을 다룬다. | |
| Nov 18, 2025 | Plan-and-Execute Agent | AI, RAG, LangChain | Plan-and-Execute 패턴을 활용하여 복잡한 다단계 작업을 계획하고 순차적으로 실행하는 에이전트 구현을 다룬다. | |
| Nov 18, 2025 | Multi-Agent 시스템 | AI, RAG, LangChain | 여러 개의 특화된 에이전트가 협업하여 복잡한 문제를 해결하는 Multi-Agent 시스템의 설계와 구현을 다룬다. | |
| Nov 17, 2025 | Physical Architecture 설계하는 방법 | Engineering, Architecture | Logical Architecture를 기반으로 구체적인 기술 스택을 선택하고 Physical Architecture를 설계하며 배포 가능한 형태로 구현하는 방법론을 다룬다. | |
| Nov 16, 2025 | Logical Architecture 설계하는 방법 | Engineering, Architecture | Conceptual Architecture를 기반으로 기술 독립적인 Logical Architecture를 설계하고 구체화하는 방법론을 다룬다. | |
| Nov 15, 2025 | Conceptual Architecture 그리는 방법 | Engineering, Architecture | 시스템 설계의 첫 단계인 Conceptual Architecture를 정의하고 시각화하는 방법론을 다룬다. | |
| Nov 15, 2025 | Functional Data Analysis | Statistics, Functional Data Analysis, Time Series | RT-PCR 증폭 곡선 분석을 위한 FDA 핵심 개념 습득 및 실전 적용 능력 확보 | |
| Nov 12, 2025 | Azure AI Search의 생성 Retriever 연결 | AI, RAG, Azure, MLOps | Azure 생태계를 활용한 프로덕션급 RAG 시스템 전체 구축 및 운영 방법을 다룬다. | |
| Nov 10, 2025 | End-to-End Azure RAG | AI, RAG, Azure, MLOps | Azure 생태계를 활용한 프로덕션급 RAG 시스템 전체 구축 및 운영 방법을 다룬다. | |
| Nov 10, 2025 | End-to-End Azure RAG | AI, RAG, Azure, MLOps | Azure 생태계를 활용한 프로덕션급 RAG 시스템 전체 구축 및 운영 방법을 다룬다. | |
| Nov 10, 2025 | Experimentation | Experimentation | From epidemiological foundations to modern adaptive algorithms - A systematic path to mastering A/B testing, Multi-Armed Bandits, and causal inference | |
| Nov 9, 2025 | Azure Container Apps | AI, RAG, Azure | Azure Container Apps를 활용한 RAG 시스템 컨테이너 배포 및 스케일링 전략을 다룬다. | |
| Nov 8, 2025 | Azure Functions Apps | AI, RAG, Azure | Azure Functions를 활용한 RAG 시스템 서버리스 배포 및 HTTP API 구현 방법을 다룬다. | |
| Nov 7, 2025 | Azure OpenAI LLM | AI, RAG, Azure | Azure OpenAI LLM을 활용한 RAG 질의응답 시스템 구축 및 프롬프트 엔지니어링 방법을 다룬다. | |
| Nov 6, 2025 | LangChain to LangGraph | AI, RAG, LangChain, LangGraph | LangChain 체인에서 LangGraph 상태 머신으로 RAG 시스템을 전환하는 방법을 다룬다. | |
| Nov 5, 2025 | Azure AI Search Integration | AI, RAG, Azure | Azure AI Search와 RAG 시스템 통합, 벡터 인덱스 생성, 하이브리드 검색 구현 방법을 다룬다. | |
| Nov 4, 2025 | Azure OpenAI Embeddings | AI, RAG, Azure, LangChain | Azure OpenAI Service를 활용한 문서 임베딩 생성 방법을 다룬다. | |
| Nov 3, 2025 | Document Intelligence for RAG | AI, RAG, Azure, Agent | Azure Document Intelligence의 JSON 출력 구조를 활용한 RAG 최적화, 지능형 청킹, 메타데이터 추출 및 Agent 응용 방법을 설명한다. | |
| Nov 3, 2025 | Azure Document Intelligence 인스턴스 생성 | AI, Cloud, Azure | Azure Document Intelligence의 주요 기능, 요금 구조, 그리고 CMD/SDK를 통한 인스턴스 생성 및 API 호출 방법을 실전 중심으로 설명한다. | |
| Nov 2, 2025 | Azure Blob Storage | AI, RAG, Azure, Cloud | Azure Blob Storage를 활용한 RAG 문서 저장 및 관리 방법을 다룬다. | |
| Nov 2, 2025 | 프로젝트 설정: RAG 기반 알고리즘 블랙박스 해소 및 지식 시스템 구축 전략 | AI, RAG, Agent, Azure, Cloud | SW 개발 인력 이탈로 인한 알고리즘 블랙박스 및 기술 부채 문제를 해결하기 위해, 내부 지식(코드, 문서, 결정 이력)을 통합하는 RAG 및 Tool-use 기반 특화 Agent 개발 프레임워크와 단계별 수행 전략을 제시함. | |
| Nov 1, 2025 | Azure RAG Overview | AI, RAG, LangChain, Azure | Azure 생태계를 활용한 엔터프라이즈급 RAG 시스템 구축 전체 파이프라인을 소개한다. | |
| Oct 30, 2025 | 비동기 프로그래밍 (Asynchronous Programming) | Engineering | 비동기 프로그래밍의 개념, 작동 원리, 이벤트 루프와 코루틴을 활용한 효율적인 I/O 처리 방법 | |
| Oct 10, 2025 | Poetry 트러블슈팅 | Engineering, Python, DevOps | Poetry 사용 중 자주 만나는 오류와 해결 방법을 정리한다. 의존성 충돌, 가상환경 문제, Lock 파일 오류, 빌드 실패, 인증 문제 등 실무에서 겪는 문제들의 원인과 해결책을 다룬다. | |
| Oct 9, 2025 | Poetry와 CI/CD, Docker 통합 | Engineering, Python, DevOps | Poetry를 CI/CD 파이프라인과 Docker 환경에서 효과적으로 사용하는 방법을 다룬다. GitHub Actions, GitLab CI 설정, Docker 멀티스테이지 빌드, 캐싱 전략, 자동 배포 파이프라인 구성까지 실무 패턴을 정리한다. | |
| Oct 8, 2025 | Poetry vs setuptools vs pip vs Conda vs Pipenv vs PDM | Engineering, Python, DevOps | Python 생태계의 주요 패키지 관리 도구들을 비교한다. setuptools, pip, Conda, Pipenv, Poetry, PDM의 특징과 장단점, 프로젝트 상황별 최적 도구 선택 기준을 정리한다. | |
| Oct 7, 2025 | Poetry 설정과 고급 명령어 | Engineering, Python, DevOps | Poetry의 설정 관리(config), 패키지 소스(source) 관리, 캐시 관리, 플러그인 시스템, Poetry 자체 업데이트까지 실무에서 필요한 고급 명령어를 정리한다. | |
| Oct 6, 2025 | Poetry 빌드와 배포 | Engineering, Python, DevOps | Poetry로 Python 패키지를 빌드하고 PyPI에 배포하는 전체 과정을 다룬다. sdist/wheel의 차이, poetry build/publish 명령, 사설 PyPI 저장소 설정, CI/CD 자동 배포까지 설명한다. | |
| Oct 5, 2025 | pyproject.toml 상세 가이드 | Engineering, Python, DevOps | pyproject.toml의 모든 섹션을 상세히 설명한다. 프로젝트 메타데이터, 의존성, 빌드 시스템, 스크립트 진입점, 패키지 경로 설정, extras, Poetry 2.x의 [project] 섹션까지 다룬다. | |
| Oct 4, 2025 | Poetry 가상환경 관리 | Engineering, Python, DevOps | Poetry의 가상환경 자동 관리 기능을 다룬다. poetry install로 환경 구성, poetry shell/run으로 코드 실행, poetry env로 환경 전환/삭제, 프로젝트 내부 .venv 설정까지 설명한다. | |
| Oct 3, 2025 | Poetry 의존성 관리 | Engineering, Python, DevOps | Poetry의 핵심 기능인 의존성 관리를 상세히 다룬다. 패키지 추가(poetry add), 제거(poetry remove), 업데이트(poetry update), 버전 제약 문법, poetry.lock의 역할, 의존성 그룹(dev, test 등) 분리를 설명한다. | |
| Oct 2, 2025 | Poetry 설치 및 첫 프로젝트 | Engineering, Python |
Poetry 설치 방법을 Windows, macOS, Linux별로 상세히 설명한다. 공식 권장 설치 방법(pipx, curl), 대안 방법(pip, conda), 설치 검증까지 다룬다. 설치 후 첫 프로젝트 생성, 프로젝트 구조 이해, 기본 명령어 실습을 통해 Poetry의 전체 워크플로우를 체험할 수 있다. 또한 설치 후 발생 가능한 문제(PATH 설정, 권한 문제) 해결 방법을 포함한다. |
|
| Oct 1, 2025 | Poetry - Python 의존성 관리 및 패키징 | Engineering, Python | Poetry는 Python 프로젝트의 의존성 관리, 가상환경 생성, 패키징, 배포를 통합으로 관리하는 도구다. 이 문서에서는 Poetry의 핵심 개념(pyproject.toml, poetry.lock), 의존성 해석 방식, 실무 워크플로우를 상세히 다룬다. | |
| Sep 13, 2025 | Programmers Code Problem: Phone Number List | Code Test, Algorithm Test | 전화번호부에 적힌 전화번호 중, 한 번호가 다른 번호의 접두어인 경우가 있는지 확인하려 합니다. 전화번호가 다음과 같을 경우, 구조대 전화번호는 영석이의 전화번호의 접두사입니다. | |
| Sep 12, 2025 | Programmers Code Problem Study | Code Test, Algorithm Test | 수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다. | |
| Sep 11, 2025 | Programmers Code Problem Study | Code Test, Algorithm Test | 당신은 폰켓몬을 잡기 위한 오랜 여행 끝에, 홍 박사님의 연구실에 도착했습니다. 홍 박사님은 당신에게 자신의 연구실에 있는 총 N 마리의 폰켓몬 중에서 N/2마리를 가져가도 좋다고 했습니다. 홍 박사님 연구실의 폰켓몬은 종류에 따라 번호를 붙여 구분합니다. 따라서 같은 종류의 폰켓몬은 같은 번호를 가지고… | |
| Jul 25, 2025 | ReAct Agent | AI, RAG, LangChain | ReAct(Reasoning and Acting) 패턴을 활용하여 추론과 행동을 결합한 에이전트 구현을 다룬다. | |
| Jul 24, 2025 | 도구를 활용한 토론 에이전트 | AI, RAG, LangChain | 여러 에이전트가 도구를 활용하여 대화하고 토론하는 다중 에이전트 시뮬레이션을 다룬다. | |
| Jul 23, 2025 | RAG + 이미지 생성 에이전트 (보고서 작성) | AI, RAG, LangChain | 웹 검색, PDF 문서 검색, 이미지 생성 기능을 결합하여 보고서를 자동으로 작성하는 에이전트를 다룬다. | |
| Jul 22, 2025 | Agent Toolkits - 파일 관리 | AI, RAG, LangChain | LangChain의 통합 Toolkits를 활용하여 파일 관리 작업을 수행하는 에이전트 구현을 다룬다. | |
| Jul 21, 2025 | CSV/Excel 데이터 분석 에이전트 | AI, RAG, LangChain | CSV/Excel 파일로부터 DataFrame을 생성하고 에이전트가 쿼리를 생성하여 데이터를 분석하는 방법을 다룬다. | |
| Jul 20, 2025 | Agentic RAG | AI, RAG, LangChain | 문서 검색 도구와 웹 검색 도구를 활용하여 최신 정보를 검색하고 답변을 생성하는 Agentic RAG를 다룬다. | |
| Jul 19, 2025 | Iteration과 Human-in-the-Loop | AI, RAG, LangChain | 에이전트의 단계별 실행과 중간에 사용자 입력을 받는 Human-in-the-loop 패턴을 다룬다. | |
| Jul 18, 2025 | 다양한 LLM을 활용한 도구 호출 에이전트 | AI, RAG, LangChain | Anthropic, Google Gemini, Together.ai, Ollama, Mistral 등 다양한 LLM을 활용한 에이전트 구현을 다룬다. | |
| Jul 18, 2025 | 다양한 LLM을 활용한 도구 호출 에이전트 | AI, RAG, LangChain | Anthropic, Google Gemini, Together.ai, Ollama, Mistral 등 다양한 LLM을 활용한 에이전트 구현을 다룬다. | |
| Jul 17, 2025 | 도구 호출 에이전트 (Tool Calling Agent) | AI, RAG, LangChain | 도구 호출을 사용하여 반복적으로 도구를 실행하는 에이전트 구현 방법을 다룬다. | |
| Jul 16, 2025 | LLM에 도구 바인딩 (Binding Tools) | AI, RAG, LangChain | LLM 모델에 도구를 바인딩하고 도구 호출 기능을 활용하는 방법을 다룬다. | |
| Jul 16, 2025 | LLM에 도구 바인딩 (Binding Tools) | AI, RAG, LangChain | LLM 모델에 도구를 바인딩하고 도구 호출 기능을 활용하는 방법을 다룬다. | |
| Jul 15, 2025 | 도구 (Tools) | AI, RAG, LangChain | LangChain에서 제공하는 도구가 동작하는 방식을 알기 위해 빌트인 도구와 사용자 정의 도구를 생성하는 방법을 다룬다. | |
| Jul 15, 2025 | LangGraph 개요 | Agent, AI, RAG, LangGraph, Engineering |
LangGraph의 개념과 설계 철학을 소개한다. 기존의 단방향 RAG 파이프라인이 갖는 한계(신뢰성 검증, 반복적 검색·재검증, 토큰 비용 증가 등)를 설명하고, LangGraph가 제안하는 그래프 기반의 모듈화된 워크플로우(Node, Edge, State, Conditional Edge, Checkpointer, Human-in-the-loop 등)를 통해 어떻게 문제를 해결하는지 예시와 의사결정 흐름으로 해설한다. 주요 내용: - LangGraph의 목적과 설계 철학 - 상태(state) 설계와 TypedDict/Annotated 활용 - Conditional Edge와 체크포인터를 통한 재시도·복구 메커니즘 - 실무 적용 예시(기업 매출 질의 시나리오, 데이터 표준화 파이프라인) |
|
| Jul 15, 2025 | LangGraph 소개 | Agent, LangGraph, Python, AI |
LangGraph에서 자주 사용하는 Python 문법(TypedDict, Annotated, add_messages)과 상태(state) 설계 원칙을 설명한다. TypedDict의 사용 이유, Annotated의 메타데이터 활용, 그리고 LangGraph의 상태 관리와 메시지 리듀서 패턴을 예제로 제시한다.
|
|
| Jul 15, 2025 | LangGraph 챗봇 구축 | Agent, LangGraph, Chatbot, AI, Python |
LangGraph를 사용해 챗봇을 설계하고 구현하는 방법을 설명한다. State/TypedDict와 Pydantic(BaseModel)의 선택 기준, 노드와 엣지 설계, 상태 기반 전이(state machine) 모델링, add_messages 리듀서를 통한 메시지 누적 패턴, 그래프 컴파일 및 실행 예시를 포함한다. 초보자도 따라할 수 있는 단계별 예제로 실무 적용까지 안내한다.
|
|
| Jul 15, 2025 | LangGraph Agent | Agent, LangGraph, Tools, AI, Python |
LangGraph를 사용해 에이전트를 구성하는 방법을 설명한다. LLM에 도구를 바인딩하고 도구 호출을 처리하는 Tool Node 구현, add_conditional_edges를 통한 라우팅 패턴, 실제 웹 검색 도구(Tavily) 연동 예시와 보안·검증·관찰성 고려사항을 포함한다.
|
|
| Jul 15, 2025 | LangGraph: Agent With Memory | Agent, LangGraph, AI |
LangGraph에서 체크포인터(checkpointer)를 사용해 에이전트에 영속적 메모리(persistent memory)를 추가하는 방법을 설명한다. ToolNode와 tools_condition을 활용한 도구 호출 흐름, MemorySaver 기반의 체크포인트 저장 및 thread_id로 세션을 구분하여 멀티턴 대화를 이어가는 예시를 포함한다. 프로덕션 환경에서는 SqliteSaver나 PostgresSaver 등 외부 저장소로 대체하는 방식을 소개한다.
|
|
| Jul 15, 2025 | LangGraph 단계별 스트리밍 출력 | Agent, LangGraph, Streaming, AI, Python |
LangGraph의 stream() 메서드 동작과 주요 옵션(stream_mode, output_keys, interrupt_before/after, config)을 단계별 예제와 함께 설명한다. values, updates, debug 등 스트리밍 모드별 출력 형태와 output_keys 활용법, 체크포인터와 결합한 멀티턴 스트리밍 사용 사례 및 실무 팁을 포함한다.
|
|
| Jul 15, 2025 | LangGraph Human-in-the-Loop | Agent, LangGraph, AI |
LangGraph에서 Human-in-the-loop(사람 개입) 패턴을 구현하는 방법을 정리한다. interrupt_before/interrupt_after 옵션을 이용해 도구 호출 전후에 실행을 중단하고 사용자 승인을 받거나 체크포인트를 찍는 실전 패턴과 UI 통합 예시를 포함한다.
|
|
| Jun 15, 2025 | 상태공간 모델의 일반 체계 | Statistics, Time-Series | Shumway & Stoffer Ch.6 전체를 조감한다. 선형 가우시안 상태공간 모델(DLM)의 일반 형태, Kalman 필터·스무더 알고리즘, 최대우도·EM 추정, 결측 데이터 처리, 구조 모델, HMM·전환 DLM, 확률 변동성, 베이지안 MCMC까지 — 시계열 분석의 가장 유연한 프레임워크를 개관한다. | |
| Jun 15, 2025 | 선형 가우시안 상태공간 모델과 Kalman 필터·스무더 | Statistics, Time-Series | 선형 가우시안 상태공간 모델(DLM)의 일반 형태를 정의하고, 상태 추정의 세 가지 문제 — 예측, 필터링, 스무딩 — 을 다룬다. Kalman 필터(Property 6.1)와 Kalman 스무더(Property 6.2), lag-one 공분산 스무더(Property 6.3)의 수학적 구조와 직관적 해석을 상세히 설명한다. | |
| Jun 15, 2025 | 최대우도 추정과 결측 데이터 | Statistics, Time-Series | 상태공간 모델의 모수를 추정하는 두 가지 접근법 — Newton-Raphson 과 EM 알고리즘 — 을 다룬다. 혁신 우도(innovation likelihood)의 구성, 완전 데이터 우도와 E/M-step 의 유도, 결측 데이터 수정, 그리고 MLE 의 점근 분포(Property 6.4)까지 설명한다. | |
| Jun 15, 2025 | 구조 모델과 상관 오차 SSM | Statistics, Time-Series | 구조 모델(structural model)로 시계열을 추세·계절·불규칙 성분으로 분해하고 Kalman 스무더로 각 성분을 추출하는 방법을 다룬다. 이어서 상관 오차가 있는 SSM, ARMAX 의 상태공간 표현(Property 6.6), 자기상관 오차가 있는 회귀 모델을 설명한다. | |
| Jun 15, 2025 | 부트스트랩 SSM과 평활 스플라인 | Statistics, Time-Series | 상태공간 모델의 부트스트랩(bootstrap) 추론과 평활 스플라인(smoothing spline)의 SSM 연결을 다룬다. 표준화 혁신의 재표본으로 소표본 표준오차를 개선하는 방법, 스플라인 평활이 Kalman 스무더와 동치(equivalent)임을 보이는 연결 관계를 설명한다. | |
| Jun 15, 2025 | 은닉 마르코프 모델과 전환 DLM | Statistics, Time-Series | 상태가 이산 마르코프 체인인 은닉 마르코프 모델(HMM)과, 관측 행렬이 전환(switching)하는 동적 선형 모델(DLM)을 다룬다. HMM 필터·스무더 (Property 6.7, 6.8), Baum-Welch (EM) 알고리즘, 포아송·정규 HMM, 전환 자기회귀(switching AR), 다중 표적 추적과 경제 체제 전환 모델을 설명한다. | |
| Jun 15, 2025 | 확률 변동성과 베이지안 SSM | Statistics, Time-Series | 확률 변동성(stochastic volatility) 모델과 상태공간 모델의 베이지안 분석을 다룬다. SV 모델의 로그-제곱 수익률 변환, 정규 혼합 관측 잡음, 전환 필터링을 설명하고, MCMC/Gibbs 샘플러와 FFBS(forward filtering, backward sampling) 알고리즘을 통한 베이지안 추론을 다룬다. | |
| Jun 15, 2025 | 추가 시간영역 주제 개관 | Statistics, Time-Series | Shumway & Stoffer Ch.5의 추가 시간영역 주제를 개관한다. 장기기억 ARFIMA, 단위근 검정(Dickey-Fuller), 임계 모델(TAR/SETAR), 시차 회귀와 전이함수 모델의 핵심 아이디어를 요약하고, 각 주제가 시계열 분석에서 왜 필요한지 직관적으로 설명한다. | |
| Jun 15, 2025 | 장기기억 ARFIMA와 단위근 검정 | Statistics, Time-Series | 장기기억(long memory) 시계열의 이론과 ARFIMA 모델을 다룬다. 분수 차분 연산자의 수학적 구조, ACF 의 멱함수 감쇠, 시간/주파수 영역 추정법(Gauss-Newton, Whittle, GPH)을 설명한다. 단위근 검정(DF, ADF, PP)의 이론적 배경과 브라운 운동 극한 분포를 유도하고, Python 으로 구현한다. | |
| Jun 15, 2025 | 임계 모델 — TAR과 SETAR | Statistics, Time-Series | 시간 가역성이 깨지는 비선형 시계열을 위한 임계 자기회귀(TAR) 모델과 자기 유발 TAR(SETAR) 모델을 다룬다. 모델의 정의, 체제 분할, 추정 방법, 인플루엔자 사망률 데이터 적용, 그리고 HMM·마르코프 전환 모델과의 비교를 상세히 설명한다. | |
| Jun 15, 2025 | 시차 회귀, 전이함수, 다변량 ARMAX | Statistics, Time-Series | 시차 회귀(lagged regression)와 전이함수(transfer function) 모델의 이론과 적합 절차를 다룬다. 백색화(prewhitening)를 통한 교차상관 식별, Box-Jenkins 순차 모형화, 전이함수의 유리함수 근사를 설명한다. 다변량으로 확장한 VAR, VARX, ARMAX 모델을 정의하고, Python 으로 구현한다. | |
| Jun 15, 2025 | ML for Time Series 개관 | Statistics, Time-Series | 시계열 예측에 지도학습(supervised learning) 접근을 적용하는 전체 프레임워크를 개관한다. 시차 특성(lag feature) 생성, walk-forward 검증, 선형 회귀·트리·앙상블·부스팅 모델의 강점과 약점, ARIMA 대비 ML 의 차별점을 정리한다. | |
| Jun 15, 2025 | 선형 회귀와 결정 트리 | Statistics, Time-Series | 시계열 예측에 선형 회귀(linear regression)와 결정 트리 (decision tree)를 적용하는 방법을 다룬다. 시차 특성 생성, 계절·추세 변수 공학, OLS 추정, 분할·가지치기, 격자 탐색을 단계별로 설명하고 CO₂ 데이터에 적용한다. | |
| Jun 15, 2025 | kNN 과 랜덤 포레스트 | Statistics, Time-Series | 시계열 예측에 kNN(k-Nearest Neighbors)과 랜덤 포레스트 (Random Forest)를 적용한다. 유클리드 거리 기반 이웃 선택, 부트스트랩 집계(bagging), 특성 부분 집합, 특성 중요도를 수학적으로 설명하고 시뮬레이션 데이터로 실습한다. | |
| Jun 15, 2025 | 그래디언트 부스팅과 모델 선택 | Statistics, Time-Series | 그래디언트 부스팅(gradient boosting)의 원리를 수학적으로 설명하고, XGBoost 와 LightGBM 의 차이를 비교한다. 베이지안 최적화를 포함한 하이퍼파라미터 튜닝, 시계열 모델 선택 기준(정확도, 복잡도, 해석성, 안정성)을 종합적으로 정리한다. | |
| Jun 15, 2025 | 시계열 윈도잉 개관 | Statistics, Time-Series | 시계열 데이터를 지도학습(및 딥러닝) 모델에 입력할 수 있는 형태로 변환하는 윈도잉(windowing) 기법을 체계적으로 정리한다. 입력 폭·라벨 폭·시프트, 배치·에폭 개념, 단일 스텝·다중 스텝· 다중 출력 윈도 설계를 설명한다. | |
| Jun 15, 2025 | 데이터 윈도잉과 베이스라인 모델 | Statistics, Time-Series | 시계열 데이터를 딥러닝 모델에 입력할 수 있는 윈도 형태로 변환하는 DataWindow 클래스를 구현한다. 단일 스텝, 다중 스텝, 다중 출력 베이스라인 모델을 작성하고 성능 기준선을 설정한다. | |
| Jun 15, 2025 | Deep Learning for Time Series 개관 | Statistics, Time-Series | 시계열 딥러닝의 전체 스펙트럼을 개관한다. 전통 ML 의 한계, 딥러닝의 차별점, PyTorch/PyTorch Lightning 생태계, 단변량·다변량·글로벌·확률적·분류·이상 탐지 문제 유형, 주요 아키텍처(LSTM, CNN, Transformer, N-BEATS)를 정리한다. | |
| Jun 15, 2025 | 시계열 전처리와 PyTorch 기초 | Statistics, Time-Series | 시계열 분석의 기초 전처리(결측치, 리샘플링, 분해, 정상성, 이분산)와 PyTorch 의 핵심 개념(텐서, 자동 미분, nn.Module)을 다룬다. Feedforward, RNN, LSTM, CNN 네 가지 기본 신경망의 구조와 학습 루프를 단계별로 구현한다. | |
| Jun 15, 2025 | 단변량·다변량 예측 파이프라인 | Statistics, Time-Series | 시계열을 지도학습 행렬로 변환하는 슬라이딩 윈도 기법, 베이스라인 모델(나이브, 계절 나이브, 평균), ARIMA 복습, Feedforward·LSTM·GRU·Stacked LSTM·CNN 으로 단변량 예측, 추세(차분)·계절성(더미·Fourier·계절 분해)·이분산(로그·Box-Cox) 처리, 다변량 시계열의 TimeSeriesDataSet 구조와 PyTorch Lightning 워크플로를 다룬다. | |
| Jun 1, 2025 | Coding Test | Code Test | 알고리즘 및 SQL 코딩 테스트 문제 풀이 모음. Data Scientist 및 AI Engineer 트랙별 맞춤 풀이와 복잡도 분석을 제공한다. | |
| Jun 1, 2025 | 데이터 과학 개요 | Data Science | 데이터 과학의 정의, 독립적 정체성과 통합자로서의 역할, CRISP-DM 방법론, Statistics/ML/DL/AI와의 관계와 경계, 그리고 실무 프로젝트 파이프라인을 다룬다. 이 포스트는 Data Science 카테고리 전체의 진입점이다. | |
| Jun 1, 2025 | Data Science | Data Science | 비즈니스·도메인 문제를 Statistics, ML, DL, Engineering 등 다양한 도구를 통합해 해결하는 방법론과 실전 프로젝트를 다룬다. CRISP-DM 기반 파이프라인 방법론과 도메인 응용 분석 사례를 포함한다. | |
| May 17, 2025 | 담화 분석과 대화 시스템 (Discourse & Conversation) | Deep Learning | ||
| May 17, 2025 | MLOps: 실험 추적, 모델 서빙, 모니터링 | Deep Learning | ||
| May 14, 2025 | Scaled Dot-Product Attention | Deep Learning | Transformer의 핵심 연산인 Scaled Dot-Product Attention의 수학적 원리를 상세히 다룬다. Query, Key, Value 행렬의 의미에서 출발하여, 내적 기반 유사도 계산, √d_k 스케일링의 수학적 근거, 소프트맥스를 통한 가중치 정규화, 그리고 최종 Value 가중합 산출까지 전 과정을 기술한다. NumPy from-scratch 구현과 PyTorch의 nn.functional.scaled_dot_product_attention 비교를 통해 실무 적용 관점도 제공한다. | |
| May 14, 2025 | Causal Attention과 마스킹 | Deep Learning | Transformer 디코더의 핵심 메커니즘인 Causal Attention(인과적 어텐션)을 다룬다. 미래 토큰으로의 정보 누출(information leakage)을 방지하기 위한 마스킹 전략의 수학적 원리를 기술하고, autoregressive 생성과의 관계를 설명한다. 패딩 마스크와 인과적 마스크의 결합, 소프트맥스에서 -inf의 역할, 그리고 dropout과의 상호작용까지 포함한다. Raschka Ch.3.5의 causal attention 구현을 기반으로 한다. | |
| May 14, 2025 | Multi-Head Attention | Deep Learning | Transformer의 Multi-Head Attention(MHA) 메커니즘을 상세히 다룬다. 단일 attention이 하나의 유사도 기준만 포착하는 한계에서 출발하여, 여러 헤드가 서로 다른 표현 부분 공간(representation subspace)에서 독립적으로 attention을 수행하는 원리를 기술한다. 헤드 분할과 병합의 텐서 연산, 효율적 구현을 위한 가중치 행렬 통합, 그리고 각 헤드가 학습하는 서로 다른 언어적 패턴을 분석한다. ZHA Ch.11.5와 RAS Ch.3.6 구현을 기반으로 한다. | |
| May 14, 2025 | Self-Attention vs CNN vs RNN 비교 | Deep Learning | Self-Attention, CNN, RNN 세 가지 시퀀스 처리 메커니즘의 특성을 체계적으로 비교한다. 계산 복잡도(시간·공간), 최대 경로 길이(maximum path length), 병렬화 가능성, 귀납 편향(inductive bias) 측면에서 각 방식의 장단점을 분석하고, 어떤 상황에서 어떤 메커니즘이 유리한지를 기술한다. ZHA Ch.11.6의 이론적 분석을 기반으로 하며, 실험적 비교 코드를 포함한다. | |
| May 12, 2025 | LoRA — Low-Rank Adaptation 정통 구현 | Deep Learning | ||
| May 12, 2025 | GPT: Decoder-only 자기회귀 언어모델 | Deep Learning | ||
| May 12, 2025 | BART와 T5: Encoder-Decoder 사전학습 모델 | Deep Learning | ||
| May 12, 2025 | Hugging Face Transformers 실습 | Deep Learning | ||
| May 12, 2025 | 통계적 텍스트 벡터화: BoW와 TF-IDF | Deep Learning | ||
| May 12, 2025 | BLEU 점수와 Beam Search | Deep Learning | ||
| May 12, 2025 | 서브워드 토크나이제이션 | Deep Learning | ||
| May 12, 2025 | 깊은 RNN과 양방향 RNN | Deep Learning | ||
| May 12, 2025 | ELMo — 문맥 의존적 단어 표현 | Deep Learning | ||
| May 12, 2025 | Seq2Seq 인코더-디코더 | Deep Learning | ||
| May 12, 2025 | Q/K/V 프레임워크와 Nadaraya-Watson 커널 회귀 | Deep Learning | ||
| May 12, 2025 | Bahdanau Attention | Deep Learning | ||
| May 12, 2025 | Attention Variants | Deep Learning | ||
| May 8, 2025 | 변분 오토인코더 개관 | Machine Learning | VAE의 전체 구조를 조감한다. ELBO의 유도와 최적화, reparameterization trick, posterior collapse 문제, 그리고 VQ-VAE와 Hierarchical VAE로의 확장을 개관하고 Ch.21의 서브토픽을 연결한다. | |
| May 8, 2025 | VAE 기초: ELBO와 학습 알고리즘 | Machine Learning | VAE의 학습 목적함수인 ELBO를 세 가지 관점에서 유도하고, reparameterization trick의 수학적 기초를 상세히 다룬다. 인코더·디코더 아키텍처의 설계 원칙과 학습 알고리즘을 시연한다. | |
| May 8, 2025 | VAE 일반화: 조건부 VAE, β-VAE, Posterior Collapse | Machine Learning | 조건부 VAE(CVAE)로 레이블 조건 생성을 확장하고, β-VAE를 통한 disentanglement 원리를 분석한다. Posterior collapse의 원인과 해법(Free bits, KL annealing 등)을 상세히 다룬다. | |
| May 8, 2025 | Hierarchical VAE와 VQ-VAE | Machine Learning | Hierarchical VAE의 다중 잠재 계층 구조와 학습을 분석하고, VQ-VAE의 이산 잠재 공간과 codebook 학습 메커니즘을 상세히 다룬다. NVAE, VDVAE, VQ-VAE-2의 최신 발전까지 개관한다. | |
| May 8, 2025 | 자기회귀 모델: 개관과 핵심 원리 | Machine Learning | 자기회귀(Autoregressive) 생성 모델의 핵심 원리를 개관한다. Chain rule 분해의 수학적 기초, 순차적 생성의 장단점, NADE에서 GPT까지의 발전 계보를 조망한다. | |
| May 8, 2025 | NADE와 신경 자기회귀 밀도 추정기 | Machine Learning | NADE(Neural Autoregressive Distribution Estimator)의 구조와 학습을 분석하고, MADE의 마스킹 기법, Masked Autoregressive Flow(MAF/IAF)로의 확장을 상세히 다룬다. 각 방법의 수학적 기초와 실용적 구현을 시연한다. | |
| May 8, 2025 | Causal CNN과 Transformer 기반 자기회귀 모델 | Machine Learning | Causal CNN(PixelCNN, WaveNet)의 인과 합성곱 구조와 dilated convolution을 분석하고, Transformer decoder의 masked self-attention과 위치 인코딩을 상세히 다룬다. 이미지·음성·텍스트 생성에서의 아키텍처 설계 원칙을 시연한다. | |
| May 8, 2025 | 대규모 언어 모델 (LLM) | Machine Learning | 대규모 언어 모델(LLM)의 아키텍처와 학습 방법론을 분석한다. 스케일링 법칙(Scaling Laws), Emergent Abilities, In-Context Learning의 수학적 기초와 실용적 의미를 상세히 다룬다. | |
| May 8, 2025 | Normalizing Flows: 개관과 핵심 원리 | Machine Learning | Normalizing Flows의 핵심 원리를 개관한다. 가역 변환을 통한 정확한 밀도 추정, 변수 변환 공식과 Jacobian의 역할, 다양한 Flow 아키텍처의 설계 원칙을 분석한다. | |
| May 8, 2025 | Flow 구성법: Coupling, Spline, Continuous-Time Flow | Machine Learning | Normalizing Flow의 다양한 구성 방법을 분석한다. Affine coupling에서 Rational Quadratic Spline, Neural ODE 기반 연속 Flow, 최근의 Flow Matching까지 아키텍처 설계와 수학적 기초를 상세히 다룬다. | |
| May 8, 2025 | Normalizing Flow의 응용 | Machine Learning | Normalizing Flow의 주요 응용 분야를 다룬다. 이상 탐지, VAE posterior 개선, 분자 생성, 음성 합성, 이미지 보간 등에서 Flow의 고유 장점을 활용하는 방법을 시연한다. | |
| May 8, 2025 | Energy-Based Models 전체 조감 | Machine Learning | Energy-Based Models(EBM)의 핵심 아이디어를 개관한다. 에너지 함수와 Boltzmann 분포, 정규화 상수의 난해성, 학습 방법(MLE, score matching, NCE)의 전체 지도를 제시한다. | |
| May 8, 2025 | EBM의 MLE 학습과 Contrastive Divergence | Machine Learning | Energy-Based Model의 Maximum Likelihood 학습법을 상세히 다룬다. 양의 단계(positive phase)와 음의 단계(negative phase)의 직관, Contrastive Divergence(CD)와 Persistent CD의 원리와 구현을 시연한다. | |
| May 8, 2025 | Score Matching과 Noise Contrastive Estimation | Machine Learning | 정규화 상수 Z를 우회하는 두 가지 핵심 학습법을 다룬다. Score matching은 스코어 함수를 직접 학습하고, NCE는 이진 분류 문제로 변환하여 EBM을 학습한다. | |
| May 8, 2025 | EBM의 기타 학습 방법 | Machine Learning | EBM 학습의 추가적인 방법들을 다룬다. Stein Discrepancy, Kernel Score Matching, Spectral Methods, 그리고 현대 딥러닝 기반 EBM의 실용적 학습 전략을 시연한다. | |
| May 8, 2025 | Diffusion Models 전체 조감 | Machine Learning | Diffusion Models의 핵심 아이디어를 개관한다. 점진적 노이즈 추가(forward)와 학습된 역노이즈(reverse), DDPM, Score-based, SDE 관점의 통합적 이해를 제공한다. | |
| May 8, 2025 | DDPM 기초: Denoising Diffusion Probabilistic Models | Machine Learning | DDPM의 완전한 수학적 유도와 구현을 다룬다. ELBO 분해, 각 항의 의미, 간소화된 학습 목표, 그리고 U-Net 기반 노이즈 예측 네트워크의 구조를 시연한다. | |
| May 8, 2025 | Score-Based 모델과 연속 시간 SDE | Machine Learning | Score-based generative modeling과 확률 미분 방정식(SDE) 관점을 다룬다. NCSN의 다중 스케일 score 학습, Anderson의 reverse-time SDE, 그리고 Probability Flow ODE의 결정론적 샘플링을 시연한다. | |
| May 8, 2025 | 확산 모델의 가속과 조건부 생성 | Machine Learning | 확산 모델의 두 가지 핵심 과제를 다룬다. 샘플링 속도를 수백 배 높이는 가속 기법과, 텍스트/클래스 조건으로 생성을 제어하는 guidance 방법을 시연한다. | |
| May 8, 2025 | 이산 공간의 확산 모델 | Machine Learning | 연속 공간 너머 이산 데이터(텍스트, 유전자, 그래프)에 대한 확산 모델을 다룬다. D3PM의 전이 행렬 기반 접근, absorbing state diffusion, 그리고 텍스트 생성에서의 masked diffusion을 시연한다. | |
| May 8, 2025 | GAN (Generative Adversarial Networks) 전체 조감 | Machine Learning | 생성적 적대 신경망(GAN)의 핵심 원리와 전체 구조를 조망한다. 생성자와 판별자의 minimax 게임, GAN의 이론적 기반, 다양한 변형의 분류 체계, 그리고 학습 불안정성과 해결 방안을 포괄적으로 다룬다. | |
| May 8, 2025 | GAN 도입과 비교 학습 | Machine Learning | GAN의 이론적 출발점인 비교 학습(learning by comparison)을 다룬다. 밀도비 추정, 이진 분류를 통한 분포 학습, f-divergence의 변분 추정, 그리고 다양한 GAN 목적함수의 통합적 관점을 제시한다. | |
| May 8, 2025 | GAN 구조와 조건부 GAN | Machine Learning | GAN의 핵심 구조(DCGAN)와 조건부 생성으로의 확장을 다룬다. 클래스 조건부 GAN, 이미지 변환(pix2pix), 비쌍 변환(CycleGAN), 그리고 다중 도메인 변환(StarGAN)의 원리와 구현을 시연한다. | |
| May 8, 2025 | GAN 추론과 신경망 아키텍처 | Machine Learning | GAN의 추론(inversion) 기법과 핵심 아키텍처를 다룬다. 잠재 공간 탐색, GAN 인코더, StyleGAN의 스타일 주입 메커니즘, ProGAN의 점진적 성장, BigGAN의 대규모 학습 전략을 포괄적으로 설명한다. | |
| May 8, 2025 | GAN 응용 | Machine Learning | GAN의 다양한 응용 분야를 포괄적으로 다룬다. 고해상도 이미지 합성, 초해상도(Super-Resolution), 데이터 증강, 이미지 인페인팅, 3D 생성, 비디오 합성, 그리고 실용적 배포 전략을 설명한다. | |
| May 8, 2025 | 의사결정 이론과 순차 결정 전체 조감 | Machine Learning | 의사결정 이론의 전체 구조를 조망한다. 통계적 결정 이론에서 출발하여 밴딧 문제, 마르코프 결정 과정(MDP)까지의 연결 고리를 제시하고, 탐색-활용 균형, 순차 결정의 핵심 원리를 포괄적으로 설명한다. | |
| May 8, 2025 | 통계적 결정 이론과 결정 다이어그램 | Machine Learning | 통계적 결정 이론의 형식적 프레임워크를 다룬다. Bayes 결정 규칙, 위험 함수, 허용성(admissibility), 결정 다이어그램(Influence Diagram), 정보의 가치를 체계적으로 설명한다. | |
| May 8, 2025 | A/B Testing과 Contextual Bandits | Machine Learning | 전통적 A/B Testing의 한계와 적응적 대안을 다룬다. Thompson Sampling의 원리와 구현, Contextual Bandit으로의 확장, 그리고 실무에서의 탐색-활용 균형 전략을 체계적으로 설명한다. | |
| May 8, 2025 | 마르코프 결정 과정과 Planning | Machine Learning | 마르코프 결정 과정(MDP)의 형식적 정의와 풀이 방법을 다룬다. Bellman 방정식의 두 형태, Value Iteration과 Policy Iteration, 동적 프로그래밍의 원리, 그리고 유한/무한 지평 MDP의 최적 해법을 시연한다. | |
| May 8, 2025 | 능동 학습 (Active Learning) | Machine Learning | 능동 학습(Active Learning)의 원리와 전략을 다룬다. 불확실성 샘플링, 정보 획득 최대화, Query-by-Committee, 베이지안 최적 실험 설계, 그리고 실무에서의 능동 학습 파이프라인을 시연한다. | |
| May 8, 2025 | 강화학습 개관 (Reinforcement Learning Overview) | Machine Learning | 강화학습(RL)의 세 가지 접근법을 조감한다. 가치 기반(Value-based), 정책 기반(Policy-based), 모델 기반(Model-based) RL의 핵심 아이디어, 알고리즘 분류 체계, 그리고 서로의 관계를 직관적으로 설명한다. | |
| May 8, 2025 | 가치 기반 강화학습 (Value-based RL) | Machine Learning | 가치 기반 강화학습의 핵심 알고리즘을 다룬다. TD 학습에서 출발하여 SARSA, Q-learning, 그리고 DQN까지 발전 과정을 코드와 함께 직관적으로 설명한다. | |
| May 8, 2025 | 정책 기반 및 모델 기반 강화학습 | Machine Learning | 정책 기반(Policy-based)과 모델 기반(Model-based) RL을 다룬다. REINFORCE에서 Actor-Critic, PPO까지의 정책 그래디언트 발전과 Dyna, MBPO, World Models 등 모델 기반 접근법을 코드로 시연한다. | |
| May 8, 2025 | 오프폴리시 학습과 제어로서의 추론 | Machine Learning | 오프폴리시(Off-policy) 학습의 원리와 현대적 해결법을 다룬다. 중요도 샘플링 기반 보정, 경험 재생, SAC(Soft Actor-Critic), 그리고 RL을 확률 추론으로 재해석하는 Control as Inference를 설명한다. | |
| May 8, 2025 | 고차원 문제 개관 (High-Dimensional Problems) | Machine Learning | 고차원 통계학습의 전체 지형도를 다룬다. p >> N 문제의 본질, 차원의 저주, 정규화를 통한 해결, 그리고 다중 검정(Multiple Testing)의 필요성까지 개관한다. | |
| May 8, 2025 | p >> N 문제와 Diagonal LDA | Machine Learning | p >> N에서의 판별 분석을 다룬다. Diagonal LDA의 동기와 수학적 정당화, Nearest Shrunken Centroids, 그리고 고차원에서의 변수 선택과 분류 성능의 관계를 분석한다. | |
| May 8, 2025 | 고차원 정규화 분류 (Quadratic & L1 Regularization) | Machine Learning | 고차원에서의 정규화된 선형 분류를 다룬다. Ridge(L2)와 Lasso(L1) 정규화의 기하학적 해석, 좌표 하강법, 정규화 경로, 그리고 고차원 로지스틱 회귀의 실무를 시연한다. | |
| May 8, 2025 | Supervised PCA와 다중 검정 | Machine Learning | 고차원 회귀에서 Supervised PCA와 특성 평가(Feature Assessment)를 다룬다. 응답 변수와 관련된 특성만 선별하여 PCA를 적용하는 방법과 다중 검정에서의 FDR 제어, Storey q-value를 상세히 시연한다. | |
| May 7, 2025 | Shell 개요 | Engineering, Infra, Shell, OS | Shell의 기본 역할과 주요 셸 종류(bash, zsh, fish, PowerShell 등)를 실용적인 예시와 함께 소개한다. WSL에서의 동작 원리, Shell 스크립트의 기본 구조, Conda/Poetry/Git의 초기화 개념까지 개발 실무에 바로 사용할 수 있는 핵심 내용을 간결하게 정리한다. | |
| May 7, 2025 | 생성 모델 개관 | Machine Learning | 생성 모델의 전체 지형도를 조감한다. Explicit density(VAE, Flow, Diffusion)와 Implicit density(GAN)의 구분, 생성 모델의 목표(sampling, density estimation, representation learning), 평가 지표(FID, IS, likelihood)를 정리하고 Ch.20-26의 서브토픽을 연결한다. | |
| May 7, 2025 | 생성 모델의 유형과 소개 | Machine Learning | 생성 모델의 두 축인 prescribed(explicit) 모델과 implicit 모델을 구분하고, 각 유형의 수학적 기반과 학습 전략을 상세히 분석한다. 잠재 변수 모델의 일반 이론과 다루기 쉬운 밀도(tractable density) 구성법을 논한다. | |
| May 7, 2025 | 생성 모델의 목표와 평가 | Machine Learning | 생성 모델의 세 가지 핵심 목표를 수학적으로 형식화하고, 각 목표에 적합한 모델을 분석한다. FID, Inception Score, 우도 기반 지표의 장단점과 Precision-Recall 분해를 통한 품질·다양성 진단을 다룬다. | |
| May 7, 2025 | 생성 모델의 학습 목적함수 | Machine Learning | 생성 모델 학습의 다양한 목적함수를 통합적으로 정리한다. 최대우도(MLE), ELBO, 적대적 목적함수, Score matching, Contrastive divergence의 수학적 유도와 관계를 분석하고 각 방법의 적용 시나리오를 비교한다. | |
| May 6, 2025 | 베이지안 선형 회귀와 모델 비교 | Machine Learning | 베이지안 선형 회귀에서 사전분포로부터 사후분포를 해석적으로 유도하고, 예측분포의 불확실성 정량화를 시연한다. 모델 Evidence를 통한 자동 복잡도 제어와 오컴의 면도날의 수학적 구현을 상세히 다룬다. | |
| May 6, 2025 | Evidence 근사와 선형 모델의 한계 | Machine Learning | Evidence 프레임워크로 하이퍼파라미터 α, β를 데이터로부터 자동 결정하는 방법을 유도한다. 반복 재추정(EM-like) 알고리즘을 구현하고, 선형 기저함수 모델의 근본적 한계를 분석하며 가우시안 과정으로의 확장을 논한다. | |
| May 5, 2025 | 선형 회귀 모델 개관 | Machine Learning | 패턴인식에서의 선형 회귀 모델을 조감한다. 기저함수 확장, 최소제곱, 정규화 관점, 편향-분산 분해, 베이지안 선형 회귀의 위치를 개관하고 Ch.3의 서브토픽을 연결한다. | |
| May 5, 2025 | 기저함수 모델과 편향-분산 분해 | Machine Learning | 선형 기저함수 모델의 구조와 최대우도 해를 유도하고, 정규화의 빈도론적· 베이지안 해석을 비교한다. 편향-분산 분해를 통해 모델 복잡도 선택의 근본적 딜레마를 수학적으로 분석한다. | |
| May 4, 2025 | 비모수적 방법 | Machine Learning | 분포의 형태를 가정하지 않는 비모수적 밀도 추정 방법을 다룬다. 히스토그램의 한계, 커널 밀도 추정(KDE)의 원리와 대역폭 선택, k-NN 밀도 추정, 그리고 모수적/비모수적 방법의 trade-off를 설명한다. | |
| May 3, 2025 | 가우시안 분포와 지수족 | Machine Learning | 다변량 가우시안의 조건부/주변부 분포, MLE, 베이지안 추론을 다루고, 지수족(Exponential Family)의 일반 형태로 가우시안·베르누이·포아송 등을 통합적으로 이해하는 프레임워크를 제시한다. | |
| May 2, 2025 | 이항 변수와 다항 변수 | Machine Learning | 이산 확률 변수의 베이지안 추론을 체계적으로 다룬다. 베르누이-베타, 다항-디리클레 공액 쌍의 유도와 성질, 순차적 업데이트, 예측 분포, 실무 적용(나이브 베이즈, 스무딩)을 설명한다. | |
| May 1, 2025 | 개발 환경의 숨은 암초, PATH 환경변수 오염 | Engineering | 모든 문제의 시작은 처참하게 오염된 PATH 환경변수였다. 마치 뒤죽박죽 엉킨 실타래처럼, PATH는 다음과 같은 심각한 문제들을 안고 있었다. | |
| May 1, 2025 | 확률 분포 개관 | Machine Learning | 패턴인식에서 사용되는 핵심 확률 분포들을 조감한다. 이산 분포(베르누이, 이항, 다항), 연속 분포(가우시안, 감마, 디리클레), 지수족의 통합 프레임워크, 공액 사전분포의 원리를 다룬다. | |
| Apr 30, 2025 | 결정 이론과 정보 이론 | Machine Learning | 확률적 예측을 ’행동’으로 변환하는 결정 이론(decision theory)의 프레임워크를 소개하고, 불확실성의 정량적 측도인 정보 이론(information theory)의 핵심 개념 — 엔트로피, 교차 엔트로피, KL 발산, 상호정보량을 ML 관점에서 설명한다. | |
| Apr 29, 2025 | 모델 선택과 차원의 저주 | Machine Learning | 과적합 방지를 위한 모델 선택(model selection) 기법을 다루고, 고차원 공간에서 발생하는 반직관적 현상 — 차원의 저주(curse of dimensionality)를 수학적·기하학적으로 설명한다. 베이지안 모델 비교의 원리도 소개한다. | |
| Apr 28, 2025 | 다항식 피팅과 확률론 | Machine Learning | 다항식 곡선 피팅 문제를 통해 과적합·정규화·확률적 접근을 단계적으로 연결한다. 확률의 기본 규칙(합·곱), 베이즈 정리, 가우시안 분포를 ML 맥락에서 재정립하고, MLE에서 MAP, 완전 베이지안까지의 스펙트럼을 보여준다. | |
| Apr 27, 2025 | 베이지안 ML 개관 — PRML Ch.1 조감 | Machine Learning | 기계학습을 확률론적 프레임워크로 보는 관점을 소개한다. 다항식 피팅의 빈도론 vs 베이지안 접근, 모델 복잡도와 과적합의 확률적 해석, 학습을 사후 분포 추론으로 이해하는 핵심 패러다임을 다룬다. | |
| Apr 26, 2025 | 비선형 차원 축소와 그래프 기반 학습 | Machine Learning | 선형 방법(PCA, MDS)이 곡면 구조를 펼치지 못하는 한계를 넘어, 비선형 차원 축소(t-SNE, UMAP, Isomap, LLE)의 원리와 그래프 라플라시안, 나아가 PageRank 알고리즘까지 다룬다. | |
| Apr 25, 2025 | 독립 성분 분석과 다차원 척도법 | Machine Learning | PCA가 ’상관관계 제거’라면, ICA는 ’통계적 독립성’을 추구한다. 독립 성분 분석(ICA)의 비가우시안성 가정, FastICA 알고리즘, 칵테일 파티 문제를 설명하고, 다차원 척도법(MDS)의 고전적/비계량적 접근을 다룬다. | |
| Apr 24, 2025 | 주성분 분석과 비음수 행렬 분해 | Machine Learning | PCA의 두 관점(분산 최대화, 재구성 최소화)을 통합하고, SVD와의 관계, scree plot, 주성분 해석을 상세히 다룬다. 이어서 비음수 행렬 분해(NMF)의 부분 기반 표현 원리, 곱셈 갱신 규칙, 그리고 PCA와의 차이를 설명한다. | |
| Apr 23, 2025 | 군집 분석과 자기 조직화 지도 | Machine Learning | 군집 분석의 핵심 알고리즘 — K-means(K-means++ 포함), 계층적 군집화(단일/완전/평균 연결법), 밀도 기반(DBSCAN) — 의 수학적 원리와 장단점을 비교한다. 자기 조직화 지도(SOM)의 경쟁 학습 메커니즘도 설명한다. | |
| Apr 22, 2025 | 비지도 학습 입문과 연관 규칙 | Machine Learning | 비지도 학습의 근본 목표와 도전과제를 명확히 하고, 거리/유사도 측도의 선택이 결과에 미치는 영향을 분석한다. 이어서 연관 규칙(Association Rules) — Apriori 알고리즘, support/confidence/lift — 를 상세히 설명하고, 시장 바구니 분석의 실무 적용을 다룬다. | |
| Apr 21, 2025 | 비지도 학습의 일반 체계 | Machine Learning | 비지도 학습의 전체 지형도를 조망한다. 차원 축소(PCA, ICA, MDS), 군집화(K-means, 계층적, 밀도 기반), 혼합 모델(EM), 연관 규칙, 비선형 임베딩(t-SNE, UMAP)을 통합적 프레임워크 안에서 위치시키고, 각 방법의 설계 철학과 적용 상황을 비교한다. | |
| Apr 20, 2025 | 신경망 학습과 이중 하강 | Machine Learning | 신경망 학습의 실무적 핵심 — SGD와 변형, 학습률 스케줄링, 배치 정규화, dropout — 을 통합적으로 다루고, 전통적 편향-분산 트레이드오프를 뒤집는 이중 하강(double descent) 현상의 이론과 실무적 함의를 상세히 설명한다. | |
| Apr 19, 2025 | RNN과 Deep Learning 활용 시점 | Machine Learning | 순환 신경망(RNN)의 핵심 원리 — 은닉 상태, 시간 전개, LSTM/GRU — 를 수학적으로 설명하고, 시퀀스 데이터에서의 장기 의존성 문제와 그 해결을 다룬다. 아울러 딥러닝을 언제 사용해야 하고 언제 전통적 방법이 더 나은지의 판단 기준을 제시한다. | |
| Apr 18, 2025 | Pinecone | AI, RAG, LangChain | 임베딩 벡터를 저장하고 검색하는 벡터 데이터베이스를 다룬다. | |
| Apr 18, 2025 | Azure AI Search | AI, RAG, LangChain, Azure | Azure AI Search를 활용한 하이브리드 검색 시스템 구축 방법을 다룬다. 벡터 검색과 전문 검색을 결합한 엔터프라이즈급 검색 솔루션을 설명한다. | |
| Apr 18, 2025 | CNN과 문서 분류 | Machine Learning | 합성곱 신경망(CNN)의 핵심 연산 — 합성곱, 풀링, 채널 — 의 수학적 구조를 설명하고, 이미지 인식과 문서 분류에서의 적용 원리를 다룬다. 가중치 공유와 지역적 연결이 왜 이미지/텍스트에 효과적인지, MLP 대비 파라미터 효율성의 근거를 직관적으로 전개한다. | |
| Apr 17, 2025 | FAISS | AI, RAG, LangChain | 임베딩 벡터를 저장하고 검색하는 벡터 데이터베이스를 다룬다. | |
| Apr 17, 2025 | Single Layer & Multilayer Neural Networks | Machine Learning | 단층 신경망(퍼셉트론, 로지스틱 회귀)에서 출발하여 다층 퍼셉트론(MLP)의 구축 논리를 전개한다. 은닉층의 역할, 활성화 함수의 필요성, 출력층 설계, 그리고 비선형 결정 경계의 형성 메커니즘을 수식과 직관을 결합하여 상세히 설명한다. | |
| Apr 16, 2025 | Chroma | AI, RAG, LangChain | 임베딩 벡터를 저장하고 검색하는 벡터 데이터베이스를 다룬다. | |
| Apr 16, 2025 | Deep Learning의 일반 체계 | Machine Learning | 단일 뉴런에서 심층 네트워크까지, Deep Learning의 전체 지형도를 통계학습 관점에서 조망한다. MLP, CNN, RNN의 설계 철학 차이, 근사 이론, 이중 하강(double descent) 현상, 그리고 기존 통계학습 방법과의 관계를 개괄한다. | |
| Apr 15, 2025 | Vector Store 개요 | AI, RAG, LangChain | 임베딩 벡터를 저장하고 검색하는 벡터 데이터베이스를 다룬다. | |
| Apr 15, 2025 | Mixture Discriminant Analysis | Machine Learning | LDA의 단봉 정규분포 가정을 완화하여 각 클래스를 Gaussian Mixture로 모델링하는 Mixture Discriminant Analysis(MDA)를 다룬다. EM 알고리즘을 통한 학습, 하위 클래스(subclass) 발견, 비선형 결정 경계의 자연스러운 생성 원리를 상세히 설명한다. | |
| Apr 14, 2025 | Flexible Discriminant Analysis + Penalized DA | Machine Learning | LDA를 최적 점수화(optimal scoring) 관점에서 재해석하고, 선형 회귀를 비모수 회귀(MARS, splines)로 대체하여 비선형 결정 경계를 얻는 FDA를 소개한다. 과적합 방지를 위한 Penalized DA도 함께 다룬다. | |
| Apr 13, 2025 | SVM and Kernels + Generalizing LDA | Machine Learning | 쌍대 문제의 내적을 커널로 대체하여 비선형 SVM을 구성하는 완전한 과정을 다룬다. Mercer 조건, 주요 커널 함수의 특성, RKHS의 직관적 이해, 그리고 LDA를 커널화·정규화하여 비선형 판별로 확장하는 방법을 상세히 설명한다. | |
| Apr 12, 2025 | Introduction + The Support Vector Classifier | Machine Learning | 선형 분리 가능한 경우의 최적 초평면(Optimal Separating Hyperplane)에서 출발하여 소프트 마진을 허용하는 Support Vector Classifier로 확장한다. KKT 조건의 완전한 유도, 슬랙 변수의 기하학적 의미, C 파라미터의 bias-variance 조절 역할을 상세히 다룬다. | |
| Apr 11, 2025 | Flexible Discriminants and SVM — Overview | Machine Learning | 선형 판별의 한계를 넘어 비선형 결정 경계를 학습하는 방법론의 통합 체계를 다룬다. Support Vector Classifier의 최대 마진 원리, 커널 트릭을 통한 SVM 확장, Flexible/Penalized/Mixture Discriminant Analysis의 계층 구조를 개관한다. | |
| Apr 9, 2025 | Machine Learning 카테고리 개관 — 14 Phase 학습 로드맵 | Machine Learning | Machine Learning 카테고리의 진입점으로, 14 Phase의 학습 로드맵을 제시한다. 10권의 교재 비교, 독자 유형별 학습 경로, Phase 간 의존 관계를 상세히 안내한다. | |
| Apr 3, 2025 | Azure 엔터프라이즈 아키텍처 Overview | Engineering, Cloud, Azure, Architecture | Azure 클라우드의 멀티리전, 고가용성, 계층화 네트워크 아키텍처를 통계학/데이터과학 연구 환경에 비유해 설명하고, 실제 데이터 흐름과 보안, 운영 관점에서 엔터프라이즈 설계 원리를 해설한다. | |
| Apr 3, 2025 | 데이터 플랫폼 리소스 계획 및 구현 | Engineering | 이 글에서는 가상 머신 크기 조정, 스토리지, 네트워킹 옵션을 구성하여 데이터베이스 워크로드에 적절한 성능을 보장하고 적절한 고가용성 옵션을 선택하고 구성한다. | |
| Apr 2, 2025 | Azure 가상 머신의 SQL Server | Engineering | 이 글에서는 Azure 가상 머신의 SQL Server, Azure SQL Database, 그리고 다양한 배포 모델 및 고급 기능에 대한 포괄적인 개요를 제공한다. | |
| Apr 1, 2025 | Azure SQL Database 관리 | Engineering | 이 글에서는 Azure에서의 데이터베이스 관리자 역할, SQL Server 기반 데이터베이스 옵션, 그리고 Azure SQL 플랫폼의 핵심 기능을 포괄적으로 설명한다. | |
| Mar 15, 2025 | NLI와 감성 분석: BERT 기반 자연어 추론과 분류 | NLP, Deep Learning | 자연어 추론(NLI)과 감성 분석은 자연어 이해(NLU)의 핵심 태스크이다. BERT를 활용한 NLI는 두 문장 간의 논리적 관계(함의, 모순, 중립)를 판단하며, 감성 분석은 텍스트의 감정 극성을 분류한다. 이 포스트에서는 BERT의 [CLS] 토큰을 활용한 분류 메커니즘, fine-tuning 전략, 그리고 실제 구현까지 상세히 다룬다. | |
| Mar 10, 2025 | Poetry local path 의존성에서 git URL로 전환하기 | Engineering, DevOps, Python, Poetry, Security, SSH | 소프트웨어 의존성 참조 방식의 일반 원칙을 정리하고, Poetry 프로젝트에서 개발 단계의 local path 의존성을 배포/공유를 위한 git URL로 전환하는 전 과정을 poetry.lock 검증까지 포함해 단계별로 설명한다. | |
| Mar 9, 2025 | SSH 다계정 인증과 ~/.ssh/config alias | Engineering, DevOps, Python, Poetry, Security, SSH | SSH 키가 왜 필요한지, 어느 주체(로컬/VM/CI-CD)에서 생성해야 하는지 원칙을 정리하고, ~/.ssh/config Host alias 패턴으로 멀티 GitHub 계정을 충돌 없이 관리하는 방법을 다룬다. Poetry, git, GitHub Actions 등 실무 환경에서의 적용 사례도 함께 정리한다. | |
| Mar 9, 2025 | pyproject.toml 없는 외부 repo 패키지화 전략 | Engineering, DevOps, Python, Poetry, Security, SSH | Python 패키지 설치 도구(pip, Poetry)는 pyproject.toml 또는 setup.py가 없는 repo를 패키지로 인식하지 못한다. 이 글에서는 패키지화 조건의 일반 원칙을 먼저 정리하고, 수정 권한이 없거나 PR을 통해서만 반영 가능한 외부 repo에 pyproject.toml을 추가하고 Poetry로 설치하는 전체 흐름을 다룬다. 비표준 디렉토리 매핑, archive 상태 우회, local path 임시 설치, git URL 전환까지 포함한다. | |
| Mar 8, 2025 | Poetry git dependency — URL, 위치, PEP 508, 실무 패턴 | Engineering, DevOps, Python, Poetry, Security, SSH | Poetry에서 외부 Git 저장소 패키지를 의존성으로 추가할 때의 URL 형식, pyproject.toml 위치, PEP 508 표준, SSH/HTTPS 인증, 패키지 이름/임포트 이름 분리, 실무 전환 전략 등 일반 원칙을 먼저 정리하고, data_standardization 패키지 연동 사례를 다룬다. | |
| Mar 7, 2025 | Python 빌드 시스템과 pyproject.toml 이해 | Engineering, DevOps, Python, Poetry, Security, SSH | Poetry와 setuptools 등 다양한 빌드 시스템이 pyproject.toml로 통합 관리되는 원리를 정리한다. PEP 517/518 표준이 왜 필요한지, wheel이 무엇인지, 빌드 프론트엔드와 백엔드가 어떻게 분리되는지 일반 원칙을 먼저 다루고, Poetry 2.x 혼용 방식과 패키지 이름/import 이름 분리 패턴을 실전 사례로 정리한다. | |
| Mar 6, 2025 | Poetry 프로젝트에서 외부 Git 패키지 통합 | Engineering, DevOps, Python, Poetry, Security, SSH | Python 프로젝트에서 외부 Git 저장소의 코드를 재사용하는 올바른 방법은 코드 복사가 아닌 의존성 관리다. 이 글에서는 Python 의존성 관리의 일반 원칙과 빌드 시스템(setuptools vs Poetry, PEP 517) 개념을 먼저 정리하고, archive 상태의 외부 Private repo에 pyproject.toml이 없어 Poetry 설치가 실패하는 실전 문제와 해결 방향을 다룬다. | |
| Feb 21, 2025 | 정렬 알고리즘과 핵심 패러다임 | Engineering, Python, Algorithm | 버블 정렬과 삽입 정렬의 동작 원리와 O(n²) 복잡도를 분석하고, 실무 표준인 퀵 정렬의 분할-정복 구조를 코드와 함께 이해한다. 선형/이진/해시 검색 알고리즘을 비교하고, Brute Force, 분할-정복, 백트래킹, 동적 계획법, 재귀 5가지 알고리즘 패러다임의 설계 철학과 적용 맥락을 심층 분석한다. | |
| Feb 11, 2025 | 프롬프트 자동 완성기 (Prompt Auto-Completion) | Prompt Engineering, LLM, AI, Agent | 사용자가 AI에게 효과적으로 의사소통하지 못하는 근본 문제를 해결하기 위한 프롬프트 자동 완성기 구현 방법을 체계적으로 설명한다. | |
| Feb 11, 2025 | 시스템 프롬프트 개선 작업 | Prompt Engineering, LLM, AI, Agent | 시스템 프롬프트의 정의와 역할, 컨텍스트 주입, 챗봇 답변 스타일 조정 등 시스템 프롬프트 개선 작업의 실전 절차를 체계적으로 설명한다. | |
| Feb 11, 2025 | Gemini Video Analysis | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 10, 2025 | 프롬프트 질문 생성기: 행동경제학과 심리학을 활용한 멀티턴 대화 유도 | Prompt Engineering, LLM, AI, Agent | 실제 서비스 운영 데이터에서 발견된 문제(짧은 이용시간, 낮은 멀티턴 비율)를 해결하기 위한 프롬프트 질문 생성기 구현 방법을 체계적으로 설명한다. Richard Thaler와 Cass Sunstein의 Nudge Theory(2008), Premack & Woodruff의 Theory of Mind(1978) 등 행동경제학과 심리학 이론을 프롬프트 엔지니어링에 적용하는 실전 기법을 다룬다. 사용자의 선택 설계(Choice Architecture)를 조정하는 3단계 질문 구조(High/Moderate/Low certainty), 모바일 환경 최적화(5단어 제한, 반말체), Theory of Mind 명시적 부여(“You have a mind”) 등 실무에서 즉시 활용 가능한 프롬프트 설계 원칙과 GPT-4o, Claude, Gemini 모델별 테스트 결과를 제시한다. 귀납적 접근 방법, 사용자 행동 데이터 기반 설계, UI/UX 제약 반영 등 프로덕션 환경의 프롬프트 엔지니어링 실전 노하우를 상세히 설명한다. | |
| Feb 10, 2025 | GPT4All | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 9, 2025 | ReAct: 추론과 행동을 결합한 AI Agent 구축 | Prompt Engineering, LLM, AI, Agent | ReAct (Reasoning + Acting)의 정의부터 실전 구현까지 체계적으로 설명한다. Yao et al. (2022) “ReAct: Synergizing Reasoning and Acting in Language Models” 연구를 바탕으로 추론(Thought)과 행동(Action)을 번갈아 수행하는 원리, Thought-Action-Observation 사이클 메커니즘, 외부 도구 통합(웹 검색, 계산기, 데이터베이스, API 호출) 전략을 분석한다. HotpotQA, FEVER, WebShop 등 벤치마크에서 CoT 대비 최대 20% 성능 향상 결과를 제시하고, Wikipedia 기반 QA, 수학 계산, 날씨 정보 조회, 전자상거래 등 실무 예시와 Python 구현 코드(Anthropic Claude API, 도구 연동)를 통해 실전 Agent 구축 방법을 상세히 다룬다. 오류 처리 및 복구 전략, 최대 반복 횟수 제한, 도구 선택 최적화, CoT vs ReAct 비교, 자율 Agent 패턴과 안전성 고려사항을 제시한다. | |
| Feb 9, 2025 | Ollama - Local LLM | AI, RAG, LangChain | Llama 2와 같은 오픈소스 대규모 언어 모델을 로컬에서 실행하는 Ollama 사용법을 다룬다. 모델 다운로드, 설치, GPU 최적화 등 로컬 LLM 구축 전체 과정을 설명한다. | |
| Feb 8, 2025 | Directional Stimulus Prompting: 힌트로 LLM을 원하는 방향으로 유도하기 | Prompt Engineering, LLM, AI, Agent | Directional Stimulus Prompting의 정의부터 실전 구현까지 체계적으로 설명한다. Li et al. (2023) 연구를 바탕으로, 작은 정책 LM이 생성한 방향성 힌트(키워드, 핵심 구절)를 프롬프트에 포함하여 LLM의 출력 품질을 향상시키는 방법을 분석한다. | |
| Feb 8, 2025 | HuggingFace Pipelines | AI, RAG, LangChain | HuggingFace Model Hub의 120,000개 이상 모델을 로컬 파이프라인으로 실행하는 방법을 다룬다. PyTorch와 Transformers를 활용한 로컬 모델 실행 및 메모리 효율적인 추론 기법을 설명한다. | |
| Feb 8, 2025 | 주기성과 스펙트럼 밀도 (Periodicity & Spectral Density) | Statistics, Time Series, Spectral Analysis, Fourier | 시계열의 주기 성분을 분리하는 스펙트럼 분석의 수학적 기초를 다룬다. 주기 과정의 삼각 표현, Fourier 주파수, 주기도의 도입, 자기공분산과 스펙트럼 밀도의 Fourier 쌍대성 (Wiener-Khinchin), 스펙트럼 분포 함수의 의미를 전개한다. | |
| Feb 7, 2025 | APE와 프롬프트 자동 최적화: LLM이 스스로 프롬프트를 개선하는 방법 | Prompt Engineering, LLM, AI, Agent | Automatic Prompt Engineer (APE)와 OPRO의 정의부터 실전 구현까지 체계적으로 설명한다. Zhou et al. (2022) “Large Language Models are Human-Level Prompt Engineers”와 Yang et al. (2023) “Large Language Models as Optimizers” 연구를 바탕으로 프롬프트 자동 생성의 원리, 6단계 워크플로우(후보 생성, 실행, 평가, 제거, 재샘플링, 선택), Forward/Reverse Mode 생성 메커니즘, 평가 메트릭과 반복적 개선 전략을 분석한다. Instruction Induction, BIG-Bench, GSM8K 벤치마크에서 수동 프롬프트 대비 최대 4.5% 성능 향상 결과를 제시하고, “Take a deep breath” 같은 의외의 효과적 프롬프트 발견 사례, 감성 분류/대규모 분류 시스템 등 실무 예시와 Python 구현 코드(Anthropic Claude API 활용)를 통해 실전 자동화 방법을 상세히 다룬다. 비용-ROI 분석($0.72-$6.10 per prompt), 수동 vs 자동 프롬프트 엔지니어링 비교, 하이브리드 접근법과 과적합 방지 전략, 지속적 개선 패턴을 제시한다. | |
| Feb 7, 2025 | HuggingFace Local Models | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 7, 2025 | 스펙트럼 분석 개관 — 시간에서 주파수로 (Spectral Analysis Overview) | Statistics, Time Series, Spectral Analysis, Fourier | 시계열 분석의 주파수 영역(frequency domain) 접근을 총괄적으로 소개한다. 자기공분산과 스펙트럼 밀도의 Fourier 쌍대성, 주기도, 비모수/모수 추정, 선형 필터, 교차 스펙트럼을 하나의 흐름으로 조감한다. | |
| Feb 6, 2025 | RAG (Retrieval Augmented Generation): 외부 지식과 생성의 결합 | Prompt Engineering, LLM, AI, Agent | Retrieval Augmented Generation (RAG)의 정의부터 실전 구현까지 체계적으로 설명한다. Lewis et al. (2020) “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” 연구를 바탕으로 외부 문서 검색(Retrieval)과 생성(Generation)의 결합 원리, 벡터 임베딩과 유사도 검색 메커니즘, 청킹(Chunking) 전략과 하이브리드 검색(Hybrid Search) 기법을 분석한다. RAG + Chain-of-Thought, RAG + Self-Consistency, RAG + Prompt Chaining 등 프롬프트 엔지니어링 조합 패턴을 제시하고, Multi-hop QA, Iterative RAG, Fallback 전략 등 고급 활용 사례와 Python 구현 코드(Anthropic Claude API, 벡터 DB 활용)를 통해 실전 구축 방법을 상세히 다룬다. 검색 품질 최적화, 청크 크기 설정, 비용-성능 트레이드오프 분석, RAG vs Fine-tuning 비교, Modular RAG와 Agentic RAG 등 최신 트렌드를 제시한다. | |
| Feb 6, 2025 | HuggingFace Endpoints | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 6, 2025 | 프롬프트 평가의 필요성과 정당성 | AI, Agent, Prompt Engineering, Evaluation | 전통적인 소프트웨어 개발과 달리 프롬프트 엔지니어링에는 명확한 정답이 없다. 같은 질문에도 무수히 많은 “괜찮은” 답변이 확률적으로 출력된다. 그렇다면 프롬프트의 성능을 어떻게 평가해야 하는가? 이 글은 프롬프트 평가의 4가지 핵심 가치를 다룬다: (1) 품질 보증: 회귀 테스트와 팀 협업의 기반 (2) 성능 최적화: A/B 테스트와 데이터 기반 개선 (3) 비용 효율성: 토큰 비용과 품질의 트레이드오프 정량화 (4) 사용자 경험: 대리 지표(proxy metric)로 만족도 측정 동시에 평가의 근본적 딜레마들도 살펴본다: 기준의 주관성, 정답 데이터셋의 부재, 맥락 의존성, 순환 논리의 위험. 마지막으로 LLM-as-a-Judge 방법론이 어떻게 이러한 딜레마를 실용적으로 해결하는지 설명한다. (MT-Bench 연구: GPT-4가 인간 평가와 80% 이상 일치) | |
| Feb 6, 2025 | LLM-as-a-Judge: AI로 AI를 평가하는 방법론 | AI, Agent, Prompt Engineering, Evaluation, LLM | 강력한 LLM(예: GPT-4)을 판사로 사용하여 다른 LLM의 출력을 평가하는 LLM-as-a-Judge 방법론을 다룬다. 이 글은 세 가지 핵심 질문에 답한다: (1) 왜 작동하는가? 능력의 위계, 인간 판단과의 정렬(85% 일치), 확장성과 일관성 (2) 실증 근거는? MT-Bench(80개 다회차 대화)와 Chatbot Arena(100만+ 크라우드소싱 투표) (3) 어떻게 적용하는가? 판사-평가대상 간 성능 차이의 중요성, 큰 차이(>20%p) 판별의 신뢰성 핵심 발견: 모델 간 성능 차이가 클수록 인간-AI 일치도 증가 (작은 차이 70% → 큰 차이 100%) 방법론의 한계도 명시한다: 모델 편향, 위치 편향, 표면적 특성 선호, 사실 확인 한계. 통계적 엄밀성(Elo 점수, Bootstrap 신뢰구간)과 실무 워크플로우(빠른 프로토타이핑 → LLM 판사 스크리닝 → 인간 최종 검증)까지 포괄한다. 특히 프롬프트 평가 시 판사와 평가대상의 성능이 비슷할 때의 도전과제를 강조한다. | |
| Feb 6, 2025 | LLM-as-a-Judge 평가 프롬프트 템플릿 설계 | AI, Agent, Prompt Engineering, Evaluation, LLM |
LLM 판사에게 전달하는 평가 프롬프트를 어떻게 설계할 것인가? 3가지 실전 템플릿을 분석한다: (1) LMSYS 원본 템플릿 - 5가지 설계 원칙: 명확한 역할 부여(“impartial judge”), 다차원 평가 기준 6가지(helpfulness, relevance, accuracy, depth, creativity, detail), 사고 과정 유도(Chain-of-Thought), 엄격한 출력 형식([[score]]), 객관성 강조 (2) Azure AI 템플릿 - XML 구조화, 프롬프트 자체도 평가, hallucination 명시적 경고, JSON 출력, 실행 가능한 개선 권장사항 제공 (3) HuggingFace 간소화 템플릿 - 단순함의 장점(빠른 실행, 저렴한 비용), 0-10 float 점수, 빠른 프로토타이핑에 적합 평가 템플릿 설계 6가지 핵심 원칙: (1) 명확한 역할과 목표, (2) 구체적이고 측정 가능한 기준, (3) 사고 과정 유도, (4) 엄격한 출력 형식, (5) 편향 완화 기법, (6) 맥락 정보 제공. 실무 적용 코드를 제공한다: 기본 평가 파이프라인, 배치 평가, 위치 편향 완화를 위한 순서 무작위화, 다중 판사 앙상블 평가. Python 코드로 즉시 적용 가능하다. 해결되지 않은 4가지 과제: (1) 전문 도메인에서의 인간-AI 정렬, (2) Few-shot 예시의 효과, (3) 적절한 점수 척도 선택(0-100 vs 0-1 vs 1-10), (4) 템플릿의 범용성과 도메인 특화의 균형. |
|
| Feb 6, 2025 | VaR 와 Expected Shortfall — GARCH 기반 리스크 측정 (VaR & ES with GARCH) | Statistics, Time Series, GARCH, VaR, Risk Management | GARCH 모형을 활용한 리스크 측정의 두 핵심 지표인 VaR (Value at Risk) 와 ES (Expected Shortfall) 를 다룬다. IBM 주식 로그 수익률의 실증 분석을 통해 ARMA-EGARCH 결합 모형의 구축 과정을 재현하고, GARCH 기반 VaR/ES 의 계산·해석·backtesting 을 전개한다. | |
| Feb 5, 2025 | RAG (Retrieval Augmented Generation): 외부 지식과 생성의 결합 | Prompt Engineering, LLM, AI, Agent | Retrieval Augmented Generation (RAG)의 정의부터 실전 구현까지 체계적으로 설명한다. Lewis et al. (2020) “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” 연구를 바탕으로 외부 지식베이스 검색(Retrieval)과 답변 생성(Generation)의 결합 원리, 벡터 임베딩과 유사도 검색 메커니즘, 문서 청킹(Chunking) 전략(토큰 기반, 문장 기반, 의미론적, 구조 기반)을 분석한다. Indexing과 Query 단계의 2단계 프로세스, BM25/Dense/Hybrid 검색 방법, Re-ranking 최적화를 제시하고, 간단한 Q&A 시스템, 고객 지원 챗봇, 문서 분석 도구 등 실무 예시와 Python 구현 코드(벡터 DB, 임베딩 모델 활용)를 통해 실전 구축 방법을 상세히 다룬다. 청크 크기 최적화, top_k 설정, 검색 품질 평가(Precision, Recall, MRR), 할루시네이션 방지 전략과 출처 추적 패턴을 제시한다. | |
| Feb 5, 2025 | Google Generative AI (Gemini) | AI, RAG, LangChain | Google AI의 Gemini 및 Gemini-Vision 모델을 LangChain에서 활용하는 방법을 다룬다. langchain-google-genai 패키지를 통한 Google 생성 모델 연동 방법을 설명한다. | |
| Feb 5, 2025 | 프롬프트 정량적 평가 (Part E): N번 생성, 패턴 분석, 모델별 테스트 | AI, Agent, Prompt Engineering | 정성적 평가(Part C, D)에서 프롬프트가 의도대로 작동하는지 확인했다면, 정량적 평가(Part E)에서는 그 작동이 얼마나 안정적인지를 숫자로 증명한다. 4가지 핵심 방법론을 다룬다: (1) N번 생성: 같은 입력을 N회 실행하여 통과율 측정 (N=1 vs N=20 비교, 비용-편익 분석) (2) 응답 패턴 찾기: 20회 실행 결과를 5개 기준으로 분석하여 취약점 식별 (질문 개수 90%, 5단어 70%) (3) 모델별 테스트: GPT-4/Claude/Gemini 각 20회 테스트로 모델 중립성 검증 (모델별 통과율 비교) (4) 세 번 실험: 일반/구체/다국어 입력으로 범용성 확인 (주제/언어 독립성) 질문 생성기 프롬프트를 사례로 구체적 시나리오, 비교 표, 실패 케이스 분석, 개선 전후 통과율 변화(73% → 93%), 프로덕션 모니터링 대시보드 설계까지 제공한다. 정량 평가가 정성 평가 이후에 와야 하는 이유와 측정하지 못하는 것들(질문 품질, 창의성)의 한계도 다룬다. | |
| Feb 5, 2025 | GraphRAG 개념과 최근 트렌드 | AI, RAG, GraphRAG, Knowledge Graph | GraphRAG는 기존 벡터 검색 기반 RAG의 한계를 극복하기 위해 지식 그래프를 결합한 차세대 검색 증강 생성 기술이다. 본 문서는 GraphRAG의 핵심 개념부터 2024-2025년 최신 연구 트렌드, 실전 구축 경험까지 다룬다. 주요 내용: (1) GraphRAG의 동작 원리와 Hard/Soft prompting 비교 (2) Microsoft GraphRAG부터 PathRAG까지 10개 주요 연구의 시간순 발전 과정 (3) 6개 레이어(전략→데이터→인프라→처리→배포)로 구성된 GraphRAG 구축 프레임워크 (4) 3번의 실패와 1번의 성공 경험에서 얻은 실전 교훈 특히 “GraphRAG는 기술 문제가 아니라 조직 문제”라는 핵심 통찰을 강조하며, 도메인 온톨로지 설계, 평가 체계 구축, 팀 협업의 중요성을 실무 관점에서 상세히 설명한다. | |
| Feb 5, 2025 | 표 데이터를 그래프로: Table GraphRAG 구축 전략 | AI, RAG, Prompt Engineering | 표(Table) 데이터를 지식 그래프로 변환하는 GraphRAG 구축 방법론을 다룬 Part 2이다. 금융감독원의 보험 비교추천서비스 데이터를 실전 사례로 활용하여 구체적인 구현 전략을 제시한다. 주요 내용: (1) 연관성 특화 방식 - 엔티티 간 관계를 명시적으로 모델링하는 접근법 (2) 구조 & 텍스트 특화 방식 - 표 전체를 하나의 엔티티로 취급하는 메타데이터 중심 접근법 (3) Heterogeneous Graph 구축 - 두 방식을 통합한 이종 그래프 아키텍처 (4) Prompt Engineering 전략 - Query-Task-Prompt 매핑, Routing, Few-shot Example Selection 특히 Pinterest의 Text2SQL 경험과 LangChain의 Example Selector 활용법을 구체적으로 소개하며, 도메인 전문가와의 협업을 통한 온톨로지 설계, 적절한 GDBMS 선택의 중요성을 강조한다. | |
| Feb 5, 2025 | 비대칭 GARCH — EGARCH 와 TGARCH (Asymmetric GARCH Models) | Statistics, Time Series, GARCH, EGARCH, TGARCH | 표준 GARCH 의 대칭성 한계를 극복하는 비대칭 변동성 모형을 다룬다. 음의 충격이 양의 충격보다 변동성에 더 큰 영향을 미치는 레버리지 효과를 모형화하는 EGARCH (Nelson, 1991) 와 TGARCH/GJR-GARCH (Glosten et al., 1993) 를 정의, 성질, 뉴스 충격 곡선, 추정 방법의 관점에서 전개한다. | |
| Feb 4, 2025 | Active-Prompt: 불확실한 예시를 선별하여 효율적으로 학습하기 | Prompt Engineering, LLM, AI, Agent | Active-Prompt의 정의부터 실전 구현까지 체계적으로 설명한다. Diao et al. (2023) “Active Prompting with Chain-of-Thought for Large Language Models” 연구를 바탕으로 Active Learning의 원리를 Few-shot 프롬프팅에 적용하는 방법, 불확실성 측정 메커니즘(Self-Consistency, Entropy 기반), 4단계 프로세스(불확실성 측정, 선택, 어노테이션, 추론)를 분석한다. GSM8K, SVAMP, AQuA 등 수학 추론 벤치마크에서 Random Selection 대비 최대 5.2% 성능 향상 결과를 제시하고, 어노테이션 비용 50% 절감하면서 성능 2% 향상 달성 사례, 수학 문제 풀이/복잡한 추론 태스크 등 실무 예시와 비용-효율성 트레이드오프 분석, 어노테이션 부담 최소화 전략, 능동적 예시 선택 vs 무작위 선택 비교, 반복적 개선 패턴을 제시한다. | |
| Feb 4, 2025 | Token Usage Tracking | AI, RAG, LangChain | LangChain에서 LLM 호출 시 토큰 사용량을 추적하고 관리하는 방법을 다룬다. 비용 관리와 성능 최적화를 위한 토큰 사용량 모니터링 기법을 설명한다. | |
| Feb 4, 2025 | GARCH 추정·진단과 실증 예제 (GARCH Estimation & Examples) | Statistics, Time Series, GARCH, MLE | GARCH 모형의 4단계 추정 절차를 체계적으로 전개한다. 최대우도 추정, 표준화 잔차 진단, 혁신 분포 선택을 다루고, P&G 월간 수익률, S&P500 일간 수익률, GBP/USD 환율의 교재 실증 사례를 재현한다. | |
| Feb 3, 2025 | Tree of Thoughts: 전략적 탐색과 백트래킹으로 복잡한 문제 해결하기 | Prompt Engineering, LLM, AI, Agent | Tree of Thoughts (ToT)의 정의부터 실전 구현까지 체계적으로 설명한다. Yao et al. (2024) “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” 연구를 바탕으로 트리 구조 탐색의 원리, 생각 분해(Thought Decomposition)와 생성(Thought Generation) 메커니즘, 평가 기반 경로 선택과 백트래킹(Backtracking) 전략, BFS/DFS 탐색 알고리즘을 분석한다. Game of 24, Creative Writing, Crosswords 등 벤치마크에서 CoT 대비 최대 18배 성능 향상(74% vs 4%) 결과를 제시하고, 수학 퍼즐, 창작 글쓰기, 코드 리팩토링 등 실무 예시와 Python 구현 코드(Anthropic Claude API 활용)를 통해 실전 활용 방법을 상세히 다룬다. 비용-성능 트레이드오프 분석(100배+ API 비용), 적용 시나리오별 권장사항, Simple ToT 패턴과 최신 모델에서의 실용성 평가를 제시한다. | |
| Feb 3, 2025 | Model Serialization | AI, RAG, LangChain | LangChain 모델의 직렬화(Serialization) 개념과 방법을 다룬다. 모델을 저장 가능한 형식으로 변환하여 재사용, 배포, 버전 관리를 용이하게 하는 방법을 설명한다. | |
| Feb 3, 2025 | ARCH 와 GARCH 모형의 정의와 성질 (ARCH & GARCH Definition) | Statistics, Time Series, GARCH, ARCH | ARCH(p) 모형의 정의에서 출발하여, 조건부 분산의 성질을 유도한다. ARCH(1) 의 백색소음·ARCH 효과·변동성 군집·fat tail 을 수학적으로 증명하고, GARCH(p,q) 로의 자연스러운 확장을 다룬다. GARCH(1,1) 시뮬레이션으로 이론적 성질을 검증한다. | |
| Feb 2, 2025 | Prompt Chaining: 복잡한 작업을 단계별로 분해하는 기술 | Prompt Engineering, LLM, AI, Agent | Prompt Chaining의 정의부터 실전 구현까지 체계적으로 설명한다. Anthropic 공식 문서를 바탕으로 복잡한 작업을 하위 작업(subtask)으로 분해하는 원리, 각 단계의 출력을 다음 단계의 입력으로 연결하는 메커니즘, 조건부 분기(conditional branching)와 병렬 처리(parallel processing) 패턴을 분석한다. 문서 기반 Q&A 시스템, 고객 지원 라우팅, 제품 리뷰 요약 등 실무 예시와 Python 구현 코드(Anthropic Claude API 활용)를 통해 실전 활용 방법을 상세히 다룬다. 비용-레이턴시 트레이드오프 분석, 에러 핸들링 및 캐싱 전략, RAG/Generate Knowledge와의 조합 패턴, 토큰 최적화 및 배치 처리 기법을 제시한다. | |
| Feb 2, 2025 | LangChain을 활용한 LLM 캐싱 및 성능 최적화 | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 2, 2025 | 수익률 시계열과 정형화된 사실 (Return Series & Stylized Facts) | Statistics, Time Series, GARCH, Financial Time Series | 금융 수익률의 정의에서 출발하여, 수익률 시계열이 공유하는 4대 정형화된 사실을 체계적으로 전개한다. P&G 월간 수익률과 DAX 일간 지수를 통해 각 사실을 실증하고, ARCH 효과의 검정법과 해석을 다룬다. | |
| Feb 1, 2025 | Generate Knowledge Prompting | Prompt Engineering, LLM, AI, Agent | Generate Knowledge Prompting의 정의부터 실전 구현까지 체계적으로 설명한다. Liu et al. (2021) “Generated Knowledge Prompting for Commonsense Reasoning” 연구를 바탕으로 지식 생성, 통합, 선택의 3단계 프로세스와 작동 원리를 분석한다. QASC, CommonsenseQA, NumerSense 등 벤치마크에서 검증된 성능 개선 결과를 제시하고, Few-shot prompting을 활용한 지식 생성 메커니즘, 답변 선택 알고리즘, 지식 개수 최적화 전략(M=5~20)을 다룬다. Python 구현 코드(Anthropic/OpenAI API 활용), 고객 지원 챗봇·의료 정보 제공·교육 콘텐츠 등 실무 적용 시나리오, RAG·CoT·Self-Consistency와의 결합 패턴, 생성된 지식의 품질 평가와 한계점 개선 방향을 상세히 제시한다. | |
| Feb 1, 2025 | 다양한 LLM 모델 활용 및 비교 | AI, RAG, LangChain | 다양한 LLM 제공자와 모델 활용법을 다룬다. | |
| Feb 1, 2025 | 금융 시계열과 변동성 모형 개관 (Financial Time Series & Volatility Models Overview) | Statistics, Time Series, GARCH, Volatility | 금융 시계열 분석의 전체 체계를 개관한다. 수익률의 정형화된 사실(fat tail, volatility clustering, leverage effect), ARCH(p)에서 GARCH(p,q)로의 확장, EGARCH/TGARCH 비대칭 모형, 그리고 Value-at-Risk 까지의 흐름을 조감한다. | |
| Jan 31, 2025 | 고급 프롬프트 엔지니어링 기법 완벽 가이드 | Prompt Engineering, LLM, AI, Agent | 프롬프트 엔지니어링의 고급 기법 8가지를 체계적으로 분류하고 비교 분석한다. Generate Knowledge Prompting(Liu et al. 2021), Prompt Chaining, Tree of Thoughts(Yao et al. 2024), RAG(Lewis et al. 2020), Automatic Prompt Engineer(Zhou et al. 2022), Active-Prompt, Directional Stimulus Prompting, ReAct의 핵심 원리와 작동 메커니즘을 설명한다. 각 기법의 적용 시나리오, 장단점, 리소스 제약별 선택 전략을 제시하고, RAG+CoT, Prompt Chaining+RAG 등 기법 간 조합 패턴을 분석한다. 문제 유형별 최적 기법 매핑, 비용-성능-확장성 트레이드오프, 실무 적용 가이드를 통해 복잡한 AI 시스템 구축을 위한 전략적 로드맵을 제공한다. | |
| Jan 31, 2025 | 공적분 검정과 벡터 오차 수정 모형 (Cointegration Tests & VECM) | Statistics, Time Series, Cointegration, VECM | I(d) 과정의 정의에서 출발하여, 공적분의 개념과 공적분 rank 를 다룬다. Granger 표현 정리로 VAR-VECM 의 동치성을 증명하고, Johansen trace 검정과 VECM 추정 절차를 체계적으로 전개한다. 원유 가격(WTI-Brent) 공적분 실증으로 실무 적용을 보인다. | |
| Jan 30, 2025 | Self-Consistency | Prompt Engineering, LLM, AI, Agent | Self-Consistency의 정의부터 실전 구현까지 체계적으로 설명한다. Wang et al. (2022) “Self-Consistency Improves Chain of Thought Reasoning” 연구를 바탕으로 다수결 투표(Majority Voting)의 원리, 여러 추론 경로 생성 메커니즘, 샘플링 수와 Temperature 설정의 최적화 전략을 분석한다. GSM8K, MultiArith, CommonsenseQA 등 벤치마크에서 CoT 대비 최대 17%p 성능 향상 결과를 제시하고, 재닛의 오리 문제, 보안 이메일 분류, 복잡한 산술 문제 등 실무 예시와 Python 구현 코드(OpenAI API 활용)를 통해 실전 활용 방법을 상세히 다룬다. 비용-성능 트레이드오프 분석, 적용 시나리오별 권장사항, Hybrid Approach와 Confidence-Based Re-sampling 등 최적화 패턴을 제시한다. | |
| Jan 30, 2025 | 단위근 검정과 가성 회귀 (Unit Root Tests & Spurious Regression) | Statistics, Time Series, Nonstationarity, Unit Root | 확률적 추세와 계절성을 정의하고 결정론적 대응물과 구별한다. Brownian 운동에서 Dickey-Fuller 분포를 유도하는 핵심 논리를 다루고, ADF, PP, KPSS 검정의 모형·가설·실무 사용법을 체계적으로 전개한다. 가성 회귀의 원인과 진단 방법을 시뮬레이션으로 확인한다. | |
| Jan 29, 2025 | Zero-Shot Chain-of-Thought Prompting | Prompt Engineering, LLM, AI, Agent | Zero-Shot Chain-of-Thought Prompting의 정의부터 실전 활용까지 체계적으로 설명한다. Kojima et al. (2022) 연구를 바탕으로, 수동 예시 없이 “Let’s think step by step” 한 문장만으로 CoT 추론을 유도하는 방법과 그 효과를 분석한다. | |
| Jan 29, 2025 | 비정상성과 공적분 개관 (Nonstationarity & Cointegration Overview) | Statistics, Time Series, Nonstationarity, Cointegration | Ch.9 의 핵심 개념을 조망한다: 확률적 추세와 계절성의 정의, 추세 정상 vs 차분 정상의 구별, 단위근 검정(ADF, PP, KPSS), 가성 회귀의 위험, I(d) 과정, 공적분의 정의와 Granger 표현 정리, 벡터 오차 수정 모형(VECM)의 직관적 구조. | |
| Jan 28, 2025 | Chain-of-Thought (CoT) Prompting | Prompt Engineering, LLM, AI, Agent | Chain-of-Thought Prompting의 정의부터 실전 활용까지 체계적으로 설명한다. Few-Shot Prompting의 한계를 극복하기 위해 중간 추론 단계를 예시에 포함하는 방법, Wei et al. (2022) 연구를 바탕으로 CoT의 원리와 복잡한 추론 과제에서의 효과를 분석한다. | |
| Jan 28, 2025 | VAR 구축·추론과 충격 반응 분석 (VAR Building, IRF & FEVD) | Statistics, Time Series, Multivariate, VAR | VAR 모형의 5단계 구축 절차(정상성 점검 → 차수 선택 → 추정 → 진단 → 정제), Granger 인과성 검정의 실무 적용, 충격 반응 함수(IRF)와 예측 오차 분산 분해(FEVD)의 수학적 기반과 해석을 다룬다. | |
| Jan 27, 2025 | Few-Shot Prompting | Prompt Engineering, LLM, AI, Agent | Few-Shot Prompting의 정의부터 실전 활용까지 체계적으로 설명한다. GPT-3 논문(Brown et al. 2020)의 핵심 발견을 통해 모델 크기와 예시 개수의 상관관계, In-Context Learning의 메커니즘을 분석한다. “What Makes In-Context Learning Work?”(Min et al. 2022) 연구를 바탕으로 예시의 품질(정답 라벨 vs 랜덤 라벨), 입력-라벨 형식의 중요성, 4가지 핵심 요소(Format, Label Space, Input Distribution, Mapping)를 상세히 다룬다. 감정 분류, 새로운 단어 학습, 일기 작성 등 실무 예시와 복잡한 추론 과제에서의 한계를 통해 Few-Shot의 적절한 활용 시나리오를 제시한다. | |
| Jan 27, 2025 | Hugging Face: PLM 생태계의 중심 | NLP, Deep Learning | Hugging Face는 현재 NLP 분야에서 가장 중요한 라이브러리이자 플랫폼이다. 수만 개의 사전 학습 모델을 제공하며, 몇 줄의 코드만으로 최신 PLM을 활용할 수 있게 해준다. 토크나이저부터 파인튜닝, 배포까지 전체 ML 워크플로우를 지원하는 Hugging Face의 핵심 기능들과 실무 활용 전략을 상세히 분석한다. | |
| Jan 27, 2025 | Hugging Face: PLM 생태계의 중심 | NLP, Deep Learning | Hugging Face는 현재 NLP 분야에서 가장 중요한 라이브러리이자 플랫폼이다. 수만 개의 사전 학습 모델을 제공하며, 몇 줄의 코드만으로 최신 PLM을 활용할 수 있게 해준다. 토크나이저부터 파인튜닝, 배포까지 전체 ML 워크플로우를 지원하는 Hugging Face의 핵심 기능들과 실무 활용 전략을 상세히 분석한다. | |
| Jan 27, 2025 | Hugging Face: PLM 생태계의 중심 | NLP, Deep Learning | Hugging Face는 현재 NLP 분야에서 가장 중요한 라이브러리이자 플랫폼이다. 수만 개의 사전 학습 모델을 제공하며, 몇 줄의 코드만으로 최신 PLM을 활용할 수 있게 해준다. 토크나이저부터 파인튜닝, 배포까지 전체 ML 워크플로우를 지원하는 Hugging Face의 핵심 기능들과 실무 활용 전략을 상세히 분석한다. | |
| Jan 27, 2025 | Hugging Face: PLM 생태계의 중심 | NLP, Deep Learning | Hugging Face는 현재 NLP 분야에서 가장 중요한 라이브러리이자 플랫폼이다. 수만 개의 사전 학습 모델을 제공하며, 몇 줄의 코드만으로 최신 PLM을 활용할 수 있게 해준다. 토크나이저부터 파인튜닝, 배포까지 전체 ML 워크플로우를 지원하는 Hugging Face의 핵심 기능들과 실무 활용 전략을 상세히 분석한다. | |
| Jan 27, 2025 | 교차 상관과 VAR 모형 정의 (CCF, Granger Causality & VAR Definition) | Statistics, Time Series, Multivariate, VAR | 다변량 시계열의 기본 개념인 교차 공분산·상관 행렬, 벡터 백색소음, 다변량 Portmanteau 검정을 다루고, VMA, VAR, VARMA 모형의 정의와 정상성 조건을 체계적으로 전개한다. | |
| Jan 26, 2025 | Zero-Shot Prompting 완벽 가이드 | Prompt Engineering, LLM, AI, Agent | Zero-Shot Prompting의 정의부터 실제 동작 원리까지 체계적으로 설명한다. GPT-3 논문(Brown et al. 2020)의 핵심 발견, 모델 크기와 성능의 상관관계, 대규모 사전 학습을 통한 암묵적 학습 메커니즘을 분석한다. 초기 Zero-Shot의 한계를 극복한 Instruction Tuning(FLAN 2022)과 RLHF(ChatGPT)의 등장 배경과 효과를 실전 예시와 함께 설명한다. 텍스트 분류, 번역, 질문 답변 등 실무 활용 사례를 통해 Zero-Shot Prompting의 강점과 적절한 사용 시나리오를 제시한다. | |
| Jan 26, 2025 | PLM: Pre-trained Language Model | NLP, Deep Learning | 사전 학습 언어 모델(PLM)의 기술적 발전은 눈부시지만, 모든 프로젝트에 최신 모델을 적용할 수는 없다. 기업 규모, 프로젝트 특성, 비용, 성능 요구사항에 따라 적절한 모델을 선택하는 것이 성공의 핵심이다. LSTM부터 T5, ChatGPT까지의 발전 과정을 살펴보고, 실무에서 마주하는 현실적 제약들 속에서 최적의 모델을 선택하는 전략을 제시한다. | |
| Jan 26, 2025 | 다변량 시계열 분석 개관 (Multivariate Time Series Overview) | Statistics, Time Series, Multivariate, VAR | 다변량(벡터) 시계열 분석의 전체 체계를 개관한다. 교차 공분산/상관 행렬, VAR 모형의 정의와 추정, 그레인저 인과성, 충격 반응 함수(IRF)와 예측 오차 분산 분해(FEVD)를 하나로 조망한다. | |
| Jan 25, 2025 | 프롬프트 엔지니어링 기초 - 개요와 분류 체계 | Strategy Frameworks, Prompt Engineering, AI, Agent | 프롬프트 엔지니어링의 전체적인 개요와 기법 분류 체계를 소개한다. Zero-Shot, Few-Shot, Chain-of-Thought 등 주요 기법의 위치를 조감하고 이후 개별 기법 학습의 로드맵을 제시한다. | |
| Jan 25, 2025 | T5: Text-to-Text Transfer Transformer | NLP, Deep Learning | T5는 Google Research에서 2019년 발표한 혁신적인 사전 학습 모델로, 모든 자연어 처리 태스크를 텍스트-투-텍스트 형식으로 통일한 Text-to-Text 프레임워크를 제시했다. 분류에서 생성까지 모든 문제를 일관된 방식으로 해결하며, 현대 대규모 언어 모델들의 설계 철학에 큰 영향을 미쳤다. T5의 구조, 학습 방법, Text-to-Text 접근법의 혁신성과 함께 후속 모델들에 미친 영향을 분석한다. | |
| Jan 25, 2025 | ETS 모형을 이용한 예측 (Forecasting with ETS Models) | Statistics, Time Series, Forecasting, ETS, State Space | ETS state-space 모형에서 h-단계 점예측과 예측 구간을 유도하는 방법을 다룬다. 가법 모형의 해석적 예측 분산, 승법 모형의 시뮬레이션 기반 구간, ETS 와 ARIMA 의 수학적 동치 관계와 실무적 선택 기준을 종합한다. | |
| Jan 24, 2025 | OpenAI 생성 파라미터 | Prompt Engineering, AI, Agent | OpenAI API의 핵심 생성 파라미터(Temperature, Top-P, Max Tokens, Frequency Penalty, Presence Penalty, Stop Sequences)의 수학적 원리와 실제 동작 방식을 상세히 설명한다. 각 파라미터가 확률 분포에 미치는 영향, 파라미터 간 상호작용, 실무 시나리오별 최적 설정값, 구체적 사용 예시를 통해 LLM 출력을 정밀하게 제어하는 방법을 제시한다. | |
| Jan 24, 2025 | OutputFixingParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 24, 2025 | BART: Bidirectional and Auto-Regressive Transformers | NLP, Deep Learning | BART는 Facebook AI Research에서 2019년 발표한 혁신적인 사전 학습 모델로, BERT의 양방향 이해 능력과 GPT의 생성 능력을 결합한 encoder-decoder 구조를 특징으로 한다. 다양한 노이즈 함수를 사용한 denoising autoencoder 방식의 사전 학습을 통해 자연어 이해와 생성 모두에서 뛰어난 성능을 보여준다. 텍스트 요약, 기계번역, 질의응답 등 다양한 생성 태스크에서의 활용과 성능을 분석한다. | |
| Jan 24, 2025 | ETS State-Space 모형과 추정 (Innovations State Space & Estimation) | Statistics, Time Series, Forecasting, ETS, State Space | 지수 평활 방법론을 확률적 state-space 모형(ETS)으로 격상하는 과정을 다룬다. 가법·승법 오차의 차이, innovations 구조, MLE 추정, 허용 모수 영역, AICc 기반 모형 선택을 상세히 설명한다. | |
| Jan 23, 2025 | Prompt Analytics - 연역적/귀납적 방법론을 활용한 프롬프트 기획 | Strategy Frameworks, Prompt Engineering, AI, Agent | 연역적·귀납적 방법론을 활용하여 프롬프트 기획 문제를 체계적으로 정의하고 해결하는 방법을 소개한다. 사용자 데이터 분석, 이론적 모델 수립, 행동경제학(넛지 이론), 마음이론(Theory of Mind) 등 다학제적 접근법을 통해 실무에 적용 가능한 프롬프트 전략을 도출한다. 프롬프트 질문 생성기, 자동 완성기, 시스템 프롬프트 개선 등 3가지 실제 사례를 통해 문제 정의부터 구현 아이디어, 구체적 해결 방안까지 단계별 기획 프로세스를 제시한다. | |
| Jan 23, 2025 | EnumOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 23, 2025 | GPT: Generative Pre-trained Transformer | NLP, Deep Learning | GPT는 Transformer 디코더 기반의 생성형 사전 학습 모델로 자연어 생성 분야에 혁신을 가져왔다. Next Token Prediction을 통한 사전 학습 방식, 강력한 텍스트 생성 능력, 그리고 In-Context Learning을 통한 Few-Shot 학습 능력을 분석한다. GPT의 구조, 학습 방법, 각 버전별 발전 과정과 함께 ChatGPT로 이어지는 생성형 AI 혁명의 시작점으로서의 의미를 다룬다. | |
| Jan 23, 2025 | 계절 방법과 ETS 분류 체계 (Seasonality Methods & ETS Taxonomy) | Statistics, Time Series, Forecasting, ETS | Holt-Winters 의 가법·승법 계절 방법을 성분 형태로 전개하고, 감쇠 추세와의 결합을 다룬다. 9가지 지수 평활 방법의 분류 체계(Pegels-Gardner-Taylor)를 체계적으로 정리하여 ETS state-space 모형(§8.5)으로의 연결을 준비한다. | |
| Jan 22, 2025 | 사용자들의 프롬프트 유형 | Prompt Engineering, LLM, AI | LLM과의 효과적인 상호작용을 위한 프롬프트 작성 유형별 가이드. 명령/청유형, 역할 지정형, 상황극형, 설명형, 간단형 등 5가지 프롬프트 유형의 특징과 활용법을 다룬다. 각 유형별 실전 예시, 작성 원칙, 그리고 공통 구성 요소를 통해 효과적인 프롬프트 설계 능력을 배양한다. | |
| Jan 22, 2025 | Prompt Analytics - 대화 분석 기초와 언어 분석 | Prompt Engineering, Conversation Analysis, AI, RAG, Agent, NLP | 생성형 AI와 사용자 간 상호작용을 대화 분석(Conversation Analysis) 관점에서 체계적으로 이해한다. ChatGPT가 가져온 세 가지 혁신(맥락 기억, 수정 허용, 부적절한 요청 거부)을 분석하고, 언어 분석의 세 계층(텍스트, 상황적 맥락, 문화적 맥락)을 통해 효과적인 프롬프트 설계 원칙을 구체적 예시와 함께 제시한다. 한국어/영어권/학술 분야 등 문화권별 프롬프트 패턴 차이를 비교하고, 실무에 바로 적용 가능한 20개 이상의 실제 대화 시나리오를 포함한다. | |
| Jan 22, 2025 | Prompt Analytics - 대화 분석 네 가지 기준 | Prompt Engineering, Conversation Analysis, AI, RAG, Agent, NLP | 대화 분석(Conversation Analysis)의 네 가지 핵심 기준으로 AI 상호작용을 체계적으로 분석한다. Turn(턴 테이킹)을 통한 대화 범위 구분, Action(행위)을 통한 사용자 의도 파악, Structure(구조)를 통한 응답 패턴 분석, Stance(입장)를 통한 감정적/인식적 태도 파악 방법을 제시한다. 싱글턴과 멀티턴 대화 전략, 선호/비선호 구조, 감정적/비감정적 태도 분석 등 실무에 바로 적용 가능한 30개 이상의 실제 대화 시나리오와 함께 효과적인 프롬프트 설계 원칙과 AI 응답 최적화 전략을 구체적으로 제시한다. | |
| Jan 22, 2025 | Prompt Analytics - 사용자 세그먼테이션과 프롬프트 전략 | Prompt Engineering, AI, RAG, Agent | 대화 분석의 Turn, Action, Stance, Structure 네 가지 기준을 조합하여 사용자를 세그먼트로 분류하고, 각 세그먼트별 특성에 맞는 프롬프트 전략을 수립한다. SI(정보검색형), MISP/MOSP(사교형), MISU/MOSU(탐색형) 등 핵심 세그먼트의 행동 패턴, 이탈 원인, 멀티턴 전환 전략을 분석한다. Gamification, 캐릭터 챗봇, 동적 FAQ 생성 등 실무 적용 가능한 리텐션 개선 전략과 A/B 테스트 방법론을 구체적 예시와 함께 제시한다. | |
| Jan 22, 2025 | Prompt Analytics - 사용자 세그먼테이션과 프롬프트 전략 | Prompt Engineering, AI, RAG, Agent | 대화 분석의 Turn, Action, Stance, Structure 네 가지 기준을 조합하여 사용자를 세그먼트로 분류하고, 각 세그먼트별 특성에 맞는 프롬프트 전략을 수립한다. SI(정보검색형), MISP/MOSP(사교형), MISU/MOSU(탐색형) 등 핵심 세그먼트의 행동 패턴, 이탈 원인, 멀티턴 전환 전략을 분석한다. Gamification, 캐릭터 챗봇, 동적 FAQ 생성 등 실무 적용 가능한 리텐션 개선 전략과 A/B 테스트 방법론을 구체적 예시와 함께 제시한다. | |
| Jan 22, 2025 | DatetimeOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 22, 2025 | BERT: Bidirectional Encoder Representations from Transformers | NLP, Deep Learning | BERT는 Transformer 인코더 기반의 양방향 사전 학습 모델로 자연어 처리 분야에 혁신을 가져왔다. Masked Language Model과 Next Sentence Prediction을 통한 사전 학습 방식, 양방향 문맥 포착 능력, 그리고 다양한 NLP 태스크에서의 뛰어난 성능을 분석한다. BERT의 구조, 학습 방법, 활용 방식과 함께 후속 모델들에 미친 영향을 다룬다. | |
| Jan 22, 2025 | 단순 지수 평활과 추세 방법 (SES and Trend Methods) | Statistics, Time Series, Forecasting, ETS | 지수 평활의 가장 기본인 SES 의 가중 평균 형태와 성분 형태를 상세히 유도하고, Holt 의 선형 추세법과 감쇠 추세법으로의 일반화를 다룬다. 모수 최적화(SSE 최소화)와 예측 함수의 수학적 성질을 직관적으로 설명한다. | |
| Jan 21, 2025 | ChatGPT 사용자 불만족 분석: 데이터로 보는 프롬프트 실패의 원인과 해결책 | Prompt Engineering, LLM, AI | AI 상호작용 실패 패턴을 규명하고, 기술적·실무적 개선 방향을 제시한다 | |
| Jan 21, 2025 | PandasDataFrameOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 21, 2025 | 사전 학습 모델의 발전 | NLP, Deep Learning | ELMo, BERT, GPT, T5, LLaMA 등 주요 사전 학습 모델들의 발전 과정과 핵심 원리를 다룬다. 문맥 기반 임베딩부터 대규모 언어 모델까지, 각 모델의 혁신적 기여와 특징을 상세히 설명한다. | |
| Jan 21, 2025 | 지수 평활법 개관 (Exponential Smoothing Overview) | Statistics, Time Series, Forecasting, ETS | 1950년대에 제안된 지수 평활법의 전체 체계를 개관한다. Simple Exponential Smoothing 에서 Holt-Winters 계절 모형까지의 단계적 일반화, ETS state-space framework 의 분류 체계, 추정과 선택을 하나로 조망한다. | |
| Jan 20, 2025 | Prompt Design - 도메인별 실전 적용 | Prompt Engineering, Domain Applications, Data Governance, RAG | 프롬프트 엔지니어링의 실무 활용 사례 중심. (1) 탐색적 데이터 분석(EDA)을 위한 구조화된 프롬프트와 Python 구현 예시, (2) 데이터 거버넌스 및 표준 용어화: DAMA-DMBOK, ISO/IEC 11179 기반 메타데이터 관리, (3) RAG 기반 도메인 특화 추천 시스템(PCR 진단 도메인 예시), (4) 향후 발전 방향(멀티모달, 자동 최적화, 에이전트 워크플로)을 다룬다. 각 섹션은 실행 가능한 코드, JSON 출력 사례, 국제 표준 참조를 포함한다. | |
| Jan 20, 2025 | JsonOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 20, 2025 | 텍스트 벡터화: 신경망 기반 방법론 | NLP, Deep Learning | 정적 임베딩의 한계를 넘어, 단어의 문맥적 의미를 동적으로 포착하는 ELMo, BERT, GPT, SBERT와 같은 주요 문맥 기반 임베딩 모델들의 원리, 특징, 혁신적인 기여를 살펴본다. | |
| Jan 20, 2025 | 분포 예측 정확도와 시계열 교차검증 | Statistics, Time Series, Forecasting, Cross-Validation | 점예측을 넘어 예측 분포 전체의 정확도를 평가하는 Quantile Score, Winkler Score, CRPS 를 정의하고, 시간 순서를 존중하는 시계열 교차검증(TSCV)의 원리를 다룬다. | |
| Jan 19, 2025 | Prompt Design - LLM의 한계점 | Prompt Engineering, LLM, AI | LLM의 5가지 근본적 한계(할루시네이션, 편향성, 자료인용 부재, 수학 추론 능력, 프롬프트 해킹)에 대한 이론적 배경과 각 한계를 극복하기 위한 구체적인 프롬프트 엔지니어링 전략(RAG, Self-Verification, RLHF, PAL, 구조적 분리 등)을 다룬다. 각 전략의 효과도 정량적 지표(성능 개선율, 통계적 유의성)로 제시된다. | |
| Jan 19, 2025 | StructuredOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 19, 2025 | Attention 메커니즘의 종류와 발전 | NLP, Deep Learning | 자연어 처리에서 혁신을 가져온 Attention 메커니즘의 다양한 종류와 발전 과정을 체계적으로 분석한다. Self-Attention, Cross-Attention, Multi-Head Attention 등의 핵심 개념과 작동 원리, 그리고 각각의 특징과 활용 분야를 살펴본다. RNN의 순차적 처리 한계를 극복하고 Transformer 아키텍처의 핵심이 된 Attention 메커니즘이 현대 NLP에 미친 영향을 다룬다. | |
| Jan 19, 2025 | 분해 기반 예측과 점 예측 정확도 | Statistics, Time Series, Forecasting, Accuracy | STL 분해 후 계절 성분과 비계절 성분을 별도로 예측하는 분해 기반 예측 방법을 다루고, MAE, RMSE, MAPE, MASE 등 점 예측 정확도 지표의 정의, 성질, 한계를 상세히 비교한다. | |
| Jan 18, 2025 | Prompt Design | Prompt Engineering, AI, RAG | 프롬프트 설계의 5가지 기본 원칙(최신 모델, 명확한 동사, 구조화, 단문, 긍정 지시), 고급 기법(CoT, Self-Consistency, ToT, RAG, Prompt Chaining), 그리고 각 기법의 이론적 배경(Vygotsky ZPD, Austin Speech Act, Kahneman-Tversky Prospect Theory)과 실증적 효과를 포괄적으로 다룬다. 마크다운, Python 코드, XML 태그를 활용한 LLM-친화적 구조화 전략과 각 기법별 성능 개선 지표도 포함된다. | |
| Jan 18, 2025 | CommaSeparatedListOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 18, 2025 | 텍스트 벡터화: Attention 메커니즘의 이해 | NLP, Deep Learning | 기존 Seq2Seq 모델의 한계를 극복하기 위해 제안된 Attention 메커니즘의 핵심 원리와 작동 방식을 설명한다. Attention이 어떻게 시퀀스 데이터의 장기 의존성 문제를 해결하고, 입력과 출력 간의 관계를 효과적으로 모델링할 수 있는지 살펴본다. | |
| Jan 18, 2025 | 분포 예측, 예측 구간, 변환 | Statistics, Time Series, Forecasting, Prediction Interval | 점예측 너머의 불확실성을 전달하는 분포 예측과 예측 구간을 정의하고, 정규 기반 구간과 부트스트랩 구간의 원리를 비교한다. Box-Cox 변환 시 역변환의 편향 보정(bias adjustment) 수학을 상세히 다룬다. | |
| Jan 17, 2025 | Prompt Structure | AI, RAG, Prompt Engineering | 프롬프트의 개념과 구성 요소를 파악한다. | |
| Jan 17, 2025 | PydanticOutputParser | AI, RAG, LangChain | LLM 출력을 구조화된 데이터로 변환하는 다양한 파서를 다룬다. | |
| Jan 17, 2025 | 텍스트 벡터화: Attention 메커니즘의 이해 | NLP, Deep Learning | 기존 Seq2Seq 모델의 한계를 극복하기 위해 제안된 Attention 메커니즘의 핵심 원리와 작동 방식을 설명한다. Attention이 어떻게 시퀀스 데이터의 장기 의존성 문제를 해결하고, 입력과 출력 간의 관계를 효과적으로 모델링할 수 있는지 살펴본다. | |
| Jan 17, 2025 | 적합값, 잔차, 잔차 진단 | Statistics, Time Series, Forecasting, Diagnostics | 모형이 데이터의 정보를 얼마나 활용했는지를 판단하는 핵심 도구인 적합값과 잔차를 정의하고, 잔차 진단의 4가지 조건을 상세히 다룬다. Box-Pierce 검정과 Ljung-Box 검정의 수학적 원리를 유도한다. | |
| Jan 16, 2025 | ChatPromptTemplate | AI, RAG, LangChain, Prompt Engineering | 효과적인 프롬프트 템플릿 설계 및 관리 기법을 다룬다. | |
| Jan 16, 2025 | 텍스트 벡터화: Attention 메커니즘의 이해 | NLP, Deep Learning | 기존 Seq2Seq 모델의 한계를 극복하기 위해 제안된 Attention 메커니즘의 핵심 원리와 작동 방식을 설명한다. Attention이 어떻게 시퀀스 데이터의 장기 의존성 문제를 해결하고, 입력과 출력 간의 관계를 효과적으로 모델링할 수 있는지 살펴본다. | |
| Jan 16, 2025 | Tidy 예측 워크플로와 기본 예측 방법 | Statistics, Time Series, Forecasting | 시계열 예측의 체계적 워크플로를 5단계로 정립하고, 평균법·나이브법·계절 나이브·드리프트 4가지 기본 예측 방법을 수학적으로 정의한다. 이 기본 방법들은 모든 고급 모형의 비교 기준(benchmark)으로 사용된다. | |
| Jan 15, 2025 | Personal Prompts | AI, RAG, LangChain, Prompt Engineering | 효과적인 프롬프트 템플릿 설계 및 관리 기법을 다룬다. | |
| Jan 15, 2025 | RNN 기반 언어 모델과 Seq2Seq | NLP, Deep Learning | RNN을 활용한 언어 모델의 구조와 작동 원리, 그리고 Seq2Seq 모델을 통한 기계 번역의 발전 과정을 다룬다. Teacher Forcing 학습 기법과 Encoder-Decoder 구조의 실제 동작 원리를 상세히 설명한다. | |
| Jan 15, 2025 | 예측 도구상자 개관 (The Forecaster’s Toolbox Overview) | Statistics, Time Series, Forecasting, ETS | 시계열 예측의 실무 표준을 제시하는 Hyndman FPP3 Ch.5 의 핵심 체계를 개관한다. tidy 예측 워크플로, 기본 예측 방법, 잔차 진단, 예측 구간, 정확도 지표, 시계열 교차검증을 하나의 통합된 framework 로 소개한다. | |
| Jan 14, 2025 | LangChain Hub | AI, RAG, LangChain, Prompt Engineering | 효과적인 프롬프트 템플릿 설계 및 관리 기법을 다룬다. | |
| Jan 14, 2025 | RNN 기반 언어 모델 | NLP, Deep Learning | RNN을 활용한 언어 모델의 구조와 작동 원리를 다룬다. 이전 단어들로부터 다음 단어를 예측하는 과정과 Teacher Forcing 학습 기법, 그리고 실제 구현 시 고려사항들을 설명한다. | |
| Jan 14, 2025 | 승법 계절 ARIMA 모형 (Multiplicative Seasonal ARIMA) | Statistics, Time Series, ARIMA, Seasonal | 계절적 의존 구조를 모형화하는 승법 계절 ARIMA(SARIMA)의 이론을 전개한다. 순수 계절 ARMA, 승법 구조의 장점, Airline 모형, 그리고 계절 ACF/PACF 식별 패턴을 다룬다. | |
| Jan 13, 2025 | FewShotPromptTemplate | AI, RAG, LangChain, Prompt Engineering | 효과적인 프롬프트 템플릿 설계 및 관리 기법을 다룬다. | |
| Jan 13, 2025 | 텍스트 벡터화: GRU의 이해 | NLP, Deep Learning | LSTM(Long Short-Term Memory)의 복잡성을 줄이면서 유사한 성능을 목표로 개발된 GRU(Gated Recurrent Unit)의 핵심 원리와 두 가지 게이트(리셋 게이트, 업데이트 게이트)의 작동 방식을 설명한다. GRU가 어떻게 장기 의존성 문제를 해결하고 다양한 시퀀스 모델링 작업에 효과적으로 사용될 수 있는지 살펴본다. | |
| Jan 13, 2025 | ARIMA 모형 구축과 자기상관 오차 회귀 (Building ARIMA & Regression) | Statistics, Time Series, ARIMA, Diagnostics | ARIMA 모형 구축의 Box-Jenkins 절차 — 식별·추정·진단·선택 — 를 체계적으로 다루고, 과적합 위험, Ljung-Box Q-통계량, 자기상관 오차를 포함한 회귀 모형을 설명한다. | |
| Jan 12, 2025 | PromptTemplate | AI, RAG, LangChain, Prompt Engineering | 효과적인 프롬프트 템플릿 설계 및 관리 기법을 다룬다. | |
| Jan 12, 2025 | 텍스트 벡터화: GRU의 이해 | NLP, Deep Learning | LSTM(Long Short-Term Memory)의 복잡성을 줄이면서 유사한 성능을 목표로 개발된 GRU(Gated Recurrent Unit)의 핵심 원리와 두 가지 게이트(리셋 게이트, 업데이트 게이트)의 작동 방식을 설명한다. GRU가 어떻게 장기 의존성 문제를 해결하고 다양한 시퀀스 모델링 작업에 효과적으로 사용될 수 있는지 살펴본다. | |
| Jan 12, 2025 | ARMA 모수 추정과 적분 모형 (Estimation & Integrated Models) | Statistics, Time Series, ARIMA, Estimation | ARMA 모수 추정의 세 가지 접근 — 적률법(Yule-Walker), 최우추정(MLE), 조건부/비조건부 최소제곱 — 을 다루고, 비정상 시계열을 위한 ARIMA 모형의 정의와 예측 구조를 설명한다. | |
| Jan 11, 2025 | 데이터를 효과적으로 전달하는 방법 | AI, RAG, LangChain | LangChain의 기본 개념과 OpenAI API 활용법을 다룬다. | |
| Jan 11, 2025 | 텍스트 벡터화: LSTM의 이해 | NLP, Deep Learning | RNN의 한계인 장기 의존성 문제를 해결하기 위해 등장한 LSTM(Long Short-Term Memory)의 기본 원리와 구조를 소개한다. LSTM의 핵심 구성 요소인 셀 상태와 세 가지 게이트(입력, 삭제, 출력)가 어떻게 정보를 효과적으로 제어하고 장기 기억을 가능하게 하는지 살펴본다. 양방향 LSTM의 개념도 간략히 다룬다. | |
| Jan 11, 2025 | 규제적 신뢰의 정의 | AI, Surveilance, Regulation | 의료 규제에서 ’신뢰(trust)’는 감정이 아닌 수학적 개념이다. Predictability, Bounded Risk, Accountability의 3요소를 중심으로 딥러닝이 945건 승인받고 생성형 AI가 0건인 구조적 이유를 분석한다. FDA의 “Justified Reliance” 정의와 실제 승인/거부 사례를 통해, 의료 AI 신뢰의 본질이 ’이해 가능성’이 아닌 ’통제 가능성’임을 증명한다. | |
| Jan 10, 2025 | LCEL 인터페이스 | AI, RAG, LangChain | LangChain의 기본 개념과 OpenAI API 활용법을 다룬다. | |
| Jan 10, 2025 | 텍스트 벡터화: RNN의 이해 | NLP, Deep Learning | 자연어 처리(NLP)에서 순차적인 텍스트 데이터를 처리하기 위한 RNN(Recurrent Neural Network)의 기본 원리와 구조를 소개한다. RNN이 어떻게 이전 시점의 정보를 현재 시점의 입력과 함께 활용하여 문맥을 파악하는지 살펴본다. | |
| Jan 10, 2025 | 딥러닝의 5대 검증 요건 | AI, Surveilance, Regulation, Statistics | 딥러닝 의료기기가 FDA 승인을 받기 위해 실제로 충족한 5가지 통계적 검증 요건을 상세히 분석한다. 분포, 신뢰구간, 오류율, 재현성, Subgroup 성능의 수학적 정의와 실제 IDx-DR, Paige Prostate 등의 사례를 통해, 검증 가능성이 설명 가능성을 어떻게 대체하는지 증명한다. | |
| Jan 9, 2025 | 기본 예시: 프롬프트 + 모델 + 출력 파서 | AI, RAG, LangChain | LangChain의 기본 개념과 OpenAI API 활용법을 다룬다. | |
| Jan 9, 2025 | 텍스트 벡터화: 문맥 기반 임베딩의 이해 | NLP, Deep Learning | 단어의 의미를 문맥에 따라 동적으로 표현하는 문맥 기반 임베딩(Contextual Embedding)의 기본 원리를 소개한다. ELMo, BERT, GPT, SBERT 등 주요 모델들의 핵심 아이디어와 특징을 간략히 살펴본다. | |
| Jan 9, 2025 | 의료 AI 규제의 진실 | AI, Surveilance, Regulation | 많은 사람들이 딥러닝이 XAI(Explainable AI)로 FDA 승인을 받았다고 오해한다. 이 글은 의료 AI 규제의 실제 논리를 분석하고, 딥러닝이 ’설명 가능’해서가 아닌 ’통계적으로 검증 가능’해서 승인되었음을 실제 FDA 사례로 증명한다. 생성형 AI가 규제 장벽에 막힌 구조적 이유를 규제 관점에서 상세히 다룬다. | |
| Jan 8, 2025 | ChatOpenAI | AI, RAG, LangChain | LangChain의 기본 개념과 OpenAI API 활용법을 다룬다. ChatOpenAI 모델의 주요 파라미터와 스트리밍, 프롬프트 캐싱, 멀티모달 기능을 실습한다. | |
| Jan 8, 2025 | 텍스트 벡터화: FastText의 이해 | NLP, Deep Learning | 자연어 처리(NLP)에서 단어를 내부 단어(subword)의 벡터 합으로 표현하는 FastText 모델의 원리와 특징을 소개한다. OOV 문제 해결 및 형태론적 정보 활용의 이점을 살펴본다. | |
| Jan 8, 2025 | 의료 AI 규제 실전 가이드 | AI, Surveilance, Regulation | 실제 FDA/EMA 승인을 받은 AI 의료기기 사례를 분석하고, Rule-based부터 딥러닝까지의 승인 전략을 제시한다. 생성형 AI가 의료기기로 승인되지 못하는 구조적 이유를 규제 관점에서 상세히 다룬다. | |
| Jan 7, 2025 | OpenAI API 키 발급 및 설정 | AI, RAG, LangChain | LangChain의 기본 개념과 OpenAI API 활용법을 다룬다. | |
| Jan 7, 2025 | 텍스트 벡터화: GloVe의 이해 | NLP, Deep Learning | 자연어 처리(NLP)에서 단어를 벡터로 표현하는 GloVe(Global Vectors for Word Representation) 모델을 심층적으로 탐구한다. GloVe가 전체 말뭉치의 단어 동시 등장 통계 정보를 어떻게 활용하여 벡터를 학습하는지, 그 원리와 목적 함수, Word2Vec과의 차이점을 다룬다. | |
| Jan 7, 2025 | 의료 AI 규제의 본질 | AI, Surveilance, Regulation | 의료 AI 규제의 핵심 프레임워크를 다룬다. Rule-based AI와 Data-driven AI의 규제적 차이, FDA/EMA/MFDS의 평가 기준 4가지, 그리고 실제 승인 사례를 통한 전략을 상세히 분석한다. | |
| Jan 6, 2025 | 텍스트 벡터화: Word2Vec의 이해 | NLP, Deep Learning | 자연어 처리(NLP)에서 단어를 벡터로 표현하는 핵심 방법론인 Word2Vec을 심층적으로 탐구한다. CBOW 및 Skip-gram 모델의 원리, 수학적 배경, 학습 과정, 그리고 Negative Sampling 기법을 상세히 다룬다. | |
| Jan 5, 2025 | VSCode 환경설정 | AI, RAG, LangChain | VSCode에서 사용자 설정을 통해 개발 환경을 최적화하는 방법 | |
| Jan 5, 2025 | LangChain 소개 | AI, RAG, LangChain | LangChain의 개념, 주요 기능, 구성 요소에 대한 소개 | |
| Jan 5, 2025 | 텍스트 벡터화: 신경망 기반 방법론 | NLP, Deep Learning | 자연어 처리(NLP)에서 텍스트의 의미와 문맥을 벡터로 표현하는 신경망 기반의 고급 벡터화 방법들을 심층적으로 탐구한다. 정적 워드 임베딩의 원리, 특징, 활용 방안을 다룬다. | |
| Jan 4, 2025 | LangSmith 환경설정 | AI, RAG, LangChain | LangSmith를 이용한 LLM 애플리케이션 개발, 모니터링 및 테스트 환경 설정 가이드 | |
| Jan 4, 2025 | 텍스트 인코딩 및 벡터화: NLP 숫자 변환의 모든 것 | NLP, Deep Learning | 자연어 처리(NLP)에서 텍스트 데이터를 기계가 이해하고 처리할 수 있는 숫자 형태로 변환하는 인코딩 및 벡터화의 주요 개념과 방법들을 살펴본다. | |
| Jan 3, 2025 | OpenAI API 설정 | AI, RAG, LangChain | OpenAI API 키 발급 및 환경설정 가이드 | |
| Jan 3, 2025 | 정규표현식 기본 규칙 | NLP | 자연어 처리에서 텍스트 전처리와 패턴 매칭에 필수적인 정규표현식의 기본 규칙을 알아본다. | |
| Jan 3, 2025 | 정규표현식 완전 정복 | NLP, Engineering, Python | 자연어 처리(NLP)에서 텍스트 전처리와 패턴 매칭에 필수적인 정규표현식의 이론과 실전을 다룬다. 메타 문자(^, $, [], .), 반복자(*, +, ?, {m,n}), Greedy vs Lazy, 그룹화와 backreference, 특수 문자(, , , re 탐색 함수 4가지, Flags, re.compile과 Match 객체, 그리고 NLP 활용 예시(URL·이메일·개체명 추출, 토큰화, 마스킹, 주민번호 변환, HTML 태그 제거 등)를 완전히 해부한다. | |
| Jan 2, 2025 | LangChain 환경설정 | AI, RAG, LangChain | LangChain 실습을 위한 Python 개발 환경 설정 가이드 | |
| Jan 2, 2025 | 토큰화 (Tokenization) | Deep Learning, NLP, AI | 토큰화는 자연어 처리의 첫 번째이자 가장 중요한 전처리 과정이다. 토큰의 개념부터 문장/단어/서브워드 토큰화까지 각 방법의 원리와 도전과제, 그리고 실무에서 사용되는 도구들을 종합적으로 다룬다. | |
| Jan 1, 2025 | RAG과 LangChain 소개 | AI, RAG, LangChain | LangChain 프레임워크와 RAG(Retrieval-Augmented Generation) 기술의 개념, 필요성, 구현 방법에 대해 알아본다. | |
| Jan 1, 2025 | 자연어 처리(NLP) 개요 | NLP, Deep Learning | 자연어 처리의 기본 개념, 역사적 발전, 주요 응용 분야, 그리고 한국어와 영어의 언어적 특성이 NLP 모델링에 미치는 영향을 살펴본다. 통계 기반에서 PLM 기반으로의 패러다임 전환, 한국어 특화 과제, 그리고 현대 NLP 생태계를 다룬다. | |
| Jan 1, 2025 | Strategy Frameworks | Strategy Frameworks | 비즈니스 분석과 전략 프레임워크 관련 콘텐츠 | |
| Dec 31, 2024 | ConversationBufferMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | ConversationBufferWindowMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | ConversationTokenBufferMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | ConversationEntityMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | ConversationKGMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | ConversationSummaryMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | VectorStoreRetrieverMemory | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | LCEL (대화내용 기억하기): 메모리 추가 | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | SQL (SQLAlchemy) | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | 이전 대화를 기억하는 Chain 생성방법 | AI, RAG, LangChain | 대화 컨텍스트를 관리하는 다양한 메모리 시스템을 다룬다. | |
| Dec 31, 2024 | Document & Document Loaders | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | ||
| Dec 31, 2024 | HWP (한글) | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | CSV | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | Excel | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | Microsoft Word | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | Microsoft PowerPoint | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | WebBaseLoader | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | TXT Loader | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | JSON | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | Arxiv | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | 디렉토리에서 문서를 로드하는 방법 | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | UpstageLayoutAnalysisLoader | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | LlamaParser | AI, RAG, LangChain | 다양한 형식의 문서를 LangChain으로 로드하는 방법을 다룬다. | |
| Dec 31, 2024 | CharacterTextSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | RecursiveCharacterTextSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | TokenTextSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | SemanticChunker | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | Split code | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | MarkdownHeaderTextSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | HTMLHeaderTextSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | RecursiveJsonSplitter | AI, RAG, LangChain | 효율적인 문서 청킹을 위한 다양한 텍스트 분할 전략을 다룬다. | |
| Dec 31, 2024 | OpenAIEmbeddings | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | CacheBackedEmbeddings | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | 허깅페이스 임베딩(HuggingFace Embeddings) | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | Upstage | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | Ollama | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | Llama-cpp | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | GPT4All | AI, RAG, LangChain | 텍스트를 벡터로 변환하는 다양한 임베딩 모델을 다룬다. | |
| Dec 31, 2024 | Cross Encoder Reranker | AI, RAG, LangChain | 검색 결과의 관련성을 개선하는 Reranker 모델을 다룬다. | |
| Dec 31, 2024 | Cohere reranker | AI, RAG, LangChain | 검색 결과의 관련성을 개선하는 Reranker 모델을 다룬다. | |
| Dec 31, 2024 | Jina Reranker | AI, RAG, LangChain | 검색 결과의 관련성을 개선하는 Reranker 모델을 다룬다. | |
| Dec 31, 2024 | FlashRank reranker | AI, RAG, LangChain | 검색 결과의 관련성을 개선하는 Reranker 모델을 다룬다. | |
| Dec 31, 2024 | FlashRank reranker | AI, RAG, LangChain | 검색 결과의 관련성을 개선하는 Reranker 모델을 다룬다. | |
| Dec 31, 2024 | RAG 기본 구조 이해하기 | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | RAG 기본 구조 이해하기 | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | LangChain의 RAG 파헤치기 | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | 이전 대화를 기억하는 Chain 생성방법 | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | Web Summarize Chain Of Density | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | 멀티모달 RAG | AI, RAG, LangChain | 검색 증강 생성(RAG) 시스템의 구축과 고급 기법을 다룬다. | |
| Dec 31, 2024 | Agent | AI, LangChain, RAG, Agent, Cloud | Retrieval-Augmented Generation (RAG) 및 Agent 개발 관련 기술의 전체 구현 과정을 다루는 종합 가이드. LangChain & LangGraph을 활용한 RAG 시스템 구축, 문서 로딩, 임베딩, 벡터 저장소, 검색기, 그리고 고급 RAG 기법까지 단계별로 학습할 수 있는 실습 중심의 블로그 모음 | |
| Nov 27, 2024 | Data Governance Study - Data Standard Governance | Data Governance | 이 블로그 포스트에서는 데이터 표준 거버넌스의 중요성과 구성 요소를 이야기한다. 데이터 표준관리의 목적과 정의, 주요 정제 및 개선 사항을 소개하고, 데이터 표준화의 필요성을 다각도로 살펴본다. 또한 데이터 표준화 요소 간의 관계를 설명하며, 표준 데이터와 구조 데이터의 개념을 설명한다. | |
| Nov 25, 2024 | Data Governance Study - Data Standard Governance | Data Governance | 이 블로그 포스트에서는 데이터 표준 거버넌스의 중요성과 구성 요소를 이야기한다. 데이터 표준관리의 목적과 정의, 주요 정제 및 개선 사항을 소개하고, 데이터 표준화의 필요성을 다각도로 살펴본다. 또한 데이터 표준화 요소 간의 관계를 설명하며, 표준 데이터와 구조 데이터의 개념을 설명한다. | |
| Nov 10, 2024 | Machine Learning | Machine Learning | From foundations to advanced methods - A systematic path to mastering supervised learning, unsupervised learning, and practical ML engineering | |
| Aug 20, 2024 | Data Governance Study - Data Quality Management | Data Governance | 이 글에서는 애플리케이션 개발 시 발생하는 표준 코드의 신규 및 변경 요청과 승인 절차를 설명한다. 개발자가 신규 코드 요건을 도출하고 표준 코드 사전에서 검색한 후, 표준 담당자가 이를 검토 및 등록하는 과정을 단계별로 안내한다. | |
| Aug 19, 2024 | Data Governance Study - Glossary Usage Rules | Data Governance | 이 글은 다양한 도메인에서 사용하는 용어의 표준화 규칙과 금칙어, 대체어를 포함하여 데이터 품질을 유지하고 일관성을 확보하기 위한 가이드라인이다. 각 규칙은 용어의 의미, 맥락, 도메인별 사용 사례를 기반으로 작성되었으며, 복합어 생성과 표준화된 표현 방식을 제안한다. | |
| Aug 18, 2024 | Data Governance Study - Data Code Registration Process | Data Governance | 이 글에서는 애플리케이션 개발 시 발생하는 표준 코드의 신규 및 변경 요청과 승인 절차를 설명한다. 개발자가 신규 코드 요건을 도출하고 표준 코드 사전에서 검색한 후, 표준 담당자가 이를 검토 및 등록하는 과정을 단계별로 안내한다. | |
| Aug 17, 2024 | Data Governance Study - Data Glossary Review Process | Data Governance | 이 글에서는 데이터 모델 수정 시 표준 용어 점검 절차를 설명하고, 데이터 모델 담당자와 표준 담당자 간의 역할 구분, 표준 준수 여부 확인, 비표준 용어 처리 절차 등을 단계별로 다룬다. | |
| Aug 16, 2024 | Data Governance Study - Data Registration Process | Data Governance | 이 블로그 포스트에서는 데이터 표준 용어 사전의 개념, 목적, 구성 요소 및 제작 과정을 설명한다. 표준 용어의 기본 원칙, 구성 원칙, 활용 원칙을 다룬다. | |
| Aug 15, 2024 | Data Governance Study - Data Standard Code | Data Governance | 이 블로그 포스트에서는 데이터 표준 코드의 개념, 목적, 특징, 그리고 관리 방법에 대해 상세히 설명한다. 단일코드, 계층코드, 목록코드, 복합코드 등 다양한 코드 유형과 그 사용 조건을 소개하고, 코드 표준화 대상과 관리 원칙을 제시한다. | |
| Aug 14, 2024 | Data Governance Study - Data Standard Glossary | Data Governance | 이 블로그 포스트에서는 데이터 표준 용어 사전의 개념, 목적, 구성 요소 및 제작 과정을 설명한다. 표준 용어의 기본 원칙, 구성 원칙, 활용 원칙을 다룬다. | |
| Aug 13, 2024 | Data Governance Study - Data Domain Standardization | Data Governance | 이 블로그 포스트에서는 데이터 표준 도메인의 개념, 목적, 구성 요소를 상세히 설명한다. 도메인 그룹, 도메인, 인포타입, DBMS별 데이터 타입 등 주요 구성 요소를 소개하고, 날짜, 명칭, 내용, 수량, 율, 금액, 번호, 코드, 분류 등 다양한 도메인 그룹과 그 특성을 설명한다. 데이터 품질 향상과 일관성 있는 데이터 구조 설계를 위한 필수 지식을 담고 있어, 데이터 모델러, 데이터베이스 관리자, 그리고 데이터 거버넌스 담당자에게 유용한 정보를 제공한다. | |
| Aug 12, 2024 | 데이터 표준화 원칙 문서.ver1.0.0 | Data Governance | 이 문서는 데이터 표준화를 실현하기 위한 지침서이다. 데이터의 일관성, 재사용성, 품질을 확보하여 데이터의 활용성을 높이고, 연구 및 서비스 간 협업의 효율성을 증진하는 것을 목표로 한다. 본 문서는 단계별 데이터 표준화 원칙을 제시하며, 특정 범위에서 발생하는 일부 데이터에 우선 적용될 수 있도록 설계된다. | |
| Aug 12, 2024 | Data Governance Study - Data Standard Word Dictionary | Data Governance | 이 블로그 포스트에서는 데이터 표준 단어 사전의 개념, 중요성, 그리고 구축 방법에 대해 상세히 설명한다. 표준 단어의 정의와 구성 요소, 사용 원칙, 그리고 제작 과정을 단계별로 소개하며, 한글, 영문, 복합어, 숫자 등 다양한 유형의 단어에 대한 사용 지침을 제공한다. 또한 동음이의어, 이음동의어, 금칙어 등의 처리 방법과 표준 단어 사전의 실제 예시를 통해 실무적인 적용 방안을 제시한다. | |
| Aug 11, 2024 | Data Governance Study - Data Standard Governance | Data Governance | 이 블로그 포스트에서는 데이터 표준 거버넌스의 중요성과 구성 요소를 이야기한다. 데이터 표준관리의 목적과 정의, 주요 정제 및 개선 사항을 소개하고, 데이터 표준화의 필요성을 다각도로 살펴본다. 또한 데이터 표준화 요소 간의 관계를 설명하며, 표준 데이터와 구조 데이터의 개념을 설명한다. | |
| Aug 10, 2024 | Data Governance Study - Data Model (7) | Data Governance | 이 블로그는 데이터베이스 설계의 초기 단계인 개념적 데이터 모델링에 대해 다룬다. ER(Entity-Relationship) 모델의 주요 구성 요소인 개체, 관계, 속성에 대해 설명하며, 각 요소의 특성과 표현 방법을 제시한다. | |
| Aug 10, 2024 | Data Governance Study - Data Current Status Analysis | 성공적인 데이터 거버넌스 구축을 위한 기반을 마련하는 중요한 과정이다 | ||
| Aug 9, 2024 | Data Governance Study - Data Model (6) | Data Governance | 데이터베이스 설계 초기 단계에서 비즈니스 요구사항을 추상화하는 과정, 주요 구성 요소인 엔티티, 속성, 관계의 개념, 그리고 ERD(Entity-Relationship Diagram)의 기본 원리를 설명한다. 데이터베이스 설계를 시작하는 초보자를 위한 정보를 제공한다. | |
| Aug 8, 2024 | Data Governance Study - Data Model (5) | Data Governance | 이 블로그에서는 데이터베이스 설계 프로세스의 초기 단계를 다룬다. 그리고 업무기술서 작성 방법을 설명한다. 데이터 모델링과 데이터베이스 설계 프로젝트를 시작하는 실무자들을 위한 정보를 제공한다. | |
| Aug 7, 2024 | Data Governance Study - Data Model (4) | Data Governance | 이 블로그에서는 데이터 모델링과 데이터베이스 설계의 핵심 개념을 다룬다. DB 스키마, 데이터 모델링과 DB 설계의 차이, 설계 단계, ERD(Entity-Relationship Diagram)의 구성 요소 등을 상세히 설명한다. | |
| Aug 6, 2024 | 데이터 저장소의 핵심 개념 | Engineering | 이 글에서는 Data Lake, Data Warehouse, Data Mart의 차이점과 각각의 특징을 설명하고, ODS, Data Lakehouse, NoSQL 및 Graph Databases와 같은 추가적인 데이터 저장소 개념도 함께 정리한다. | |
| Aug 6, 2024 | Data Governance Study - Data Model (3) | Data Governance | 이 블로그에서는 SQL(Structured Query Language)의 기본 개념과 구조를 소개한다. DDL, DML, DCL, TCL 등 SQL의 주요 구성 요소들을 설명하고, 각각의 예시 코드를 제공한다. 또한 SQL의 비절차적 특성과 그 장점을 다루며, 데이터베이스 설계와 SQL 사용에 관한 기초 정보를 제공한다. | |
| Aug 5, 2024 | Data Governance Study - Data Model (2) | Data Governance | 이 블로그에서는 데이터베이스를 처음 접하는 사람들을 위한 데이터베이스의 기본 개념, 중요성, 특성에 대해 설명한다. 데이터베이스 시스템의 구조, 테이블의 구성 요소, 그리고 SQL 쿼리 언어에 대한 소개를 포함하고 있다. | |
| Aug 4, 2024 | Data Governance Study - Data Model (1) | Data Governance | 데이터 거버넌스를 가장 크게 차지하는 부분이 데이터 구조 관리이다. 데이터 구조 관리를 위해 가장 먼저 선행되고 데이터 엔지니어 실무자들이 프로젝트 초기에 공수를 들이는 과정이 Data Modeling이다. | |
| Aug 3, 2024 | Data Governance Study - Data Architecture Management (구조 관리) | Data Governance | 데이터 구조 관리를 위해 Data Architecture와 Data Modeling이 확립되어야 한다. | |
| Aug 2, 2024 | Data Governance Study - Task Process | Data Governance | 데이터 거버넌스에 대한 체계적인 지식 정리와 업무 절차 이해를 위한 항목 | |
| Aug 1, 2024 | Data Governance Study - Basic | Data Governance | 데이터 거버넌스에 대한 체계적인 지식 정리와 업무 절차 이해를 위한 항목 | |
| Jul 17, 2024 | RT-PCR 신호의 함수 자료 분석(FDA) 응용 및 사업 타당성 평가 | Statistics, Data Science, Functional Data Analysis | RT-PCR 증폭 곡선(45 사이클 RFU)을 함수 데이터로 간주하여, 다변량 신호 보정, 증폭 효율 프로파일링, 곡선 유형 분류 및 실시간 품질 관리 등에 FDA를 적용하는 방법론과 그 사업적 가치를 평가한다.Keywords: RT-PCR, Functional Data Analysis, FDA, FPCA, Amplification Efficiency, Molecular Diagnostics, Quality Control, 멀티플렉스 | |
| May 12, 2024 |
Ensemble Retriever Convex Combination(CC) 추가
|
AI, RAG, LangChain | 문서 검색을 위한 다양한 Retriever 패턴과 최적화 기법을 다룬다. | |
| May 11, 2024 | 한글 단어 리트리버 튜닝 | AI, RAG, LangChain | 문서 검색을 위한 다양한 Retriever 패턴과 최적화 기법을 다룬다. | |
| May 10, 2024 | 시간 가중 벡터저장소 검색기(TimeWeightedVectorStoreRetriever) | AI, RAG, LangChain, Agent | 의미론적 유사성과 시간 감쇠를 결합하여 최신성과 관련성을 동시에 고려하는 TimeWeightedVectorStoreRetriever의 원리와 활용 방법을 다룬다. | |
| May 9, 2024 | 셀프 쿼리 검색기(Self-Query Retriever) | AI, RAG, LangChain, Agent | 자연어 질의를 구조화된 쿼리로 변환하여 메타데이터 필터링과 의미적 검색을 동시에 수행하는 SelfQueryRetriever의 원리와 활용 방법을 다룬다. | |
| May 8, 2024 | MultiVectorRetriever | AI, RAG, LangChain, Agent | 한 문서에 여러 벡터를 생성하여 다양한 관점에서 검색할 수 있는 MultiVectorRetriever의 원리와 구현 방법을 다룬다. DocStore와 VectorStore를 동시에 활용하여 청크 단위 검색과 원본 문서 반환을 유연하게 조합하는 전략을 학습한다. | |
| May 7, 2024 | MultiQueryRetriever | AI, RAG, LangChain, Agent | 사용자의 단일 쿼리를 여러 관점의 다양한 쿼리로 확장하여 검색 결과를 풍부하게 만드는 MultiQueryRetriever의 원리와 구현 방법을 다룬다. 거리 기반 벡터 검색의 한계를 극복하고 더 포괄적인 검색 결과를 얻는 전략을 학습한다. | |
| May 6, 2024 | Parent Document Retriever | AI, RAG, LangChain, Agent | 문서 청킹의 딜레마(정확한 임베딩 vs 충분한 맥락)를 해결하기 위해 ParentDocumentRetriever가 작은 청크로 검색하고 큰 청크를 반환하는 계층적 검색 전략을 다룬다. | |
| May 4, 2024 | 긴 문맥 재정렬(LongContextReorder) | AI, RAG, LangChain, Agent | LLM이 긴 문맥의 중간 정보를 간과하는 ‘Lost in the Middle’ 현상의 원인을 분석한다. Context window 크기와의 관계, Attention 희석 메커니즘, Long context 모델의 이중 취약성을 다루고, LangChain의 LongContextReorder와 시맨틱 태그 기반 프롬프트 구조화를 통한 대응 전략을 정리한다. | |
| May 3, 2024 | 앙상블 검색기(Ensemble Retriever) | AI, RAG, LangChain, Agent | 문서 검색을 위한 다양한 Retriever 패턴과 최적화 기법을 다룬다. | |
| May 2, 2024 | 문맥 압축 검색기(ContextualCompressionRetriever) | AI, RAG, LangChain, Agent | 문서 검색을 위한 다양한 Retriever 패턴과 최적화 기법을 다룬다. | |
| May 1, 2024 | 벡터스토어 기반 검색기(VectorStore-backed Retriever) | AI, RAG, LangChain | 문서 검색을 위한 다양한 Retriever 패턴과 최적화 기법을 다룬다. | |
| Mar 15, 2024 | OCR | Engineering | template | |
| Jan 25, 2024 | Linux_Error_Fix_rm_cannot_remove_files_busy | Engineering | rm: cannot remove ‘files’: Device or resource busy” 오류 메시지는 유닉스나 리눅스 환경에서 시스템이나 어플리케이션이 사용 중인 디렉토리나 파일을 삭제하려고 할 때 흔히 발생한다. 그 대처법을 알아보자. | |
| Jan 25, 2024 | Visitor Tracking | Engineering | Basic HTTP Methods | |
| Jan 25, 2024 | Website Monetization | Engineering | Basic HTTP Methods | |
| Jan 2, 2024 | Azure DevOps 브랜치 전략 가이드 | Engineering, DevOps, Git | Azure DevOps에서 GitFlow, GitHub Flow 등 다양한 브랜치 전략을 적용하는 방법을 알아본다. Branch Policy, Pull Request, CI/CD 파이프라인과의 통합을 통해 안전하고 효율적인 코드 관리 방법을 제시한다. | |
| Jan 1, 2024 | Azure DevOps 소개 | Engineering, DevOps | Azure DevOps의 핵심 개념과 구조를 알아보고, 각 서비스 구성 요소의 역할과 특징을 이해한다. 개발팀이 효율적으로 협업하고 CI/CD 파이프라인을 구축하는 방법을 소개한다. | |
| Dec 5, 2023 | Shell 핵심 개념 정리 | Engineering, Infra, Shell, OS | Shell과 관련된 기본 개념을 실용적인 예시와 함께 간결하게 정리한다. Shell과 Kernel 차이, Bash/Zsh/Fish 비교, WSL에서의 동작 방식, Shell script 기본 구조, Conda/Poetry/Git의 ‘초기화’ 개념을 각각 10줄 내외로 설명한다. | |
| Jul 2, 2023 | 정규 표현식 완전 정복 | Engineering, Python | Python 표준 라이브러리 re 모듈을 활용한 정규 표현식의 이론과 실전을 다룬다. 메타 문자(^, $, [], .), 반복자(*, +, ?, {m,n}), 그룹화와 backreference, 특수 문자(, , , re 탐색 함수 4가지, Flags, re.compile과 Match 객체, 그리고 핸드폰 번호 추출, CSV 필드 추출, 개인정보 마스킹, 주민번호 변환, HTML 태그 제거 등 실전 활용 사례 6가지를 패턴 설계 사고법과 함께 완전히 해부한다. | |
| Jul 2, 2023 | 알고리즘 복잡도와 Big-O 표기법 | Engineering, Python, Algorithm | 알고리즘의 정의와 4가지 핵심 특징(입출력, 유한성, 정확성, 효율성)을 이해하고, 시간·공간 복잡도와 Big-O 표기법을 통해 알고리즘 효율성을 측정하는 방법을 다룬다. O(n), O(n²), O(log n)의 코드 패턴과 실제 성능 차이를 비교 분석한다. | |
| Jul 2, 2023 | 파이썬 입문: 컴퓨터 과학부터 개발환경 설정까지 | Engineering, Python | 파이썬을 처음 배우는 사람을 위한 입문 가이드이다. 컴퓨터 과학의 기본 개념부터 시작하여 프로그래밍 언어의 종류(컴파일 vs 인터프리터), 파이썬의 특징과 장점, 그리고 개발환경 설정까지 체계적으로 다룬다. 이 글을 통해 파이썬 학습의 첫걸음을 내딛을 수 있다. | |
| Jul 2, 2023 | Python 변수와 데이터 타입 | Engineering, Python | 파이썬의 변수 선언 방식, 동적 타이핑 특성, 기본 데이터 타입(int, float, str, bool, list, tuple, dict, set)을 다룬다. | |
| Jul 2, 2023 | 함수: 코드 재사용과 구조화의 핵심 | Engineering, Python | 파이썬에서 함수는 코드 재사용성과 유지보수성을 높이는 핵심 도구이다. 이 글에서는 함수의 정의와 호출, 다양한 매개변수 유형(기본 매개변수, 키워드 인자, *args, **kwargs), 그리고 변수의 스코프와 LEGB 규칙까지 체계적으로 다룬다. | |
| Jul 2, 2023 | 모듈과 패키지: 코드를 파일과 디렉토리로 조직화하기 | Engineering, Python | 파이썬에서 모듈과 패키지는 코드를 파일과 디렉토리 단위로 조직화하는 핵심 도구이다. 이 글에서는 모듈의 정의와 import 방식, 패키지 구조, 표준 라이브러리와 pip 사용법, 그리고 가상환경까지 체계적으로 다룬다. | |
| Jul 2, 2023 | 상속과 합성: 클래스 관계 설계의 두 가지 축 | Engineering, Python | 객체지향 프로그래밍(OOP)은 복잡한 현실 세계를 소프트웨어로 모델링하기 위한 사고 체계다. 이 글에서는 OOP가 등장한 배경부터 클래스와 객체의 관계, 멤버 변수와 메소드의 동작 원리, 그리고 상속, 추상화, 캡슐화, 다형성이라는 4대 원칙을 다룬다. 마지막으로 은행 계좌 관리 시스템이라는 실전 프로젝트를 통해 모든 개념을 통합 적용한다. | |
| Jul 2, 2023 | 추상화와 추상 베이스 클래스 (ABC) | Engineering, Python | 추상화(Abstraction)는 OOP의 핵심 원칙 중 하나로, 공통점을 상위 클래스로 추출하고 구현 세부사항을 숨기는 방법이다. Python의 abc 모듈은 이를 코드 수준에서 강제하는 메커니즘을 제공한다. 추상 메서드와 추상 프로퍼티를 통해 하위 클래스가 반드시 구현해야 할 인터페이스를 정의하고, 대규모 팀 개발에서 일관된 설계 계약을 보장한다. | |
| Jul 2, 2023 | 캡슐화와 다형성: 데이터 보호와 인터페이스 일관성 | Engineering, Python | 캡슐화(Encapsulation)는 객체 내부 데이터를 외부로부터 보호하고 메소드를 통해서만 접근하도록 강제하여 데이터 무결성을 보장한다. 다형성(Polymorphism)은 동일한 인터페이스가 객체 타입에 따라 다르게 동작하게 하여 확장성을 높인다. 이 글에서는 접근 제어자, private 속성, getter/setter, @property 패턴, 메소드 오버라이딩, 덕 타이핑을 다루고, 은행 계좌 관리 시스템 실전 프로젝트로 모든 개념을 통합한다. | |
| Jul 1, 2023 | Vectorization in Python | Engineering | 파이썬에서 벡터화(Vectorization)는 반복문을 사용하는 대신 NumPy나 Pandas와 같은 라이브러리를 활용하여 데이터 전체에 대한 연산을 한 번에 수행하는 방식이다. 벡터화된 연산은 C로 작성된 최적화된 코드를 사용하므로 일반 Python 반복문보다 훨씬 빠르며, 코드가 더 간결해지고 메모리 사용이 효율적이며 내부적으로 병렬 처리를 활용할 수 있다는 장점이 있다. | |
| Jul 1, 2023 | Python Decorator | Engineering, Python | 파이썬 데코레이터(Decorator)는 함수나 클래스를 수정하지 않고도 기능을 추가하거나 확장할 수 있게 해주는 강력한 문법이다. @기호를 사용해 함수 위에 선언하며, 로깅, 인증, 성능 측정, 캐싱 등의 공통 기능을 효과적으로 구현할 수 있다. 데코레이터는 함수를 인자로 받아 새로운 함수를 반환하는 고차 함수(Higher-order function)의 개념을 바탕으로 한다. | |
| Jul 1, 2023 | Pathlib Library | Engineering |
pathlib은 Python의 표준 라이브러리 중 하나로, 파일 시스템 경로를 객체 지향적인 방식으로 쉽게 다룰 수 있게 해주는 모듈이다. 이전에는 파일 시스템 경로를 문자열로 처리했지만, pathlib을 사용하면 경로를 Path 객체로 표현하여 경로에 대한 다양한 작업을 보다 직관적이고 효율적으로 수행할 수 있다.
|
|
| Jul 1, 2023 | Python 제어 흐름문 (Control Flow Statements) | Engineering, Python, Control Flow | Python의 제어 흐름문은 프로그램의 실행 흐름을 제어하는 핵심 구문이다. 예외 처리를 위한 try-except-finally 구문은 에러 발생 시에도 프로그램이 안전하게 동작하도록 보장하며, break와 continue는 반복문의 실행 흐름을 세밀하게 제어한다. 이러한 제어문들을 적절히 활용하면 견고하고 유연한 프로그램을 작성할 수 있다. | |
| Jul 1, 2023 | Python with Statement | Engineering, Python, Context Manager | Python의 with statement는 파일, 데이터베이스 연결, 네트워크 소켓 등의 리소스를 안전하게 관리하기 위한 컨텍스트 관리자(Context Manager) 프로토콜이다. with 블록을 사용하면 리소스의 획득과 해제를 자동으로 처리하여 메모리 누수를 방지하고, 예외 발생 시에도 리소스가 적절히 정리되도록 보장한다. 클래스 기반과 데코레이터 기반의 두 가지 방식으로 커스텀 Context Manager를 구현할 수 있다. | |
| May 23, 2023 | Measures of Risk: Relative Risk & Odds Ratio | Epidemiology | By considering relative risk and odds ratio instead of solely relying on counts in a contingency table, you gain a more comprehensive understanding of the relationship between an exposure and an outcome. These measures provide a standardized way to quantify the association and assess the impact of exposure on the risk of the outcome. They facilitate comparisons between different groups or populations and help guide decision-making in areas such as public health interventions, clinical practice, and research studies. | |
| May 14, 2023 | Git 고급 기능 | Engineering, Git, DevOps | Git의 고급 기능들을 소개한다. git bisect로 버그 커밋 찾기, submodule로 외부 저장소 관리, worktree로 동시 브랜치 작업, hooks로 자동화, alias로 명령어 단축까지 실무에서 유용한 기능들을 다룬다. | |
| May 13, 2023 | Git Cherry-pick | Engineering, Git, DevOps | Git Cherry-pick을 사용하여 특정 커밋을 다른 브랜치에 선택적으로 적용하는 방법을 설명한다. cherry-pick의 개념, 사용법, 충돌 해결, 실전 활용 시나리오를 다룬다. | |
| May 12, 2023 | .gitignore 심화 가이드 | Engineering, Git, DevOps | .gitignore 파일의 패턴 문법, 언어/프레임워크별 템플릿, 이미 추적된 파일 제거 방법, 글로벌 gitignore 설정 등 .gitignore를 효과적으로 활용하는 방법을 상세히 다룬다. | |
| May 11, 2023 | Git Tag와 릴리스 관리 | Engineering, Git, DevOps | Git Tag를 사용하여 특정 커밋에 버전 번호를 부여하고, 릴리스를 체계적으로 관리하는 방법을 설명한다. Lightweight Tag, Annotated Tag의 차이와 Semantic Versioning 규칙을 다룬다. | |
| May 10, 2023 | Git Stash | Engineering, Git, DevOps | Git Stash를 사용하여 작업 중인 변경사항을 임시로 저장하고, 다른 작업을 수행한 후 원래 작업으로 돌아오는 방법을 설명한다. stash의 기본 사용법부터 여러 stash 관리, 브랜치 활용까지 다룬다. | |
| May 9, 2023 | Git 되돌리기 완전 가이드 | Engineering, Git, DevOps | Git에서 실수를 되돌리는 다양한 방법을 상황별로 정리한다. 파일 수정 취소, 스테이징 취소, 커밋 취소, 커밋 메시지 수정, push된 커밋 되돌리기 등 실무에서 자주 겪는 상황별 해결법을 다룬다. | |
| May 8, 2023 | Git Merge vs Rebase | Engineering, Git, DevOps | Git에서 브랜치를 통합하는 두 가지 핵심 방법인 Merge와 Rebase의 차이점을 시각적으로 비교하고, 각각의 장단점과 실무에서의 선택 기준을 설명한다. Fast-forward merge, 3-way merge, interactive rebase까지 다룬다. | |
| May 7, 2023 | GitHub 로컬 저장소와 원격 저장소 연결 문제 해결 | Engineering, DevOps, Git | 로컬 디렉토리를 먼저 생성한 후 GitHub 저장소를 나중에 만들었을 때 발생하는 연결 문제와 해결 방법을 다룬다. Git remote 관리, 브랜치 이름 충돌(main/master), origin 재설정 등 실무에서 자주 겪는 상황을 단계별로 설명한다. | |
| May 6, 2023 | Git 그래프 시각화 | Engineering, Git | Git의 복잡한 브랜치 구조와 커밋 히스토리를 그래프로 시각화하는 다양한 방법을 알아본다. 터미널에서의 기본 명령어부터 GUI 도구까지, 프로젝트 히스토리를 효과적으로 파악하기 위한 기법들을 소개한다. | |
| May 5, 2023 | GitHub Pull Request | Engineering, Git | Python으로 작성된 간단한 계산기 프로젝트를 통해 GitHub Pull Request 생성 및 병합 과정을 단계별로 실습한다. | |
| May 4, 2023 | Git Branch Policy | Engineering, Git | 다양한 Git 브랜치 전략(Git Flow, GitHub Flow, GitLab Flow)을 비교 분석하고, 각 전략의 특징, 장단점, 적합한 프로젝트 유형을 설명하여 팀에 맞는 최적의 브랜치 전략 선택을 돕는다. | |
| May 3, 2023 | Git 브랜치: 개념부터 실전 전략까지 | Engineering, Git | Git 브랜치의 개념, 주요 명령어(생성, 전환, 병합, 삭제), 원격 브랜치 관리, 충돌 해결, 다양한 브랜치 전략 및 푸시 워크플로우를 상세히 알아본다. | |
| May 2, 2023 | Git 기본 워크플로우 | Engineering, Git, DevOps | Git의 핵심 명령어(init, add, commit, push, pull, clone, status, diff, log)를 실제 작업 흐름에 맞춰 단계별로 설명한다. .gitignore 기본 설정과 커밋 메시지 작성법도 함께 다룬다. | |
| May 1, 2023 | Deep Learning | Deep Learning, AI |
|
|
| May 1, 2023 | Airflow Introduction | Engineering | template | |
| May 1, 2023 | Environment Setting for Airflow | Engineering | template | |
| May 1, 2023 | Operator Baisc (Bash Operator) | Engineering | template | |
| May 1, 2023 | Python Operator | Engineering | Airflow의 Python Operator에 op_args로 변수를 할당하는 방법 | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Data Share | Engineering | template | |
| May 1, 2023 | Task Handling Techniques | Engineering | Advanced Techniques to handle tasks (Branch Processing) | |
| May 1, 2023 | More Operators | Engineering | template | |
| May 1, 2023 | Connection & Hook | Engineering | PostgreSQL DB Container 띄우기와 Connection & Hook 설정하기 | |
| May 1, 2023 | Sensor | Engineering | Sensor는 특정 조건이 만족하면 task를 실행하게하는 Operator. 실시간에 가까운 workflow를 가능하게 하는 기능. | |
| May 1, 2023 | Airflow Additional Function | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Template Variabler | Engineering | template | |
| May 1, 2023 | Conda Introduction | Engineering | template | |
| May 1, 2023 | Conda 가상환경 충돌과 백업의 중요성 | Engineering | Conda 가상환경 사용 시 발생할 수 있는 충돌 상황과 이에 대한 백업 전략 | |
| May 1, 2023 | PowerShell에서의 Conda Wrapper 함수 충돌 해결 | Engineering | PowerShell 환경에서 Conda 사용 시 발생하는 wrapper 함수 충돌 문제와 그 해결 과정에 대한 상세한 분석을 다룬다. | |
| May 1, 2023 | Introduction | Engineering | template | |
| May 1, 2023 | Git 개념과 설치 | Engineering, Git, DevOps | Git의 핵심 개념(중앙형 vs 분산형), Git과 GitHub의 차이, OS별 설치 방법, 초기 사용자 설정, GitHub 인증(PAT/SSH) 설정을 다룬다. | |
| May 1, 2023 | VS code Introduction | Engineering | template | |
| May 1, 2023 | Linux Commands | Engineering | template | |
| May 1, 2023 | WSL Install | Engineering | template | |
| May 1, 2023 | GPU와 CUDA를 활용한 딥러닝 환경 구축 | Engineering, Infrastructure | 딥러닝을 위한 GPU와 CUDA의 개념을 이해하고, 실제 환경 구축 방법을 알아본다. NVIDIA GPU를 활용한 딥러닝 가속화 환경을 단계별로 설정하는 방법을 다룬다. | |
| May 1, 2023 | HTTP Method | Engineering | Basic HTTP Methods | |
| Apr 5, 2023 | Infrastructure Security | Engineering | AWS | |
| Apr 2, 2023 | 데이터베이스 연결 방법과 도구 | Engineering | 이 글에서는 Cloud 데이터베이스 연결을 위한 다양한 방법과 도구를 살펴보고, DBeaver IDE, Python SQLAlchemy, SSH 터널링 및 SSL 보안 연결 방법을 설명한다. | |
| Apr 2, 2023 | Matrix Calculus — 행렬·벡터 미분 공식 | Math, Linear Algebra | 행렬과 벡터에 대한 미분(그래디언트·야코비안)을 성분별 유도로 정리한다. 표기 규약부터 이차형식의 그래디언트, OLS 정규방정식의 일반 유도까지 한 페이지에 모은다. Strang MIT 시리즈는 구체 예시 중심이므로, 일반 공식 참조가 필요할 때 이 페이지를 본다. | |
| Mar 31, 2023 | Basics (3) - Special Matrices | Mathematics | template | |
| Mar 25, 2023 | BLUE: Best Linear Unbiased Estimator | Statistics, Linear Regression | BLUE(Best Linear Unbiased Estimator)의 정의와 세 가지 조건을 설명한다. Gauss-Markov 정리를 수학적으로 증명하고, OLS 추정량이 왜 BLUE인지 직관적·형식적으로 이해한다. 가정 위반 시 대안 추정량도 다룬다. | |
| Mar 23, 2023 | Minimizer & Maximizer | Mathematics | template | |
| Mar 23, 2023 | 변수와 데이터 타입 | Statistics, Data Science, Mathematics | 통계와 데이터 분석에서 사용되는 다양한 변수 유형과 데이터 타입을 체계적으로 분류하고 정의한다. | |
| Mar 18, 2023 | Storage and Database | Engineering | AWS | |
| Mar 18, 2023 | Storage and Database | Engineering | AWS | |
| Mar 18, 2023 | Differentiation - Higher Order Derivative | Mathematics | To solve optimization problems, it is required to know about derivatives because derivatives are mostly used 최적화 문제를 풀기위해 미분이 항상 사용되기 떄문에 미분에 대해서 알 필요가 있다. | |
| Mar 17, 2023 | Categorical Data Analysis | Statistics | template | |
| Mar 16, 2023 | Taylor’s Series | Mathematics | 정의 1 A sequence is a list of numbers written in a definite order: \[ a_1, a_2, a_3, \dots, a_n, a_{n+1} \dots \] | |
| Mar 14, 2023 | \(\epsilon - \delta\) Method | Mathematics | Pre-requisite for convergence in probability and convergence in distribution. | |
| Mar 14, 2023 | 산술평균·기하평균·조화평균 비교 | Mathematics, Statistics, Data Science, Machine Learning | 산술평균(Arithmetic Mean), 기하평균(Geometric Mean), 조화평균(Harmonic Mean)의 정의·수식·직관을 비교한다. 언제 어떤 평균을 써야 하는지, F1 Score·속도·수익률 등 실무 예시를 통해 설명한다. AM-GM-HM 부등식과 세 평균의 관계도 다룬다. | |
| Mar 10, 2023 | CNN | Deep Learning | Affine Layer는 인접하는 Layers의 nodes가 모두 연결되고 출력의 수가 임의로 정해지는 특징을 갖는데 이 때 data shape가 무시가 되는 단점이 있다. 이미지 데이터는 보통 (weight, height, color channel) 형태의 shape를 갖지만 MLP에서 이 3차원 구조가… | |
| Mar 9, 2023 | Computing and Networking | Engineering | AWS | |
| Feb 18, 2023 | 함수의 변환 | Mathematics, Statistics, Data Science | 함수의 평행이동, 신축, 대칭 변환의 원리와 통계학에서의 표준화 적용을 Python 시각화와 함께 다룬다. | |
| Feb 10, 2023 | Differentiation - Chain Rule & Partial Derivative | Mathematics | To solve optimization problems, it is required to know about derivatives because derivatives are mostly used 최적화 문제를 풀기위해 미분이 항상 사용되기 떄문에 미분에 대해서 알 필요가 있다. | |
| Feb 4, 2023 | Differentiation - Univariabe Function | Mathematics | To solve optimization problems, it is required to know about derivatives because derivatives are mostly used 최적화 문제를 풀기위해 미분이 항상 사용되기 떄문에 미분에 대해서 알 필요가 있다. | |
| Feb 3, 2023 | Data Structure (9) Priority Queue | Engineering, Data Structure | 우선순위 큐는 힙 구조를 기반으로 삽입과 삭제 모두 \(O(\log N)\) 에 동작하며 최단 경로 알고리즘 등에 활용된다. | |
| Feb 3, 2023 | Pytorch Introduction | ML | Learn how to manipulate Pytorch, one of the most commonly used Python frameworks to implement machine learning algorithms using Python. 파이썬을 이용하여 머신러닝 알고리즘을 구현하기 위해 가장 대표적으로 쓰이는 파이썬 package중 하나인 Tensor flow조작법에 대해 알아본다. | |
| Feb 3, 2023 | Tensor Introduction | ML | Learn how to manipulate Tensor flow, one of the most commonly used Python frameworks to implement machine learning algorithms using Python. 파이썬을 이용하여 머신러닝 알고리즘을 구현하기 위해 가장 대표적으로 쓰이는 파이썬 package중 하나인 Tensor flow조작법에 대해 알아본다. | |
| Jan 31, 2023 | Composite Function | Mathematics | template | |
| Jan 31, 2023 | Function | Mathematics | template | |
| Jan 31, 2023 | Function - Multivariable Scalar Function | Mathematics | template | |
| Jan 31, 2023 | Function - Multivariable Vector Function | Mathematics | template | |
| Jan 31, 2023 | Function - Univariable Scalar Function | Mathematics | template | |
| Jan 31, 2023 | Function - Univariable Vector Function | Mathematics | template | |
| Jan 27, 2023 | Data Structure (8) Binary Search Tree | Engineering, Data Structure | 이진 탐색 트리는 계층적 구조로 탐색, 삽입, 삭제를 평균 \(O(\log N)\) 에 수행하는 자료구조다. | |
| Jan 26, 2023 | Data Structure (7) Deque | Engineering, Data Structure | 덱은 양쪽 끝에서 삽입/삭제가 모두 \(O(1)\) 에 가능한 자료구조로, 스택과 큐의 기능을 동시에 제공한다. | |
| Jan 20, 2023 | Data Structure (10) Graph | Engineering, Data Structure | 그래프는 정점과 간선으로 구성된 자료구조로 소셜 네트워크, 최단 경로, 추천 시스템 등에 활용된다. | |
| Jan 19, 2023 | Data Structure (5) Stack | Engineering, Data Structure | 스택은 LIFO 방식의 자료구조로 함수 호출, DFS, 괄호 검사 등 다양한 알고리즘에 활용된다. | |
| Jan 19, 2023 | Data Structure (6) Queue | Engineering, Data Structure | 큐는 FIFO 방식의 자료구조로 BFS, 작업 큐, 프로세스 스케줄링 등에 활용된다. | |
| Jan 18, 2023 | Data Structure (2) Array | Engineering, Data Structure | 배열은 인덱스 기반 접근이 \(O(1)\) 인 가장 기본적인 자료구조다. 연속 메모리 할당으로 캐시 효율이 높다. | |
| Jan 18, 2023 | Data Structure (3) Linked List | Engineering, Data Structure | 연결 리스트는 노드와 포인터로 구성되어 삽입/삭제가 \(O(1)\) 에 가능한 자료구조다. 동적 크기 조정에 유리하다. | |
| Jan 17, 2023 | Data Structure (0) 시간·공간 복잡도 분석 | Engineering, Data Structure | 알고리즘 성능을 측정하는 Big-O 표기법의 계산 방법을 체계적으로 정리한다. 코드 패턴별 복잡도 읽는 법, 재귀 점화식, 분할 상환 분석까지 다룬다. | |
| Jan 17, 2023 | Data Structure (1) Overview | Engineering, Data Structure | 자료구조는 다수의 데이터를 효율적으로 저장하고 처리하기 위한 구조다. 알고리즘 성능은 자료구조 선택에 따라 달라진다. | |
| Jan 17, 2023 | Data Structure (4) Python List | Engineering, Data Structure | 파이썬 리스트는 동적 배열로 배열과 스택 기능을 제공한다. 각 메서드의 시간 복잡도를 이해하면 효율적인 코드 작성이 가능하다. | |
| Jan 16, 2023 | Normality Check | Statistics | normality check | |
| Jan 3, 2023 | Azure Boards 작업 항목 작성 가이드 | Engineering, DevOps | Azure Boards에서 작업 항목을 체계적으로 작성하고 관리하는 실용적인 방법을 알아본다. 실제 프로젝트 예시를 통해 Epic부터 Task까지의 계층 구조와 작성 원칙을 이해한다. | |
| Jan 2, 2023 | Pandas Copy Operations | Engineering, Python | 파이썬 pandas에서 .copy() 메서드의 역할과 중요성을 이해하고, 얕은 복사(shallow copy)와 깊은 복사(deep copy)의 차이점, 그리고 SettingWithCopyWarning이 발생하는 원인과 해결 방법을 알아본다. 데이터프레임 조작 시 메모리 관리와 예상치 못한 부작용을 방지하는 방법을 다룬다. | |
| Jan 1, 2023 | Package Management - 1 | Engineering | Engineering for Data Science | |
| Jan 1, 2023 | Engineering | Engineering | Engineering for Data Science & Machine Learning Engineer | |
| Jan 1, 2023 | Surveilance | Surveilance | Any business that directly or indirectly affects human health or life must comply with regulations regarding inspection, testing, verification and validation. It is necessary to systematically manage and document risks by arranging regulatory policy data for the medical and IT industry. These materials are rigorous and conservative, so there are various documents for each case, but the underlying principles have the same root. This blog section summarises and organizes documents with fundamental explanations of regulation for each area. 사람의 건강이나 생명에 직 간접적으로 영향을 미치는 어떠한 비즈니스는 검사, 테스트, 검증 및 인증에 관한 규정을 준수해야한다. 의료분야와 IT 분야에 대한 규정 방침 자료를 정리하여 체계적인 위험 관리를 해야한다. 이러한 자료들은 엄격하고 보수적이어서 각 사례마다 다양한 문서들이 존재하지만 그 근본 원리는 같다. 이 블로그에서는 각 영역마다 근본이 되는 문서들을 요약 및 정리한다. | |
| Dec 28, 2022 | FDA Software Validation Guidance Presentation | Surveilance | The purpose of this article is to help understand the summary of the ‘General Principles of the ’Software Validation; Final Guidance for Industry and FDA Staff’ document issued on 2002-01-11. This article provides short sentences with many diagrams for intuitive understanding. | |
| Dec 15, 2022 | FDA Software Validation Guidance Summary | Surveilance | The purpose of this blog is to get a rough concept of the FDA approval process by making a summary of the ‘General Principles of the ’Software Validation; Final Guidance for Industry and FDA Staff’ document issued on 2002-01-11. So far, the document seems to be still valid taking into account that its guidance for the FDA approval are broad, general, and comprehensive, and that many recent FDA documents supplement it. | |
| Jul 17, 2022 | 볼록 조합(Convex Combination)의 이론과 응용 | Mathematics, Optimization, Machine Learning | 볼록 조합의 정의, 기하학적 해석, 최적화 이론에서의 역할, 그리고 머신러닝(Elastic Net, RKHS)과 다양한 분야에서의 응용을 다룬다. Keywords: convex combination, convex optimization, elastic net, RKHS, reproducing kernel hilbert space, 볼록 조합, 볼록 최적화 | |
| Mar 1, 2022 | Statistics | Statistics | 확률론부터 추정, 검정, 회귀, 종단 분석, 생존 분석, FDA까지 Casella & Berger의 체계를 뼈대로, 응용 분야를 확장하는 통계학 콘텐츠 목록이다. |