1 정의
1979 년 미국 The National Commission for the Protection of Human Subjects 가 발표한 보고서. 이후 Common Rule (1991) 로 actionable review criteria 화. Tuskegee·Milgram 사고의 직접적 산물.
3 원칙 (Kohavi, Tang, Xu, 2020, Ch.9.1).
| 원칙 | 정의 | 운영 결과 |
|---|---|---|
| Respect for Persons | 자율적 행위자로 대우 (가능 시), 보호 (자율 불가 시) | Transparency, truthfulness, voluntariness (consent) |
| Beneficence | Risk 최소화, benefit 최대화 (Belmont) / 적절한 균형 평가 (Common Rule) | IRB 의 risk·benefit assessment |
| Justice | Risk·benefit 의 공정 분배, 착취 금지 | 취약 집단 보호, fair selection |
핵심 통찰: 의료 분야는 substantial harm 가능성이 높음. 따라서 individual informed consent 가 표준. 온라인 실험은 minimal risk 가 일반적이지만 scale (수억 명) 이 큼. 따라서 적응적 적용 필요.
원문 인용 (Resnick 2015): “Ethics… govern the rules of conduct that ensure the integrity of the results, the values essential for collaborative work, public accountability, as well as moral and social values, including both public safety and the protection of human subjects.”
2 개념 및 원리
2.1 Background — 역사적 사고가 framework 을 만들었다
Belmont Report·Common Rule 의 직접 origin 은 두 사고.
2.1.1 Tuskegee Syphilis Study (1932~1972)
- US Public Health Service 가 흑인 남성 600 명 (399 명 syphilis 양성, 201 명 음성) 모집
- 연구 목적 비공개 (“bad blood” 치료 명목)
- 1947 년 페니실린이 syphilis 표준 치료가 된 후에도 치료 제공 안 함
- 40 년 후 1972 년 언론 폭로로 종결
윤리 위반:
- Informed consent 전무 (목적 미공개)
- 효과적 치료 보류 (Beneficence 위반)
- 흑인 취약 집단 표적 (Justice 위반)
이 사고가 1979 Belmont Report 의 직접 원인.
2.1.2 Milgram Experiment (1961~1962)
- Yale 대학 Stanley Milgram 의 obedience 연구
- Volunteer 가 “학습자” (실은 actor) 에게 전기 충격 (실은 가짜) 을 주는 실험
- “권위자 명령에 복종하는가” 검증
- 65% 의 volunteer 가 lethal 수준 충격까지 진행
윤리 위반:
- Deception (학습자가 actor 임을 숨김)
- 심리적 harm (volunteer 의 죄책감, trauma)
- Withdraw 권리 침해 (실험자가 “계속하세요” 압박)
이 사고가 심리학 IRB 표준의 trigger.
윤리 framework 은 선험적 도덕론 이 아니라 사고 history 의 결과.
Tuskegee (1932~1972) → 1979 Belmont Report
Milgram (1961~1962) → 심리학 IRB 표준
Facebook contagion (2014) → 산업 IRB 도입 가속
OKCupid (2014) → Deception 실험 별도 review
이 패턴이 의미하는 것: 현재 framework 은 미완성. 미래 사고가 추가 framework 을 강제할 것. 온라인 실험 윤리는 active 영역.
따라서 회사가 IRB 운영 시 사고에 적응할 수 있는 framework 이 중요. 정적 체크리스트가 아닌 학습 시스템.
2.2 Risk — Minimal Risk 의 정의와 점검
“The probability and magnitude of harm or discomfort anticipated in the research are not greater in and of themselves than those ordinarily encountered in daily life or during the performance of routine physical or psychological examinations or tests.”
번역: 연구 참여로 받는 harm·discomfort 가 일상 생활 또는 routine examination 의 risk 를 초과하지 않는다.
5 종류 harm 분류 (저자 명시).
| Harm 종류 | 예시 |
|---|---|
| Physical | 의료 부작용, 신체 부상 |
| Psychological | 우울, 불안, 외상 |
| Emotional | 분노, 공포, 슬픔 유발 |
| Social | 평판 손상, 관계 손상 |
| Economic | 금전 손실, 기회 손실 |
온라인 실험에서 가장 흔한 risk: Psychological + Emotional + Economic.
2.2.1 Equipoise — Risk 평가의 핵심 도구
전문가 커뮤니티가 두 처치 사이에서 genuine uncertainty 를 가진 상태.
- Equipoise: “A 가 B 보다 좋은지 정말 모름”
- No Equipoise: “A 가 명백히 좋다는 합의”
Equipoise 검사 흐름.
실험 변경 X 제안
↓
"전문가가 X 가 control 보다 더 좋다고 confident 하는가?"
├─ No equipoise (X 명백히 inferior) → 일반 RCT 윤리적으로 어려움
├─ Equipoise 있음 (모름) → 일반 RCT 윤리적
└─ No equipoise (X 명백히 superior) → control 사용자에게 inferior 강요?
대부분 온라인 변경은 첫 equipoise 충족 (어느 variant 가 좋은지 모름). 예외는 후속 Benefits 섹션에서 다룬다.
2.2.2 A/B Illusion 의 핵심 litmus test
“실험을 통한 변경 노출 (50%) 이 변경 자체 (100%) 보다 ethically suspect 하다” 는 잘못된 직관.
Litmus test: 만약 X 를 100% 사용자에게 ship 할 수 있다면, 50% 에게 ship 하면서 측정하는 것도 윤리적이어야 한다.
원문 (Meyer 2015): “Shipping code is, in fact, an experiment. It may not be a controlled experiment, but rather an inefficient sequential test where one looks at the time series; if key metrics (e.g., revenue, user feedback) are negative, the feature is rolled back.”
A/B Illusion 의 함의:
- Ship 가능하면 실험 가능 — 윤리 risk 의 본질은 변경 자체, 실험 형태 아님
- 시간차이만 차이 — 100% ship 은 즉시 모두 영향, 50% 실험은 일시적 50%
- 실험은 측정 도구 — 윤리 risk 를 추가하지 않음, risk 측정 도구
가정 깨짐: “실험 형태 (50/50) 자체가 unethical”.
결과:
- 모든 변경을 100% 즉시 ship 으로 강제 → quality·safety 측정 불가
- 사용자가 더 많은 unfiltered 변경 노출 (rollback 까지 시간 차이)
- “Inefficient sequential test” 가 표준 → controlled 실험보다 더 많은 사용자 영향
저자 강조: 100% ship 자체가 사실 sequential 실험. 단지 통제 안 된 형태. 따라서 controlled A/B 가 더 윤리적인 경우 많음.
이 직관이 ethical review 의 출발점. “실험을 막는 것” 이 아니라 “더 좋은 실험을 만드는 것”.
2.3 401k Peer Effect 사례 — 의도와 결과의 gap
저자가 인용한 핵심 사례 (Beshears et al. 2011, Meyer 2015 재인용).
2.3.1 시나리오
회사 head 가 직원 retirement saving 부족을 우려.
가설: 401k mailing 에 “본인 또래 중 X% 가 자동 enroll 했다” 정보 추가 → peer effect 로 enroll ↑.
가설 근거: peer effects 의 일반 행동경제학 결과 (Cialdini, Thaler 등).
2.3.2 의도
- Risk: minimal (정보 제공뿐)
- Benefit: enroll 률 증가 → 직원 retirement 안정성
- Equipoise: peer info 가 효과 있을지 모름
2.3.3 결과 (Beshears et al. 2011)
의도와 반대: enroll 률 감소.
메커니즘 (가설): “또래의 X% 가 enroll” 정보가 oppositional reaction 유발. “내가 또래만큼 well- off 가 아니다” 의 negative comparison → enroll 회피.
이 사례의 메시지: 잘 의도된 변경도 의도와 반대 결과 가능.
의도: peer effect → enroll ↑
실제: oppositional reaction → enroll ↓
Hypothesized peer effect 와 actual oppositional reaction 의 gap 은 사전에 알 수 없다.
따라서:
- Ship before testing 의 위험 — 회사 head 가 100% ship 했다면 모든 직원이 부정 영향
- 실험의 보호 기능 — 실험으로 발견했기 때문에 변경 reverse 가능, 50% 만 영향
- A/B Illusion 의 사례 — 100% ship 보다 50% 실험이 더 ethical
이 사례는 A/B Illusion 의 가장 강한 증명. 실험은 사용자를 보호하는 도구, 위험에 노출시키는 도구가 아니다.
2.4 Benefits — 누구에게, 어떻게 측정하는가
저자가 분류한 benefit 의 3 가지 형태.
| Benefit 형태 | 설명 | 예시 |
|---|---|---|
| Direct to Treatment users | 실험 그룹 사용자가 직접 benefit | 새 feature 사용성 ↑ |
| All users (post-launch) | 실험 결과로 전체 사용자 benefit | A/B 검증 후 launch → 모두에게 benefit |
| Indirect (sustainable business) | 비즈니스 지속 가능성 → 장기 user benefit | Ads revenue → 무료 서비스 지속 |
2.4.1 Trickier Case 1 — 의도적 inferior 처치 실험
저자가 명시한 3 가지 사례:
- Slowdown experiment (Ch.5) — 의도적 페이지 지연
- More ads (Ch.23) — 광고 노출 증가의 장기 효과
- Recommendation off — recommendation 비활성화의 가치 측정
이들은 equipoise 위반 (treatment 가 inferior 합의). 그러나:
- Risk: minimal (사용자가 명시적 harm 없음)
- Benefit: trade-off 정량화 → 모든 사용자 long-term benefit
- No deception (사용자에게 거짓 정보 없음, 단지 일시적 inferior 노출)
따라서 equipoise 위반에도 윤리적 정당화 가능. 의약품 toxicity study 와 평행.
신약 toxicity study 의 윤리 정당화:
- “이 약을 너무 많이 먹으면 나쁘다” 는 사전 합의 (equipoise 없음)
- 그러나 얼마나, 얼마나 나쁜지 모름 → 측정 가치
- IRB 가 risk·benefit 평가 후 승인
A/B 의 slowdown 실험:
- “느리면 나쁘다” 는 합의 (equipoise 없음)
- 얼마나 느려야 얼마나 나쁜지 모름 → 측정 가치
- IRB 가 risk·benefit 평가 후 승인
평행이 그대로 성립. 차이는 risk magnitude — 의약품 RCT 는 사망 가능, slowdown 은 페이지 지연. 따라서 risk-proportional review.
2.4.2 Trickier Case 2 — Deception 실험
저자 명시 (Benbunan-Fich 2017): deception 실험은 다른 윤리 risk profile.
Code/Algorithm 변경 실험 (일반 A/B):
- 실제 알고리즘 변경
- No deception
- 윤리 risk: minimal
Deception 실험 (C/D experimentation):
- 의도적 거짓 정보 (OKCupid match score)
- 사용자 결정에 false input
- 윤리 risk: 높음
OKCupid 사례가 deception 의 prototype. Power-of-suggestion 실험 + 관계의 영역 의 결합으로 risk profile 특히 높음.
저자 입장: deception 실험은 separate ethical review 필요. 일반 A/B 와 다른 IRB 절차.
2.5 Informed Consent 의 디지털 적응
의료 RCT 는 individual consent 표준. 온라인 실험은 적응적 적용.
| 형태 | 정의 | 적용 |
|---|---|---|
| Individual Informed Consent | 각 참여자가 위험·이익·절차 동의 | High-risk 실험 또는 의료 |
| Terms of Service Consent | 일반 ToS 에 데이터·실험 사용 동의 포함 | 대부분 온라인 minimal-risk 실험 |
| Presumptive Consent (King et al. 2017) | 대표 sample 에 동의 의향 조사 후 일반화 | 중간 risk, scale 큰 실험 |
| Waiver of Consent | Common Rule 의 명시 조건 충족 시 면제 | Minimal risk + 다른 조건 충족 |
온라인 실험에서 individual consent 의 비현실성:
- Scale: 수억 명 동의 받기 사실상 불가
- UX 손상: 매 변경마다 popup
- Self-selection bias: 동의자만 실험 → 일반화 어려움
따라서 ToS + presumptive consent 가 표준. 단 deception·high-risk 실험은 individual consent 필요.
3 왜 필요한가
Risk·Benefits framework 부재 시.
- 사고 사례 반복 — Tuskegee·Milgram 평행이 디지털에서 반복 (Facebook·OKCupid 가 그 예)
- 사용자 신뢰 손상 — 한 번의 high-risk 실험이 platform 자체 신뢰 ↓
- 법적 risk — GDPR, HIPAA 등 데이터·동의 규제 위반
- 임원 panic 결정 — 사고 발생 후 over-reaction 으로 모든 실험 중단
Framework 활성 시.
- 사전 차단 — Risk-proportional review 로 high-risk 실험 사전 catch
- 빠른 진행 — Low-risk 실험은 self-checklist 로 빠른 진행
- 사용자 신뢰 — “이 회사는 윤리적” brand 자산
- 법적 안정성 — 규제 변화에 framework 으로 자동 적응
4 응용 사례 — 실험 분류 매트릭스
저자 framework 을 매트릭스로 정리.
| 실험 유형 | Risk | Equipoise | Consent | Review |
|---|---|---|---|---|
| 버튼 색상 변경 | minimal | 있음 | ToS | Self-check |
| 알고리즘 ranking 변경 | minimal | 있음 | ToS | Self-check |
| Slowdown 실험 | minimal-low | 위반 | ToS | Lightweight IRB |
| 광고 노출 ↑ 장기 | low | 위반 | ToS + presumptive | Lightweight IRB |
| 401k peer info | minimal-low | 있음 | ToS | Self-check (sensitive: 금융) |
| Facebook emotional contagion | medium | 있음 | ToS (논란) | Full IRB (논란) |
| OKCupid match deception | high | 있음 | none (deception) | Full IRB or 거부 |
이 매트릭스가 ethical review 의 운영 도구. 회사별 calibration 후 자동 분류.
5 코드 예시 — 401k Peer Effect 시뮬레이션
저자가 인용한 Beshears et al. (2011) 의 의도-결과 gap 시뮬레이션.
import numpy as np
import pandas as pd
from scipy import stats
rng = np.random.default_rng(42)
# 가정: 직원 1000 명. 절반 control (peer info 없음), 절반 treatment (peer info 있음).
n_per_group = 500
# Control: 기본 enroll 률 30%
control_enroll = rng.binomial(1, 0.30, n_per_group)
# Treatment: peer info 노출. 의도된 효과 vs 실제 oppositional reaction.
# 가설 (의도): peer info → enroll ↑ (예: +5%p)
# 실제 (Beshears 결과): oppositional reaction → enroll ↓ (예: -3%p)
# 시나리오 A: 가설대로 효과 발생
treatment_intended = rng.binomial(1, 0.35, n_per_group)
# 시나리오 B: 실제 oppositional 반응
treatment_actual = rng.binomial(1, 0.27, n_per_group)
print("=== 시나리오 A (의도된 효과) ===")
print(f"Control enroll: {control_enroll.mean()*100:.1f}%")
print(f"Treatment enroll: {treatment_intended.mean()*100:.1f}%")
diff_a = treatment_intended.mean() - control_enroll.mean()
print(f"Diff: {diff_a*100:+.1f}%p")
print("\n=== 시나리오 B (실제 oppositional) ===")
print(f"Control enroll: {control_enroll.mean()*100:.1f}%")
print(f"Treatment enroll: {treatment_actual.mean()*100:.1f}%")
diff_b = treatment_actual.mean() - control_enroll.mean()
print(f"Diff: {diff_b*100:+.1f}%p")
# 통계 검정 (시나리오 B)
from scipy.stats import chi2_contingency
table = np.array([
[control_enroll.sum(), n_per_group - control_enroll.sum()],
[treatment_actual.sum(), n_per_group - treatment_actual.sum()]
])
chi2, p, _, _ = chi2_contingency(table)
print(f"\n시나리오 B chi-square test: chi2={chi2:.2f}, p={p:.4f}")예상 출력 (시드 42).
=== 시나리오 A (의도된 효과) ===
Control enroll: 27.6%
Treatment enroll: 35.2%
Diff: +7.6%p
=== 시나리오 B (실제 oppositional) ===
Control enroll: 27.6%
Treatment enroll: 26.6%
Diff: -1.0%p
시나리오 B chi-square test: chi2=0.13, p=0.7187
시나리오 A vs B 의 gap = 사전 알 수 없는 unknown.
- 시나리오 A 의도: 회사 head 의 가설 (peer effect)
- 시나리오 B 실제: oppositional reaction (Beshears 발견)
만약 회사 head 가 100% ship 했다면:
- 시나리오 A 발생 시: ROI 좋음
- 시나리오 B 발생 시: 직원 모두가 inferior 결과, retirement 위험 ↑
A/B 실험 시:
- 시나리오 A 확인 시: 100% launch
- 시나리오 B 확인 시: launch 중단, 50% 만 영향
이것이 A/B Illusion 의 핵심 증명. 실험이 사용자를 보호한다. 100% ship 의 risk 가 50% 실험의 risk 보다 크다.
저자 강조 (Meyer 2015): 잘 의도된 변경도 oppositional·unintended 결과 가능. 실험은 이 unknown 을 catch 하는 도구. 윤리적 정당화.
6 관련 주제
선행 — Ch.9 시리즈
다음 글
관련 챕터
- F5-2 — Ch.5.3 의도적 지연 설계 — Equipoise 위반 사례
- F23-* — Ch.23 장기 처리 효과 — Ads 장기 노출
다른 카테고리 연결