1 정의
행동·기술 실험은 실제 사용자 를 대상으로 하므로 의료·심리 연구의 윤리 프레임을 일부 차용 한다 (Kohavi, Tang, Xu, 2020, Ch.9).
핵심 프레임 — Belmont Report (1979) 의 3 원칙.
- Respect for Persons (인격 존중) — 자율적 행위자로 대우, transparency·voluntariness 보장
- Beneficence (선의) — Risk 최소화, benefit 최대화 (Common Rule 은 적절한 균형 평가로 완화)
- Justice (공정성) — Risk·benefit 의 공정 분배, 특정 집단 착취 금지
핵심 통찰: 온라인 실험은 의료 RCT 보다 risk profile 이 낮지만 scale (수억 명) 이 크다. 따라 서 transparency·informed consent 는 개별 동의 보다 plausible consent + presumptive consent 형태로 운영. 그러나 deception 실험 (의도적 거짓 정보) 은 다른 윤리 risk profile.
원문 인용 (Charlie Chaplin 1964): “The progress of science is far ahead of man’s ethical behavior.” — 윤리 규범은 항상 기술보다 늦게 따라온다.
2 개념 및 원리
2.1 두 가지 사례 — 윤리 논쟁의 trigger
저자들이 Ch.9 도입에 인용한 사례 둘. 모두 학계·언론에서 강한 논란 발생.
2.1.1 사례 1: Facebook Emotional Contagion (Kramer, Guillory, Hancock 2014)
설계: 사용자를 random 으로 두 그룹으로 나눠 News Feed 의 감정 콘텐츠 비율을 조작.
- Treatment A: 부정적 post 비율 ↑
- Treatment B: 긍정적 post 비율 ↑
목표: 감정 전염 (emotional contagion) 가설 검증 — 노출된 감정에 따라 본인 post 도 같은 방향 으로 변하는가.
결과 (1 주 후): 부정적 노출 그룹의 post 가 더 부정적, 긍정적 노출 그룹은 더 긍정적. 가설 확인.
논란:
- Informed consent 부재 — 사용자는 실험에 동의한 적 없음
- 감정 조작의 윤리 — 우울 사용자에게 부정적 콘텐츠 추가 노출의 잠재 harm
- 투명성 부재 — 실험 종료 후 사용자에게 알리지 않음
2.1.2 사례 2: OKCupid Match Score Manipulation (The Guardian 2014)
설계: 알고리즘이 30%, 60%, 90% 매치라고 평가한 사용자 쌍을 random 으로 다시 분할.
- 1/3 에게 “30% 매치” 표시
- 1/3 에게 “60% 매치” 표시
- 1/3 에게 “90% 매치” 표시
(실제 알고리즘 점수와 무관하게 random)
목표: “Match score 자체가 행동에 영향을 주는가” 검증 — 즉 score 의 power-of-suggestion 효과.
결과: 표시된 score 가 행동에 영향. 90% 표시 그룹이 더 많이 메시지·만남.
논란:
- Deception — 사용자에게 의도적 거짓 정보 (실제 30% 인데 90% 라고 표시)
- 관계의 윤리 — 짝짓기 결정에 거짓 정보 영향
- Power-of-suggestion 실험의 범주 — Benbunan-Fich (2017) 가 명명한 “C/D experimentation” (Code-induced Deception) 영역
두 사례 모두 informed consent 없지만 윤리 risk profile 이 다르다.
Facebook: 자연스러운 algorithm 변화 범위 내 조작 (News Feed 알고리즘은 일상적으로 변경됨). Deception 없음 (사용자가 보는 콘텐츠는 실제 친구 post). Risk: 감정 노출의 영향 정도.
OKCupid: 알고리즘 결과의 의도적 왜곡 = deception. 사용자가 받는 정보 자체가 거짓. Risk: 관계 결정에 false information 영향.
저자들의 분류 (Kohavi, Tang, Xu, 2020, Ch.9.2): Deception 실험은 일반 A/B 실험과 다른 ethical review 필요. 알고리즘 변경 vs 거짓 정보 제공 의 구분.
이 구분이 윤리 검토의 첫 분류 기준. 회사 내 ethical review 시 첫 질문은 “이 실험이 deception 을 포함하는가?” 가 되어야 한다.
2.2 Belmont Report 3 원칙의 디지털 실험 적용
각 원칙을 온라인 실험에 어떻게 번역할지가 Ch.9 의 핵심.
| 원칙 | 의료 분야 | 온라인 실험 |
|---|---|---|
| Respect for Persons | Informed consent (each participant) | Terms of Service + presumptive consent |
| Beneficence | Risk·benefit 균형 평가 (IRB) | Equipoise 검사 + A/B illusion 점검 |
| Justice | 취약 집단 보호, fair distribution | 알고리즘 bias 검토, 취약 segment 점검 |
가정: 모든 온라인 실험이 individual informed consent 를 받아야 한다.
결과:
- Facebook 25 억 사용자 각각에 동의 받기 → 사실상 불가능
- 동의 절차 자체가 user experience 손상 (매 변경마다 popup)
- Self-selection bias — 동의한 사용자만 실험 → 일반화 어려움
- 비용이 benefit 을 압도 → 실험 자체 포기 → product quality ↓
해결: scale 을 고려한 적응적 ethical review. Risk 가 minimal (Common Rule 정의: 일상 생활 risk 이내) 이면 ToS + presumptive consent 로 충분. Risk 가 높으면 individual consent 또는 실험 자체 거부.
이 적응적 접근이 Common Rule 의 본질. 기계적 적용이 아니라 risk-proportional review.
2.3 A/B Illusion — 핵심 윤리 직관
저자들이 강조하는 윤리 점검 핵심 도구 (Meyer 2015).
“실험을 통한 변경 노출이 변경 자체보다 ethically suspect 하다” 는 잘못된 직관.
Litmus test: 만약 이 변경을 100% 사용자에게 ship 할 수 있다면, 50% 에게 ship 하면서 측정하는 것도 윤리적으로 가능해야 한다.
역으로: 만약 50% 실험이 윤리적으로 문제라면, 100% ship 도 같은 문제. 실험은 단지 측정 도구일 뿐, 윤리 risk 를 추가하지 않는다.
원문 (Meyer, 2015): “Shipping code is, in fact, an experiment. It may not be a controlled experiment, but rather an inefficient sequential test where one looks at the time series.”
A/B Illusion 의 함의:
- 변경 자체의 ethics 를 먼저 검토. 실험 형태 (50/50) 는 그 다음.
- 변경이 ethical 하면 실험도 ethical. 변경이 unethical 하면 실험도 unethical.
- Ship 하지 못할 변경은 실험으로 도입하지 마라.
2.4 Equipoise — 의료에서 차용한 개념
전문가 커뮤니티가 두 처치 사이에서 genuine uncertainty (진정한 불확실성) 를 가지는 상태.
- Equipoise 있음: “A 가 B 보다 좋은지 정말 모름” → 실험으로 결정 가능
- Equipoise 없음: “A 가 명백히 좋다는 합의” → 실험이 일부 사용자에게 inferior 처치 강요
의료 RCT 의 윤리 기준: Equipoise 가 있을 때만 RCT 윤리적.
온라인 실험에서의 적용. 대부분 변경은 equipoise 충족 (어느 variant 가 좋은지 모름). 단 예외:
Equipoise 위반 사례 — 의도적 inferior 실험
저자가 명시한 예 (Ch.9.2):
- Slowdown 실험 (Ch.5) — 의도적으로 페이지 로딩 지연
- Ads 노출 ↑ 실험 (Ch.23) — 장기 효과 측정
- Recommendation 비활성화 — 가치 측정
이들은 equipoise 위반 (treatment 가 inferior 라는 합의 있음). 그러나 trade-off 정량화 가 benefit. 의약품 toxicity study 와 유사한 정당화.
신약 toxicity study: “이 약을 너무 많이 먹으면 나쁘다” 는 사전 합의 있음 (equipoise 없음). 그러나 얼마나 많아야 얼마나 나쁜지 모름 → 측정 필요.
A/B 의 slowdown 실험: “느리면 나쁘다” 는 합의 있음. 그러나 얼마나 느려야 얼마나 나쁜지 모름 → 측정 필요.
차이: 의약품은 individual consent + IRB. 온라인 slowdown 은 minimal harm + presumptive consent 로 충분.
이 비유가 equipoise 위반 실험을 정당화하는 핵심 framework. Trade-off 정량화의 가치 + minimal risk + presumptive consent 의 결합.
2.5 6 가지 윤리 점검 영역 — Ch.9 의 지도
저자들은 윤리 검토를 6 영역으로 분류한다 (각 영역은 후속 글에서 상세).
| # | 영역 | 핵심 질문 | 후속 글 |
|---|---|---|---|
| 1 | Risk | Minimal risk 이내인가, 어떤 종류의 harm? | F9-1 |
| 2 | Benefits | 누구에게 benefit, equipoise 위반 정당화? | F9-1 |
| 3 | Choices | Switching cost, alternative 존재? | F9-2 |
| 4 | Data Collection | 수집·저장·사용·삭제·재식별 risk? | F9-2 |
| 5 | Culture & Processes | IRB, escalation, training 체계? | F9-3 |
| 6 | User Identifiers | Identified / pseudonymous / anonymous 분류? | F9-3 |
각 영역은 yes/no 체크가 아닌 judgment, thought, care, experience 의 영역. 저자들의 강조 포인트: “There are rarely unambiguous right or wrong answers.”
3 왜 필요한가
윤리 framework 부재 시.
- Facebook·OKCupid 같은 PR 사고 — 실험 결과보다 윤리 논란이 회사 brand 손상
- 사용자 신뢰 상실 — 한 번의 deception 실험이 platform 자체 신뢰 ↓
- 규제 risk — GDPR, FTC 등이 unethical 실험에 벌금
- 인재 채용 difficulty — 학계·시민단체에서 unethical 회사 ban
- 임원 의사결정 어려움 — 사례마다 처음부터 윤리 검토
윤리 framework 활성 시.
- 사전 차단 — IRB 검토로 Facebook·OKCupid 사례 사전 차단
- 신뢰 자산 — “이 회사는 윤리적 실험” 의 brand 자산
- 규제 친화 — 규제 변화 (GDPR 등) 에 자동 적응
- 학계·NGO 협력 가능 — Microsoft·LinkedIn 의 publication 활성화 (Ch.8 연계)
- 속도 — 표준 IRB 프로세스로 case-by-case 검토 시간 절약
이 격차는 매년 누적. 사고 한 번이 수 년 brand 회복 비용.
4 응용 사례 — 산업 IRB 운영
대형 기술 회사들의 IRB 운영 실태 (사전지식 + Ch.9 의 partial 인용).
| 회사 | IRB 형태 | 주요 사례 |
|---|---|---|
| Microsoft Research | 학계식 IRB + 산업 위원 | Azevedo et al. 2019 의 ethical review |
| Facebook (Meta) | 2014 사고 후 review process 신설 | Cornell 협업 emotional contagion 후 도입 |
| Ethics & Society review | AI fairness, ML 실험 검토 | |
| Privacy Office + Ethics review | Saint-Jacques et al. 2018 PYMK ethics check |
저자들 입장 (Ch.9 도입): 자신들의 글이 Google·LinkedIn·Microsoft 의 공식 입장이 아니라 개인 의견 임을 명시. 기업 정책은 회사별 차이 큼.
5 코드 예시 — 윤리 risk profile scoring
실험 설계 단계에서 ethical risk 를 자동 분류하는 간단한 scoring 도구.
import pandas as pd
# 윤리 risk 점검 표
def ethical_risk_score(experiment_attrs):
"""
experiment_attrs: dict
- involves_deception: bool
- changes_user_visible: bool
- involves_sensitive_data: bool (health, financial)
- affects_minors: bool
- affects_vulnerable: bool (e.g., depressed users)
- exceeds_normal_variance: bool (slowdown 등 equipoise 위반)
"""
score = 0
if experiment_attrs.get("involves_deception"): score += 5
if experiment_attrs.get("changes_user_visible"): score += 1
if experiment_attrs.get("involves_sensitive_data"): score += 3
if experiment_attrs.get("affects_minors"): score += 4
if experiment_attrs.get("affects_vulnerable"): score += 4
if experiment_attrs.get("exceeds_normal_variance"): score += 2
return score
def review_path(score):
if score >= 5: return "Full IRB review required"
if score >= 3: return "Lightweight IRB review"
if score >= 1: return "Self-checklist"
return "No review needed"
# 사례별 점수
cases = [
{"name": "버튼 색상 변경", "attrs": {"changes_user_visible": True}},
{"name": "Slowdown 실험", "attrs": {"changes_user_visible": True, "exceeds_normal_variance": True}},
{"name": "Facebook emotional contagion",
"attrs": {"changes_user_visible": True, "affects_vulnerable": True, "exceeds_normal_variance": True}},
{"name": "OKCupid match score deception",
"attrs": {"involves_deception": True, "changes_user_visible": True}},
]
for case in cases:
score = ethical_risk_score(case["attrs"])
print(f"{case['name']:35s} | score: {score} | {review_path(score)}")예상 출력.
버튼 색상 변경 | score: 1 | Self-checklist
Slowdown 실험 | score: 3 | Lightweight IRB review
Facebook emotional contagion | score: 7 | Full IRB review required
OKCupid match score deception | score: 6 | Full IRB review required
이 단순 scoring 의 효용:
- 자동 분류 — 매 실험마다 IRB 회의 vs self-check 결정 자동화
- 일관성 — 같은 risk profile 의 실험에 같은 review 적용
- 투명성 — 점수와 review path 가 공개되어 design 단계에서 자율 조정 가능
- 속도 — Score 0 인 변경 (대부분 일반 UI 변경) 은 빠른 진행
한계:
- Score 의 가중치는 사회·법·문화에 따라 다름. 회사별 calibration 필요
- Edge case 는 여전히 human judgment
- Score 만 보고 통과한 unethical 실험 가능성 — review process 는 학습 시스템
이 scoring 은 Ch.9.5 의 culture & process 의 운영 도구. Ch.9.5 의 IRB 를 자동화·확장한 형태. 즉 framework 의 일부이지 framework 자체는 아니다.
6 Ch.9 시리즈 다음 글
| 글 | 주제 | KOH 라인 |
|---|---|---|
| F9-1 | Background + Risk + Benefits | L:2007~2057 |
| F9-2 | Provide Choices + Data Collection | L:2058~2081 |
| F9-3 | Culture and Processes + User Identifiers | L:2082~2115 |
7 관련 주제
선행 — Ch.4·Ch.7 시리즈
다음 글
관련 챕터
- F5-2 — Ch.5.3 의도적 지연 설계 — Equipoise 위반 사례
- F23-* — Ch.23 장기 처리 효과 — Ads 장기 노출
다른 카테고리 연결
- Surveilance — 의료 IRB·GCP — 의료 분야 윤리 표준
- Governance — 데이터 거버넌스 — Privacy 거버넌스
- Strategy_Frameworks — 윤리 의사결정 프레임