Kwangmin Kim - Kohavi Ch.9 개관 — 통제 실험의 윤리

1 정의

정의: Controlled Experiments 의 윤리

행동·기술 실험은 실제 사용자 를 대상으로 하므로 의료·심리 연구의 윤리 프레임을 일부 차용 한다 (Kohavi, Tang, Xu, 2020, Ch.9).

핵심 프레임 — Belmont Report (1979) 의 3 원칙.

Respect for Persons (인격 존중) — 자율적 행위자로 대우, transparency·voluntariness 보장
Beneficence (선의) — Risk 최소화, benefit 최대화 (Common Rule 은 적절한 균형 평가로 완화)
Justice (공정성) — Risk·benefit 의 공정 분배, 특정 집단 착취 금지

핵심 통찰: 온라인 실험은 의료 RCT 보다 risk profile 이 낮지만 scale (수억 명) 이 크다. 따라 서 transparency·informed consent 는 개별 동의 보다 plausible consent + presumptive consent 형태로 운영. 그러나 deception 실험 (의도적 거짓 정보) 은 다른 윤리 risk profile.

원문 인용 (Charlie Chaplin 1964): “The progress of science is far ahead of man’s ethical behavior.” — 윤리 규범은 항상 기술보다 늦게 따라온다.

2 개념 및 원리

2.1 두 가지 사례 — 윤리 논쟁의 trigger

저자들이 Ch.9 도입에 인용한 사례 둘. 모두 학계·언론에서 강한 논란 발생.

2.1.1 사례 1: Facebook Emotional Contagion (Kramer, Guillory, Hancock 2014)

설계: 사용자를 random 으로 두 그룹으로 나눠 News Feed 의 감정 콘텐츠 비율을 조작.

Treatment A: 부정적 post 비율 ↑
Treatment B: 긍정적 post 비율 ↑

목표: 감정 전염 (emotional contagion) 가설 검증 — 노출된 감정에 따라 본인 post 도 같은 방향 으로 변하는가.

결과 (1 주 후): 부정적 노출 그룹의 post 가 더 부정적, 긍정적 노출 그룹은 더 긍정적. 가설 확인.

논란:

Informed consent 부재 — 사용자는 실험에 동의한 적 없음
감정 조작의 윤리 — 우울 사용자에게 부정적 콘텐츠 추가 노출의 잠재 harm
투명성 부재 — 실험 종료 후 사용자에게 알리지 않음

2.1.2 사례 2: OKCupid Match Score Manipulation (The Guardian 2014)

설계: 알고리즘이 30%, 60%, 90% 매치라고 평가한 사용자 쌍을 random 으로 다시 분할.

1/3 에게 “30% 매치” 표시
1/3 에게 “60% 매치” 표시
1/3 에게 “90% 매치” 표시

(실제 알고리즘 점수와 무관하게 random)

목표: “Match score 자체가 행동에 영향을 주는가” 검증 — 즉 score 의 power-of-suggestion 효과.

결과: 표시된 score 가 행동에 영향. 90% 표시 그룹이 더 많이 메시지·만남.

논란:

Deception — 사용자에게 의도적 거짓 정보 (실제 30% 인데 90% 라고 표시)
관계의 윤리 — 짝짓기 결정에 거짓 정보 영향
Power-of-suggestion 실험의 범주 — Benbunan-Fich (2017) 가 명명한 “C/D experimentation” (Code-induced Deception) 영역

직관 — Facebook vs OKCupid 의 윤리 차이

두 사례 모두 informed consent 없지만 윤리 risk profile 이 다르다.

Facebook: 자연스러운 algorithm 변화 범위 내 조작 (News Feed 알고리즘은 일상적으로 변경됨). Deception 없음 (사용자가 보는 콘텐츠는 실제 친구 post). Risk: 감정 노출의 영향 정도.
OKCupid: 알고리즘 결과의 의도적 왜곡 = deception. 사용자가 받는 정보 자체가 거짓. Risk: 관계 결정에 false information 영향.

저자들의 분류 (Kohavi, Tang, Xu, 2020, Ch.9.2): Deception 실험은 일반 A/B 실험과 다른 ethical review 필요. 알고리즘 변경 vs 거짓 정보 제공 의 구분.

이 구분이 윤리 검토의 첫 분류 기준. 회사 내 ethical review 시 첫 질문은 “이 실험이 deception 을 포함하는가?” 가 되어야 한다.

2.2 Belmont Report 3 원칙의 디지털 실험 적용

각 원칙을 온라인 실험에 어떻게 번역할지가 Ch.9 의 핵심.

원칙	의료 분야	온라인 실험
Respect for Persons	Informed consent (each participant)	Terms of Service + presumptive consent
Beneficence	Risk·benefit 균형 평가 (IRB)	Equipoise 검사 + A/B illusion 점검
Justice	취약 집단 보호, fair distribution	알고리즘 bias 검토, 취약 segment 점검

가정 — 의료 윤리 프레임을 그대로 적용하면

가정: 모든 온라인 실험이 individual informed consent 를 받아야 한다.

결과:

Facebook 25 억 사용자 각각에 동의 받기 → 사실상 불가능
동의 절차 자체가 user experience 손상 (매 변경마다 popup)
Self-selection bias — 동의한 사용자만 실험 → 일반화 어려움
비용이 benefit 을 압도 → 실험 자체 포기 → product quality ↓

해결: scale 을 고려한 적응적 ethical review. Risk 가 minimal (Common Rule 정의: 일상 생활 risk 이내) 이면 ToS + presumptive consent 로 충분. Risk 가 높으면 individual consent 또는 실험 자체 거부.

이 적응적 접근이 Common Rule 의 본질. 기계적 적용이 아니라 risk-proportional review.

2.3 A/B Illusion — 핵심 윤리 직관

저자들이 강조하는 윤리 점검 핵심 도구 (Meyer 2015).

정의: A/B Illusion

“실험을 통한 변경 노출이 변경 자체보다 ethically suspect 하다” 는 잘못된 직관.

Litmus test: 만약 이 변경을 100% 사용자에게 ship 할 수 있다면, 50% 에게 ship 하면서 측정하는 것도 윤리적으로 가능해야 한다.

역으로: 만약 50% 실험이 윤리적으로 문제라면, 100% ship 도 같은 문제. 실험은 단지 측정 도구일 뿐, 윤리 risk 를 추가하지 않는다.

원문 (Meyer, 2015): “Shipping code is, in fact, an experiment. It may not be a controlled experiment, but rather an inefficient sequential test where one looks at the time series.”

A/B Illusion 의 함의:

변경 자체의 ethics 를 먼저 검토. 실험 형태 (50/50) 는 그 다음.
변경이 ethical 하면 실험도 ethical. 변경이 unethical 하면 실험도 unethical.
Ship 하지 못할 변경은 실험으로 도입하지 마라.

2.4 Equipoise — 의료에서 차용한 개념

정의: Equipoise (Freedman 1987)

전문가 커뮤니티가 두 처치 사이에서 genuine uncertainty (진정한 불확실성) 를 가지는 상태.

Equipoise 있음: “A 가 B 보다 좋은지 정말 모름” → 실험으로 결정 가능
Equipoise 없음: “A 가 명백히 좋다는 합의” → 실험이 일부 사용자에게 inferior 처치 강요

의료 RCT 의 윤리 기준: Equipoise 가 있을 때만 RCT 윤리적.

온라인 실험에서의 적용. 대부분 변경은 equipoise 충족 (어느 variant 가 좋은지 모름). 단 예외:

Equipoise 위반 사례 — 의도적 inferior 실험

저자가 명시한 예 (Ch.9.2):

Slowdown 실험 (Ch.5) — 의도적으로 페이지 로딩 지연
Ads 노출 ↑ 실험 (Ch.23) — 장기 효과 측정
Recommendation 비활성화 — 가치 측정

이들은 equipoise 위반 (treatment 가 inferior 라는 합의 있음). 그러나 trade-off 정량화 가 benefit. 의약품 toxicity study 와 유사한 정당화.

직관 — Toxicity Study 비유

신약 toxicity study: “이 약을 너무 많이 먹으면 나쁘다” 는 사전 합의 있음 (equipoise 없음). 그러나 얼마나 많아야 얼마나 나쁜지 모름 → 측정 필요.

A/B 의 slowdown 실험: “느리면 나쁘다” 는 합의 있음. 그러나 얼마나 느려야 얼마나 나쁜지 모름 → 측정 필요.

차이: 의약품은 individual consent + IRB. 온라인 slowdown 은 minimal harm + presumptive consent 로 충분.

이 비유가 equipoise 위반 실험을 정당화하는 핵심 framework. Trade-off 정량화의 가치 + minimal risk + presumptive consent 의 결합.

2.5 6 가지 윤리 점검 영역 — Ch.9 의 지도

저자들은 윤리 검토를 6 영역으로 분류한다 (각 영역은 후속 글에서 상세).

#	영역	핵심 질문	후속 글
1	Risk	Minimal risk 이내인가, 어떤 종류의 harm?	F9-1
2	Benefits	누구에게 benefit, equipoise 위반 정당화?	F9-1
3	Choices	Switching cost, alternative 존재?	F9-2
4	Data Collection	수집·저장·사용·삭제·재식별 risk?	F9-2
5	Culture & Processes	IRB, escalation, training 체계?	F9-3
6	User Identifiers	Identified / pseudonymous / anonymous 분류?	F9-3

각 영역은 yes/no 체크가 아닌 judgment, thought, care, experience 의 영역. 저자들의 강조 포인트: “There are rarely unambiguous right or wrong answers.”

3 왜 필요한가

윤리 framework 부재 시.

Facebook·OKCupid 같은 PR 사고 — 실험 결과보다 윤리 논란이 회사 brand 손상
사용자 신뢰 상실 — 한 번의 deception 실험이 platform 자체 신뢰 ↓
규제 risk — GDPR, FTC 등이 unethical 실험에 벌금
인재 채용 difficulty — 학계·시민단체에서 unethical 회사 ban
임원 의사결정 어려움 — 사례마다 처음부터 윤리 검토

윤리 framework 활성 시.

사전 차단 — IRB 검토로 Facebook·OKCupid 사례 사전 차단
신뢰 자산 — “이 회사는 윤리적 실험” 의 brand 자산
규제 친화 — 규제 변화 (GDPR 등) 에 자동 적응
학계·NGO 협력 가능 — Microsoft·LinkedIn 의 publication 활성화 (Ch.8 연계)
속도 — 표준 IRB 프로세스로 case-by-case 검토 시간 절약

이 격차는 매년 누적. 사고 한 번이 수 년 brand 회복 비용.

4 응용 사례 — 산업 IRB 운영

대형 기술 회사들의 IRB 운영 실태 (사전지식 + Ch.9 의 partial 인용).

회사	IRB 형태	주요 사례
Microsoft Research	학계식 IRB + 산업 위원	Azevedo et al. 2019 의 ethical review
Facebook (Meta)	2014 사고 후 review process 신설	Cornell 협업 emotional contagion 후 도입
Google	Ethics & Society review	AI fairness, ML 실험 검토
LinkedIn	Privacy Office + Ethics review	Saint-Jacques et al. 2018 PYMK ethics check

저자들 입장 (Ch.9 도입): 자신들의 글이 Google·LinkedIn·Microsoft 의 공식 입장이 아니라 개인 의견 임을 명시. 기업 정책은 회사별 차이 큼.

5 코드 예시 — 윤리 risk profile scoring

실험 설계 단계에서 ethical risk 를 자동 분류하는 간단한 scoring 도구.

import pandas as pd

# 윤리 risk 점검 표
def ethical_risk_score(experiment_attrs):
    """
    experiment_attrs: dict
        - involves_deception: bool
        - changes_user_visible: bool
        - involves_sensitive_data: bool (health, financial)
        - affects_minors: bool
        - affects_vulnerable: bool (e.g., depressed users)
        - exceeds_normal_variance: bool (slowdown 등 equipoise 위반)
    """
    score = 0
    if experiment_attrs.get("involves_deception"): score += 5
    if experiment_attrs.get("changes_user_visible"): score += 1
    if experiment_attrs.get("involves_sensitive_data"): score += 3
    if experiment_attrs.get("affects_minors"): score += 4
    if experiment_attrs.get("affects_vulnerable"): score += 4
    if experiment_attrs.get("exceeds_normal_variance"): score += 2
    return score

def review_path(score):
    if score >= 5: return "Full IRB review required"
    if score >= 3: return "Lightweight IRB review"
    if score >= 1: return "Self-checklist"
    return "No review needed"

# 사례별 점수
cases = [
    {"name": "버튼 색상 변경", "attrs": {"changes_user_visible": True}},
    {"name": "Slowdown 실험", "attrs": {"changes_user_visible": True, "exceeds_normal_variance": True}},
    {"name": "Facebook emotional contagion",
     "attrs": {"changes_user_visible": True, "affects_vulnerable": True, "exceeds_normal_variance": True}},
    {"name": "OKCupid match score deception",
     "attrs": {"involves_deception": True, "changes_user_visible": True}},
]

for case in cases:
    score = ethical_risk_score(case["attrs"])
    print(f"{case['name']:35s} | score: {score} | {review_path(score)}")

예상 출력.

버튼 색상 변경                          | score: 1 | Self-checklist
Slowdown 실험                          | score: 3 | Lightweight IRB review
Facebook emotional contagion           | score: 7 | Full IRB review required
OKCupid match score deception          | score: 6 | Full IRB review required

직관 — Risk Scoring 의 가치

이 단순 scoring 의 효용:

자동 분류 — 매 실험마다 IRB 회의 vs self-check 결정 자동화
일관성 — 같은 risk profile 의 실험에 같은 review 적용
투명성 — 점수와 review path 가 공개되어 design 단계에서 자율 조정 가능
속도 — Score 0 인 변경 (대부분 일반 UI 변경) 은 빠른 진행

한계:

Score 의 가중치는 사회·법·문화에 따라 다름. 회사별 calibration 필요
Edge case 는 여전히 human judgment
Score 만 보고 통과한 unethical 실험 가능성 — review process 는 학습 시스템

이 scoring 은 Ch.9.5 의 culture & process 의 운영 도구. Ch.9.5 의 IRB 를 자동화·확장한 형태. 즉 framework 의 일부이지 framework 자체는 아니다.

6 Ch.9 시리즈 다음 글

글	주제	KOH 라인
F9-1	Background + Risk + Benefits	L:2007~2057
F9-2	Provide Choices + Data Collection	L:2058~2081
F9-3	Culture and Processes + User Identifiers	L:2082~2115

7 관련 주제

선행 — Ch.4·Ch.7 시리즈

다음 글

관련 챕터

F5-2 — Ch.5.3 의도적 지연 설계 — Equipoise 위반 사례
F23-* — Ch.23 장기 처리 효과 — Ads 장기 노출

다른 카테고리 연결