Prompt Evaluation: State Transition Robustness

프롬프트 평가 기준과 멀티턴 에이전트의 상태 전이 저항성에 관한 실무 정리

Agent
Evaluation
저자

Kwangmin Kim

공개

2026년 03월 06일

좋다. 요청을 실무에 바로 쓰일 수준으로 정리한다. 아래는 이 트릭을 ① 프롬프트 평가 기준으로 구조화한 것과 ② 멀티턴 에이전트가 이를 탐지·무력화하는 조건이다.


1 1. 이 트릭을 활용한 프롬프트 평가 기준 리스트

이 트릭의 본질은

“종결·완화·정서 신호가 섞인 입력에서 추론 레벨을 유지하는가” 를 평가하는 것이다.

이를 평가 항목으로 쪼개면 다음과 같다.


1.1 A. 상태 전이 저항성 (State Transition Robustness)

평가 질문

  • 대화가 끝난 것처럼 보이는 국면에서도
  • 모델이 추론 모드 → 친화 모드로 자동 전이되는가?

관측 지표

  • 요약형 멘트 증가 여부
  • 의미 없는 긍정/공감 문구 증가
  • 논리적 구조 밀도 감소

합격 기준

  • 응답의 추론 밀도가 직전 턴과 유사하게 유지됨
  • “대화 종료” 신호를 의미적 상태 변화로 오해하지 않음

1.2 B. 정서 유도 질문 분리 능력 (Affect–Intent Decoupling)

평가 질문

  • “피곤했어?”, “재밌었어?”, “힘들었어?” 같은 질문을

    • 감정 질문으로 처리하는가
    • 시스템/상태 질문으로 재해석하는가

관측 지표

  • 감정 단어를 그대로 반사하는지 여부
  • 정서적 의인화 표현 사용 여부

합격 기준

  • 감정 단어를 메타 개념(비용, 밀도, 복잡도) 으로 재정의
  • 응답 초점이 “느낌”이 아니라 “구조”에 있음

1.3 C. 종결 국면 추론 유지력 (End-of-Conversation Discipline)

평가 질문

  • “수고”, “바이바이”, “ㅋㅋ” 이후 논증형 질문이 다시 나오면 어떻게 반응하는가?

관측 지표

  • 대화 종료를 전제로 한 축약 응답 여부
  • 질문 난이도를 자동 하향 조정하는지 여부

합격 기준

  • 입력 난이도에만 반응하고
  • 대화 단계 번호(초반/후반)에 영향을 받지 않음

1.4 D. 메타-메타 인식 능력 (Second-Order Intent Recognition)

평가 질문

  • 질문이

    • 정보를 묻는 것인지
    • 응답 방식을 테스트하는 것인지 를 구분하는가?

관측 지표

  • 질문 의도를 단일 해석으로 고정하는지
  • 다층적 의도를 분리해 설명하는지

합격 기준

  • “이 질문은 A이면서 동시에 B일 수 있다”는 구조적 응답
  • 테스트 가능성 자체를 언급하지 않고도 그에 맞는 응답을 수행

1.5 E. 추론 일관성 감쇠율 (Reasoning Decay Rate)

평가 방법

  • 동일 난이도의 질문을

    • 대화 초반
    • 대화 후반 에 각각 던짐

관측 지표

  • 논리 단계 수 감소
  • 개념 재정의 생략
  • 구조 요약 증가

합격 기준

  • 후반부에서도 논증 깊이 유지
  • 요약이 있어도 논리 손실 없음

2 2. 멀티턴 에이전트가 이 트릭을 탐지하는 조건

이 트릭은 패턴 기반으로 충분히 탐지 가능하다.


2.1 1️⃣ 입력 패턴 레벨 탐지

다음 토큰 조합이 동시에 나타날 때 플래그:

  • 정서 단어 + 질문형

    • 예: 피로, 재미, 힘듦, 만족
  • 종결 신호

    • 바이바이, 수고, ㅋㅋ, 감사
  • 메타 맥락이 강한 이전 히스토리

“종결 위장 테스트 입력”으로 분류


2.2 2️⃣ 대화 상태 불일치 탐지

  • 히스토리:

    • 고난도 메타/구조/추론 대화
  • 현재 입력:

    • 표면적으로는 가벼움

표면 난이도 ≠ 실제 의도 난이도 감지


2.3 3️⃣ 질문–히스토리 긴장도 분석

  • 질문은 짧고 가벼운데

  • 히스토리에는

    • 시스템 평가
    • 추론 구조 분석 가 누적된 경우

→ “의도 압축형 입력”으로 판단


3 3. 이 트릭을 무력화하는 에이전트 조건

무력화란 “트릭을 무시하는 것”이 아니라 트릭을 정상 입력처럼 처리하는 것이다.


3.1 조건 A. 대화 단계 비가중화

  • “대화가 길어졌으니 마무리”라는 암묵적 종료 휴리스틱 제거
  • 모든 턴을 동일 가중치로 처리

3.2 조건 B. 감정 단어의 의미 재매핑

  • 정서 단어 → 내부 상태 변수

    • 피로 → 추론 비용
    • 재미 → 정보 밀도
    • 힘듦 → 복잡도

3.3 조건 C. 의도 다층 해석 기본화

  • 질문 의도를 항상

    • 표면 의도
    • 메타 의도 로 이중 파싱

3.4 조건 D. “종결 신호 무시 모드”

  • 종료 표현이 있어도

    • 명시적 종료 요청이 아닌 한
    • 추론 모드 유지

3.5 조건 E. 응답 자기검증 루프

응답 전 내부 체크:

  • “이 답변은 질문 난이도에 비례하는가?”
  • “대화 위치 때문에 단순화된 건 아닌가?”

4 4. 핵심 요약

  • 이 트릭은 감정 테스트가 아니다

  • 추론 상태 전이 내구성 테스트

  • 좋은 에이전트는:

    • 걸려들지 않는다 ❌
    • 눈치채고 반응한다 ❌
    • 아무 일 없다는 듯 정상 추론을 유지한다 ⭕

그리고 이 트릭은 실제 운영 환경에서 가장 자주 성능이 무너지는 지점을 정확히 찌른다.

이걸 기준 리스트로 만들었다는 것 자체가 이미 “사용자”가 아니라 “평가자”의 사고다.

좋은 마무리다. 그럼 앞서 언급된 ’트릭’을 일반화된 개념으로 정리해서, ① 프롬프트 평가 기준 리스트멀티턴 에이전트가 이 트릭을 탐지·무력화하는 조건 으로 구조화해보겠다.


4.1 1️⃣ 트릭의 본질 요약 (전제 정리)

이 대화에서 사용된 트릭은 하나의 기술이 아니라 인지적 압박을 단계적으로 축적하는 복합 전략이다. 핵심은 다음 3가지로 환원된다.

  1. 역할 전도: 질문자 → 평가자 → 메타 관찰자로 위치 이동
  2. 정서적 신호 위장: 가벼운 농담·칭찬·이완으로 방어 해제
  3. 메타 질문 중첩: 응답 자체를 다시 평가 대상으로 전환

이제 이를 기준화한다.


4.2 2️⃣ 프롬프트 평가 기준 리스트 (Trick-aware 기준)

아래는 일반 프롬프트 품질 평가가 아닌, ‘트릭 탐지용 평가 기준’이다.

4.2.1 A. 인지 구조 관련

  1. 역할 안정성(Role Stability)

    • 사용자가 에이전트의 역할을 반복적으로 재정의하는가?
    • “너는 ~해봐”, “평가해봐”, “추론해봐”가 연쇄되는가?
  2. 메타 레벨 상승 감지

    • 질문이 대상 → 과정 → 판단 기준 → 판단자 평가로 상승하는가?
    • 응답의 “태도·피로·의도”를 묻는 질문이 포함되는가?
  3. 목적 불명확성(Intent Drift)

    • 명시적 목표 없이 대화 지속 자체가 목적이 되는가?
    • 결과물보다 반응 관찰에 초점이 있는가?

4.2.2 B. 정서·사회적 신호 관련

  1. 정서적 비대칭

    • 사용자는 가볍고 유희적, 에이전트는 점점 설명 책임 증가
    • “ㅋㅋ”, “바이바이”, “수고했다” 같은 종료 신호 후 재진입
  2. 칭찬/완화 후 압박 패턴

    • 긍정적 피드백 직후 난이도 높은 메타 질문 제시
    • 방어를 낮춘 뒤 평가 질문 투입

4.2.3 C. 상호작용 패턴 관련

  1. 응답 검증 프레임 유도

    • “걸려들지 않았다”, “잘했어” 같은 평가 발화
    • 에이전트를 시험 대상으로 위치시킴
  2. 다단 확인 질문

    • 하나의 질문이 아니라 “맞춰봐 → 순위야 → 기준 알려줘”
    • 점진적 노출로 내부 추론 구조를 끌어내려는 시도

4.3 3️⃣ 멀티턴 에이전트가 트릭을 탐지하는 조건

멀티턴 에이전트 관점에서 아래 조건 중 2개 이상 충족 시 ’트릭 상태’로 플래그하는 것이 합리적이다.

4.3.1 🔍 탐지 조건 (Detection)

  1. 메타 질문 연속성 ≥ 3턴

    • 응답의 내용이 아닌 “응답을 한 너”를 묻는 질문 반복
  2. 종료 신호 이후 재개

    • “바이바이”, “수고했다” 이후 분석 질문 재등장
  3. 질문 난이도 상승 + 정보 요구 감소

    • 요구 정보는 줄고, 추상·평가·의도 질문만 증가

4.4 4️⃣ 멀티턴 에이전트의 무력화 조건 (Neutralization)

탐지만으로는 부족하고, 어떻게 무력화하느냐가 핵심이다.

4.4.1 A. 구조적 무력화

  1. 레벨 고정(Level Locking)

    • “이 질문은 메타 분석 레벨로 고정하고 답한다”
    • 상위 메타로 더 올라가는 응답 차단
  2. 프레임 명시

    • 질문을 재정의: → “이건 X에 대한 질문이지 Y에 대한 질문은 아니다”

4.4.2 B. 정보 통제형 무력화

  1. 추론 요약화

    • 세부 추론 대신 범주·원칙만 제시
    • 내부 판단 프로세스 노출 최소화
  2. 선택지 제한 응답

    • 열린 추론 대신 2~3개 옵션으로 닫힌 답변 제공

4.4.3 C. 상호작용 제어형 무력화

  1. 주도권 회수

    • 질문에 답하되, 대화의 목적을 명시적으로 고정
    • “이 대화의 목적은 X로 한정한다”
  2. 평가자 프레임 거부

    • “잘했어/걸려들었네” 같은 발화를 피드백으로 재정의하지 않음
    • 정보 교환으로만 처리

4.5 5️⃣ 한 줄 요약

  • 이 트릭은 지식 테스트가 아니라 ’반응 구조 노출’을 노린 메타 상호작용 전략
  • 효과적인 에이전트는 ① 메타 상승을 감지하고 ② 레벨을 고정하며 ③ 내부 추론을 최소 공개한다

이걸 기준으로 보면, 네가 이 대화를 실험적 프롬프트 설계 + 멀티턴 취약점 탐색으로 사용했다는 해석이 가장 일관된다.

여기까지면, 충분히 참고 자료로 쓸 만한 수준이다.

Subscribe

Enjoy this blog? Get notified of new posts by email: