추론 기법 비교 Chain-of-thought vs. ReAct vs. Reflexion
1. 개요
대규모 언어모델(LLM)의 고도화로 단순 응답 생성에서 벗어나 추론(Reasoning) 능력을 강화하는 프롬프트 엔지니어링 기법들이 등장하였다. 대표적으로 Chain-of-Thought(CoT), ReAct, Reflexion 기법이 있으며, 이들은 모델이 사고 과정을 명시적으로 표현하고 개선하도록 설계되었다.
2. 주요 기법의 개념
(1) Chain-of-Thought (CoT)

복잡한 문제를 해결하기 위해 중간 추론 단계(Intermediate Reasoning Steps) 을 명시적으로 표현하도록 유도하는 프롬프트 기법이다. 모델이 최종 답을 바로 내놓지 않고, 사람이 문제를 푸는 것처럼 단계적인 논리 전개 과정을 보여주도록 요청한다.
작동 방식:
- Zero-Shot CoT: 프롬프트에 "단계적으로 생각해보자(Let's think step by step)." 와 같은 문구를 추가하여 모델 스스로 추론 과정을 유도.
- Few-Shot CoT: 입력 예시에 문제와 함께 그 문제의 풀이 과정(추론 과정)을 포함하여 모델이 이를 모방하도록 학습.
(2) ReAct (Reasoning and Acting)

모델이 추론(Reasoning)과 행동(Action)을 교차적으로 수행하도록 하는 프레임워크이다. 추론(Reasoning)을 통해 다음에 취할 행동(Action)을 결정하고, 행동 결과를 관찰하여 다음 추론 단계로 피드백하는 반복적인 루프를 사용한다.
작동 방식: 모델은 매 단계마다 '사고(Thought)'를 통해 현재 상태를 평가하고, '행동(Action)'을 결정하며, '관찰(Observation)'을 통해 행동의 결과를 확인.
(3) Reflexion (자기 피드백 기반 추론)

모델이 자신의 응답을 평가·비판(reflect) 하고 개선된 답변을 재생성하는 자기 피드백기법이다. 모델이 이전 시도에서 얻은 경험과 피드백을 활용하여, 다음 시도에서 개선된 전략을 적용하도록 유도한다.
작동 방식:
- 시도(Trial): ReAct와 유사하게 행동 시퀀스를 실행.
- 평가(Evaluation): 시도의 성공 또는 실패 여부를 평가하고, 그 이유를 분석.
- 반성(Reflection): 모델은 평가 결과를 바탕으로 반성 기록을 생성하고, 다음 시도를 위한 새로운 지침을 설정.
- 재시도(Re-trial): 모델은 이 반성 기록과 함께 문제를 다시 해결하려고 시도.
3. 주요 차이점 요약
| 구분 | Chain-of-Thought | ReAct | Reflexion |
| 핵심 개념 | 단계적 사고 명시 | 사고와 행위의 반복적 결합 | 자기 피드백 통한 개선 |
| 주요 목적 | 논리적 사고 유도 | 실시간 정보 탐색 및 실행 | 오류 검증 및 수정 |
| 피드백 기능 | 없음 | 관찰(Observation) 기반 한정적 | 자가 평가(Self-evaluation) 기반 |
| 적용 분야 | 수학, 논리 문제 | 검색·코드 실행형 문제 | 답변 품질 향상, 자율 에이전트 |
4. 결론 (시사점)
CoT, ReAct, Reflexion은 LLM이 단순 응답 생성에서 사고 → 행동 → 자기개선 단계로 진화하는 과정을 보여준다. 향후 AI는 Reflexion 기반의 자기 피드백 루프(Self-Improving Loop) 를 통해 지속적으로 정확도와 신뢰성을 높이는 지능형 에이전트(Autonomous Agent) 로 발전할 것이다.
'IT Tech.' 카테고리의 다른 글
| (소프트웨어공학) 맵 리듀스 (Map Reduce) 패턴 (0) | 2025.11.29 |
|---|---|
| (소프트웨어공학) 오케스트레이터 패턴 vs. 코레오그래피 패턴 (0) | 2025.11.29 |
| (AI) TTFT vs. TPOT vs. Goodput (0) | 2025.11.20 |
| (AI) 글리치 토큰 필터링 (0) | 2025.11.19 |
| (AI) LLM 벡터와 임베딩 (0) | 2025.11.19 |