메인 알고리즘 추천: Deep Q-Network (DQN)
- 이유: discrete action (4방향), 상태 공간이 커서 Q-table 불가능 → DQN 적합
- 보완 요소:
- Replay Buffer
- Target Network
- Reward clipping (ex: merge 된 타일의 값)
- Dueling DQN 또는 Double DQN으로 성능 향상 가능
비교 알고리즘 추천
🔹 (a) Q-Learning (Tabular)
- 상태를 단순히 표현하거나 보드를 압축하여 tabular로도 실험 가능
- 아주 단순한 baseline으로 좋음 (학습이 거의 안 되거나 잘 안 되는 걸 확인하는 용도)
🔹 (b) Policy Gradient (REINFORCE)
- 확률적 정책 학습 → 탐색 다양화 가능
- 성능은 불안정할 수 있으나 비교에 좋음
🔹 (c) MCTS (no learning)
- 정책/가치 함수 없이 MCTS만으로도 좋은 성능 가능 (greedy+lookahead)
- 학습 기반이 아니므로 baseline 성능 평가에 좋음
+) 시간이 된다면…
🔹 (d) Actor-Critic
- Policy + Value 기반 → REINFORCE보다 안정적
- (시간이 충분하다면) Advantage Actor-Critic (A2C) 도전 가능