메인 알고리즘 추천: Deep Q-Network (DQN)

이유: discrete action (4방향), 상태 공간이 커서 Q-table 불가능 → DQN 적합
보완 요소:
- Replay Buffer
- Target Network
- Reward clipping (ex: merge 된 타일의 값)
- Dueling DQN 또는 Double DQN으로 성능 향상 가능

비교 알고리즘 추천

🔹 (a) Q-Learning (Tabular)

상태를 단순히 표현하거나 보드를 압축하여 tabular로도 실험 가능
아주 단순한 baseline으로 좋음 (학습이 거의 안 되거나 잘 안 되는 걸 확인하는 용도)

🔹 (b) Policy Gradient (REINFORCE)

확률적 정책 학습 → 탐색 다양화 가능
성능은 불안정할 수 있으나 비교에 좋음

🔹 (c) MCTS (no learning)

정책/가치 함수 없이 MCTS만으로도 좋은 성능 가능 (greedy+lookahead)
학습 기반이 아니므로 baseline 성능 평가에 좋음

+) 시간이 된다면…

🔹 (d) Actor-Critic

Policy + Value 기반 → REINFORCE보다 안정적
(시간이 충분하다면) Advantage Actor-Critic (A2C) 도전 가능
- A2C - https://github.com/zankner/2048