kakamond commited on
Commit
f3346f4
·
verified ·
1 Parent(s): 497f119

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -0
README.md CHANGED
@@ -2,6 +2,8 @@
2
  license: mit
3
  ---
4
 
 
 
5
  ## 简介 Intro
6
  本实验旨在通过深度强化学习算法(DQN 和 PPO)训练一个能够玩贪吃蛇游戏的人工智能代理。实验中,代理(即贪吃蛇)在游戏世界中行动,状态包括蛇头的坐标、蛇身的坐标列表、蛇头的方向、食物的坐标等。奖励机制基于蛇吃食物、获胜或失败的得分。实验使用 PyGame 框架进行环境模拟,并通过调整奖励参数(如吃食物的奖励保持不变,而死亡的惩罚逐渐增加)来观察训练效果。结果显示,增加死亡的惩罚可以提高平均得分,而较低的死亡惩罚策略虽然在训练过程中表现不佳,但在实际演示中表现良好。未来的工作将尝试通过增加对蛇身曲折的惩罚来优化蛇的移动路径,并将保存的模型集成到 C++框架中。
7
 
 
2
  license: mit
3
  ---
4
 
5
+ PPO Snake AI Report & weights after training
6
+
7
  ## 简介 Intro
8
  本实验旨在通过深度强化学习算法(DQN 和 PPO)训练一个能够玩贪吃蛇游戏的人工智能代理。实验中,代理(即贪吃蛇)在游戏世界中行动,状态包括蛇头的坐标、蛇身的坐标列表、蛇头的方向、食物的坐标等。奖励机制基于蛇吃食物、获胜或失败的得分。实验使用 PyGame 框架进行环境模拟,并通过调整奖励参数(如吃食物的奖励保持不变,而死亡的惩罚逐渐增加)来观察训练效果。结果显示,增加死亡的惩罚可以提高平均得分,而较低的死亡惩罚策略虽然在训练过程中表现不佳,但在实际演示中表现良好。未来的工作将尝试通过增加对蛇身曲折的惩罚来优化蛇的移动路径,并将保存的模型集成到 C++框架中。
9