Ein Computer lernt Videospiele
Masterabsolvent der FH Münster untersucht Lernalgorithmus mit Atari-Spielen
Ein Beitrag der FH Münster
Vor wenigen Jahren trat der damals weltweit stärkste Spieler des Brettspiels „Go“ gegen die Künstliche Intelligenz „AlphaGo“ an – und verlor. Der Sieg des Computerprogramms gegen einen Menschen gilt als wichtiger Meilenstein für das maschinelle Lernen und den Teilbereich Reinforcement Learning, also das bestärkende Lernen. Der Informatikabsolvent Daniel Lukats hat sich in seiner Masterarbeit an der FH Münster mit diesem Thema beschäftigt, allerdings im Kontext einer völlig anderen Spielekategorie. Er untersuchte die Eigenschaften eines speziellen Lernalgorithmus mithilfe von Atari-Videospielen und brachte einem Computer bei, wie er unter anderem die Klassiker „Pong“ und „Space Invaders“ eigenständig lernt.
Beim Reinforcement Learning interagiert ein Software-Agent – also ein Computerprogramm, das eigenständig handeln kann – mit seiner Umwelt. Er lernt, indem er für seine Handlungen über einen Algorithmus positives oder negatives Feedback bekommt. Lukats kennt dieses Vorgehen aus seinem Studium. „In einem Modul haben Kommilitonen und ich einem Computer die Spiele ‚Vier gewinnt‘ und ‚Tic Tac Toe‘ beigebracht – das hat mir total viel Spaß gemacht“, berichtet er. Schnell stand daher für ihn fest, dass er sich in seiner Abschlussarbeit ebenfalls damit beschäftigten möchte. Seinen Schwerpunkt legte er auf den in vielen Publikationen thematisierten Lernalgorithmus „Proximal Policy Optimization (PPO)“. „Um einen Algorithmus zu untersuchen und mit anderen zu vergleichen, gibt es unterschiedliche Herangehensweisen“, erklärt der Absolvent. „Beispielsweise kann man damit eine Roboterhand steuern lassen und beobachten, was sich je nach Algorithmus und Eigenschaft im Bewegungsablauf verändert. Eine weitere anerkannte Methode sind Atari-Spiele, die von dem Unternehmen OpenAI bereitgestellt werden.“ Lukats wählte für seine Untersuchung fünf der insgesamt 57 Videospiele aus: „Pong“, „Space Invaders“, „Seaquest“, „Beamrider“ und „Breakout“.
Er wertete zum Beispiel aus, wie schnell das künstliche neuronale Netz lernt, gut zu spielen. Dafür ermittelte er den sogenannten Episode Score, also die erreichte Punktzahl verglichen mit der des Gegners, für zehn Millionen Trainingseinheiten. Für jedes der ausgewählten Spiele untersuchte Lukats die Auswirkungen von fünf Optimierungsmöglichkeiten des PPO-Algorithmus – das hatte bisher noch keiner gemacht. In einem Zeitraum von zwei Wochen führte er insgesamt 47 Experimente im COSY-Lab am Fachbereich Elektrotechnik und Informatik durch. Die Tests liefen gleichzeitig an 15 Computern. „Dabei habe ich rund 50 Gigabyte Daten über das Lernverhalten generiert“, erklärt er. Wegen Corona war er während der Durchführung der Experimente nicht vor Ort in Steinfurt, sondern schaltete sich von zu Hause aus auf die Rechner. Mit seinen Prüfern Prof. Dr. Jürgen te Vrugt vom Labor für Künstliche Intelligenz und Prof. Dr. Kathrin Ungru vom Labor für Visual Computing tauschte er sich in wöchentlichen Videokonferenzen aus. „Die Arbeit lief gut“, sagt Lukats. „Ich hatte ja bereits drei Monate Vorarbeit und Recherchen ohne Corona hinter mir, sodass ich während der Zeit der Kontaktbeschränkungen problemlos im Homeoffice arbeiten konnte.“
Bei seinen Untersuchungen stellte er fest, dass sich ein Ein- und Ausschalten der Optimierungen ganz unterschiedlich auf die Atari-Spiele auswirkt. „Das liegt daran, dass die Spiele unterschiedliche Herausforderungen für das neuronale Netz darstellen. Einige sind schwieriger und komplexer. ,Pong‘ ist hingegen sehr simpel aufgebaut“, erläutert er. Lukats beobachte zudem, dass die Optimierungen unterschiedlich miteinander agieren. „Diese Wechselwirkungen habe ich auf Grundlage bisheriger Untersuchungen dieses Algorithmus schon vermutet. Aber ich war überrascht, welchen Einfluss die sogenannten Hyperparameter haben.“ Mit den Hyperparametern konnte Lukats zum Beispiel die Lernrate oder zukünftige Ereignisse beeinflussen und damit das Lernverhalten des Agenten steuern.
Sein Fazit: Die Optimierungen sind wichtig, es ist teilweise jedoch schwierig zu begründen, warum. „Die Untersuchung von Atari-Spielen ist vielleicht etwas ungewöhnlicher und meine Auswertungen haben keinen konkreten Anwendungsbezug. Aber mein Ergebnis bestärkt das von anderen Anwendungsfällen und leistet somit einen kleinen Forschungsbeitrag“, fasst er zusammen. Von seiner Masterarbeit profitieren zukünftig zudem Schüler und Studieninteressierte: Lukats hat einen Demonstrator für das Tischtennis-Spiel „Pong“ entwickelt. In einem rund sechsminütigen Video können Zuschauer dem Agenten beim erfolgreichen Lernen zuschauen. Während er am Anfang keinen „Ball“ trifft, gewinnt er am Ende mit großem Vorsprung gegen den Computergegner.
Zum Originalbeitrag vom 01.09.2020