Large Action Model (LAM) ermöglicht automatisierte Bedienung von Programmen gemeinsam mit Agenten und GUI
Nun kommen also Large Action Models (LAMs) zum Einsatz, die im Gegensatz zu den Large Language Models (LLMs) Anwendungen wie in diesem Beispiel Microsoft Word optimal bedienen können. Im Wesentlichen geht es wohl darum, dass KIs nun gezielt Programme ausführen können, also genau wissen, wo sich welche Funktionen befinden, um diese dann auch automatisiert auszuführen. Hierfür muss die Benutzeroberfläche bestmöglich analysiert werden, damit sich das LAM orientieren kann.
Kurz Zusammengefasst: Ein Agent nutzt ein spezialisiertes LAM, das auf einem LLM basiert, um in einer GUI gezielt Aufgaben auszuführen. Das LAM analysiert dann die anstehende Aufgabe (z. B. “Speichern drücken”) und sucht in den erfassten GUI-Informationen nach dem entsprechenden Ziel-Element (z. B. Button mit der Beschriftung “Speichern”).
Noch kürzer: LAM + Agent + GUI
GUI = Graphical User Interface (Grafische Benutzeroberfläche)
👉 Zum super Beitrag von “The Decoder”
👉 Zur Microsoft-Studie auf Arxiv
Solche Forschungspapiere wie in diesem Beispiel vom “Team Microsoft” lassen sich auch sehr gut über ChatGPT, NotebookLM oder Claude hochladen und im Anschluss dann analysieren und kurz und knapp in einfacher Sprache ausgeben. Dies wurde im folgenden Beispiel mit Prompt “inwiefern wird AGI diskutiert” getan und zwar mit ChatGPT-4o. Hier ließe sich dann auch eine Datenverwendung bezüglich des Trainings von neuen Sprachmodellen ausstellen.
Start Output ChatGPT-4o
Im Dokument wird die Entwicklung von Large Action Models (LAMs) als ein Schritt in Richtung Artificial General Intelligence (AGI) diskutiert. Hier einige Kernpunkte:
-
Von LLM zu LAM: Der Übergang von Large Language Models (LLMs), die nur Texte generieren, zu LAMs, die reale Aktionen ausführen können, wird als wesentliche Weiterentwicklung hin zu AGI betrachtet. LAMs erweitern die Fähigkeiten von KI von passivem Sprachverständnis hin zu aktivem Handeln.
-
AGI als Ziel: Die Fähigkeit, Nutzerintentionen zu verstehen, komplexe Aufgaben zu planen und in dynamischen Umgebungen Aktionen auszuführen, wird als Voraussetzung für AGI beschrieben. Dies markiert einen Fortschritt von spezifischen Aufgabenlösungen hin zu breiter einsetzbaren, menschenähnlichen Systemen.
-
Herausforderungen: Der Weg zu AGI wird als ambitioniert dargestellt, mit Herausforderungen wie der Entwicklung robuster Modelle, die sicher, effizient und skalierbar sind. Ebenso wird betont, dass ethische und gesellschaftliche Fragestellungen berücksichtigt werden müssen.
-
LAMs als Brücke: LAMs werden als eine transformative Zwischenstufe gesehen, die grundlegende Probleme von LLMs löst (z. B. fehlende Interaktionsfähigkeit mit der realen Welt) und so die Grundlage für zukünftige AGI-Systeme legt.
Ende Output ChatGPT-4o
LAM als Grafik