Operator: OpenAI startet Agenten in den USA
OpenAI hat mit Operator in den USA einen Agenten vorgestellt, der auf der Grundlage des Sprachmodells GPT-4o arbeitet, das über Vision-Fähigkeit verfügt und gemeinsam mit dem Graphical User Interface (GUI) interagiert und so die Maus & Tastatur am Laptop/PC selbstständig steuern kann.
Im oberen Video von OpenAI zeigen Mit-Firmengründer und CEO Samuel Altman & Team anhand von Beispielen wie einer Tischreservierung in einem Restaurant, wie solch ein AI Agent funktioniert. Alles läuft in der ChatGPT-Umgebung ab, wodurch für User ein Login ausreicht, um die autonomen Helferlein ausführen zu können. Aktuell sind diese ausschließlich für Pro-User in den USA verfügbar und werden demnächst auch für Europa und Deutschland freigeschaltet.
Und so funktioniert der Operator (Agent):
- Login über Webseite Operator
- User promptet über OpenAI-internen Browser
- Als Sprachmodell kommt GPT-4o mit Vision-Fähigkeiten zum Einsatz
- GPT-4o interagiert mit Graphical User Interface (GUI), um sich zu orientieren
- Bei jeder Aktion wird ein Screenshot von der Umgebung gemacht und daraufhin Maus und Tastatur bedient, also Klicks und Texteingabe
- Alle Screenshots werden in einer Historie festgehalten, sodass der gesamte Prozess transparent vom User nachvollziehbar ist, um diesen auch auf Fehler zu überprüfen
Operator is powered by a new model called Computer-Using Agent (CUA). Combining GPT-4o’s vision capabilities with advanced reasoning through reinforcement learning, CUA is trained to interact with graphical user interfaces (GUIs)—the buttons, menus, and text fields people see on a screen. Operator can “see” (through screenshots) and “interact” (using all the actions a mouse and keyboard allow) with a browser, enabling it to take action on the web without requiring custom API integrations. Quelle: OpenAI
Im Prinzip arbeitet GPT-4o vision mit dem GUI zusammen, um auf dieser Grundlage einen Screenshot zu machen, sich in der Umgebung etwa in einer Google-Suche zurechtzufinden, im Anschluss auf einen Button zu klicken, dann wieder einen Screenshot tätigen, nun z.B. eine Texteingabe, wieder ein Screenshot machen und immer so weiter. Um die Maus zu bewegen, werden tatsächlich die horizontalen und vertikalen Pixel gezählt, erst dann kommt der Klick. Wir kennen dies schon vom Computer Use Model von Anthropic, das auf der Grundlage von Claude-Sonnet-3.5 läuft.

Die obere Abbildung von OpenAI zeigt, wie dieser Vorgang abläuft und welche Rollen der Agent einnimmt. Im unteren Screenshot ist ein Beispiel angeführt, bei dem eine Lizenz erneuert werden soll und dieser Prozess nach anfänglichen Prompt automatisch vom KI-Agenten ausgeführt und auf der linken Seite dokumentiert wird. Es gibt auch die Möglichkeit, die Durchführung zu stoppen und anzupassen, falls ein Fehler bemerkt wurde, damit der Prozess nicht sinnlos bis zum Ende ausgeführt werden muss. Agenten agieren also autonom und können sehr umfassende Arbeitsabläufe wie Booking mit Bezahlvorgang und Ähnlichen vornehmen, aber der Mensch kann wohl jederzeit manuell eingreifen und den Vorgang übernehmen und auch wieder an die KI übergeben. Ein flexibles Handling ist hier von Vorteil.

Neben dem Browser Use lassen sich Agenten auch auf einem Computer einsetzen, um dort Arbeitsprozesse auszuführen. Es lohnt sich definitiv darüber nachzudenken, für Agenten einen eigenen Laptop oder Ähnliches zu verwenden, damit die autonomen KIs nicht potenziell an sensible Daten herankommen und diese womöglich „veruntreuen“. Vor allem von Logindaten im Rahmen von Bankkonten sollten die Helferlein ferngehalten werden 🙂


