Operator: OpenAI startet Agenten in den USA
OpenAI hat mit Operator in den USA einen Agenten vorgestellt, der auf der Grundlage des Sprachmodells GPT-4o arbeitet, das ĂŒber Vision-FĂ€higkeit verfĂŒgt und gemeinsam mit dem Graphical User Interface (GUI) interagiert und so die Maus & Tastatur am Laptop/PC selbststĂ€ndig steuern kann.
Im oberen Video von OpenAI zeigen Mit-FirmengrĂŒnder und CEO Samuel Altman & Team anhand von Beispielen wie einer Tischreservierung in einem Restaurant, wie solch ein AI Agent funktioniert. Alles lĂ€uft in der ChatGPT-Umgebung ab, wodurch fĂŒr User ein Login ausreicht, um die autonomen Helferlein ausfĂŒhren zu können. Aktuell sind diese ausschlieĂlich fĂŒr Pro-User in den USA verfĂŒgbar und werden demnĂ€chst auch fĂŒr Europa und Deutschland freigeschaltet.
Und so funktioniert der Operator (Agent):
- Login ĂŒber Webseite Operator
- User promptet ĂŒber OpenAI-internen BrowserÂ
- Als Sprachmodell kommt GPT-4o mit Vision-FĂ€higkeiten zum Einsatz
- GPT-4o interagiert mit Graphical User Interface (GUI), um sich zu orientieren
- Bei jeder Aktion wird ein Screenshot von der Umgebung gemacht und daraufhin Maus und Tastatur bedient, also Klicks und Texteingabe
- Alle Screenshots werden in einer Historie festgehalten, sodass der gesamte Prozess transparent vom User nachvollziehbar ist, um diesen auch auf Fehler zu ĂŒberprĂŒfen
Operator is powered by a new model called Computer-Using Agent (CUA). Combining GPT-4oâs vision capabilities with advanced reasoning through reinforcement learning, CUA is trained to interact with graphical user interfaces (GUIs)âthe buttons, menus, and text fields people see on a screen. Operator can âseeâ (through screenshots) and âinteractâ (using all the actions a mouse and keyboard allow) with a browser, enabling it to take action on the web without requiring custom API integrations. Quelle: OpenAI
Im Prinzip arbeitet GPT-4o vision mit dem GUI zusammen, um auf dieser Grundlage einen Screenshot zu machen, sich in der Umgebung etwa in einer Google-Suche zurechtzufinden, im Anschluss auf einen Button zu klicken, dann wieder einen Screenshot tÀtigen, nun z.B. eine Texteingabe, wieder ein Screenshot machen und immer so weiter. Um die Maus zu bewegen, werden tatsÀchlich die horizontalen und vertikalen Pixel gezÀhlt, erst dann kommt der Klick. Wir kennen dies schon vom Computer Use Model von Anthropic, das auf der Grundlage von Claude-Sonnet-3.5 lÀuft.
Die obere Abbildung von OpenAI zeigt, wie dieser Vorgang ablĂ€uft und welche Rollen der Agent einnimmt. Im unteren Screenshot ist ein Beispiel angefĂŒhrt, bei dem eine Lizenz erneuert werden soll und dieser Prozess nach anfĂ€nglichen Prompt automatisch vom KI-Agenten ausgefĂŒhrt und auf der linken Seite dokumentiert wird. Es gibt auch die Möglichkeit, die DurchfĂŒhrung zu stoppen und anzupassen, falls ein Fehler bemerkt wurde, damit der Prozess nicht sinnlos bis zum Ende ausgefĂŒhrt werden muss. Agenten agieren also autonom und können sehr umfassende ArbeitsablĂ€ufe wie Booking mit Bezahlvorgang und Ăhnlichen vornehmen, aber der Mensch kann wohl jederzeit manuell eingreifen und den Vorgang ĂŒbernehmen und auch wieder an die KI ĂŒbergeben. Ein flexibles Handling ist hier von Vorteil.
Neben dem Browser Use lassen sich Agenten auch auf einem Computer einsetzen, um dort Arbeitsprozesse auszufĂŒhren. Es lohnt sich definitiv darĂŒber nachzudenken, fĂŒr Agenten einen eigenen Laptop oder Ăhnliches zu verwenden, damit die autonomen KIs nicht potenziell an sensible Daten herankommen und diese womöglich “veruntreuen”. Vor allem von Logindaten im Rahmen von Bankkonten sollten die Helferlein ferngehalten werden đ