Operator: OpenAI startet Agenten in den USA

OpenAI hat mit Operator in den USA einen Agenten vorgestellt, der auf der Grundlage des Sprachmodells GPT-4o arbeitet, das ĂŒber Vision-FĂ€higkeit verfĂŒgt und gemeinsam mit dem Graphical User Interface (GUI) interagiert und so die Maus & Tastatur am Laptop/PC selbststĂ€ndig steuern kann.

Im oberen Video von OpenAI zeigen Mit-FirmengrĂŒnder und CEO Samuel Altman & Team anhand von Beispielen wie einer Tischreservierung in einem Restaurant, wie solch ein AI Agent funktioniert. Alles lĂ€uft in der ChatGPT-Umgebung ab, wodurch fĂŒr User ein Login ausreicht, um die autonomen Helferlein ausfĂŒhren zu können. Aktuell sind diese ausschließlich fĂŒr Pro-User in den USA verfĂŒgbar und werden demnĂ€chst auch fĂŒr Europa und Deutschland freigeschaltet.

Und so funktioniert der Operator (Agent):

  1. Login ĂŒber Webseite Operator
  2. User promptet ĂŒber OpenAI-internen Browser 
  3. Als Sprachmodell kommt GPT-4o mit Vision-FĂ€higkeiten zum Einsatz
  4. GPT-4o interagiert mit Graphical User Interface (GUI), um sich zu orientieren
  5. Bei jeder Aktion wird ein Screenshot von der Umgebung gemacht und daraufhin Maus und Tastatur bedient, also Klicks und Texteingabe
  6. Alle Screenshots werden in einer Historie festgehalten, sodass der gesamte Prozess transparent vom User nachvollziehbar ist, um diesen auch auf Fehler zu ĂŒberprĂŒfen

Operator is powered by a new model called Computer-Using Agent (CUA). Combining GPT-4o’s vision capabilities with advanced reasoning through reinforcement learning, CUA is trained to interact with graphical user interfaces (GUIs)—the buttons, menus, and text fields people see on a screen. Operator can “see” (through screenshots) and “interact” (using all the actions a mouse and keyboard allow) with a browser, enabling it to take action on the web without requiring custom API integrations. Quelle: OpenAI

Im Prinzip arbeitet GPT-4o vision mit dem GUI zusammen, um auf dieser Grundlage einen Screenshot zu machen, sich in der Umgebung etwa in einer Google-Suche zurechtzufinden, im Anschluss auf einen Button zu klicken, dann wieder einen Screenshot tÀtigen, nun z.B. eine Texteingabe, wieder ein Screenshot machen und immer so weiter. Um die Maus zu bewegen, werden tatsÀchlich die horizontalen und vertikalen Pixel gezÀhlt, erst dann kommt der Klick. Wir kennen dies schon vom Computer Use Model von Anthropic, das auf der Grundlage von Claude-Sonnet-3.5 lÀuft.

operator
Funktionsweise des Agenten – Quelle: OpenAI

Die obere Abbildung von OpenAI zeigt, wie dieser Vorgang ablĂ€uft und welche Rollen der Agent einnimmt. Im unteren Screenshot ist ein Beispiel angefĂŒhrt, bei dem eine Lizenz erneuert werden soll und dieser Prozess nach anfĂ€nglichen Prompt automatisch vom KI-Agenten ausgefĂŒhrt und auf der linken Seite dokumentiert wird. Es gibt auch die Möglichkeit, die DurchfĂŒhrung zu stoppen und anzupassen, falls ein Fehler bemerkt wurde, damit der Prozess nicht sinnlos bis zum Ende ausgefĂŒhrt werden muss. Agenten agieren also autonom und können sehr umfassende ArbeitsablĂ€ufe wie Booking mit Bezahlvorgang und Ähnlichen vornehmen, aber der Mensch kann wohl jederzeit manuell eingreifen und den Vorgang ĂŒbernehmen und auch wieder an die KI ĂŒbergeben. Ein flexibles Handling ist hier von Vorteil.

operator
Update license: Ablauf der einzelnen Schritte

Neben dem Browser Use lassen sich Agenten auch auf einem Computer einsetzen, um dort Arbeitsprozesse auszufĂŒhren. Es lohnt sich definitiv darĂŒber nachzudenken, fĂŒr Agenten einen eigenen Laptop oder Ähnliches zu verwenden, damit die autonomen KIs nicht potenziell an sensible Daten herankommen und diese womöglich “veruntreuen”. Vor allem von Logindaten im Rahmen von Bankkonten sollten die Helferlein ferngehalten werden 🙂

Die “Digitalen Profis” erklĂ€ren die neuen Agents

Autor des Beitrags auf Linkedin

matthias kindt

Matthias Kindt auf Linkedin

Ähnliche BeitrĂ€ge