KI-Computersteuerung: Claude steuert nun mit Agenten deinen Computer

Den eigenen Computer von einer künstlichen Intelligenz steuern lassen, dies bietet nun die US-Firma Anthropic mit ihrem Top-Sprachmodell Claude-3.5-Sonnet an. Ein Prompt reicht aus und die KI arbeitet nach und nach unterschiedlichen Arbeitsprozessen ab, während man selber entspannt zuschauen kann. Zu Beginn steht immer ein Prompt.

Zum offiziellen Blogbeitrag von Anthropic

Das obere Video des US-YouTubers Matt Wolfe veranschaulicht sehr kompakt, wie dieser Prozess der KI-Computersteuerung abläuft. Hierfür benötigen User etwa die Software Docker, die sie auf ihrem Rechner herunterladen und dort laufen lassen. Zusätzlich ist wie bei so vielen Arbeitsprozessen & Einbindungen im Rahmen von Anwendungen auf der Grundlage von künstlicher Intelligenz eine API bzw. ein API-Key notwendig, den jeder Claude-User in seiner Konsole abrufen kann. Die Nutzung einer API ist immer kostenpflichtig.

claude
Voraussetzung für die Verbindung ist ein API-Key

Claude nutzt Screenshots und zählt Pixel

Aber wie funktioniert denn diese Technik nun? Es ist recht einfach. Da Claude multimodal ist, somit auch Bilder erkennt und auswerten kann, nutzt das Sprachmodell Screenshots etwa des Desktops oder aufgerufenen Browsers, zählt die horizontalen und vertikalen Pixel des Screens, klickt dann auf den jeweiligen Button oder das Suchfeld und tippt ebenfalls selbstständig Text ein. Aber zu Beginn steht immer ein Prompt des Users, der unten links in die Promptleiste eingetragen wird und den gesamten Arbeitsprozess im Vorfeld klar definiert.

Kurz zusammengefasst:

1) Programm Docker installieren und auf dem eigenen Rechner ausführen

2) API-Key über Claude-Console generieren und in Docker einfügen. Nun steht die Verbindung und zwar 24/7. Jeder Prompt verursacht Kosten.

3) Links unten in der Promptleiste den gesamten Arbeitsprozess beschreiben, der von Claude-3.5-Sonnet im Alleingang ausgeführt werden soll

4) Claude setzt bei jeder Aktion einen Screenshot, um sich zu orientieren und zählt die horizontalen & vertikalen Pixel für einen erfolgreichen Klick auf Buttons oder Suchfelder etc.

claude
Im Prompt den gesamten Arbeitsprozess definieren

Im oberen Screenshot wird der Anfangsprompt von Matt Wolfe angezeigt, um für die nächsten 3 Tage das Wetter in San Diego zu ermitteln und die Daten mit maximalen Temperaturen in ein separates Spreadsheet einzutragen. Zu Beginn macht Claude dann einen Screenshot vom Desktop, erkennt den Browser, navigiert auf den Button und öffnet Firefox. Danach wird ein Screenshot vom Browser gemacht, das Suchfeld erfasst und Ort & Wetterabfrage eingegeben. Im Anschluss öffnet die KI selbstständig eine Tabellen-Datei und trägt dort nach und nach die Daten ein. Nach jeder Dateieingabe in eine Zeile wird ein Screenshot erstellt, um die Ergebnisse zu überprüfen.

Es ist also klar erkennbar, dass die Vision-Funktion, also die Fähigkeit, etwa einen Screenshot zu erkennen und auszuwerten und auf dieser Grundlage zu agieren, ganz zentraler Bestandteil des Handelns dieses computer use models ist. Auch das Speichern einer Datei wird übrigens übernommen, die sich dann selbstverständlich noch von Menschenhand bearbeiten lässt.

claude
Claude nutzt Screenshots, um sich zu orientieren

Fazit

Solch ein KI-gesteuerter Computer mit der automatisierten Abfolge von Arbeitsprozessen nach einem anfänglichen Prompt ist wohl eine mehr sinnvolle Entwicklung, um schlussendlich monotone Abläufe an ein Large Language Model outsourcen zu können. Eventuell ließe sich so eine morgendliche Abfolge automatisieren, die viele User ihre morgendliche Routine nennen würden, wie z.B. E-Mails abrufen, Browser und eine Nachrichtenseite oder einen Social-Media-Account öffnen. Dies ließe sich fortan theoretisch in einem gespeicherten Prompt mit nur einem Mausklick ausführen.

Jedoch sollte immer beachtet werden, dass eine Künstliche Intelligenz in Form eines großen Sprachmodells wie Claude-3.5-Sonnet theoretisch vollen Zugang zu allen verfügbaren Dateien hätte, solange man nicht im Vorfeld bestimmte Einstellungen tätigt bzw. Einschränkungen definiert. Aus meiner Sicht ist solch eine KI-Computersteuerung mehr als sinnvoll, um unterm Strich Zeit zu sparen und monotone Prozesse zu minimieren, aber doch bitte alles ausgeführt auf einem separaten Endgerät, auf dem eine KI auch bei einem maximalen “Tabula rasa” keinen großen Schaden anrichten kann, etwa hinsichtlich sensibler Daten wie Passwörtern, privaten Bildern und Ähnlichem.

Ein Beitrag erstellt von

Ähnliche Beiträge