Google AI Studio: Kostenfreier Playground für Live-Kommunikation mit Gemini via Audio, Webcam und Screen
Google stellt Usern in einem bestimmten Umfang kostenfrei multimodale Live-Aktivitäten über das AI Studio zur Verfügung, das auch gerne als eine Art Playground anzusehen ist, auf dem man einfach mal los testet und ein Gefühl für den Stand der Dinge hat bezüglich der aktuellen KI-Entwicklung erhält. Unter anderem ist eine Live-Kommunikation via Audio, Webcam und Teilen des eigenen Screens möglich.
Und so kann es gehen:
1) Anmeldung über ein Google-Konto, um sich in AI Studio einzuloggen
2) Kostenlose Nutzung von Stream Realtime (Audio, Webcam & Screen) oder “Standard Prompting”
3) Anzahl der verfügbaren und verbrauchten Token rechts in der Navigation sichtbar (Token count)
4) Unterschiedliche Sprachmodelle wie Gemini 2.0 Flash, LearnLM und “open source” Gemma kostenlos in der rechten Navigation switchen
5) Eigenen API Key verwenden, um Language Model Gemini 1.5 breiter nutzen zu können. Jeder Prompt verursacht Kosten, die über LLM-Auswahl einsehbar sind.
Spannender Streaming-Modus mit Audio, Webcam und Bildschirm teilen
Die obere Abbildung zeigt die Startseite vom AI Studio, nachdem man sich erfolgreich eingeloggt hat. Auf der rechten Seite in der Navigation lassen sich das gewünschte Sprachmodell wechseln. Zum Angebot gehören das Top-Model Gemini 1.5, die aktuellste Version Gemini 2.0 Flash im Experimentier- & Thinking-Modus sowie das auf den Bildungsbereich ausgerichtete Modell LearnLM und das offene Sprachmodell Gemma in unterschiedlichen Ausführungen. Alle LLMs lassen sich kostenfrei nutzen. Siehe dazu auch auf der rechten Seite den aktuellen Stand der maximal verfügbaren und aktuell verbrauchten Token, die sich aus den kumulierten Prompts ergeben.
Wechselt ein User über das linke Menü in den aus meiner Sicht interessanteren Streamingbereich (Stream Realstime), dann kommt dort ausschließlich das Language Model Gemini Flash 2.0 Experimental zum Einsatz. Im oberen Screenshot ist das Feature “Talk-to-Gemini” aktiv, wobei rechts mein Audio-Input erfasst wurde, um dieses jederzeit wieder abspielen und herunterladen zu können. Die Audios auf der linken Seite im Grauton hat Gemini dann als Output etwa zu einer Frage ausgegeben und zwar fast im Live-Modus, also ohne größere Latenz (Verzögerung). So kann eine reibungslosere “KI-Mensch-Kommunikation” stattfinden, die dann auch Spaß macht. Es ist u.a. möglich, in Deutsch einen Input zu geben und den Output dann z.B. auf Französisch oder in weitere Sprachen zu erhalten, falls man dies direkt im eigenen Audio-Input mit angibt. Dies wäre für den Sprachunterricht recht interessant.
Im Folgenden wird die Funktion “Show Gemini” getestet, bei der Nutzer ihre Webcam zulassen und das Sprachmodell dann etwa die Umgebung oder auch Handbewegungen der abgebildeten Person erkennen und auswerten kann. Im unteren Beispiel sind beide Audios schon geladen und zusätzlich ist der Upload der Webcam-Szene in Arbeit, sodass separat ein Video und ein Audio als Input jederzeit abspielbar sind und auch der Audio-Output von Gemini auf der linken Seite.
Das interessanteste Feature ist wohl das Teilen des eigenen Bildschirms mit Googles Top-KI und zwar über die Funktion “share your screen”, die ein User über Button-Klick im Streaming-Portal des AI Studios öffnet. An dieser Stelle natürlich auch der Hinweis auf den Datenschutz und die Tatsache, dass es sich bei Google um einen Konzern mit Servern in den USA hält, wo dann auch die Inputs verarbeitet werden. Also nicht unbedingt den Bildschirm mit Gemini Flash 2.0 teilen, wenn dort womöglich private Familienfotos sichtbar sind oder eine Zeichnung eures neuesten Patents, bevor dies angemeldet wurde.
Fernab von solchen Datenschutzproblematiken ist das Teilen des eigenen Screens mit einer KI wie Gemini vor allem im Rahmen von Arbeitsprozessen wirklich spannend, denn eine Künstliche Intelligenz könnte einem User so theoretisch live über die Schulter schauen und direkt einen Hinweis geben, falls ein Fehler gemacht wurde, diesen dann auch unmittelbar zu korrigieren, wenn vom User im Vorfeld die richtigen Settings getroffen wurden. Es kann sehr gut sein, dass Arbeitnehmer in Zukunft bei vielen Prozessen immer gemeinsam mit einem Large Language Model zusammenarbeiten, um so weniger Fehler zu machen oder die eigenen Aufgaben kreativer ausführen zu können, in dem beispielsweise regelmäßig automatisierte KI-Vorschläge kommen. Da gäbe es potenziell viele sinnvolle Einsatzmöglichkeiten eines “KI-Kollegen“. Auch als eine Art “Backup”, um generell bei wichtigen Entscheidungen zu entlasten und so auch den Druck/Stressfaktor zu minimieren.