Gescheiter scheitern mit KI - Visual ChatGPT

Visual ChatGPT - die Bild-KI arbeitet noch an ihrer Perfektionierung. Bildrechte: IMAGO / aal.photo / MDR Wissen

KI-Kolumne Gescheiter scheitern mit KI. Heute: Visual ChatGPT

14. August 2023, 16:12 Uhr

Durch die KI wird es ja sooo leicht, Fake-Bilder zu erzeugen. Mit KI-Tools wie dem neuen "Visual ChatGPT" kann das jetzt jede und jeder. Wirklich? Kilian Irrgang bezweifelt das. Ein Erfahrungsbericht.

von Kilian Irrgang

Ich bin Kilian Irrgang*. Meine Initialen sind ganz nett, tun aber nichts zur Sache. Wenn ich von KI rede, dann meine ich immer die Künstliche Intelligenz. Im Gegensatz zu mir ist sie seit Monaten in aller Munde. Jede Woche wird ein neuer, Verzeihung, "heißer Scheiß" in den Himmel gelobt. Und ich würde gern Schritt halten, dabei sein, dazugehören.

Ich fühle mich der Generation Y zugehörig. Ich bin technikaffin, lieber im Home Office als im Büro, mag flexible Arbeitszeiten, vor allem spätabends. Ich halte mich für einen typischen, nur ein paar Jahre zu früh geborenen Millenial. Schon in meiner Kindheit und Jugend habe ich programmiert. Heute tue ich das nur noch ein bisschen für den "Heimgebrauch". Aber ein Grundverständnis für Programmiersprachen und Algorithmen ist auf jeden Fall vorhanden. Angst vor Computern gibt es bei mir nicht. Alles ist irgendwie lösbar und höchstens eine Frage der Zeit. Hoffe ich.

Auf ChatGPT an sich muss ich hoffentlich nicht mehr eingehen, das intelligente dialogische Sprachmodell wurde schon zur Genüge erklärt. Ich habe da jetzt übrigens ein Plus-Abo. Einerseits so ein bisschen aus Dankbarkeit, weil mir der Bot tatsächlich schon recht viel geholfen hat, vor allem bei im weitesten Sinne programmiererischen Problemen. Und andererseits weil ich, wenn ich mich für etwas interessiere, immer gern auf dem neuesten Stand bin. Ich will also jetzt schon mit GPT-4 kommunizieren und möglichst bald zu denen gehören, die in den Genuss (hoffentlich ist es einer) der Plugins kommen, mit denen ChatGPT noch unheimlich viel stärker werden wird. Ich werde sicher irgendwann davon berichten. Aber erst mal zu einer anderen ChatGPT-Variante, die es inzwischen gibt.

Visual ChatGPT

Visual ChatGPT erweitert ChatGPT um die Möglichkeit, Bilder erstellen und erstellte wie auch eigene Bilder bearbeiten zu lassen. Toll! Oder nicht?
Nicht. Nicht für mich jedenfalls. Noch nicht jedenfalls. Ich erzähle Ihnen, warum.

Ich habe versucht, mit Visual ChatGPT zu arbeiten. Der plumpeste Versuch ist mehrfach schon im Ansatz gescheitert. Auf https://stablediffusionweb.com/Visual-ChatGPT gibt es eine Demo. Besser gesagt, soll es sie dort geben, ich kann das nicht beweisen, denn bei mir hat sie nie funktioniert. Es gab immer nur eine leere Seite und die Auskunft, dass es Server-Schwierigkeiten wegen der vielen Anfragen geben kann.

"Due to the large number of users, the server may experience problems. If you encounter an error, please try again."
Aufgrund der großen Anzahl von Benutzern kann es zu Problemen auf dem Server kommen. Wenn Sie einen Fehler feststellen, versuchen Sie es bitte erneut. Bildrechte: Kilian Irrgang / MDR Wissen

Macht aber nichts, ich habe über Google noch drei andere Möglichkeiten gefunden, das Tool zum Laufen zu kriegen. Nämlich auf den Plattformen Google Colab und Hugging Face. Oder auf dem eigenen Rechner, indem man das GitHub Repository herunterlädt und ausführt.
Ja, ich weiß, entweder muss man sich anmelden oder etwas herunterladen und installieren, wenn man das ausprobieren will. Manche würden da vielleicht jetzt schon aufgeben. Ich nicht. Ich habe dafür sogar meinen Account bei OpenAI in einen Bezahl-Account umgewandelt.

Die persönliche Hemmschwelle

Sozialpsychologin Prof. Dr. Nicole Krämer von der Uni Duisburg-Essen sagte mal gegenüber MDR WISSEN, jeder Mensch wäge innerlich ab, wenn er mit Computern kommuniziert, wie viel er bereit ist, von sich preiszugeben und was er dafür im Gegenzug bekommt.
Bei KI ist meine Hemmschwelle offenbar gerade niedriger als zum Beispiel in Sozialen Medien. Dann soll es eben so sein. Melde ich mich eben an. Lade ich eben etwas herunter. Erstelle ich eben einen (erst mal kostenlosen) Bezahl-Account bei OpenAI, weil es mir nur so möglich ist, API-Keys zu generieren, die ich zwingend brauche, wenn ich nicht direkt mit ChatGPT kommuniziere, sondern ihn über den Umweg einer Schnittstelle benutzen will, wie eben bei Visual ChatGPT.

So schwer war das dann alles letztlich nicht. Ich habe alle drei Varianten von Visual ChatGPT zum Laufen gekriegt. Technisch gesehen jedenfalls. Leider traten bei jeder Variante andere Probleme auf.

Auf Google Colab und Hugging Face war der ChatBot oft überlastet oder aus anderen Gründen, die sich mir nicht erschlossen, unbrauchbar. Einmal konnte ich immerhin ein Bild generieren lassen. Derzeit sind bei Visual ChatGPT nur englische und chinesische Kommunikation möglich. Also schrieb ich "a cat and a dog on the beach", eine Katze und ein Hund am Strand. Das Ergebnis ließ mich am I in KI zweifeln.

Katze und Hund am Strand. So, so. Entscheiden Sie selbst, welches Tier der Hund sein könnte. Bildrechte: Kilian Irrgang / MDR Wissen / (mit Visual ChatGPT erstellt)

Weitere Befehle, die das Bild verändern sollten, wurden dann von Visual ChatGPT einfach nicht ausgeführt. Der ChatBot rödelte nach meinen Befehlen jeweils sichtbar, um dann nach mehreren Sekunden exakt nichts Neues anzuzeigen, auch meinen letzten Befehl nicht. Einfach verschluckt, so, als ob ich nie um etwas gebeten hätte. Ob das an meinen Befehlen oder am überlasteten Server oder an anderen Gründen lag, weiß ich nicht. Woher auch? Ich weiß nur, dass mein Frust stetig wie stark zunahm, weil ich über mehr als eine Stunde hinweg nichts Gescheiteres als Scheitern zustande brachte.

Teilerfolg: Hochladen

Das Hochladen eines eigenen Bildes funktionierte dagegen immer. Seltsam. Und auf den englischen Befehl "describe the image", also das jeweilige Bild zu beschreiben, kamen auch zutreffende Antworten. Die KI erkannte zum Beispiel auf einem mittelprächtigen Schwarz-Weiß-Bild, dass es sich um zwei Männer beim Fußballspielen handelt. Sie ist also ganz gut in der Bilderkennung. Immerhin etwas.

Aber bei der Weiterverarbeitung der eigenen Bilder war wieder tote Hose. Weder ein Nachkolorieren, noch ein "Ausstanzen" einzelner Elemente wurde erledigt. Manchmal, wenn er überhaupt reagierte, erzeugte der Bot wie zum Hohn auch einfach völlig neue Bilder, obwohl er das hochgeladene Bild weiterverarbeiten sollte. Mein Frust wurde nicht geringer.

Um die Fehlerquelle Server-Überlastung auszuschließen, entschloss ich mich, Google Colab und Hugging Face Lebewohl zu sagen und meinen eigenen Rechner arbeiten zu lassen. In dem stecken zwei RTX-Grafikkarten der 3000er-Serie, was ja keine ganz schlechte Rechenpower liefern sollte. Dachte ich.

Ich habe also das GitHub Repository von Visual ChatGPT heruntergeladen. Darin findet man eine Readme-Datei, in der beschrieben steht, was man tun muss. Wegen einiger Fehlversuche habe ich den Text der Readme-Datei dann ChatGPT gezeigt, der mir klar machte, dass ich drei Programme installieren muss: Git, Python und Miniconda. Gesagt, getan, das war nicht weiter schwer und aus meiner Sicht auch nicht sicherheitsbedenklich.

Die Windows-Eingabeaufforderung

Ich hatte schon Computer, als es noch kein Windows gab. MS-DOS hieß das Betriebssystem damals. Keine grafische Benutzeroberfläche, keine Maus. Nur Tastaturbefehle, schlichter weißer Text auf schwarzem Hintergrund.
Genauso sieht heutzutage die Windows-Eingabeaufforderung (cmd.exe) aus. Es öffnet sich ein schwarzes Fenster, man ist in einem Verzeichnis auf der eigenen Festplatte, ein kleiner Cursor blinkt und dann geht's los. Mir macht das durch die MS-DOS-Erfahrungen von früher zum Glück nichts aus. Aber ich kenne auch Menschen, denen das nicht geheuer ist.

Ich habe die Schritte in der Readme-Datei dann nach und nach ausgeführt, also die vorgegebenen Befehlszeilen aus der Readme-Datei kopiert und im schwarzen Eingabefenster eingefügt. Darunter auch diese Zeile: set OPENAI_API_KEY={Your_Private_Openai_Key}.
Schlau wie ich bin, habe ich "Your_Private_Openai_Key" natürlich mit der 51-stelligen Zeichen-Folge meines OpenAI-API-Keys ersetzt. Aber wie ich das auch tat, ohne Anführungszeichen, mit doppelten Anführungszeichen, mit einfachen Anführungszeichen, immer kam dann beim Starten der eigentlichen Hauptdatei so eine Fehlermeldung.

"Incorrect API Key provided"
Falscher API-Schlüssel übermittelt Bildrechte: Kilian Irrgang / MDR Wissen

Verzweiflung. Der Key MUSS richtig sein, ich habe ihn gerade erst erstellt und nochmal kontrolliert. Wo ist der Fehler?
Es dauerte mehrere Minuten, bis es mir dämmerte, wo hier der Teufel im Detail steckt, nämlich nicht im Key, sondern in der Syntax. Vielleicht muss man die geschweiften Klammern bei "set OPENAI_API_KEY={Your_Private_Openai_Key}" auch noch weglassen. Ich habe leider keine Ahnung von Variablen-Werten in Python.

Und siehe da, nochmal den Key eingegeben, nochmal die Hauptdatei gestartet, und dann passierte etwas in der Eingabeaufforderung. Allerdings deutete eine neue Fehlermeldung daraufhin, dass ich nicht meine Grafikkarten arbeiten lassen kann. Schade, also Wechsel auf die Befehlszeile aus der Readme-Datei für CPU-Steuerung, und dann endlich lief Visual ChatGPT. Zumindest im schwarzen MS-DOS-Gedächtnis-Fenster der Eingabeaufforderung.

Visual ChatGPT läuft zum ersten Mal. Bildrechte: Kilian Irrgang / MDR Wissen

Und so blieb das dann stehen. Aha. Und was jetzt?
Mein Blick fiel auf die vorletzte Zeile "Running on local URL: http://0.0.0.0:7860". Aaah, sooo, schööön, zum Glück weiß ich, dass auf diese Art lokale IP-Adressen strukturiert sind, mit einem Port nach dem Doppelpunkt, ich bin ja sooo schlau. So eine Adresse kann man natürlich im Browser öffnen. Also neuen Tab in Firefox auf, http://0.0.0.0:7860 in die Adresszeile - und schwups: Enttäuschung.

Fehlermeldung des Browsers: Verbindung fehlgeschlagen. Bildrechte: Kilian Irrgang / MDR Wissen

Verdammt. 0.0.0.0 ist natürlich wirklich eine komische Adresse. Aber wieso ist sie dann vorgegeben? Nach meinen Erfahrungen beginnen lokale IP-Adressen oft mit 192, jedenfalls bei Geräten im Heimnetzwerk. Und ich habe auch schon einige Male eine 127.0.0.1 aufgeschnappt, wenn es um lokal aufgesetzte Server geht. Leider habe ich nie einen aufgesetzt. Und gestern hatte ich doch irgendwo gelesen, dass Port 5000 ganz sinnvoll sein soll. Wo war das? Ging es da um Visual ChatGPT? Ich weiß es nicht mehr.

Aber vor allem lautete die Frage: Wo, um Himmels Willen, kann ich die Adresse in diesem GitHub Repository ändern? Ich öffnete auf Verdacht die Python-Hauptdatei namens "visual_chatgpt.py" mit einem Texteditor. Und tatsächlich, nach langem Scrollen fand ich in der allerletzten der 1.370 Code-Zeilen: "demo.launch(server_name="0.0.0.0", server_port=7860)".

Es läuft!

Ich stoppte das Skript in der Eingabeaufforderung mit Strg+C (auch diesen Befehl hatte ich bei meinen Vorab-Recherchen irgendwo aufgeschnappt, Fenster schließen und neu öffnen würde vielleicht auch funktionieren, keine Ahnung), ersetzte per Texteditor in der Datei "visual_chatgpt.py" 0.0.0.0 durch 127.0.0.1 und 7860 durch 5000, nach dem Motto "einfach mal probieren, mehr als nicht funktionieren geht nicht". Dann schnell noch speichern - und Neustart!

Wie erwartet, stand im schwarzen Fenster nun "Running on local URL: http://127.0.0.1:5000/". Ich gab die Adresse in meinen Browser ein und war zum ersten Mal an diesem Tag halbwegs glücklich.

Unscheinbarer, aber glücklich machender grafischer Begrüßungsbildschirm von Visual ChatGPT im Browser. Bildrechte: Kilian Irrgang / MDR Wissen

Meine ganz eigene Version von Visual ChatGPT lief. Endlich keine Server-Überlastung mehr. Ich hatte meine Ruhe und machte mich bereit fürs große Ausprobieren. Browserfenster links auf dem Bildschirm platziert, schwarzes Eingabeaufforderungsfenster rechts, so hatte ich alles gleichzeitig im Blick. Ich klickte im Browser auf "English" und gab wieder "a cat and a dog on the beach" ein. Drei leuchtende Punkte zeigten mir, dass gearbeitet wird, und dann fiel mein Blick auf mein schwarzes Eingabeaufforderungsfenster rechts.

Ein Fortschrittsbalken. Aber der sagt ja noch nichts über das Tempo des Fortschritts aus... Bildrechte: Kilian Irrgang / MDR Wissen

Da war so ein Fortschrittsbalken zu sehen. Und dessen Größerwerden von links nach rechts war eine Geduldsprobe. Knapp elf Minuten dauerte die Bilderstellung. Elf Minuten, in denen einem viele Gedanken kommen. Wie teuer ist eigentlich eine neue CPU? Wie viel schneller wäre sie wohl als die jetzige? Ach nee, da müsste ich ja Windows neu aufsetzen. Keinen Bock. Was haben die Großrechner, die das binnen weniger Sekunden schaffen, wohl unter der Haube? Und wieso, verflucht, kann ich meine beiden Grafikkarten hier nicht nutzen?

Solches Zeug halt. Und dann war mein Bild fertig.

Katze und Hund am Strand, Versuch 2. Wieder dürfen Sie wählen, welches Wesen wohl der Hund ist. Wenn Sie keinen sehen, liegt das nicht an Ihnen. Bildrechte: Kilian Irrgang / MDR Wissen / (mit Visual ChatGPT erstellt)

Elf Minuten.
Für so ein Ergebnis.
Was ist das für eine dämliche KI? Oder gibt es Hunderassen, die aussehen wie das rechte "Wesen" im Bild? Ich finde, nicht.
Aber weil ich nett bin, gebe ich der KI noch eine Chance. Gleicher Befehl, gleiche Wartezeit, anderes Ergebnis?

Katze und Hund (und Zusatzkätzchen) am Strand! Jawoll! Bildrechte: Kilian Irrgang / MDR Wissen / (mit Visual ChatGPT erstellt)

Katze, Hund - Hauptsache Katze

Na bitte, geht doch. Eine Katze, ein Hund, ein Strand. Aber was soll die Mini-Katze dazwischen? Ist das überhaupt eine Katze? Ich will die da nicht haben. Los, KI, mach sie weg, "remove the small cat". Vielleicht geht die Bildbearbeitung ja schneller als die Bilderstellung.

Nein, geht sie nicht. Wiederum knapp elf Minuten Wartezeit.
Und dann das:

Auf den Befehl "Entferne die kleine Katze" schreibt die KI: "Ich habe ein Bild von einem Hund am Strand erstellt". Hä? Bildrechte: Kilian Irrgang / MDR Wissen

Ich rekapituliere: Ursprünglich sollten eine Katze und ein Hund am Strand zu sehen sein. Es waren eine Katze und ein Hund am Strand zu sehen, aber auch noch eine zusätzliche kleine Katze. Auf meinen Befehl "Entferne die kleine Katze" schreibt die KI "Ich habe ein Bild von einem Hund am Strand erstellt".

Und als wäre das nicht schon falsch genug, war als Krönung darunter dann folgendes Bild zu sehen:

Hund am Strand, ja? Aha. Bildrechte: Kilian Irrgang / MDR Wissen / (mit Visual ChatGPT erstellt)

Ich rekapituliere nun nicht mehr. Ich kapituliere. So hat das keinen Sinn. So macht das keinen Spaß.
Mag sein, dass ich zu blöd bin oder nicht wissbegierig und geduldig genug war, was das Erlernen von guten Prompts (Textbefehlen) angeht. Aber eine KI muss doch bitte so einfache Befehle verstehen können.
"Die Bedienung wird jetzt dialogischer", hat Professorin Nicole Krämer über KI gesagt. "Das wird vielen Menschen den Umgang mit der Technik erleichtern", hat sie gesagt.
Haha, da kannte sie Visual ChatGPT noch nicht.

Ich bin bei Visual ChatGPT jedenfalls erst mal raus. Mag sein, dass ich es irgendwann nochmal probiere.
Als nächstes will ich mich aber ins Abenteuer AutoGPT stürzen. Das ist schon wieder so ein ganz neuer, nochmal Verzeihung, "heißer Scheiß". Eine KI, die selbst "weiterdenkt" und komplexe vorgegebene Pläne abarbeitet. Solche Pläne habe ich schon. Ich werde berichten, wie gut es funktioniert.

Bis dahin, scheitern Sie bitte gescheiter.
Ihr Kilian Irrgang

*PS Kilian Irrgang ist, Sie ahnen es vermutlich schon, ein Pseudonym. Wir nutzen es, um über verschiedene gesammelte Erfahrungen und Erlebnisse aus der Arbeit mit KI in der Redaktion MDR WISSEN zu berichten.