- Bei der Arbeit mit einem Chatbot müssen wir bewusst darüber nachdenken, was wir gerade erreichen wollen. Das erschwert intuitives Arbeiten, wie wir es von grafischen Interfaces gewöhnt sind.
- Sprache ist zwar ein natürliches Medium, aber es enthält wenig Informationen. Mit Klicks und Gesten können wir Dinge erreichen, die wir in 1000 Wörtern nicht beschreiben könnten.
- Die Interfaces der Zukunft sind höchstwahrscheinlich nicht Chatbots, sondern grafische Interfaces, die mit „unsichtbarem“ Computing und Chatbots kombiniert werden.
Vor 10 Jahren war ich Ideengeber und Co-Founder von Yocondo, einem KI-gestützten1 Einkaufsberater. Das Interface von Yocondo war radikal einfach, denn es bestand nur aus einem einfachen Suchschlitz. Keine Kategorien, keine Preisfilter, keine Sortieroptionen. In den Suchschlitz konnte man alles Mögliche eingeben, zum Beispiel: „Geschenk für meine 5-jährige Tochter, nicht kitschig, aber vor allen Dingen soll es keine Geräusche machen.“
Yocondo funktionierte! Und ist krachend gescheitert.
Die für mich angenehmste Erklärung ist, dass wir einfach „zu früh“ dran waren. Ein Produkt, das nur aus einem Chatbot besteht – es dauert noch ganze zehn Jahre, bis sich zum ersten Mal ein Unternehmen nicht an dieser Idee die Zähne ausbiss.
Nun aber herrscht Euphorie, vor allen Dingen unter Produktdesignern. Endlich müssen sie ihre komplexe Software nicht mehr in grafische Oberflächen (GUIs) hineinpressen, die die Kunden dann doch nicht verstehen. Stattdessen können User das Programm auf die natürlichste Art bedienen, die es gibt: menschliche Sprache. Steht die letzte unerfüllte Idee der Science-Fiction-Literatur kurz vor Umsetzung?
Ich kann mich dieser Euphorie nicht anschließen. Chatbots sind mit ziemlicher Sicherheit nicht das Interface der Zukunft.
Chatbots sind anstrengend
„Unsere Körper haben sich nicht zum Lesen und Schreiben entwickelt“, sagt Marshall T. Poe in A History of Communcation. „Deshalb haben wir keine Lese- und Schreiborgane. Und deshalb ist Lesen und Schreiben schwer.“
Man vergisst diese Tatsache leicht, vor allen Dingen, wenn man (wie die meisten Produktemacher) große Teile seines Lebens mit Lesen und Schreiben verbringt. Doch für jedes geschriebene Wort „hacken“ wir unsere Augen, unsere Hände und Teile unseres Gehirns, und nutzen sie für Zwecke, für die sie nie gemacht waren.
Mit einem Chatbot zu schreiben ist also nicht natürlicher, als ein grafisches Interface mittels Gesten zu benutzen. Im Gegenteil. Schreiben ist anstrengend. Je mehr wir schreiben müssen, um mit einem Computer zu arbeiten, desto mehr ermüdet uns die Arbeit.
Was aber, wenn wir in Zukunft nur mit Computern sprechen, nicht mit ihnen schreiben?
Chatbots benötigen viele Informationen
In der Tat ist Sprache das natürlichste Medium, das wir zur Verfügung haben – und das einzige, das wir nicht erfunden haben. Gleichzeitig ist es das „niedrigauflösendste“. Sprache verschluckt sehr viele Informationen. Immer.
Im Alltag bemerken wir das nur selten. Tatsächlich können wir mit wenigen Worten sehr, sehr viel ausdrücken, solange unser Gegenüber über einen ähnlichen Wissensstand verfügt. Nehmen wir ein einzelnes Wort wie „Popcorn“. Wenn ich dieses Wort sage, komprimiere ich Daten aus allen fünf Sinnen (Hören, Riechen, Schmecken, Sehen und Tasten) zu einem einzigen Datenpunkt. Die meisten meiner Zuhörer können diesen Datenpunkt „entpacken“ und zwar so erfolgreich, dass sie das Popcorn förmlich riechen können. Aber jemand, der noch nie in seinem Leben mit Popcorn in Berührung kam? Tausend Worte würden nicht ausreichen, um es dieser Person zu beschreiben.
Mit einem Computerprogramm zu sprechen, führt deswegen zu einem Problem: Wir wissen nicht, was es überhaupt versteht. Bei der Produktsuchmaschine Yocondo ist uns genau das auf die Füße gefallen. Während der zahlreichen Nutzer-Tests, die wir durchführten, saßen häufig irritierte Menschen vor dem leeren Suchschlitz und fragten uns: „Aber was kann ich da jetzt eingeben?“. „Alles!“, sagten wir stolz. Das half kein bisschen. Schließlich gaben die Leute fast immer „Geschenk für …“ in die Maske ein. Das war der einzige Beispielsatz auf der Startseite.
Im Laufe der Monate verwässerten wir unsere ursprüngliche Vision und ergänzten den Suchschlitz eben doch um Filter, Suchvorschläge und vieles mehr. Nicht, weil die Ergebnisse schlecht gewesen waren, sondern weil unsere Nutzer es überhaupt nicht bis zur ersten Suchabfrage schafften.
ChatGPT mag uns (fälschlicherweise) daran gewöhnt haben, dass ein Computer alles versteht. Trotzdem bieten grafische Interfaces weiterhin zwei große Vorteile:
- Sie sagen ganz automatisch, was möglich ist.2
- Mit wenigen Klicks und Gesten können wir Dinge erreichen, die wir in tausend Wörtern nicht beschreiben könnten.
Diese Vorteile werden natürlich obsolet, wenn Computer alles können und uns einen großen Teil der Denkarbeit abnehmen. Doch dieser Tag ist weiter entfernt, als die meisten heutigen Produkte alt werden.
Chat erfordert ständige Aufmerksamkeit
In ihrem Buch “Understanding Computers and Cognition” gehen Terry Winograd und Fernando Flores auf die Interaktion von Mensch und Auto ein: „Die Steuerung eines Autos ist für uns meistens unsichtbar. Man denkt nicht: ‘Wie weit muss ich das Lenkrad drehen, um die Kurve zu nehmen?’. Tatsächlich denkt man nicht einmal darüber nach […], dass man überhaupt ein Lenkrad benutzt. [Diese natürliche Verbundenheit] wird nicht dadurch erreicht, dass das Auto wie ein Mensch kommuniziert, sondern dadurch, dass es die richtige Verbindung zwischen Fahrer und Handlung gibt.“3
Chat wird sich niemals wie ein Werkzeug anfühlen – wie zum Beispiel ein Hammer oder ein Mischpultregler oder der digitale Pinsel in Photoshop. Diese Werkzeuge benutzen wir, ohne bewusst zu formulieren, was wir da gerade vorhaben. Und das macht ihren Reiz aus.
Das heißt nicht, dass Künstliche Intelligenz diese Werkzeuge nicht ergänzen kann. Die vollendetstete Symbiose von Mensch und KI, die mir in letzter Zeit untergekommen ist, ist das Tool Drag-GAN. Dort kann man mit Gesten ein Foto verändern – einen Rock in die Länge ziehen, ein Auto herumdrehen, einem Löwen das Maul aufsperren. Das Ergebnis sieht nicht etwa verzerrt aus, sondern weiterhin fotorealistisch. Das als Chatbot-Konversation? Es wäre, als spräche man mit einer Büroklammer und das kann auch heutzutage keine gute Idee sein.
Chat hilft. Oft.
Grafische Nutzerinterfaces sind zurzeit die Allzweckwaffe für unsere tägliche Arbeit – also dann, wenn wir einigermaßen wissen, was wir erreichen wollen und es einfach tun. Solange KI nicht diese Arbeit selbst ersetzt, sehe ich nicht, wie Chatbots eine bessere Alternative zu solchen GUIs sind.
Allerdings werden GUIs immer häufiger ergänzt werden. Zum einen gibt es unzählige Aktionen in unserem Leben, über die wir kaum nachdenken (Lichtschalter, Lenkräder, Türklinken). In Zukunft wird sich hier noch häufiger der Computer einmischen, ohne dass wir ihn darum gebeten haben. „Ambient Computing“ springt an, weil wir einen Raum betreten, in eine bestimmte Richtung schauen oder gerade aufwachen.
Der zweite Bereich unseres Lebens besteht aus Arbeit mit unklarem Ergebnis. Wenn wir beim Kundensupport um Hilfe bitten oder für eine Hausaufgabe recherchieren, sind Chatbots den bestehenden Interfaces weit überlegen. Der Trick besteht darin, diese drei Welten zu verbinden.
Zwei Beispiele:
- Ein Nutzer schiebt ein PDF in eine spezielle Leiste (GUI), eine KI liefert drei Vorschläge, was sie mit dem PDF machen könnte (Mix aus GUI + Chat) und fasst anschließend das PDF zusammen (Chatbot). Das ist übrigens genau das, was Windows Copilot ermöglichen wird.
- Ein Sprachassistent erinnert mich an einen anstehenden Termin (Ambient), ich schaue mir den Termin in meiner App an (GUI) und bitte den Sprachassistenten, meine E-Mails zu dem Termin des Themas zusammenzufassen (Chatbot).
Aber grafische Interfaces, die gut funktionieren, jetzt durch einen Chatbot zu ersetzen? Das ist mit hoher Wahrscheinlichkeit keine gute Idee (auch wenn sich viele daran versuchen werden).
Sorgen um zu wenig Arbeit müssen sich Produktdesigner allerdings nicht machen. Es gibt genügend Interfaces auf der Welt, die einfach nicht funktionieren. Manche von ihnen wird ein Chatbot retten können.
-
Genauer gesagt: einer semantischen Suchmaschine, die wir mit Millionen Rezensionen aus dem Internet fütterten und um Machine-Learning-Algorithmen ergänzten. ↩︎
-
„Signifier“ nennen UX-Designer diese Hinweise darauf, welche Aktionen möglich sind. ↩︎
-
Zitiert im lesenswerten Artikel Malleable software in the age of LLMs (Geoffrey Litt, 2023) ↩︎