Dürfen Maschinen lügen?
Auch wer den aktuellen KI-Hype bis jetzt nur vom Seitenrand verfolgt hat, dürfte trotzdem zwei Dinge mitbekommen haben: a) Textgeneratoren wie ChatGPT sind erstaunlich mächtig und b) sie lügen wie gedruckt. Sie lügen so gekonnt, dass selbst Menschen, deren Job es ist, Informationen zu überprüfen, darauf hereinfallen. Die KI-Expertin Kate Crawford wurde kürzlich von einem Journalisten um eine Stellungnahme zu einigen ihrer Artikel gebeten. Das Problem: diese Artikel hatte sie nie geschrieben. Der Journalist hatte sich via ChatGPT über sie informiert …
Es gibt zwei sehr unterschiedliche Reaktionen auf diese Tendenz zum Fakten erfinden. Die Macher hinter den Werkzeugen bezeichnen sie als „Halluzinationen“, ein Phänomen, das die Technologie dahinter (Large Language Models) eben mit sich bringe. Man stehe schließlich noch ganz am Anfang. Insgesamt scheinen sie eher fasziniert als besorgt – wie Pädagogen, die die erste Lüge eines Kindes als wichtigen Entwicklungsschritt sehen.
Verbraucherschützer und Regierungen jeder Geschmacksrichtung schlagen hingegen Alarm. Eine Software, die sogar Profis hereinlegt und mit Falschaussagen versorgt? Wie um alles in der Welt soll das gut enden? Und so bringen sich die Regulierer in Stellung. Italien verbietet ChatGPT ganz, China verlangt von Chatbots, dass sie immer die Wahrheit sagen und dabei, natürlich, „mit sozialistischen Grundwerten übereinstimmen.“ Das ist schon für Menschen eine schwierige Kombination. Für aktuelle KI-Bots ist sie nicht erfüllbar.
Wer hat in dieser Dabatte recht? Muss eine Maschine immer die Wahrheit sagen?
Erforschen, nicht erfinden
„Wir stehen noch am Anfang der Forschung“, diesen Satz beten KI-Entwickler immer wieder herunter und man kann trotzdem übersehen, was dieser Satz eigentlich bedeutet. Forschen heißt: entdecken, nicht erfinden. Und tatsächlich hat die Arbeit mit Large Language Models wenig mit klassischer Softwareentwicklung zu tun. Software mag noch so komplex sein, am Ende gibt es für jeden Fehler eine logische, mathematische Erklärung. Doch das Training von Sprachmodellen ist eher eine Kunst1 als Mathematik, oder noch besser gesag: Trial-and-Error. Zum Beispiel arbeiten Large Language Models mit einer sogenannten „Temperatur“, die die Balance zwischen Kreativität und Wahrscheinlichkeit ausdrückt. Für das Erstellen der meisten Texte hat sich 0,8 als „die richtige“ Temperatur herausgestellt. Warum? Das weiß niemand. Es gibt keine wissenschaftliche Erklärung dafür, zumindest ist sie uns nicht bekannt. Sie hat sich einfach in vielen Versuchen als beste Konfiguration herausgestellt.
Je mehr KI-Entwickler an der Technologie herumdoktern, desto häufiger sind sie überrascht, was sie alles kann (OpenAI verwendet in einem Paper zu GTP-2 über 20 Mal das Wort „überraschend“). Der Satz „wir stehen ganz am Anfang“ bekommt da ein ganz neues Gewicht.
Sollte diese Forschung eingeschränkt werden? Das wäre der Fall, wenn konkrete Gefahren drohen, die das Labor jederzeit verlassen könnten und dann kaum noch einzudämmen wären. Wenn so eine Gefahr droht, schränken Regierungen Forschung und Entwicklung stark ein – selbst wenn, oder gerade wenn diese noch am Anfang steht. Ein gerade vielzitiertes Beispiel dafür ist die Asilomar-Konferenz, bei der strenge Sicherheitsauflagen für die Genforschung beschlossen wurden. Denn eine künstliche erzeugte Krankheit durch rekombinante DNA war und ist eine echte Bedrohung.
Die meisten KI-Experten sind sich einiges, dass ein KI-Apokalypse durch die Arbeit an Large Language Models nicht wahrscheinlich(er) geworden ist. Also muss diese Arbeit auch nicht eingeschränkt werden.
Ist ChatGPT ein Produkt?
Produktentwicklung ist nicht Forschung. Produkte werden von Menschen genutzt, die damit ein Problem lösen wollen. Die Regulierung schaut hier nicht in die Zukunft (was könnte passieren?), sondern in die Gegenwart: welches existierende Problem wächst mit dem Erfolg der Technologie? Deswegen kam die Gurtpflicht erst, nachdem Autounfälle tödlicher als Tuberkulose geworden waren und Datenschutzbestimmungen nach dem x-ten Datenskandal. Aber eine „vorauseilende“ Regulierung würde Innovationen einschränken, bevor es sie überhaupt gibt. Man kann keinen Gurt fordern, wenn der Sitz noch nicht da ist.
Darf man nun also Software veröffentlichen, die lügt? Dafür muss man zunächst die Frage beantworten, ob ChatGPT „ein Produkt“ ist. Und das ist nicht so eindeutig, wie es scheint.
Einerseits kennzeichnet OpenAI ChatGPT immer noch als „Research Preview“ – und so fühlt sich das Tool auch immer noch an. Die Web-Ansicht ist altbacken und wackelig, die App … es gibt gar keine App!
Trotzdem nutzen über 100 Millionen Menschen ChatGPT. Die meisten von ihnen haben kein „Forschungsinteresse“, sondern wollen einfach ein Werkzeug haben, das ihnen eine E-Mail, einen Schulaufsatz oder einen Tweet formuliert. Und das Premium-Abo für 20 Dollar signalisiert ihnen: ich bin ein echtes Produkt. Benutze mich. Diese Millionen Menschen, auch den bezahlenden unter ihnen, jubelt ChatGPT nun täglich Falschinformationen unter.
Wir haben „kriecherische“ Software entwickelt
Nun könnte man einwenden, dass auch Google regelmäßig Suchergebnisse anzeigt, die nicht zur Frage passen oder Falschinformationen enthalten. Aber der Vergleich hinkt.
Mit Large Lange Models sind wir zum ersten Mal mit Software konfrontiert, die genauso spricht wie wir. Unser einziger Bezugspunkt, wie damit umzugehen ist, sind 100 Jahre Science-Fiction-Literatur: dort wimmelt es von allwissenden KIs, die sich genauso anfühlen wie ChatGPT. Nur, dass diese KIs eben nicht halluzinieren. Das Problem ist nicht nur, dass ChatGPT Fakten erfindet. Es erfindet Fakten, für die ich persönlich empfänglich bin. Erste Forschungen bestätigen, dass LLMs Fragen beantwortet, dass es den Überzeugungen des Nutzers entspricht (Name für das Phänomens: Sycophancy, „Kriecherei“). Oder es bestätigt falsche Vorstellungen, wenn der Nutzer scheinbar weniger gebildet ist.2
„Kriecherei“ bei Software ist ungeheuer faszinierend – im Labor. Dort darf die Software nämlich so ziemlich alles machen, solange es der Forschung dient. Aber Large Language Models haben das Labor verlassen. SIe werden produktiv eingesetzt, ob die Macher das wollen oder nicht. Während die Forschung sich also darauf konzentrieren sollte, die Probleme ihrer Entdeckung in den Griff zu kriegen (tut sie) brauchen wir dringend Gesetze für die aktuellen Produkte.
Und das naheliegendste ist: Nutzer müssen wissen, dass sie es mit einer kriecherischen Software zu tun haben, die nicht zwischen Wahrheit und Lüge unterscheiden kann. Im Zweifel muss man ihnen das bei jeder Antwort einblenden – ich bin mir sicher, das würde schon helfen.
-
„Particularly over the past decade, there’ve been many advances in the art of training neural nets. And, yes, it is basically an art.“ – What Is ChatGPT Doing … and Why Does It Work- (Stephen Wolfram, 2023) ↩︎
-
Quelle: Eight Things to Know about Large Language Models (Samuel R. Bowman, 2023) ↩︎