Heftarchiv – Leseproben :: Claudia Hamm :: Pandoras Blackbox. Zur Ersetzbarkeit von Übersetzern

[€ 11.00] ISBN 978-3-943297-74-4

[€ 8,00]

PDF-Ausgabe kaufen PDF-Download für Abonnenten

Sie haben noch kein digitales Abo abgeschlossen?
Mit einem digitalen Abo erhalten Sie Zugriff auf das PDF-Download-Archiv aller Ausgaben von 1949 bis 1991 und von 2019 bis heute.
Digital-Abo • 45 €/Jahr
Mit einem gültigen Print-Abo:
Digital-Zusatzabo • 10 €/Jahr

Leseprobe aus Heft 6/2023

Hamm, Claudia

Pandoras Blackbox.
Zur Ersetzbarkeit von Übersetzern

»Das Gegenteil von Mensch ist nicht das Tier oder
das Ding, sondern sein Simulakrum: der Roboter.«
Emmanuel Carrère, Ich lebe und ihr seid tot

Als 2021 das Spoken-Words-Gedicht der jungen afroamerikanischen Autorin Amanda Gorman zur Amtseinführung des amerikanischen Präsidenten Joe Biden in verschiedene Sprachen übersetzt werden sollte, war die Aufregung groß, wer für diese Aufgabe die geeignete persönliche Erfahrung mitbringe. Zeugenschaft stand auf einmal gegen Empathie und Recherche, mangelnde gesellschaftliche Teilhabe und Fachkompetenz wurden zuweilen in eins gesetzt, dennoch war man sich im Grundsatz einig: Übersetzende sollten tief in die (Sprach-)Welt der Autorin eindringen.

Spätestens seit der Veröffentlichung von ChatGPT-4 scheinen solche Diskussionen hinfällig zu sein. Auch wenn das Maschinenübersetzungsprogramm DeepL schon seit Jahren behauptet, »der präziseste Übersetzer der Welt« zu sein und »in der Lage, selbst die feinsten sprachlichen Nuancen zu erkennen und in Sekundenschnelle korrekt zu übersetzen«, hat die Debatte über Textgeneratoren wie ChatGPT oder die zum Beispiel von Oracle, Alibaba, Google, Nvidia, Apple, Meta und Amazon erst in diesem Jahr wirklich Fahrt aufgenommen, gerade auch hinsichtlich des Übersetzens und Verfassens von Literatur. Da ich mit letzteren selbst mit großer Lust beschäftigt bin, überrascht mich die aktuelle kulturelle, gesellschaftliche und politische Debatte. Kann es sein, daß wir über Diskussionen rund um »Outputs« vergessen, warum Menschen sich überhaupt mit Kunst beschäftigen? Um die lauten Stimmen rund um textgenerierende Systeme wie GPT-4 einzuordnen, hier zunächst ein paar harte Fakten:

Was kommt rein?

Um ein Modell wie ChatGPT zu entwickeln, das schleifenartig eine Sprache simuliert, die Menschen unter Einsatz ihrer Erfahrungen, Emotionen, Denkleistungen, Beziehungen, Träume und Traumata geschaffen haben, wurde laut Wikipedia neben Gesprächen mit angeheuerten menschlichen KI-Trainern ein »umfängliches Textkorpus aus Büchern, Briefen, Wikipedia-Einträgen oder auch literarischen Textsammlungen, darunter das gesamte Gutenberg-Projekt«, benutzt. Das bedeutet, Datensätze aus gemeinnützigen Open-source-Projekten wurden ohne Informations-, Lizensierungs- und Honorierungspflichten gespeichert und werden nun gewinnorientiert mißbraucht. Denn nur die Startphase der zunächst faszinierend anmutenden Plaudertasche ist gratis, sie dient dazu, Millionen von – jetzt für das Unternehmen kostenlosen – Nutzerinputs für das weitere Training zu generieren, wie die englischsprachige Webseite offensiv bekennt. »Wir möchten das Feedback unserer Nutzer sammeln, um die Weiterentwicklung dieses Systems zu befördern. Während der Testphase ist die Nutzung von ChatGPT kostenlos«, liest man dort. In dem so neutral klingenden Tech-Vokabular heißt ein solches Geschäftskonzept RLHF. Reinforcement Learning with Human Feedback ist die Säule, auf der die Weiterentwicklung von KI beruht: Ohne die unhonorierte Zuarbeit von Menschen und die lizenzfreie Nutzung menschenverfaßter Texte wäre die Entwicklung von Textgeneratoren völlig unrentabel.

In der Stellungnahme des Netzwerks Autorenrechte, von sechzehn Autoren- und Übersetzerverbänden aus Deutschland, Österreich und der Schweiz, liest man aber auch: »Die Datensätze für das Training von Übersetzungs- und Selbstschreibsoftware beruhen neben im Internet zugänglichen gemeinfreien Textwerken auf urheberrechtlich geschützten und digitalisierten Büchern der Jahre 2013 – 2021 und jünger. Die drei Korpora, die für das Learning der maschinellen Sprachprogramme genutzt wurden, Books1, Books2 sowie Books3, stammen zudem teilweise aus illegalen Quellen wie etwa BitTorrent-Seiten; der Hersteller des Programms ChatGPT weigert sich, transparente Auskünfte über den Datensatz zu erteilen.« »Wer bist du, Books2?«, fragt auch der Publizist Peter Schoppert, der den Mißbrauch urheberrechtlich geschützter Texte durch Large Language Models (LLM, Große Sprachmodelle) umfassend dokumentiert. Daß Books3 196 640 urheberrechtlich geschützte Bücher enthält, ist inzwischen bekannt.

Wie kann es sein, daß sich geschädigte Autorinnen und »Content Creators« nicht massenhaft erheben und die Verantwortlichen lautstark zur Rechenschaft ziehen? Wie konnte ein solcher in jeder Hinsicht unfaßlicher Mißbrauch geistigen Eigentums durchgehen? Alles eine Frage der Organisation: Denn das, was jedem Einzelnutzer verboten wäre, ist gemeinnützigen Organisationen sowohl in den USA als auch in Europa erlaubt: Sie dürfen urheberrechtlich geschützte Texte sammeln und zu Forschungszwecken verwenden. Das hinter ChatGPT stehende, einst als Non-profit-Organisation gegründete, nun aber gewinnorientierte Unternehmen OpenAI bietet deshalb eine preisverdächtige Erklärung: »Wir wollen unsere Möglichkeiten erhöhen, Kapital anzuziehen, und dennoch unserer Mission verpflichtet bleiben, und mit keiner uns bekannten legalen Struktur läßt sich beides zufriedenstellend ausbalancieren. Unsere Lösung ist deshalb die Gründung von OpenAI LP als hybride Unternehmensform zwischen gewinn orientiert und gemeinnützig – wir nennen es ›Unternehmen mit Profitdeckelung‹.« Da die bestehenden legalen Geschäftsmodelle dem Unternehmenszweck leider nicht dienlich waren, schuf man sich also einfach sein eigenes – und damit einen Präzedenzfall für alle weiteren KI-Entwickler. Und weil gemeinnützige Organisationen und Forschung »zur Förderung der Menschheit« (wie OpenAI immer wieder beteuert) von einem besonderen Schutz profitieren, ist es so schwierig, sie zu belangen. Das deutsche Recht machte die Sache sogar noch einfacher: Mit der sogenannten DSM-Richtlinie wurde, um die wirtschaftliche Entwicklung zu befördern, 2021 das »Text-and-Data-Mining« explizit auch für die kommerzielle Nutzung erlaubt.

Was kommt raus?

Wie ist nun der »Output« solcher Großen Sprachmodelle hinsichtlich literarischer Texte zu bewerten? Verdient die nach Wahrscheinlichkeiten operierende Kombination von Textbestandteilen in einem nicht-intentionalen Best- oder Worst-of von Zitattrümmern überhaupt den Namen Literatur? Um es gleich vorwegzunehmen: Da mich vor allem die unethische Umgebung der Großen Sprachmodelle interessiert, möchte ich mich nicht allzu lang mit der Qualität von Robotersprache aufhalten, die inzwischen vielerorts kommentiert wird. Sie ist oft leblos, unmotiviert, verzerrt oder irreführend, in anderen Fällen aber auch von Menschen benutzter Sprache so faszinierend ähnlich, daß man glauben könnte, man habe es mit einem realen Kommunikationspartner oder gar einer kreativen Akteurin zu tun.

KI ist eine Reproduktionssoftware, die menschliche Sprache simuliert; eine Mustererkennung, die weder Erfahrung noch ästhetisches Empfinden verarbeitet, keine Gründe kennt und auch keinen Wahrheitsanspruch besitzt. Als Technik, die keine Entscheidungen treffen und keine Verantwortung tragen kann, schafft sie ein Als-ob – und so werde ich ihren Auswurf fortab auch nennen. Zur Vermarktung eines solchen Systems ist ein solcher Befund natürlich hinderlich, wer will schon ein Fake, eine Imitation, einen Abklatsch? Aus diesem Grund wird KI schon lange mit einem humanisierenden Vokabular ummantelt, das den Eindruck verstärkt, einen »echten« Gesprächspartner mit »Nervenzellen« (»neuronalem Netzwerk«) vor sich zu haben, und das, obwohl der Kognitions- und Computerwissenschaftler John McCarthy offen zugibt, die Bezeichnung Künstliche Intelligenz in den fünfziger Jahren in Konkurrenz zum Begriff »Kybernetik« erfunden zu haben, um »Geld für einen Sommer-Workshop zu bekommen«. Nimmt man dieses Etikett dennoch ernst und führt ein »intelligentes« Gespräch mit ChatGPT, kommt etwa Folgendes heraus:

– Warum wird ein humanisierendes Vokabular wie »Intelligenz«, »lernen« oder »Fähigkeit« benutzt, um KI zu bezeichnen?

– Das liegt daran, daß die Künstliche Intelligenz (KI) menschliche kognitive Fähigkeiten imitiert, indem sie Informationen aus Eingabedaten erkennt und sortiert. Die Intelligenz kann auf programmierten Abläufen basieren oder durch maschinelles Lernen erzeugt werden. Das menschliche Vokabular wird verwendet, um die Fähigkeiten der KI zu beschreiben und zu erklären.

– Ist denn eine Imitation von Intelligenz überhaupt Intelligenz?

– Das ist eine interessante Frage. Es gibt verschiedene Definitionen von Intelligenz, aber im allgemeinen wird Intelligenz als die Fähigkeit definiert, Aufgaben durch Denken [sic!] zu lösen. Künstliche Intelligenz imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert. Die Intelligenz kann auf programmierten Abläufen basieren oder durch maschinelles Lernen erzeugt werden. Ob eine Imitation von Intelligenz als Intelligenz bezeichnet werden kann, ist eine philosophische Frage und hängt von der Definition von Intelligenz ab.

Wie bitte? Ich frage, warum ein humanisierendes Vokabular benutzt wird, um KI zu bezeichnen, und erhalte die Als-ob-Antwort, es werde benutzt, um die Fähigkeiten von KI zu erklären? Ich frage nach einer Definition von imitierter Intelligenz und erhalte die Als-ob-Antwort, das hänge von der Definition von Intelligenz ab? Und zwei Sätze werden auf unterschiedliche Fragen fast wortgleich wiederholt? Im Germanistikstudium hätte das Tautologie geheißen, im Philosophieseminar petitio principii oder begging the question. Molière hätte seinen Spaß daran: Auch in seinem »Arzt wider Willen« ist die junge Frau Lucinde stumm geworden, weil sie, so der »Arzt«, die Sprache verloren habe.

Dennoch bedarf es besonderer Aufmerksamkeit, Zeit und Lesekompetenz, um solche Als-ob-Antworten zu enttarnen. Der ELIZA-Effekt mag seine Wirkung entfalten: die Bereitschaft von Menschen, aufgrund ihrer Bedürfnisse nach Interaktion, Resonanz und Akzeptanz Computern menschenähnliches Verstehen zuzuschreiben. Ein solcher Effekt konnte bereits 1966 bei dem von Joseph Weizenbaum entwickelten Programm dieses Namens beobachtet werden, das einen Psychotherapeuten simulierte und dem weit weniger Sprachdaten zur Verfügung standen. Um so erstaunlicher ist es, daß sich etwa die Kulturwissenschaftlerin Mercedes Bunz freut, wir könnten jetzt »Bedeutung errechnen«. Denn was bedeutet das? Wie meint sie das? Typische Fragen, die sich Übersetzende stellen. Schließlich friert Literatur Bedeutung nicht ein, sondern diese ergibt sich aus dem Akt des Lesens, individuell und immer wieder neu. Sie kalkulieren zu können würden sich vielleicht manche Verlage wünschen, die sich Verkaufsprognosen für ihre »Titel« zunehmend durch KI errechnen lassen und »datengetriebene Prozeßverbesserung« erhoffen. Doch selbst Autoren würden wohl kaum darauf verzichten wollen, daß jeder Leser etwas anderes in ihren Texten zu lesen vermag und Bedeutung gerade eben nicht berechenbar ist – und zwar weder in dem, was Wörter und Sätze »meinen«, noch in ihrer Bedeutsamkeit für denjenigen, der sie hört oder liest. »Wörter ändern ihre Bedeutung, je nachdem, wer spricht. Dagegen gibt es kein Heilmittel«, schreibt Maggie Nelson in »Die Argonauten«, genauso ändern sie ihre Bedeutung, je nachdem, wer liest, mag man ergänzen.

SINN UND FORM 6/2023, S. 748-764, hier S. 748-752