Skizzen der Computerstimme

Vor seiner Promotion an der Princeton University studierte Benjamin Lindquist Malerei an der School of the Art Institute of Chicago und der Yale School of Art. Benjamins Kunst und Forschung wurden von der Al Held Foundation, Creative Time, einem Fulbright-Forschungsstipendium in Zürich, Schweiz, und einem DAAD-Forschungsstipendium zwischen dem Max-Planck-Institut für Wissenschaftsgeschichte und der Universität Regensburg finanziert. Seine Veröffentlichungen erschienen in Western Historical Quarterly, Winterthur Portfolio und Material Religion.


Lange bevor Amazons Alexa und Apples Siri ihre ersten automatisierten Wörter aussprachen, gab es nur einen Weg, synthetische Sprache zuverlässig zu erzeugen: mit Farbe und Pinsel. In den 1930er Jahren ‚malten‘ Wissenschaftler und Künstler Sprache mit den neuen Apparaturen des Tonkinos (vgl. Abb. 1). Bis in die 1960er Jahre funktionierten Sprachsynthesizer entsprechend ähnlich der Pianolas. Linien, Punkte und Striche wurden auf durchscheinende Plastikfolien gemalt und in Maschinen eingespeist, die diese Formen in Klang umwandelten. Maler, Linguisten und Ingenieure mischten Ton und Bild in einem Prozess, der künstlerische Produktion mit neuen Technologien kombinierte. Dieser als „synthesis-by-art“ bekannte Prozess entwickelte sich zu einem Regelsystem, das die Grundlage der heutigen Computersprache werden sollte.

Abbildung 1: John Hix, „Strange as it Seems“, The Washington Post, 7. März. 1933, S. 15. Hier sieht man Rudolf Pfenninger, einen von mehreren Künstlern, der die Tonfilmtechnologie verwendete, um Bilder in Ton umzuwandeln.

In den 1940er Jahren hielten diese Prozesse Einzug in die in Labore, in denen Linguisten die frühen Experimente systematisierten und analoge Computer konstruierten, die handgemalte Bilder in Ton umwandelten (vgl. Abb. 2). Das Malen und Neulackieren der Klangformen veranlassten die Forscher, Regeln zu entwickeln, die die bis dahin in Handarbeit durchgeführten Prozesse automatisieren konnten. Diese Regeln entwickelten sich zu algorithmischen Regeln für die frühe Computersprache. Zunehmend wurde diese Technologie auch im kommerziellen Markt übernommen und die traditionellen Werkzeuge des Künstlers durch das traditionelle Ziel des Künstlers ersetzt: Mimesis. Langsam und zögernd tauchten die deutlichen Stimmen unserer persönlichen Assistenten auf.

Abbildung 2: „Figures for testing audio-visual transform“ in The Interconversion of Audible and Visible Patterns as a Basis for Research in the Perception of Speech, 1951. 1945 wurde in den New Yorker Haskins Laboratories ein neues Gerät entwickelt, das die Umwandlung von Bildern in Töne vereinfacht. Frühe Experimente zur Transformation von Formen und gemalter Musik widmeten sich bald auch der Sprachforschung.

Als diese virtuellen Assistenten und andere Inkarnationen der Sprachtechnologie allgegenwärtig wurden, verbarg ihr zunehmend menschlicher Klang die Materialität ihrer mechanischen Herkunft. Der mikroskopische, automatische und nahezu sofortige Betrieb moderner (scheinbar von Körpern befreiter) digitaler Medien verstellt den Blick auf den manuellen, auf Farbe basierenden Prozess, auf dem die Computersprache ursprünglich beruht. Tatsächlich ergaben sich die genauen Befehle, die zur Erzeugung künstlicher Stimmen erforderlich sind, die als „synthesis-by-rule“ bekannt sind, aus menschlichen Körpern, vermittelt durch die mit Farbe versehenen Fingerspitzen.

Abbildung 3: „Parametric Artificial Talker“, 1955, National Museum of Scotland, Edinburgh, Scotland. P.A.T. wurde von Linguisten an der Universität von Edinburgh verwendet, um Sprache zu studieren. Hier hilft ein Projektor beim Malen des Satzes „what did you say before that“ auf einer Glasdia-Scheibe.

Tatsächlich aber spielen diese ‚einfachen‘ Werkzeuge in modernen Prozessen der mechanischen Produktion von Sprache weiterhin eine Schlüsselrolle (vgl. Abb. 3). Der Körper behielt seine Bedeutung bis weit in das Informationszeitalter hinein und blieb zentral für die Mechanisierung und das Rechnen. Forscher synthetisierten Sprache mit ihren Händen unter Verwendung von Markierungen und Materialien, die nicht im wissenschaftlichen Labor sondern im Atelier des Künstlers erzeugt wurden. Der Rest der „Kunst“, der als Farbe und Pinsel fortbesteht, fungierte als enormer Katalysator für die Entwicklung von Regeln zur Synthese von Sprache. Die frühen Experimente – das Malen von Dreiecken und Partituren – dienten als Grundlage dafür, die Materialien und Techniken zu verfeinern (vgl. Abb. 2): In den Forschungslaboratorien bauten die Linguisten auf diesen ästhetischen Experimenten mit einem Forschungsprogramm auf, das sie als „synthesis-by-art“ bezeichneten. Durch das wiederholte Malen der Klangbilder verinnerlichten die Sprachwissenschaftler die kontextuell komplexen Regeln, die die Sprachproduktion regelten. Die Trias aus Ton, Bild und Berührung half, Wissen zu beobachten und zu generieren; die konzeptionellen Erkenntnisse und technologischen Produkte verschränkten sich mit sensorisch beobachteten Materialbedingungen. Bei der frühen handgemalten synthetischen Sprache wurde der Sinnesapparat des gesamten Körpers eingesetzt, um Wissen zu produzieren. Die Computerstimme, die für die Verarbeitung natürlicher Sprache und die künstliche Intelligenz von zentraler Bedeutung ist, entsprang nicht nur nüchternen Überlegungen, sondern auch dem Körperwissen und den abstrakten Gesten, die eher auf den Maler Jackson Pollock als auf den Kybernetiker Norbert Weiner hinweisen.

Wissenschaftshistorische Forschung hat die Bedeutung von verkörpertem Wissen, Papierwerkzeugen und handgefertigten Inschriften vielfältig aufgearbeitet.[1] Wissenschaftlicher Fortschritt wird von der Wissenschaftsgeschichte nicht länger als eine teleologische Abfolge von Ideen angesehen, die losgelöst von der materiellen Realität menschlicher Körper oder menschlicher Werkzeuge Weiterentwicklungen hervorbringen. Vielmehr ist dargelegt worden, dass das Einsetzen von Markierungen – Zeichnen, Schreiben und Skizzieren – eine tief verwurzelte und weit verbreitete Methode zum Sammeln, Erstellen und Verbreiten von Informationen ist. Mit Papier werden Beobachtungen und Ideen auf eine überschaubare und manipulierbare Oberfläche übertragen. Wissenschaftshistoriker haben gezeigt, wie Wissenschaftler im frühneuzeitlichen Europa mit ihren Körpern und einfachen Instrumenten Wissen beobachteten und bildeten. Mit den methodischen und konzeptuellen Werkzeugen, die sie und andere entwickelt haben, hoffe ich zu zeigen, dass diese Erkenntnistheorie der Hand sich in das Zeitalter des Digital Computing fortgesetzt hat.

Festzuhalten ist jedoch: Zeitgenössische Akteure beteiligten sich an der Verdrängung moderner Feder, Farbe und Tinte. „Manuelle Stift-und-Bleistift-Methoden“, heißt es in einem Bericht der Bell Technical Laboratories aus dem Jahr 1947, wurden vor langer Zeit durch „Rechenschieber und Addier- und Rechenmaschinen“ ersetzt.[2] Diese wiederum wurden durch digitale Computer ersetzt. Geisteswissenschaftler unterstützen diese Einschätzung. Bereits in den 1930er Jahren beschrieb Walter Benjamin bekanntlich, wie mechanische Reproduktionsmittel die Kunst der menschlichen Hand abgelöst hatten.[3] Auch Theodor Adorno äußert sich ähnlich und erweiterte Benjamins Blick auf das Klangreich wenn er konstatiert, dass die radikale Modernität des Phonographen in der Fähigkeit der Maschine zum Selbstschreiben – also dem autonomen Erfassen, Speichern und Abrufen von Geräuschen auf einer beschrifteten Oberfläche – begründet liegt.[4] In den vergangenen Jahrzehnten wurde diese Erkenntnis von der Medien- und Klangforschung dahingehend erweitert als dass die Entwicklung der Schalltechnologie als Prozess der Trennung von Klängen von den sie produzierenden Menschen verstanden wird. Das Ersetzen des handgefertigten Zeichnens durch mechanische Inschriftenformen gilt als Markenzeichen der Moderne.

So wie Maschinen Grenzen überschritten, taten dies auch ihre Erfinder und Operateure: die Forscher agierten außerhalb starrer disziplinärer Beschränkungen, die sie in Künstler, Ingenieure oder Wissenschaftler eingeteilt und so Methoden oder Herangehensweisen vorgegeben hätten. Beispielsweise wurden Technologien, die für Synthesizer für elektronische Musik entwickelt wurden, in sprachliche Werkzeuge integriert. In getrennten wissenschaftlichen Sphären gewonnenes Wissen floss in andere ein und Traditionen künstlerischen und wissenschaftlichen Experimentierens verschmolzen zu einer neuen Kategorie, die sich aus beiden zusammensetzte. Poröse Grenzen ermöglichten Momente der Überschreitung und Transformation, was zur Entwicklung neuer synthetischer Technologien führte. Künstliche Sprache ist nur ein Stein eines viel größeren Mosaiks einer zunehmend synthetischen Welt.

Ziel des Dissertationsvorhabens ist es entsprechend, diese synthetische Welt zu rekonstruieren. Die Arbeit stützt sich dabei auf die Hauptthese, dass diese simulierte Welt nicht körperloser ist als die Informationen, die in einem Buch oder einem Gemälde enthalten sind und ebenfalls in menschlichen Körpern, Künsten und Geisteswissenschaften wurzelt. Die Geschichte dieser Welt – die Geschichte der künstlich erzeugten Sprache – wird noch immer von der Geschichte der mechanischen Reproduktion überschattet. Ähnliche Phänomene können in verschiedenen Technologien lokalisiert werden. Die Implikationen reichen von neuronalen Netzen, die dem menschlichen Gehirn nachempfunden sind, bis hin zur Abhängigkeit des Differentialanalysators von mechanischen Stiften, Zeichenbrettern, Grafiken und Papier. Der Körper und seine einfachen Werkzeuge stehen immer im Mittelpunkt der Neuinterpretation dessen, was es bedeutet, menschlich zu sein und was es bedeutet, menschlich zu klingen.

Audioquellen:
Smithsonian Speech Synthesis History Project, History Project Collection, Archives Center, National Museum of American History, Smithsonian Institution, Washington DC, USA.


[1] Siehe z.B.: Bruno Latours „paperwork“, Ursula Kleins „paper tools” oder Omar Nasims „observing by hand”.

[2] “A Relay Computer for General Application,” Bell Laboratories Record, vol. 25, no. 2 (February 1947), 49.

[3] Walter Benjamin: Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit (1935).

[4] Theodor Adorno: „Nadelkurven“, in: Musikblätter des Anbruch, 10 (Februar 1928), 47-50.