Mediamatic Magazine Vol. 7#1 Remko Scha 1 jan 1992

Virtual Voices (2)

Mimesis

Soft Machines

Alexander Graham Bell staat op een keerpunt in de geschiedenis van de spraaksynthese. De achttiende-eeuwse technologie heeft hij nog heel bewust meegemaakt. In zijn kinderjaren werd hij, samen met zijn broertje, door zijn vader meegenomen naar een tentoonstelling waar een replica van een spreekmachine van Von Kempelen te zien was. Thuisgekomen, namen de jongens toen zelf ook de bouw van zo'n machine ter hand. Zoals bekend vond Bell jaren later de telefoon uit en introduceerde hij daarmee de technologie die voor de toekomst van de geluidsverwerking bepalend zou zijn: de representatie van geluid door middel van elektrische signalen. Voordien had hij ook al een gedetailleerd ontwerp gemaakt (dat nooit geïmplementeerd werd) van een mechanische Vocoder.

Maar Bells grappigste bijdrage aan de kunstmatige spraaksynthese vinden we in een andere anekdote over zijn jonge jaren. Bell's youthful interest in speech production also led him to experiment with his pet Skye terrier. He taught the dog to sit up on his hind legs and growl continuously. At the same time, Bell manipulated the dog's vocal tract by hand. The dog's repertoire of sounds finally consisted of the vowels /a/ and /u/, the diphtong /ou/ and the syllables /ma/ and /ga/. His greatest linguistic accomplishment consisted of the sentence, How are you Grandmamma ? The dog apparently started taking a 'bread and butter' interest in the project and would try to talk by himself. But on his own, he could never do better than the usual growl.

7 James L. Flanagan Speech Analysis Synthesis and Perception, second edition, Berlin 1972, pp. 206/207.

Een soortgelijke techniek, die wat meer in de cyberpunksfeer terechtkomt, hebben we te danken aan Johannes Müller, de grondlegger van de moderne fysiologie. Seine Arbeitsweise ist deutlich durch die Hinwendung zum Experiment am lebenden und toten Objekt gekennzeichnet. In Fortsetzung der Versuche von Liskovius, der 1814 als erster am Leichenkehlkopf Brust- und Falsettstimme erzeugte, schnitt Müller einer Leiche den Kopf so ab, daß der gesamte Stimmapparat und ein Teil der Trachea erhalten blieben. Durch anblasen des Leichenkehlkopfes erzeugte Müller der menschlichen Sprache sehr ähnliche Vokalklänge. Bei passiver Bewegung der Lippen gelangen ihm sogar einige Konsonanten.

8 Köster, op.cit., p. 149

Vergroot

Hermann Helmholtz's synthesis machine - Virtual Voices (2) - published in Mediamatic Magazine Vol. 7#1 (1992)

Voorspiegelen

Hermann Helmholtz was een leerling van deze zelfde Müller. Maar zijn werk op het gebied van de spraaksynthese is meer akoestisch dan fysiologisch georiënteerd. De bestudering van het verschijnsel geluid is in de tweede helft van de negentiende eeuw zover gevorderd dat men kan proberen om menselijke spraakklanken in elementaire componenten te ontleden. Bij de klinkersynthese bootst Helmholtz niet het menselijk lichaam na, maar stelt de klanken samen uit elementaire, sinusvormige componenten.
De synthesemachine bestaat uit een batterij stemvorken voorzien van resonantiekamers met frequenties in harmonische verhoudingen. Aangedreven door elektromagneten, trillen de stemvorken met volmaakte regelmaat in hun grondfrequenties.
De volumes van de bijdragen van de verschillende stemvorken
kunnen gevarieerd worden door het gedeeltelijk openen dan wel sluiten van hun resonantiekamers. Zo kunnen klanken met diverse spectra worden samengesteld, die gelijkenis vertonen met verschillende klinkers: Aa, Oo, Uu, Ie, Ee, Oe, Ah, Oh, Uh...

Vergroot

Dectalk - Virtual Voices (2) - published in Mediamatic Magazine Vol. 7#1 (1992)

Hetzelfde syntheseprocédé kan nog makkelijker worden toegepast met de sindsdien ontwikkelde elektronische technologie. De cruciale uitvinding die de ontwikkeling van de geluidselektronica mogelijk heeft gemaakt was de luidspreker:// de general purpose geluidsvoortbrenger die de geluidstrillingen van willekeurige gebeurtenissen kan nabootsen zonder ook maar iets //van de materiële structuur van die gebeurtenissen te hoeven dupliceren.
De luidspreker zet willekeurige elektrische signalen om in materiële geluidsgolven. Dat creëert de mogelijkheid om elektrische signalen te genereren en te manipuleren als modellen van geluidsgolven. In de elektronische technologie gebeurt dat met weerstanden, condensatoren, inductiespoelen, radiobuizen, transistoren: objecten met een bepaald elektrisch gedrag worden tot schakelingen samengesteld die de gewenste elektrische golfpatronen genereren.
De twee benaderingen die we bij de mechanische geluidssynthese gezien hebben, zijn allebei ook toepasbaar in de elektronica. De structuur en de componenten van een mechanisch systeem dat het menselijk strottenhoofd nabootst kunnen systematisch naar het elektronisch domein vertaald worden; dat levert dan inderdaad een schakeling op met een uitgangssignaal dat overeenkomt met het spraakgeluid dat het mechanische model voortbrengt. Simulatie in de stijl van Helmholtz is al heel erg eenvoudig: vervang zijn stemvorken door sinusgeneratoren en zijn instelbare resonantieholtes door potentiometers.
De elektronische simulatie heeft een materiële vorm: een schakeling bestaande uit aanwijsbare componenten en navolgbare verbindingen. Maar op het oog gebeurt er niets meer. Het uurwerk staat stil. Het uurwerk denkt.

De structuur van de schakeling komt overeen met de mathematische analyse van een fysisch proces dat geluid voortbrengt. De schakeling is een gematerialiseerd diagram. Aan een printplaat kan je dat zien.

9 Cf. Dick Raaijmakers 'De kunst van het machine lezen' (The art of machine reading), Raster 6, 1978, pp. 6-53

De computer is de volgende stap in de ontwikkeling naar een steeds abstractere simulatie. De hardware heeft nu helemaal niets meer te maken met de fysica die de luisteraar voorgetoverd moet worden. De hardware heeft zelfs een structuur die wezenlijk incompatibel is met de oorsprong van de muziek. Een rekenmachine 'rekent' inderdaad: manipuleert discrete symbolen. Muziek, daarentegen, komt voort uit de resonantie van continue systemen.

De digitale geluidssimulatie is twee slagen verwijderd van echt geluid: het elektrische signaal dat de luidspreker gaat aandrijven wordt in het computergeheugen gerepresenteerd als een sequentie van discrete symbolen, die het amplitudeverloop in de tijd, in discrete stapjes verdeeld, weergeven. Zo wordt zelfs de continuïteit van het elektrische signaal gefaked.
De operaties op de symbolisch gerepresenteerde signalen komen grotendeels overeen met de werking van de componenten uit elektronische schakelingen – maar omdat deze operaties nu ook symbolisch gerepresenteerd zijn (als software op de computer staan), kunnen ze met een oneindige flexibiliteit, in alle mogelijke combinaties en volgordes, worden toegepast. Cordemoys onmogelijkheid is bewaarheid: de levenloze materie heeft zich aan de rigiditeit van het uurwerk ontworsteld.

De flexibele machine, die alles kan, is tegelijk de raadselachtige machine, waaraan we niets kunnen aflezen. De machine is onbeweeglijk, zodat we niets zien gebeuren. Maar ook de bedradingstructuur van de componenten zegt niets over de functies die er verricht worden.
Die structuur zegt alleen: hier wordt gerekend.

De flexibiliteit van het softwaremedium is vrijwel totaal. Alle mathematisch beschrijfbare operaties kunnen geïmplementeerd worden.
Zelfs het feit dat de uitvoering van elke operatie een kort, maar niet oneindig kort stukje tijd kost, en dat zeer complexe samenstellingen van operaties daarom toch lang kunnen gaan duren, is nauwelijks een beperking meer. Dit praktische probleem wordt opgelost door de vlsi-technologie: voor deelprocessen die te langzaam gaan kunnen vaak chips gebakken worden: grootschalig geïntegreerde elektronische hardware, die minder wendbaar is dan software, maar wel heel erg snel.
Alles wat je kunt bedenken kan je met software doen. Dat is wat er interessant is aan ai en andere experimentele takken van de computerwetenschap: je loopt tegen de grenzen aan van wat we kunnen bedenken. De geluidssynthese is daar een typisch voorbeeld van: de huidige synthesizers hebben een geweldige klankrijkdom, maar de geluidsimitaties van bestaande instrumenten klinken nog steeds gestileerd. In de gevallen dat ze natuurlijk klinken, komt dat omdat er niet gesynthetiseerd wordt op basis van een structurele analyse, maar op basis van samples. Dan wordt er niet een geluid nagebootst, maar er wordt een tevoren geregistreerd geluid gereproduceerd. De best klinkende synthesizers hebben veel gemeen met taperecorders. Digitale mellotrons.

De geluidsregistratie met de grootste nauwkeurigheid is tegenwoordig de digitale geluidsregistratie. De representatie van hifi geluid in computationeel verwerkbare vorm is dus goed in orde. De beperkingen van de digitale geluidssynthese zijn uitsluitend de beperkingen van ons begrip van de psychologie van geluidsstructuur.

Vergroot

Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2) - published in Mediamatic Magazine Vol. 7#1 (1992)

Platonic People

De eerste elektronische spraaksynthesesystemen waren door hun gebrekkige verstaanbaarheid slechts beperkt toepasbaar. Je kon ze bijvoorbeeld geen complexe tekst met een niet voor de hand liggende inhoud laten zeggen, als je wilde dat die tekst ook begrepen zou worden. En niemand kon de output van deze systemen verwarren met de spraak van een menselijk persoon. De stem komt voort uit het metalen, hoekig bewegende lichaam van de prototypische robot.
Wat we horen is een machine, die zich op een onhandige mechanische manier toch van de menselijke communicatiemiddelen bedient. Een geluid dat morbide associaties oproept over de mogelijkheden en de gevaren van de technologie, en over de aard van de menselijke identiteit.
De huidige state-of-the-art programma's beginnen langzamerhand een heel ander karakter te krijgen. Een typisch voorbeeld is dectalk.

10 dectalk was developed by Digital Equipment on the basis of mitalk. See: Jonathan Allen, M. Sharon Hunnicutt and Dennis Klatt'' From text to speech:

The MITalk system,'' Cambridge University Press, 1987

Dit programma verwerkelijkt de stoutste dromen van Abbé Mical. Têtes parlantes: niet één, niet twee, maar negen verschillende, die ook nog weer allemaal gemodificeerd en geïnterpoleerd kunnen worden. Het dectalk manual presenteert hun portretten en noemt ze met name: ''Rough Rita, Frail Frank, Whispering Wendy, Huge
Harry, Kit the Kid, Perfect Paul, Beautiful Betty, Uppity Ursula, en Doctor Dennis. De hoofdrolspelers in een comic strip versie van Peyton Place.''
De input voor programma's als dectalk bestaat uit discrete symbolen. Het programma verwerkt files waarin sequenties van fonemen opgeslagen zijn. Er is dus geen menselijke beheersing van timing en dynamiek, zoals bij de achttiende-eeuwse machines die via een toetsenbord bediend werden. Toch, en zelfs mede daardoor, heeft de output een grotere continuïteit. De software bevat niet alleen modellen van de signalen die behoren bij de afzonderlijke fonemen, maar ook procedures die de opeenvolgende signalen naadloos aan elkaar passen.
De hedendaagse synthetische stemmen zijn goed verstaanbaar. En door een nauwkeurigere beheersing van het spectrum van de klinkers is het nadrukkelijk robotachtige karakter ervan verdwenen. In plaats daarvan: een sonoriteit die slechts onmenselijk is door zijn gelijkmatigheid.

Speech technologists are doing their best to imitate human limitations and imperfections. Allen et al. (op.cit.), for example: Some additional pauses are introduced in longer phrases and slow speaking rate so that the talker does not seem to have an inhuman supply of breath.

dectalk's standaardstem, Perfect Paul, is een abstract klinkende, nieuwslezerachtige stem. Geen machine, geen mens. Daarmee is een nieuw medium ontstaan. Tot nu toe was het niet mogelijk om naar een tekst te luisteren zonder naar iemands lichaam te luisteren. De eigenstandige tekst, onafhankelijk van het menselijk lichaam, was altijd de gedrukte tekst. Voor het eerst heeft nu de taal een geluid dat onafhankelijk is van het lichaam - een geluid dat rechtstreeks voortkomt uit het taalkundig systeem, uit syntaxis en fonemen.
De volgende stap in deze ontwikkeling wordt ingeluid door andere dectalk-stemmen, zoals Whispering Wendy en Huge Harry. Die zijn persoonlijker, maar net zo gelijkmatig en onverstoorbaar. Rimpelloze continuïteit. Air brush pin-ups. Platonische lichamen.

Whispering Wendy heeft een hese stem die tegelijk heel zuiver en helder is - en klein, met weinig substantie, zoals de zangstem van Marilyn Monroe, of die van Brigitte Bardot. De suggestie van een zacht, elastisch, gewichtloos lichaam. Huge Harry is de macho tegenhanger van Whispering Wendy. Zijn stem is zwaar en bronstig. Nog geen Elvis Presley, maar het gaat de goede kant op.

Het synthetisch lichaam is al lang een erotisch ideaal. Carter Ratcliff zegt bijvoorbeeld over het gebruik van klassieke standbeelden in de modefotografie van de dertiger jaren:'' The forms of high fashion assume the look of the statuesque, the hallowed, the classical. Living flesh has the smoothness, the soft luster of
ancient marble. Stone, it almost seems, is as supple as flesh. Hoyningen-Huene makes an equation between living and not living bodies, and the equation enchants, for in his photographs the bodies that do not live are not dead. They are statues. His imagery argues that in the realm of fashion there is no death. To enter the fashionable instant is to live forever. ''

12 Carter Ratcliff, 'Out of Time', Artforum International 30, September 1991, pp. 112-117

De toekomst van digitale beeld- en geluidsimulatie: de gladde koelte van het standbeeld in een natuurlijk bewegend lichaam, in een sensueel modulerende stem.
Robotporno is het ideaal waarheen de technologie zich nu langzaam maar zeker ontwikkelt - een ideaal dat door live-performers als Prince en Michael Jackson al anticiperend nagebootst wordt.
Toen Andy Warhol de commerciële telefoonseks bedacht, suggereerde hij in één moeite door dat dat dan ook het best met robots zou kunnen:// A robot computer to answer the phone, that would be great. It would do the job without emotion. //

13 Ultra Violet Famous for 15 minutes. My years with Andy Warhol New York 1990, p. 163

Nawoord van Ultra Violet

''I think back to one of Andy's earliest paintings, compelling in its simplicity - a starkly black-and-white six-foot-high Coca-Cola bottle, painted in oil on canvas in 1960. I think of the paintings of clean, shiny Campbell soup cans, the young, unlined, fresh-scrubbed faces of Marilyn Monroe, Jackie Onassis, Ingrid Bergman, so many others.
Then gradually I began to grasp what Andy was trying to say with all his babble about machines and sex. Where sex has turned repulsive and inhuman, machine sex beckons alluringly. Only in telephone sex, robot sex, computer sex, is there escape from ugliness and cruelty. Machine sex is the only kind left that is uncontaminated, antiseptic, clean, even a little mysterious. (...)
Yes, here is still another of the endless paradoxes Andy strews along our paths. In sex, as in art, (...) he reinvents shining, pristine, early morning purity.
His kind, of course: on the surface, no deeper. ''

14 Ultra Violet, Op. cit., pp. 165/166