http://www.mediamatic.net/id/83402010-06-29T09:59:23+02:00Virtual Voices (2)Mimesis<p>Soft Machines</p><p>Alexander Graham Bell stands at a turning point in the history of speech synthesis. When he was young, his father took him and his younger brother to an exhibition where they saw a replica of one of Von Kempelen's speech machines. Back home, the boys proceeded to build a similar speaking machine themselves. When, several years later, Bell invented the telephone, he introduced the technique that would determine the future of sound processing: the representation of sounds by means of electric signals. Bell also produced a detailed design that never got implemented, for a device that would have been a mechanical Vocoder.</p>
<p>But his most curious contribution to artificial speech synthesis was another early feat. <em>Bell's youthful interest in speech production also led him to experiment with his pet Skye terrier. He taught the dog to sit up on his hind legs and growl continuously. At the same time, Bell manipulated the dog's vocal tract by hand. The dog's repertoire of sounds finally consisted of the vowels /a/ and /u/, the diphthong /ou/ and the syllables /ma/ and /ga/. His greatest linguistic accomplishment consisted of the sentence,</em> How are you Grandmamma? <em>The dog apparently started taking a 'bread and butter' interest in the project and would try to talk by himself. But on his own, he could never do better than the usual growl.</em></p>
<h5>7 James L. Flanagan <em>Speech Analysis Synthesis and Perception, </em>second edition, Berlin 1972, pp. 206/207.</h5>
<p>A related technology, with a cyberpunk slant, is due to Johannes Müller, the father of modern physiology.<em> His working method is clearly characterized by his orientation toward experiments on living or dead objects. Continuing the efforts of Liskovius, who in 1814 was the first to generate chest- and head-voice from the larynx of a corpse, he cut off the head of a corpse in such a way that the entire vocal apparatus and part of the tracheae were preserved. By blowing air into the larynx of the corpse, Müller produced vocalic sounds, which closely resembled human speech. By moving the lips, he even managed to generate some consonants.</em></p>
<h5>8 Köster, <em>op.cit.,</em> p. 149</h5>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153771/en/poyet-louis-kratzenstein-s-resonators-virtual">
<img src="http://fast.mediamatic.nl/f/sjnh/image/400/153771-308-400.jpg" height="400" width="308" alt="" title="Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2) - Mediamatic.net" href="/153771/en/poyet-louis-kratzenstein-s-resonators-virtual">Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2)</a></span></span></span></p>
<h3>To Fake</h3>
<p>Hermann Helmholtz was a pupil of that same Müller. But his work in the field of speech synthesis was less physiologically and more acoustically oriented. In the second half of the nineteenth century, research into the phenomenon of sound had reached the stage where one could attempt to analyse the sounds of human speech into elementary components. <br/>
To synthesize vowels, Helmholtz did not imitate the human body, but built up the sounds from elementary, sinus-shaped components.<br/>
His synthesis machine consists of a battery of tuning forks equipped with resonance chambers, with frequencies in harmonious proportions. Driven by electromagnets, the tuning forks vibrate with perfect regularity in their basic frequencies. The volumes of the contributions from the different tuning forks can be varied by partly opening or closing their resonance chambers. Thus, sounds with different spectrums can be composed, which bear resemblance to various vowels: Oo, Ee, Ah, Oh, Uh, Ih...</p>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153772/en/hermann-helmholtz-s-synthesis-machine-virtual">
<img src="http://fast.mediamatic.nl/f/sjnh/image/144/153772-400-206.jpg" height="206" width="400" alt="" title="Hermann Helmholtz's synthesis machine - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Hermann Helmholtz's synthesis machine - Virtual Voices (2) - Mediamatic.net" href="/153772/en/hermann-helmholtz-s-synthesis-machine-virtual">Hermann Helmholtz's synthesis machine - Virtual Voices (2)</a></span></span></span></p>
<p>The same method of synthesis can be applied even more easily with modern electronic technology - a technology which was developed for the reproduction and transmission of sound. The crucial invention, which made electronic sound generation possible, was the <em>loudspeaker: </em>the general-purpose sound producer, which can replicate the sound of an arbitrary event, without having to mimic its material structure.<br/>
The loudspeaker transforms arbitrary electric signals into material sound waves. This creates the possibility of treating electric signals as <em>models</em>of sound waves. In electronic technology, this is done by means of resistors, induction coils, radio tubes, transistors. Objects with a specific electronic behaviour are combined into circuits which generate the desired output patterns.</p>
<p>The two kinds of approach mentioned above in connection with mechanical sound synthesis can be applied in electronics as well. The structure and the components of a mechanical system that imitates the human larynx can systematically be transposed to the electronic domain; this will indeed result in a circuit with an output signal that corresponds to the vocal sound produced by the mechanical model. <br/>
Translating Helmholtz' approach to the electronic realm is even<br/>
simpler: replace his tuning forks with sine wave generators, and his adjustable resonance chambers with potentiometers. Electronic simulation has a material form: a circuit consisting of identifiable components and connections. But on the outside, nothing seems to be happening. The clockwork stands still. It thinks.</p>
<p>The structure of the circuit corresponds to the mathematical analysis of a physical sound-generating process. The circuit is a materialized diagram. A print board actually<em> looks</em> like that.</p>
<h5>9 Cf. Dick Raaijmakers 'De kunst van het machine lezen' (The art of machine reading), <em>Raster 6,</em> 1978, pp. 6-53</h5>
<p>The computer is the next step in the development towards an increasingly abstract simulation. The hardware no longer has anything in common with the physics conjured up for the listener. The hardware even has a structure which is essentially incompatible with the origins of music. A computer really 'computes': it manipulates discrete symbols. Music, on the other hand, is generated by the resonance of continuous systems.<br/>
Digital sound simulation is two steps away from real sound: the electric signal driving the loudspeaker is represented in the computer as a sequence of discrete symbols that represent the amplitude variation in time, split up into small discrete steps. Thus, even the continuity of the electric signal is <em>faked.</em></p>
<p>The operations on the symbolically represented signals largely correspond to the functioning of the components from electronic circuits – but because these operations are now symbolically represented as well (installed as <em>software</em> in the computer), they can be applied with infinite flexibility, in every imaginable combination and sequence. Cordemoy's impossibility has come true: lifeless matter has escaped the rigidity of the clockwork.<br/>
The flexible machine which can do <em>anything</em> is at the same time the enigmatic machine which shows <em>nothing.</em> The machine is motionless, so that we do not see anything happening. But neither does the wiring structure of the components reveal anything about the functions performed. This structure only says: calculations in progress.<br/>
The flexibility of the software medium is virtually complete. All operations, which can be described mathematically, can be implemented. Even the fact that the execution of each operation takes a short, but not infinitely short, moment of time, and that very complex combinations of operations can therefore take a long<br/>
time, is hardly a limitation anymore. This practical problem is solved by vlsi (custom-built chip) technology. It is often possible to develop special chips for sub-processes which take too much time: large-scale integrated electronic hardware, which is less flexible than software, but extremely fast.</p>
<p>Everything you can imagine you can do with software. That is what's interesting about ai and other experimental branches of computer science: we discover the limits of what we can imagine. Sound synthesis is a typical example of this: modern synthesizers can produce a tremendous richness of sound, but imitations of existing instruments still sound stylized. <br/>
Where they do sound natural, this is because they are not synthesized on the basis of structural analysis, but on the basis of samples. In that case there is no imitation, but reproduction of a previously recorded sound. The best sounding synthesizers have a great deal in common with tape recorders. They are digital mellotrons.<br/>
Digital sound registration technology is now the technology with the highest accuracy. The basic methods of digital sound representation are thus completely adequate. The limitations of digital sound synthesis are solely due to the limitations of our understanding of the psychological structure of sound. </p>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153777/en/dectalk-virtual-voices-2">
<img src="http://fast.mediamatic.nl/f/sjnh/image/083/153777-263-400.jpg" height="400" width="263" alt="" title="Dectalk - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Dectalk - Virtual Voices (2) - Mediamatic.net" href="/153777/en/dectalk-virtual-voices-2">Dectalk - Virtual Voices (2)</a></span></span></span></p>
<h3>Platonic People</h3>
<p>Because their speech was barely intelligible, there was not much use for the first electronic speech-synthesis systems. For example, you could not make them speak a complex text with unpredictable contents if you wanted the text to be understood by an audience.<br/>
These systems also sounded distinctly inhuman. The voice appears to be generated by an alien body which is not flesh and blood – by the angular movements of the metal components of the prototypical robot. What you hear is a machine which, in its awkward mechanical way, tries to use the human means of communication. This behaviour evokes disturbing questions about the possibilities and the dangers of technology, about mind and matter, and the<br/>
nature of human identity.<br/>
But current state-of-the-art software is different. A typical example is <em>dectalk.</em> </p>
<h5>10 dectalk was developed by <em>Digital Equipment</em> on the basis of mitalk. See: Jonathan Allen, M. Sharon Hunnicutt and Dennis Klatt<em> From text to speech: The MITalk system,</em> Cambridge University Press, 1987</h5>
<p> This program is the realization of Abbé Mical's wildest dreams. //Têtes parlantes:// not one, not two, but nine different ones; and all of them can moreover be modified and interpolated. <br/>
The dectalk manual presents their portraits and gives them names:// Rough Rita, Frail Frank, Whispering Wendy, Huge Harry, Kit the Kid, Perfect Paul, Beautiful Betty, Uppity Ursula, and Doctor Dennis.//<br/>
Protagonists of a comic strip version of <em>Peyton Place.</em></p>
<p>The input for programs such as dectalk consists of discrete symbols. The program processes files that consist of sequences of phonemes. So there is no human control of timing and dynamics as with the eighteenth-century machines which were operated by means of a keyboard. In spite and even partly because of this, the output has greater continuity. <br/>
The software does not only contain models of the signals that correspond to the individual phonemes, but also procedures for merging the successive signals seamlessly together.</p>
<p>Modern synthetic voices are perfectly intelligible. And because of a more accurate control of the spectrum of vowels, the distinctively metallic quality of the sound has disappeared. But nevertheless, no one would confuse their output with human speech. The synthetic voice is still inhuman, if only because of its uniformity. </p>
<h5>11 Speech technologists are doing their best to imitate human limitations and imperfections. Allen et al. (op.cit.), for example: Some additional pauses are introduced in longer phrases and slow speaking rate so that the talker does not seem to have an inhuman supply of breath.</h5>
<p>dectalk's standard voice, <em>Perfect Paul,</em> is an abstract sounding voice, that of a newsreader. Neither machine, nor human being. This marks the birth of a new medium. Up until now, you could not listen to a text without listening to someone's body. The independent text, independent of the human body, was always the <em>printed </em>text. For the first time, language now has a sound independent of the body – a sound that directly emanates from the linguistic system, from syntax and phonemes. The next step in this development is foreshadowed by other dectalk voices, such as <em>Whispering Wendy </em>and <em>Huge Harry.</em> These are more personal, but just as equable and imperturbable, smooth and continuous. Airbrush pinups. Platonic bodies.</p>
<p><em>Whispering Wendy's</em> voice has a pure, clear sound, with very little substance – like Marilyn Monroe's singing voice or Brigitte Bardot's. The suggestion of a soft, supple, weightless body.<br/>
<em> Huge Harry </em>is <em>Wendy's </em>macho counterpart. His voice is heavy and lustful. Not Elvis Presley yet, but not bad for a beginner.</p>
<p>The synthetic body has already become an erotic ideal. Look, for instance, at the use of classical statues in thirties' fashion photography: ''The forms of high fashion assume the look of the statuesque, the hallowed, the classical. Living flesh has the smoothness, the soft luster of ancient marble. Stone, it almost<br/>
seems, is as supple as flesh. Hoyingen-Huene makes an equation between living and not living bodies, and the equation enchants, for in his photographs the bodies that do not live are not dead. They are statues. His imagery argues that in the realm of fashion there is no death. To enter the fashionable instant is to live forever.'' </p>
<h5>12 Carter Ratcliff, 'Out of Time', <em>Artforum International </em>30, September 1991, pp. 112-117</h5>
<p>The future of digital image- and sound-simulation: the smooth coolness of the statue in a naturally moving body, in a sensually modulating voice. Technology is heading slowly but surely toward increasingly perfect robot-porn. Live performers like Prince and Michael Jackson are already beginning to dissolve into their computer-animated images.<br/>
When Andy Warhol invented commercial telephone sex, he suggested in the same breath that it could best be done by robots:// A robot-computer to answer the phone, that would be great. It would do the job without emotion. //</p>
<h5>13 Ultra Violet <em>Famous for 15 minutes. My years with Andy Warhol </em>New York 1990, p. 163</h5>
<h3>Epilogue by Ultra Violet</h3>
<p>''I think back to one of Andy's earliest paintings, compelling in its simplicity - a starkly black-and-white six-foot-high Coca-Cola bottle, painted in oil on canvas in 1960. I think of the paintings of clean, shiny Campbell soup cans, the young, unlined, fresh-scrubbed faces of Marilyn Monroe, Jackie Onassis, Ingrid Bergman, so many others.<br/>
Then gradually I begin to grasp what Andy was trying to say with all his babble about machines and sex. Where sex has turned repulsive and inhuman, machine sex beckons alluringly. Only in telephone sex, robot sex, computer sex is there escape from ugliness and cruelty. Machine sex is the only kind left that is uncontaminated, antiseptic, clean, even a little mysterious (...).<br/>
Yes, here is still another of the endless paradoxes Andy strews along our paths. In sex, as in art, (...) he reinvents shining, pristine, early morning purity.<br/>
His kind, of course: on the surface, no deeper.'' </p>
<h5>14 Ultra Violet, <em>Op. cit.</em>, pp. 165/166</h5>
<p>translation olivier/wylie/scha</p>Mediamatic Magazine vol.7#1Virtual Voices (2)Mimesis<p>Soft Machines</p><p>Alexander Graham Bell staat op een keerpunt in de geschiedenis van de spraaksynthese. De achttiende-eeuwse technologie heeft hij nog heel bewust meegemaakt. In zijn kinderjaren werd hij, samen met zijn broertje, door zijn vader meegenomen naar een tentoonstelling waar een replica van een spreekmachine van Von Kempelen te zien was. Thuisgekomen, namen de jongens toen zelf ook de bouw van zo'n machine ter hand. Zoals bekend vond Bell jaren later de telefoon uit en introduceerde hij daarmee de technologie die voor de toekomst van de geluidsverwerking bepalend zou zijn: de representatie van geluid door middel van elektrische signalen. Voordien had hij ook al een gedetailleerd ontwerp gemaakt (dat nooit geïmplementeerd werd) van een mechanische Vocoder.</p>
<p>Maar Bells grappigste bijdrage aan de kunstmatige spraaksynthese vinden we in een andere anekdote over zijn jonge jaren. <em>Bell's youthful interest in speech production also led him to experiment with his pet Skye terrier. He taught the dog to sit up on his hind legs and growl continuously. At the same time, Bell manipulated the dog's vocal tract by hand. The dog's repertoire of sounds finally consisted of the vowels /a/ and /u/, the diphtong /ou/ and the syllables /ma/ and /ga/. His greatest linguistic accomplishment consisted of the sentence,</em> How are you Grandmamma ? <em>The dog apparently started taking a 'bread and butter' interest in the project and would try to talk by himself. But on his own, he could never do better than the usual growl.</em></p>
<h5>7 James L. Flanagan Speech <em>Analysis Synthesis and Perception,</em> second edition, Berlin 1972, pp. 206/207.</h5>
<p>Een soortgelijke techniek, die wat meer in de cyberpunksfeer terechtkomt, hebben we te danken aan Johannes Müller, de grondlegger van de moderne fysiologie. <em>Seine Arbeitsweise ist deutlich durch die Hinwendung zum Experiment am lebenden und toten Objekt gekennzeichnet. In Fortsetzung der Versuche von Liskovius, der 1814 als erster am Leichenkehlkopf Brust- und Falsettstimme erzeugte, schnitt Müller einer Leiche den Kopf so ab, daß der gesamte Stimmapparat und ein Teil der Trachea erhalten blieben. Durch anblasen des Leichenkehlkopfes erzeugte Müller der menschlichen Sprache sehr ähnliche Vokalklänge. Bei passiver Bewegung der Lippen gelangen ihm sogar einige Konsonanten.</em></p>
<h5>8 Köster, <em>op.cit.,</em> p. 149</h5>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153771/en/poyet-louis-kratzenstein-s-resonators-virtual">
<img src="http://fast.mediamatic.nl/f/sjnh/image/400/153771-308-400.jpg" height="400" width="308" alt="" title="Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2) - Mediamatic.net" href="/153771/en/poyet-louis-kratzenstein-s-resonators-virtual">Poyet, Louis. Kratzenstein's resonators - Virtual Voices (2)</a></span></span></span></p>
<h3>Voorspiegelen</h3>
<p>Hermann Helmholtz was een leerling van deze zelfde Müller. Maar zijn werk op het gebied van de spraaksynthese is meer akoestisch dan fysiologisch georiënteerd. De bestudering van het verschijnsel <em>geluid</em> is in de tweede helft van de negentiende eeuw zover gevorderd dat men kan proberen om menselijke spraakklanken in elementaire componenten te ontleden. Bij de klinkersynthese bootst Helmholtz niet het menselijk lichaam na, maar stelt de klanken samen uit elementaire, sinusvormige componenten.<br/>
De synthesemachine bestaat uit een batterij stemvorken voorzien van resonantiekamers met frequenties in harmonische verhoudingen. Aangedreven door elektromagneten, trillen de stemvorken met volmaakte regelmaat in hun grondfrequenties. <br/>
De volumes van de bijdragen van de verschillende stemvorken<br/>
kunnen gevarieerd worden door het gedeeltelijk openen dan wel sluiten van hun resonantiekamers. Zo kunnen klanken met diverse spectra worden samengesteld, die gelijkenis vertonen met verschillende klinkers: Aa, Oo, Uu, Ie, Ee, Oe, Ah, Oh, Uh...</p>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153772/en/hermann-helmholtz-s-synthesis-machine-virtual">
<img src="http://fast.mediamatic.nl/f/sjnh/image/144/153772-400-206.jpg" height="206" width="400" alt="" title="Hermann Helmholtz's synthesis machine - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Hermann Helmholtz's synthesis machine - Virtual Voices (2) - Mediamatic.net" href="/153772/en/hermann-helmholtz-s-synthesis-machine-virtual">Hermann Helmholtz's synthesis machine - Virtual Voices (2)</a></span></span></span></p>
<p>Hetzelfde syntheseprocédé kan nog makkelijker worden toegepast met de sindsdien ontwikkelde elektronische technologie. De cruciale uitvinding die de ontwikkeling van de geluidselektronica mogelijk heeft gemaakt was de <em>luidspreker:// de </em>general purpose <em>geluidsvoortbrenger die de geluidstrillingen van willekeurige gebeurtenissen kan nabootsen zonder ook maar </em>iets //van de materiële structuur van die gebeurtenissen te hoeven dupliceren.<br/>
De luidspreker zet willekeurige elektrische signalen om in materiële geluidsgolven. Dat creëert de mogelijkheid om elektrische signalen te genereren en te manipuleren als <em>modellen </em>van geluidsgolven. In de elektronische technologie gebeurt dat met weerstanden, condensatoren, inductiespoelen, radiobuizen, transistoren: objecten met een bepaald elektrisch gedrag worden tot schakelingen samengesteld die de gewenste elektrische golfpatronen genereren.<br/>
De twee benaderingen die we bij de mechanische geluidssynthese gezien hebben, zijn allebei ook toepasbaar in de elektronica. De structuur en de componenten van een mechanisch systeem dat het menselijk strottenhoofd nabootst kunnen systematisch naar het elektronisch domein vertaald worden; dat levert dan inderdaad een schakeling op met een uitgangssignaal dat overeenkomt met het spraakgeluid dat het mechanische model voortbrengt. Simulatie in de stijl van Helmholtz is al heel erg eenvoudig: vervang zijn stemvorken door sinusgeneratoren en zijn instelbare resonantieholtes door potentiometers.<br/>
De elektronische simulatie heeft een materiële vorm: een schakeling bestaande uit aanwijsbare componenten en navolgbare verbindingen. Maar op het oog gebeurt er niets meer. Het uurwerk staat stil. Het uurwerk denkt.</p>
<p>De structuur van de schakeling komt overeen met de mathematische analyse van een fysisch proces dat geluid voortbrengt. De schakeling is een gematerialiseerd diagram. Aan een printplaat kan je dat <em>zien. </em> </p>
<h5>9 Cf. Dick Raaijmakers 'De kunst van het machine lezen' (The art of machine reading), <em>Raster 6,</em> 1978, pp. 6-53</h5>
<p>De computer is de volgende stap in de ontwikkeling naar een steeds abstractere simulatie. De hardware heeft nu helemaal niets meer te maken met de fysica die de luisteraar voorgetoverd moet worden. De hardware heeft zelfs een structuur die wezenlijk incompatibel is met de oorsprong van de muziek. Een rekenmachine 'rekent' inderdaad: manipuleert discrete symbolen. Muziek, daarentegen, komt voort uit de resonantie van continue systemen.</p>
<p>De digitale geluidssimulatie is twee slagen verwijderd van echt geluid: het elektrische signaal dat de luidspreker gaat aandrijven wordt in het computergeheugen gerepresenteerd als een sequentie van discrete symbolen, die het amplitudeverloop in de tijd, in discrete stapjes verdeeld, weergeven. Zo wordt zelfs de continuïteit van het elektrische signaal <em>gefake</em>d.<br/>
De operaties op de symbolisch gerepresenteerde signalen komen grotendeels overeen met de werking van de componenten uit elektronische schakelingen – maar omdat deze operaties nu ook symbolisch gerepresenteerd zijn (als <em>software</em> op de computer staan), kunnen ze met een oneindige flexibiliteit, in alle mogelijke combinaties en volgordes, worden toegepast. Cordemoys onmogelijkheid is bewaarheid: de levenloze materie heeft zich aan de rigiditeit van het uurwerk ontworsteld.</p>
<p>De flexibele machine, die <em>alles </em>kan, is tegelijk de raadselachtige machine, waaraan we <em>niets</em> kunnen aflezen. De machine is onbeweeglijk, zodat we niets zien gebeuren. Maar ook de bedradingstructuur van de componenten zegt niets over de functies die er verricht worden.<br/>
Die structuur zegt alleen: hier wordt gerekend.</p>
<p>De flexibiliteit van het softwaremedium is vrijwel totaal. Alle mathematisch beschrijfbare operaties kunnen geïmplementeerd worden. <br/>
Zelfs het feit dat de uitvoering van elke operatie een kort, maar niet oneindig kort stukje tijd kost, en dat zeer complexe samenstellingen van operaties daarom toch lang kunnen gaan duren, is nauwelijks een beperking meer. Dit praktische probleem wordt opgelost door de vlsi-technologie: voor deelprocessen die te langzaam gaan kunnen vaak <em>chips</em> gebakken worden: grootschalig geïntegreerde elektronische hardware, die minder wendbaar is dan software, maar wel <em>heel erg snel.</em><br/>
Alles wat je kunt bedenken kan je met software doen. Dat is wat er interessant is aan ai en andere experimentele takken van de computerwetenschap: je loopt tegen de grenzen aan van wat we kunnen bedenken. De geluidssynthese is daar een typisch voorbeeld van: de huidige synthesizers hebben een geweldige klankrijkdom, maar de geluidsimitaties van bestaande instrumenten klinken nog steeds <em>gestileerd.</em> In de gevallen dat ze natuurlijk klinken, komt dat omdat er niet gesynthetiseerd wordt op basis van een structurele analyse, maar op basis van <em>samples.</em> Dan wordt er niet een geluid nagebootst, maar er wordt een tevoren geregistreerd geluid <em>gereproduceerd.</em> De best klinkende synthesizers hebben veel gemeen met taperecorders. Digitale mellotrons.</p>
<p>De geluidsregistratie met de grootste nauwkeurigheid is tegenwoordig de <em>digitale </em>geluidsregistratie. De <em>representatie</em> van hifi geluid in computationeel verwerkbare vorm is dus goed in orde. De beperkingen van de digitale geluidssynthese zijn uitsluitend de beperkingen van ons begrip van de psychologie van geluidsstructuur. </p>
<p><span class="inline-image-wrapper ui_animateFigureCaption"><a href="http://www.mediamatic.net/153777/en/dectalk-virtual-voices-2">
<img src="http://fast.mediamatic.nl/f/sjnh/image/083/153777-263-400.jpg" height="400" width="263" alt="" title="Dectalk - Virtual Voices (2)" playable="1"/>
</a><span class="caption-inline"><span class="title"><a title="Click to get a larger image - Dectalk - Virtual Voices (2) - Mediamatic.net" href="/153777/en/dectalk-virtual-voices-2">Dectalk - Virtual Voices (2)</a></span></span></span></p>
<h3>Platonic People</h3>
<p>De eerste elektronische spraaksynthesesystemen waren door hun gebrekkige verstaanbaarheid slechts beperkt toepasbaar. Je kon ze bijvoorbeeld geen complexe tekst met een niet voor de hand liggende inhoud laten zeggen, als je wilde dat die tekst ook begrepen zou worden. En niemand kon de output van deze systemen verwarren met de spraak van een menselijk persoon. De stem komt voort uit het metalen, hoekig bewegende lichaam van de prototypische robot.<br/>
Wat we horen is een machine, die zich op een onhandige mechanische manier toch van de menselijke communicatiemiddelen bedient. Een geluid dat morbide associaties oproept over de mogelijkheden en de gevaren van de technologie, en over de aard van de menselijke identiteit.<br/>
De huidige <em>state-of-the-art</em> programma's beginnen langzamerhand een heel ander karakter te krijgen. Een typisch voorbeeld is <em>dectalk. </em> </p>
<h5>10 dectalk was developed by <em>Digital Equipment </em>on the basis of mitalk. See: Jonathan Allen, M. Sharon Hunnicutt and Dennis Klatt'' From text to speech:</h5>
<p>The MITalk system,'' Cambridge University Press, 1987</p>
<p>Dit programma verwerkelijkt de stoutste dromen van Abbé Mical. <em>Têtes parlantes: </em>niet één, niet twee, maar negen verschillende, die ook nog weer allemaal gemodificeerd en geïnterpoleerd kunnen worden. Het dectalk manual presenteert hun portretten en noemt ze met name: ''Rough Rita, Frail Frank, Whispering Wendy, Huge<br/>
Harry, Kit the Kid, Perfect Paul, Beautiful Betty, Uppity Ursula,<em> en</em> Doctor Dennis.<em> De hoofdrolspelers in een </em>comic strip versie<em> van</em> Peyton Place.''<br/>
De<em> input </em>voor programma's als dectalk bestaat uit discrete symbolen. Het programma verwerkt files waarin sequenties van fonemen opgeslagen zijn. Er is dus geen menselijke beheersing van timing en dynamiek, zoals bij de achttiende-eeuwse machines die via een toetsenbord bediend werden. Toch, en zelfs mede daardoor, heeft de<em> output </em>een grotere continuïteit. De software bevat niet alleen modellen van de signalen die behoren bij de afzonderlijke fonemen, maar ook procedures die de opeenvolgende signalen naadloos aan elkaar passen.<br/>
De hedendaagse synthetische stemmen zijn goed verstaanbaar. En door een nauwkeurigere beheersing van het spectrum van de klinkers is het nadrukkelijk robotachtige karakter ervan verdwenen. In plaats daarvan: een sonoriteit die slechts onmenselijk is door zijn gelijkmatigheid. </p>
<h5>Speech technologists are doing their best to imitate human limitations and imperfections. Allen et al. (op.cit.), for example: <em>Some additional pauses are introduced in longer phrases and slow speaking rate so that the talker does not seem to have an inhuman supply of breath.</em></h5>
<p> dectalk's standaardstem, <em>Perfect Paul,</em> is een abstract klinkende, nieuwslezerachtige stem. Geen machine, geen mens. Daarmee is een nieuw medium ontstaan. Tot nu toe was het niet mogelijk om naar een tekst te luisteren zonder naar iemands lichaam te luisteren. De eigenstandige tekst, onafhankelijk van het menselijk lichaam, was altijd de <em>gedrukte</em> tekst. Voor het eerst heeft nu de taal een geluid dat onafhankelijk is van het lichaam - een geluid dat rechtstreeks voortkomt uit het taalkundig systeem, uit syntaxis en fonemen.<br/>
De volgende stap in deze ontwikkeling wordt ingeluid door andere dectalk-stemmen, zoals <em>Whispering Wendy </em>en<em> Huge Harry.</em> Die zijn <em>persoonlijker,</em> maar net zo gelijkmatig en onverstoorbaar. Rimpelloze continuïteit. <em>Air brush pin-ups.</em> Platonische lichamen.</p>
<p><em>Whispering Wendy </em>heeft een hese stem die tegelijk heel zuiver en helder is - en klein, met weinig substantie, zoals de zangstem van Marilyn Monroe, of die van Brigitte Bardot. De suggestie van een zacht, elastisch, gewichtloos lichaam. <em>Huge Harry </em>is de<em> macho </em>tegenhanger van <em>Whispering Wendy.</em> Zijn stem is zwaar en bronstig. Nog geen Elvis Presley, maar het gaat de goede kant op.</p>
<p>Het synthetisch lichaam is al lang een erotisch ideaal. Carter Ratcliff zegt bijvoorbeeld over het gebruik van klassieke standbeelden in de modefotografie van de dertiger jaren:'' The forms of high fashion assume the look of the statuesque, the hallowed, the classical. Living flesh has the smoothness, the soft luster of<br/>
ancient marble. Stone, it almost seems, is as supple as flesh. Hoyningen-Huene makes an equation between living and not living bodies, and the equation enchants, for in his photographs the bodies that do not live are not dead. They are statues. His imagery argues that in the realm of fashion there is no death. To enter the fashionable instant is to live forever. ''</p>
<h5>12 Carter Ratcliff, 'Out of Time',<em> Artforum International </em>30, September 1991, pp. 112-117</h5>
<p>De toekomst van digitale beeld- en geluidsimulatie: de gladde koelte van het standbeeld in een natuurlijk bewegend lichaam, in een sensueel modulerende stem.<br/>
Robotporno is het ideaal waarheen de technologie zich nu langzaam maar zeker ontwikkelt - een ideaal dat door live-performers als Prince en Michael Jackson al anticiperend nagebootst wordt.<br/>
Toen Andy Warhol de commerciële telefoonseks bedacht, suggereerde hij in één moeite door dat dat dan ook het best met robots zou kunnen:// A robot computer to answer the phone, that would be great. It would do the job without emotion. //</p>
<h5>13 Ultra Violet <em>Famous for 15 minutes. My years with Andy Warhol</em> New York 1990, p. 163</h5>
<h3>Nawoord van Ultra Violet</h3>
<p>''I think back to one of Andy's earliest paintings, compelling in its simplicity - a starkly black-and-white six-foot-high Coca-Cola bottle, painted in oil on canvas in 1960. I think of the paintings of clean, shiny Campbell soup cans, the young, unlined, fresh-scrubbed faces of Marilyn Monroe, Jackie Onassis, Ingrid Bergman, so many others.<br/>
Then gradually I began to grasp what Andy was trying to say with all his babble about machines and sex. Where sex has turned repulsive and inhuman, machine sex beckons alluringly. Only in telephone sex, robot sex, computer sex, is there escape from ugliness and cruelty. Machine sex is the only kind left that is uncontaminated, antiseptic, clean, even a little mysterious. (...)<br/>
Yes, here is still another of the endless paradoxes Andy strews along our paths. In sex, as in art, (...) he reinvents shining, pristine, early morning purity.<br/>
His kind, of course: on the surface, no deeper. '' </p>
<h5>14 Ultra Violet, <em>Op. cit.,</em> pp. 165/166</h5>Remko Schahttp://www.mediamatic.net/id/869ddARTICLEpublication1