Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Research Collection
Doctoral Thesis
Systematische Gewinnung und Verkettung von Diphonelementenfür die Synthese deutscher Standardsprache
Author(s): Kaeslin, Hubert
Publication Date: 1985
Permanent Link: https://doi.org/10.3929/ethz-a-000332310
Rights / License: In Copyright - Non-Commercial Use Permitted
This page was generated automatically upon download from the ETH Zurich Research Collection. For moreinformation please consult the Terms of use.
ETH Library
Diss. ETH Nr. 7732
SYSTEMATISCHE GEWINNUNG UNDVERKETTUNG VON DIPHONELEMENTEN
FÜR DIE SYNTHESEDEUTSCHERSTANDARDSPRACHE
ABHANDLUNG
zur Erlangungdes Titels einesDOKTORSDER TECHNISCHENWISSENSCHAFTEN
derEIDGENÖSSISCHENTECHNISCHENHOCHSCHULE
ZÜRICH
vorgelegt vonHUBERT KAESLINdipl. El.-Ing. ETH
geborenam 14. August 1953von BeckenriedNW
angenommen auf Antrag vonProf. Dr. W. Guggenbühl, ReferentProf. Dr. A. Kündig, Korreferent
ADAG Administration & Druck AG
Zürich 1985
Dem unbekannten Erfinder des Dominospiels gewidmet,der die Idee der Sprachsynthese aus Diphonelementenum ein knappes Jahrtausend vorweg genommen hat.
DANKESWORT
Die nachfolgende Arbeit ist am Institut für Technische Physik unterder Leitung des verstorbenen Prof. Dr. E. Baumann begonnen und am In¬stitut für Elektronik unter der Leitung des Referenten Herrn Prof. Dr.W. Guggenbühl fertiggestellt worden, dem ich an dieser Stelle für sei¬ne Unterstützung und das Interesse an meiner Arbeit herzlich dankenmöchte.
Herrn Prof. Dr. A. Kündig danke ich für die Übernahme des Korreferatesund Herrn Dr. S. Horvath für die Lancierung des Projektes.
Mein tiefer Dank gilt Herrn Beat Pfister für die tatkräftige Führungder Gruppe für Sprachverarbeitung und viele nützliche Anregungen.
Für verschiedene Hilfestellungen und die Teilhabe an ihren Erfahrungenschulde ich folgenden gegenwärtigen oder ehemaligen ArbeitskollegenDank: Carlo Bernasconi, Dr. Federico Bonzanigo, Patrizio Collovä, Dr.Dacfey Dzung, Hans Forster, Josef Goette, Dr. Beat Hohmann, Karl Hu¬
ber, Martin Kammer, Dr. Walter Kraft, Dr. Peter Mathys, Massimo Milan,Bruno Schneuwly sowie Dr. Yung-Shain Wu.
Nicht vergessen möchte ich ferner alle meine Kollegen und Freunde,welche sich als Versuchspersonen für die auf die Dauer doch rechtlangweiligen Verständlichkeitsmessungen zur Verfügung gestellt haben.
Zürich, im Dezember 1984
INHALTSVERZEICHNIS
Zusammenfassung 4Abstract 5Resume 6Riassunto 7
I. EINLEITUNG
1.1 Anwendungen und Zielsetzungen der Sprachsynthese1.2 Gliederung der vorliegenden Arbeit
II. GESAMTÜBERBLICK
II 1II 1 1II 1 2II 1 3II 2II 2 1II 2 2II 2 3II 2 4II 2 5
Probleme der Transkription und Prosodiebestimmung 10
Einfuhrung 10
Exkurs über Funktion von Sprache und Schrift 11
Konsequenzen für die Sprachsynthese 12
Umwandlung phonetischer Texte in Sprachsignale 14
Problemstellung 14
Mögliche Grundelemente 14
Lauterzeugungs- und -verknüpfungsverfahren 16
Festlegung eines Verfahrens 24Definition des Diphons 25
III. DER GRUNDELEMENTKORPUS
111.1 Zielsetzung 26111.2 Wahl einer geeigneten Lautschrift 26111.2.1 Kriterien 26111.2.2 Aussprachenorm 27111.2.3 Vokalsystem 28111.2.4 Konsonantensystem 29111.3 Existenz und Häufigkeit der Lautübergänge 30111.3.1 Ansatz 30111.3.2 Auswertung eines längeren Textes 31111.3.3 Prüfung und Auswertung phonotaktischer Regeln 32111.3.4 Häufigkeitsverteilung 39111.4 Aufbau eines vollständigen Diphonkorpus 39111.4.1 Pflichtenheft 39111.4.2 Richtlinien beim Zusammenstellen des Diphonkorpus 41111.4.3 Aufbau der die Diphonelemente enthaltenden
Wortlisten 43111.4.4 Sprecher, Aufnahmeraum und -apparatur 43
IV. OBJEKTIVE VERZERRUNGSMASSE
IV.1 Bedeutung objektiver Vergleichsmethoden 44IV.2 Definition von Qualitäts- und Verzerrungsmassen 45
IV.3 Aaforderungen an Verzerrungsmasse 47IV.4 Die Versuche von Barnwell 47
IV.5 Auswahl eines Verzerrungsmasses für die
Sprachsynthese 49
IV.6 Optimierung der Analysebedingungen 50IV.7 Einfluss von Stimmgrundfrequenz und Frameposition 50
LAUTBESCHREIBUNG MITTELS ZENTROIDEN
V.l ZielsetzungV.2 ZentroidbestimmungV.3 ZentroiddarStellungV.4 Auditive UntersuchungsmethodenV.4 rH DestruktionsversucheV.4 2 KonstruktionsversucheV.5 LautbeschreibungenV.5 1 VokaleV.5 2 KonsonantenV.6 Gegenüberstellung aller LauteV.6 1 Objektiver ZentroidvergleichV.6 2 Auditiver VergleichV.7 Diskussion
57585961616262627389899193
VI. GEWINNUNG DER DIPHONELEMENTE
VI.l Problemstellung 98
VI.2 Bisherige Verfahren 99VI.3 Diphonextraktion anhand von Zentroiddaten 100
VI. 3.1 Kostenfunktion 100VI.3.2 Schnittstellenfestlegung 100
VI.3.3 Praktisches Vorgehen und Beispiele 102VI.3.4 Vollständige Sammlung extrahierter Diphonelemente 110
VI.4 Egalisierung der Stimmgrundfrequenz 110
VII. SYNTHESEPROZESS
VI1.1 Übersicht 115VII.2 Diphonisierungsschritt 116
VII.3 Verkettungsschritt 119VII.4 Resyntheseschritt 120
VIII. VERSTANDLICHKEITSMESSUNGEN
VIII.1 ZielsetzungVIII.2 MessverfahrenVIII.3 Durchführung der VersucheVIII.4 ErgebnisseVIII.4.1 VerständlichkeitVIII.4.2 Lautverwechslungen
121121123124124126
IX. SCHLUSSFOLGERUNGEN
Erreichtes Ergebnis 130Erweiterungs- und Verbesserungsmöglichkeiten 131Verbesserung der Verständlichkeit und
Natürlichkeit 131Weitere Automatisierung der Grundelementgewinnung 131Reduktion des Speicherbedarfs 132
ANHANG
Anhang A. Abbildung des IPA-Alphabets auf den
Computerzeichensatz 134
Anhang B. Glossar phonetischer und linguistischer Begriffe 136Anhang C. Zentroidparameter 141
Anhang D. Wortlisten für die Verständlichkeitsmessungen 147Anhang E. Literaturverzeichnis 150
Anhang F. Hörproben (nur in den fünf Pflichtexemplaren) 154
ZUSAMMENFASSUNG
Es wird ein elektronisches Sprachsyntheseverfahren beschrieben, wel¬ches alle Schritte zwischen der Eingabe eines phonetisch transkribier¬
ten Textes und der Ausgabe des entsprechenden akustischen Signals um-
fasst. Automatische Erzeugung von Wort- und Satzbetonung sowie die Um¬
setzung eines orthographischen Textes in phonetische Schreibweise sindnicht Gegenstand dieser Arbeit und werden nur am Rande gestreift. Das
künstliche Sprachsignal wird durch Verkettung LPC-codierter Lautüber¬
gangselemente und anschliessende Umwandlung in Signalabtastwerte mit-
hilfe eines geringfügig erweiterten LPC-Sprachproduktionsmodells er¬
zeugt (LPC: Linear Predictive Coding).
Anhand einer Kombination phonotaktischer Regeln und der Auswertung ei¬
nes längeren Textes konnten wir bestimmen, wie viele und welche Laut¬
übergänge in der deutschen Standardsprache existieren und für eine
Synthese ohne Einschränkungen des Vokabulars tatsächlich benötigt wer¬
den. Davon ausgehend ist zur Gewinnung der Lautübergangselemente eine
Sammlung natürlicher Tragerwörter zusammengestellt worden, welche von
einem professionellen Sprecher gesprochen, unter Studiobedingungenaufgezeichnet, digitalisiert und in Form von LPC-Koeffizienten codiert
worden ist.
Da die Extraktion der Grundelemente aus dem Sprachmaterial für die
Sprachqualität entscheidend ist, haben wir ein neues systematischesund computerunterstütztes Extraktionsverfahren entwickelt, welches
stark auf der Auswertung lautspezifischer Eigenschaften beruht. Dazu
war es erforderlich die Laute der deutschen Sprache aufgrund ihrer
Signaleigenschaften und speziell ihrer LPC-Koeffizienten zu charakte¬
risieren. Zum einen war es damit möglich, die getroffene Wahl des
weitverbreiteten IPA-Alphabets zur Beschreibung phonetischer Sachver¬
halte auf ihre Zweckmässigkeit hin zu überprüfen (IPA: InternationalPhonetic Association). Zum anderen konnten wir Kriterien erarbeiten,welche die Schnittstellen zu Beginn und am Ende jeden Lautübergangsfestlegen helfen, indem mithilfe objektiver Distanzmasse für jede po¬tentielle Schnittstelle hypothetische Schnittkosten berechnet werden.Deren Mimmalisierungbestimmt in der Regel die bestgeeigneten Grenzen
für ein gesuchtes Lautübergangselement innerhalb seines Trägerwortes.Mit dieser Methode haben wir sämtliche für deutsche Standardsprachebenötigten Grundelemente aus dem Sprachmaterial extrahiert und abge¬speichert, wozu ein Speicherumfang von ca. 400 kbit erforderlich ist.
Schliesslich haben wir einen Synthesealgorithmus entwickelt, welcher
aus diesen abgespeicherten Daten ein neues Sprachsignal entsprechenddem eingegebenen Text erzeugt. Dabei werden gewisse Variationen in der
zeitlichen Ausdehnung der Laute in Funktion der Interpunktion und dia¬
kritischer Zeichen berücksichtigt. Mithilfe eines subjektiven Reim¬
testverfahrens konnte nachgewiesen werden, dass das resultierende
künstliche Sprachsignal eine hohe Wortverständlichkeit von knapp 97%aufweist.
Diese Arbeit ist zur Hauptsache in Form von off line-Simulationen auf
einer Minicomputeranlage durchgeführt worden.
ABSTRACT
A method for electronic speech synthesis is described, that includesall the Steps required to convert a phonetically transcribed text into
the corresponding acoustic Signal. Automatic generation of Intonation
and automatic transformation of Orthographie texts into their phoneticrepresentation were not dealt with in this study and thus are onlybriefly touched. The synthetic speech Signal is generated in concate-
nating diphone elements described by linear predictive coding (LPC).The sequence of these diphone elements is subsequently eonverted to
speech samples using a slightiy extended LPC Synthesizer.
The determination of how many and which diphone elements are requiredto synthetically produce Standard German speech with unrestricted vo-
cabulary has been made using phonotactical rules in conjunction withthe results of the Statistical analysis of a transcribed text. Basedon these informations we compiled a collection of natural carrierwords embedding the complete set of diphones. These words were then
spoken by a professional Speaker, reeorded under studio conditions,digitized and finally coded using linear prediction.
Since the extraction of the diphone elements from spoken speech is de-cisive for the quality of the synthetic speech Signal, we have deve-
lopped a new systematic and Computer aided process, which is stronglyfounded on the characteristics of the phonemes involved. It was thusnecessary to investigate and speeifiy the Signal properties for allGerman phonemes in terms of LPC parameters. On one hand it was therebypossible to verify, that the IPA transcription is an appropriatechoiee for describing phonetic facts (IPA: International Phonetic As¬
sociation). On the other hand we were able to work out a set of crite¬ria, which help to locate the beginning and the end of a diphone ele-ment to be extracted. These criteria are based on objeetive distancemeasures and are used to evaluate hypothetical costs for every poten¬tial location of a diphone boundary. In general the minimization ofthese costs leads to the Optimum boundaries. Using this method we haveextracted all the required diphone elements from the previously men-tioned carrier words. Storing them in memory takes about 400 kbit.
We finally developped a synthesis algorithm, which generates a new
speech Signal by assembling the stored diphone elements under controlof the input text. Phoneme duration is varied aecording to punctuationand diacritic marks. It was shown in a subjeetive rhyme test, that theresulting synthetic speech Signal has a high intelligibility: Word re-
cognition experiments yielded an intelligiblity of almost 97%.
This study has mainly been carried out by off line simulations on a
minicomputer System.
-6-
RESUME
Nous decrivons une methode pour la Synthese de la parole electroniquecomprenant toutes les Operations necessaires ä convertir un texte en
transcription phonetique en un Signal acoustique correspondant. Ni laproduction automatique de l'intonation, ni la transformation d'un tex¬te orthographique en sa representation phonetique n'ont cependant eteetudiees, elles ne sont donc traitees qu'en peu de mots. Le Signal dela parole synthetique est produit en enchainant des diphones codes parprediction lineaire (LPC: Linear Predictive Coding). La suite des di¬
phones est ensuite convertie en echantillons par 1'intermediaire d'unmodele de production de la parole LPC legerement modifie.
En combinant des regles de phonotactique avec l'analyse d'un textetranscrit nous avons pu determiner le nombre et l'identite des dipho¬nes existants dans la langue allemande Standard et etant donc neces¬saires ä sa Synthese Sans restrictions du vocabulaire. En se basantsur ces informations nous avons compose une collection de mots natu-rels comprenant tous les diphones. Ces mots ont ensuite ete prononcespar un professionel, enregistres dans des conditions ideales, conver-tis en numerique et codes sous forme de coefficients LPC.
L'extraction des diphones etant decisive pour la qualite du Signal dela parole artificiel, nous avons developpe un nouveau procede systema-tique et assiste par ordinateur se basant beaucoup sur les caracteris-tiques des phonemes. Pour faire cela, il etait necessaire de caracte-riser les proprietes du Signal et surtout des coefficients LPC pourtous les phonemes de la langue allemande. D'une part il etait ainsipossible de verifier, que le choix du Systeme de transcription IPAconvenait ä la description de faits phonetiques (IPA: InternationalPhonetic Association). D'autre part nous avons pu developper des cri-teres aidant ä localiser les coupures au debut et ä la fin de chaquediphone. Des coüts hypothetiques sont calcules pour tous les endroitsde coupures possibles par 1'intermediaire de mesures de distance ob-jectives. En minimalisant ces coüts on obtient en general les meilleu-res coupures possibles pour un diphone ä l'interieur de son mot por-teur. Nous avons ensuite extraits tous les diphones necessaires ä la
Synthese de la parole allemande par cette methode. Leur memorisationrend necessaire une capacite d'environ 400 kbit.
Finalement nous avons mis au point un algorithme de Synthese, qui pro¬duit un nouveau Signal de la parole en enchainant Selon le texte d'en-tree les diphones memorises. Une duree variable est accordee aux pho¬nemes individuels en fonction de la ponctuation et des signes diacri-tiques. Moyennant des experiments de perception nous avons pu demon-trer que la parole artificielle possedait une bonne intelligibilite depresque 97% pour la reconnaissance de mots isoles.
Cette etude a surtout ete effectuee ä l'aide de simulations en tempsnon-reel sur un Systeme de mimordinateur.
-7-
RIASSUNTO
Viene descritto un metodo per la sintesi della parola che comprendetutte le operazioni necessarie, dall'entrata del testo in trascrizionefonetica fmo alla produzione del rispettivo segnale acustico. La de-terminazione automatica dell'accentuazione, cosi come la trasformazio-ne dal livello grafematico a quello fonematico non sono oggetto diquesta ricerca e vengono percio toccati solo marginalmente. II segnaledella parola sintetica viene prodotto tramite concatenazione di difonicodificati con il metodo LPC e susseguente conversione in campioni disegnale per mezzo di un modello LPC di produzione della parola lieve-mente perfezionato (LPC: Linear Predictive Coding).
Tramite una combinazione di regole fonotattiche e l'analisi di un te¬sto in trascrizione e stato possibile determinare quanti e quali difo¬ni esistono in tedesco Standard e sono necessari per una sintesi convocabolario illimitato. In seguito e stata compilata una lista di pa¬role contenente tutti 1 difoni sopra citati, la quäle e servita per1'estrazione di quest'Ultimi. Queste parole sono State pronunciate daun annunciatore professiomsta, registrate in condizioni e con mezziideali, trasformate in valori numerici e codificate sotto forma dicoefficienti LPC.
Essendo 1'estrazione dei difoni di importanza decisiva per la qualitadella parola sintetica, e stato messo a punto un procedimento sistema-tico richiedente l'impiego del calcolatore, basato principalmente sul-l'analisi delle caratteristiche dei singoli fonemi. Per questo e statonecessario caratterizzare le proprietä del segnale e sopratutto deicoefficienti LPC per tutti i fonemi della lingua tedesca. Da un partee stato possibile verificare, che la scelta del sistema di trascrizio¬ne IPA e adatta alla codificazione di eventi fonetici (IPA: Interna¬tional Phonetic Association). D'altra parte e stato possibile metterea punto dei criteri atti a localizzare i punti di collegamento all'i-nizio e alla fine di ogm difono. Costi ipotetici vengono calcolatiper tutti i punti di collegamento tramite misure oggettive di distan-za. Minimalizzando questi costi si ottengono in generale i miglioripunti di collegamento possibili per un difono all'interno della parolache lo contiene. Sono stati ricercati in seguito tutti i difoni neces¬sari per la sintesi del tedesco mediante questo sistema. La loro memo-rizzazione richiede una capacitä di circa 400 kbit.
Infine e stato messo a punto un algoritmo di sintesi che produce un
nuovo segnale della parola, concatenando, partendo dal testo, i difonimemorizzati. A secondo della punteggiatura e dei segm diacritici vie¬
ne assegnata ai singoli fonemi una durata variabile. Esperimenti per-cettivi hanno dimostrato che la parola sintetica possiede in media una
buona intelligibilitä di quasi il 97%.
Questo lavoro e stato eseguito principalmente tramite simulazioni su
un calcolatore elettronico.
KAPITEL I. EINLEITUNG
1.1 ANWENDUNGEN UND ZIELSETZUNGEN DER SPRACHSYNTHESE
In zunehmendem Masse werden heute Sprachausgabesysteme bei der Ent¬wicklung verschiedenster neuer Produkte miteinbezogen, um die Kommuni-kationsmoglichkeiten von der Maschine zum Menschen zu erweitern odereinfacher zu gestalten. Die akustische Ausgabe von Meldungen kann denMenschen entlasten, indem sie ihm erlaubt, sich mit seinen übrigenSinnen voll auf ein anderes Geschehen zu konzentrieren und bei Bedarfdennoch Meldungen unverzüglich und in direkt interpretierbarer Form
entgegenzunehmen. Dadurch eröffnen sich Möglichkeiten zur Neugestal¬tung des 'man machine interface', beipielsweise in Steuerzentralen,Flug- und Fahrzeugcockpits, herkömmlichen und neuartigen Telephondien¬sten, Mess- und Überwachungseinrichtungen, Auskunftssystemen, automa¬tischen Post- und Bankschaltern, Blindenlesegeräten, Personenbeforde-rungsanlagen usw..
Elektronische Sprachsynthese kann dabei mit zwei unterschiedlichen
Zielsetzungen betrieben werden, nämlich entweder zur
-computergesteuerten Ausgabe von Meldungen und/oder Daten in Form aku¬stischer Signale, als einfachstes Beispiel etwa in einer sprechendenUhr, oder aber zur
-Umsetzung geschriebener Texte in entsprechende Sprachsignale, wie sieerforderlich ist als Teilschritt in der Realisierung eines Vorlese¬automaten.Im zweiten Fall ist das vom Synthetisator verlangte Vokabular zwangs¬läufig unbeschränkt, da ausser der Sprache in welcher der Text abge-fasst ist und in der auch das Sprachsignal ausgegeben werden soll,kaum Einschränkungen bezüglich der synthetisierbaren Wörter hingenom¬men werden können. Im ersten Fall reicht dagegen häufig ein beschrank¬tes Vokabular aus.
Sprachausgabesysteme mit beschränktem Wortschatz können mit den heuteerhältlichen Geräten und Bausteinen befriedigend realisiert werden.Das Vorgehen ist dabei folgendes: Jede mögliche Meldung, welche dasAusgabegerät von sich geben soll, wird als Abfolge von Sätzen, Wörternoder auch Wortteilen zusammengestellt. Die Gesamtheit dieser Sprach¬segmente wird gesprochen, aufgezeichnet, in eine speichereffizienteDarstellung gebracht und in Magnet- oder Halbleiterspeichern innerhalbdes Ausgabegeräts untergebracht. Erhält dieses die Aufforderung, einebestimmte Meldung abzugeben, ruft es die Segmente in der für die vor¬
liegende Nachricht festgelegten Reihenfolge aus dem Speicher ab undführt sie dem Synthetisator zu, welcher sie in entsprechende Signalab¬schnitte zurückverwandelt und nacheinander hörbar macht. Solche bis¬weilen auch als 'canned speech' bezeichnete (Re-)Syntheseverfahren,sind zwar universell für alle Sprachen einsetzbar, andererseits man¬
gelt es ihnen aber an Flexibilität, da jede Änderung oder Erweiterungdes Wortschatzes eine Wiederholung des Analyseschrittes notwendigmacht. Mit zunehmendem Vokabular wächst auch der Speicherbedarf linearan, sodass bei grösseren Meldungsvorräten oder hohen Flexibilitäts-
1_
11
EC
c
l
*jC
..m
¦ac
iUt
ir-A
uiC
r-Ai
1Ul
uiC
c1
iUl
r-HOl£
Ul
0)OJ
0)u
•rACD
cro
co
CP3
_Ol
SZOJ
Olin
roOl
3Ol
Olt3
rorH
¦rHAJ
Oun
cc
x:01
0)+J
01TI
3•H
OlN
CDOl
uiO
SZUJ
OlUJ
x;ro
uj
•ÖUl
TJ¦rl
OJ_t
ro•rH
•H
uu
XI_:X
XI_>
tnUJc
•rlro
u•H
XIo
uUI
roOl
i~>(V
__
.•H
^3
CPC
CDCD
Croc
Co
Q,rla
ui2
UlC
Hui
T3c
3_.
•ha.
x;•rH
tro•H
•rlOJ
3u
Oltu:
roro
0)Ol
rH
Ol0)
Ol
0TJ
uio
inu
_N
TSIh
Ul3c
roCP
roa
_:rH
UJ
!_>
OJui
CPUJ
TJTJ
>l/l
uja
_>QJ
Cx:
x;o
roUl
roü
rl0)
UJSZ
UJC
Uic
ucp
•ri4J
«0C
"0u
uTl
o>a
Qc
UJC
Ol.
•rl3
O•rl
Ol-ui
UJ
N
l
cE
roin
_l
in
mC
uw
c/l¦a
cOl
rl3
cCP
Ul3
XI3
XIUJE
Ul¦P
uro
in
cTl
CDtn
tuCD
3CL
cOJ
OlUJa
j:rH
•rl•rH
CP¦H
ro•¦H
_
clcp
CX)
XJtn
c3
TJui
XIro
cUJC
OlUl
roUl
Olx:
^e
(drH
in3
ctD
CDo
Uic
N0)
_:m
•H
CD•rl
UiC
•rlx:
3O
30J
a_lC
o•a
CDCP
•r)>ü
a;u>
•rlOJ
OlC
SZOl
cuiC
Ulin
CP-
0)•H
roo>
c>
UtUi
T3CP
t3Ul
¦aC
O.
UJ
SZc
OlOl
4-»c
tnN
ro:D
-H
Cc
cUJ
Ol•a
SZUl
Nu
OlX)
>Ul
3•H
01c
-3u
_|
3c
_»
4H
OlOl
ow
Eui
UJc
O.TJ
OlUJ
•H
o0
_i
QJ(U
CLai
•rl01
Or-A
CDSZ
U»
un
Ul_t
rH
rl3
eXI
3Ol
Uiui
aui
_:3
tn
AA
¦ain
T30J
_:Tl
Vtn
0)rH
ECD
3UJC
NUl
CLX
<uo
_ro
x:CD
OJC
•rltp
BUJ
OlUl
ui
UJ
3CD
Ui0)
UiOl
c.Ä
(0Ol
Qi->u
u_>
cut
t3Ol
•r|¦H
CUJ
UJ
Ol3
UlOJ
Mro
X!Ol
UJ
iOEh
d)U|
UlJ3
uin
SxOJ
HCD
UliH
UJ
3r-A
Ulr-A
NOl
UJ
•oOl
_1>
SZX
*->DJ
Q,U
roc
x:•H
X!oaTi
CDCP
CPSZ
CDUl
OlOl
rH
•HrH
cx:
Ulu
gE
N>
in•H
aiu
CPO
mro
IhCP
-Ui
uui
OJ¦a
CPo
UJx;
Olu
Uiui
3•H
ui
•rHOl
C•a
rH3
Oi<ro
__:
CDc
XIOJ
•rt3
UJ_
UlUl
Ul3
tro3
inOl
UlUJ
Ul•rl
OJ_
_£
XI•H
c¦a
x;3
Ol>
3ro
3ro
roUJ
ui
_;N
_•H
TSOl
roOl
Eo
XIUl
ajro
uro
T3a
cu
c•jax:
TJC
inUl
<DOl
CPUJ
UlCO
otn
13T3
tn
_;C
N_
c3
0J4H
OJin
Uls
aio
Ol•r|
Cp>
O_
Ul0)
0)o
UiOJ
co
ClCD
roAA
roi-i
CDOl
co
XIX
UJ
¦aUH
CDu)
UJ
tnui
C__3
_»
ro>ro>
s_•
14HtH
¦_
CDin
>TJ
CDu
inui
Ul3
UJO
UlH
•rlOl
-uic
cH
Ul
_i
_>
CPD
_5CP
_>3a
x;Ul
3CP
UJ
OJro
SZ•rl
roCD
rJin
0)0)
_
_>s
tnE
o•rH
roro
cUl
_¦N
roAA
0)u
¦oSZ
ErH
•rAin
utna
_.
CDin
SZOl
E-»u
CD_
tu_i
aTl
•rl_:
_:C
in
cV
SZo
CDtn
cN
szUI
•rltn
Vui
Ult.
.ClA
OJUJ
NOJ
_N
Er-A
CD•H
ui3
CDUJ
un
_!•rl
OJUi
SZc
uro
TIro
•H
o_.
uai
Tl__
_in
CDC
EU|
roOJ
CD3
inrl
Ulx:
CIH
0)a,
CDrlQ
ü0)
0)_.
QQ•H£
O_a
UJ>
CDCD
•H
_>n
OJCD
u,_1
uXI
•rHCO
XI-H
CDTlN
TJ
.
inu
«0<w
CDC
<DIh
UlUl
o4H
¦dXI
rH
0•rl
Ol0)
U|U
T!Ih
C_
i/ju
ro_¦
_¦
inCP
0)Ol
CDOl
UOl
Cpin
•-ACP
._
Ero
tnC
cro
roUl
roc
ui
+J
szTI
•rlc
tDXI
C-_
AA
•H
c•a
Uiin
+J
rH
rH
•aUl
x:OJ
tn
rlro
0)XI
rox:
0)z
tn3
SZu
a.>._:
<CD
cro
>•rl
Ol•H
•r|ro
roC
_]u
tn
in
Ul+J
X2Q,
cp
Ol_.
wtn
aiU
tn
IHro
tnt-l
TlCD
EOl
¦aUJa
Oltro
•rlat
0OJ
UlOl
so
XJx:
Qro
tiin
CDQ)
_:_:
C_
Ul5
x:in
XIro
roUl
ui
OJr-A
Eui
Oi0)
EHin
SB_l
_>
_3T)
u>i
PCD
CDu
roin
E!_
0)tn
Ul•H
CPTIO
3Ol
OlX
cOl
«w
_1ai
m3
Ctu
roC/J
N3
roQ
CDin
CPCD
x;cd
Ul¦o
¦0c>
CPCD
OlOl
TJIh
OX,
<nai
34H
IhCD
Ulx:
tnc
UJc
UJc
aiE
cC
uUJc
CPro
<Dw
ai•O
CP•H
D,c
C_>C
Q.u
ro3
tn
ch>
ctn
•rl•H
Olc
OlSZ
•H
cu
>1—1
uj
x:x:
*->„
01l/l
CDai
Oi0
t/i4J
£XI
>.>.
oiOJ
CP01
rlOJ
TJu
0)3
OlOJ
_1
_j
uj
u•rA
D.
Cin
¦r|_:
inOl
tn
•oin
TlC
OlT!
TI0)
•rliH
CPin
(_oi
co
eC
N_
tutn
A->a
•H
3tn
0)Ul
cUl
3•H
ui
•H
_.
0)dt
o__i
Ctu
¦oroa
•rlOl
0)M
Ol•rA
OlOl
OlUi
TJU
Ih3
_l
UJE
_.
>ui
in
•rHX!
tuE
uQ
Tlc
inSZ
¦a3
Ol-M
ui3
Oltro
13CL
CP3
3j-j
<¦M3
0)U
•H
Ih•H
COl
mOl
Uc
szro
UlUJ
UJ
SZCP
_l
ciro
NC.
(_u
01Ol
•atn
x:CD
mC
OlTI
0)•H
in
OlC
UUJ
SZSZ
•rlUi
AIc
OIUI
ro><
tu_
incO
c¦rA
Om
j«;a>
cUl
tnQ
Ol3
Ol•rl
r-A13
uOl
01c
rooi
_x;
UlCD
Ul
Q01
Nsz
0)_»
tn
tnu
4J
OlO
tn
CQJSUl
r-A3
UH
•rl3
UJ
0)XI
-ICP
13sw
XITJ
rou
tn
ro_
¦rlO
CP•H
3ro
x:uim
CD_
3CQ
co
OC
0)•rl
_c
tnE
OJ3
IhTJ
Eui
¦Ulro
cai
CPUl
I_ad
m<
roc
Uc.
saOJ
UJ
01_
.Ol
o>
CDCD
_>4HN
XIC
3tut
aio.
SZUl
rH
SZ0)
UlOl
CLm
•a
o>C
CnN
NrH
•H
_>
CPX!
to0)
C3
Olro
UlCP
UOl
TJUl
OiTI
UH
c•rl
CP_
_.
TJ(_
OJ.
•rHOl
roP
cUi
cro
ro>
01¦H
Ul-H
COl
cc
co:Q
ro•rl
iOc
cu
rH
3_j
XIc
Cro
IH•o
N0)
CDx;
4H
•H
¦Ul>
Ol0)
3r-l
3ro
33
TJX
Dr.
Q_
_Cr
U_
C_»
XICP
uin
Uiui3
inrl
TJSZ
SZ_l
Ulc
1_(/)
_]M
r-t•ro
0)~H
intu
T)3
ro«d
•rACD
roro
cIh
TIU
<c
Olc
[_3
OJ0)
0>KH
OCD
_:_:
Uin
CE
x;OJ
UlCDQ
+J
Ulo
0)CD
UlUl
<_l
r-A•rl
ro3
c"0
_4
_J>
Cua
¦Cro
0)Ul
u•H
EHN
C•rJ,
ro•rl
TJx;
OiCP
_lOl
CPc
UJ
¦r|L.
OJo
Om
rou
4J
CDin
TlOJ
tnCD
A-l¦o
ulu
Cc
•rlUl
C•rl
oOl
O4--
SZx:
_i
roXI
x;XI
CPOl
t-l_
MTJ
Ul
roc
3ro
eUl
rH
¦oro
x:d
_i
_.
OJ
OJCL
u3
M_
tn
ou
•-Iu
CDtn
_lC
Cro
tnro
Uiin
Ui3
Uix;
oCP
CLc
szUt
Gffl
¦_H
_h
<Utu
Qjro
Ui•_
roO
•H
3•H
CD3
roIh
hroa
Olai
c•rl
oiro
•rlc
Ol3
3
.
.Cr-A
rH
TI>
17}Q
a*m
x:3
3ro
roOl
Eerq
UJ3
»H
inc
UJ<
_CO
!_tn
«ca
Nro
-10-
KAPITEL II. GESAMTÜBERBLICK»*_**,_**«***_**_***»„*,
II. 1 PROBLEME DER TRANSKRIPTION UND PROSODIEBESTIMMUNG
II. 1.1 EINFUHRUNG
Die Umwandlung eines orthographischen Textes in seine phonetischeSchreibweise wird Transkription genannt, die davon ausgehende Erzeu¬gung eines hörbaren Sprachsignals bildet den eigentlichen Synthese¬schritt. Automatische Transkription und Betonungssteuerung sind nichtGegenstand dieser Arbeit, in den folgenden Kapiteln werden wir dennauch von einer phonetischen Umschrift der zu synthetisierenden Texteausgehen, in welcher die Lautabfolge zweifelsfrei festgelegt ist. Einekurze Betrachtung der sich dabei ergebenden Schwierigkeiten verhilftjedoch zu einer besseren Einsicht in die Problematik elektronischerSprachsynthese ganz allgemein und macht einige Anforderungen deutlich,welche an den eigentlichen Synthesevorgang gestellt werden müssen. Inder deutschen Sprache gehen die meisten Buchstaben je nach Umfeld in
verschiedene Laute über, wie das folgende Beispiel anhand von "e"zeigt:
orthographisch:phonetisch :
"fehlen"[FE;L6N]
"feil"[F3L]
"löffel"[L8F6L] oder [L8FL]
(zur phonetischen Umschrift allgemein siehe III.2.1, zur verwendetenNotation siehe Anhang A.) Dieser Sachverhalt kompliziert sich aller¬dings dadurch, dass als bestimmendes Umfeld nicht nur benachbarteBuchstaben, sondern auch die Bedeutung des einzelnen Wortes und seineFunktion in der ganzen Satzkonstruktion wirken. Dies zeigen eindrück¬lich Homonyme wie:
orthographisehsemantisch
phonetischWachtlokal[VAX5TU;B6]
"Wachstube"Tube mit Wachs[VAKSTU,-B6]
Und umgekehrt Homophone wie:
orthographischsemantisch
phonetisch
"leihen"etwas ausborgen
[LA16N]
"laien"Nichtfachleute
Die Abbildung zwischen orthographischem und phonetischem Text ist alsowortweise weder in der einen noch in der anderen Richtung eindeutig.Eine fehlerfreie Transskription kann ohne Kenntnis semantischer undsyntaktischer Zusammenhänge nicht durchgeführt werden.
Anhand des einfachen Beispielsatzes "er hat es doch getan." wird eineweitere Schwierigkeit bei der Synthese beliebiger Texte sichtbar: Le¬diglich aufgrund des orthographischen aber auch des phonetischen Tex¬tes ist es selbst dem Menschen nicht möglich sich auf eine Aussprache
-11-
emdeutig festzulegen. Bei gleichbleibender Lautfolge hängt die Aussa¬ge von der Betonung ab und umgekehrt, wobei in diesem konkreten Fallmindestens vier verschiedene Bedeutungen und Betonungsmuster zur Aus¬wahl stehen:
"er hat es doch getan." Nicht etwa seine Frau,"er hat es doch getan." Trotz unseres ausdrücklichen Verbotes!"er hat es doch getan." Die Handlung ist bereits vollbracht,"er hat es doch getan." Was wollen Sie eigentlich mehr?
Als Träger der Betonung wirken-die Lautstärke,-die Stimmgrundfrequenz,-die Sprechgeschwindigkeit und zeitliche Gliederung.
Da diese Parameter unabhängig von den im einzelnen vorliegenden Lautenvariiert werden können, bezeichnet man sie als suprasegmental oderprosodisch. Ihre zeitlichen Verläufe reflektieren wiederum Zusammen¬hänge, die die Bedeutung betreffen, als auch solche, die vom Satzauf¬bau abhangig sind. Für die Erzeugung von Sprachsignalen mit sinnbe-stimmter und natürlich klingender Betonung ist die Kenntnis dieser Zu¬sammenhänge innerhalb der zu synthetisierenden Satze eigentliche Vor¬
aussetzung. Weder der semantische Inhalt einer Aussage noch die syn¬taktische Funktion der einzelnen Satzteile und Wörter liegen indessenin einem Text explizit vor.
II.1.2 EXKURS ÜBER FUNKTION VON SPRACHE UND SCHRIFT
Die Möglichkeit sprachlich miteinander zu kommunizieren haben die Men¬schen zum Zwecke des Austausches von Gedanken untereinander entwik-kelt. Deshalb werden nur die für den Empfänger jeweils neuen Informa¬tionen übertragen, die Fähigkeit zur Analyse des Satzbaus und dieKenntnis des Zusammenhangs, in welchem die übertragene Mitteilungsteht, werden beim Empfänger stillschweigend vorausgesetzt und nichtin die Nachricht selbst miteinbezogen. Die Bedeutungen der einzelnenWorter und die Konstruktionsregeln der Sprache sind zudem im Gegensatzzu formalen Sprachen nicht ein- für allemal eindeutig und verbindlichdefiniert worden, sondern im Prinzip willkürliche Konventionen, welcheaber von allen Mitgliedern einer Sprachgemeinschaft im Laufe ihrerSprachentwicklung erworben worden sind. Sprache und Schrift dienenbeide lediglich als Vehikel für die zu übermittelnden Vorstellungen,sind also nur gewissermassen an die Oberfläche gebrachte Darstellungenfür eine gemeinsame, tieferliegende und vollständige, das heisst alleZusammenhänge enthaltende, und damit eindeutige Formulierung.
Der Informationsverlust bei der Abbildung von der Tiefenstruktur aufdie einzelnen Oberflächenstrukturen kann mit der Projektion einesräumlichen Körpers auf verschiedene Ebenen verglichen werden. Jededieser Oberflachenstrukturen enthält zwar eine genügend genaue Be¬schreibung der ihr zugrundeliegenden Tiefenstruktur, um eine im allge¬meinen befriedigend zuverlässige Kommunikation zwischen Menschen zu
ermöglichen, gewahrleistet aber keinen eindeutigen automatisch durch¬fuhrbaren Übergang zu einer anderen Oberflachenstruktur. Gerade die
-12-
Umsetzung von Texten in Sprachsignale bildet jedoch einen derartigenÜbergang. Unter Ausnutzung dieses Abbildungsverlustes kann bisweilenselbst dem menschlichen Empfänger ein 'X' für ein 'U' vorgemacht wer¬den, wovon bereits im Altertum die Orakelpriester ausgiebig Gebrauchgemacht haben.
•Ol<^
Fig.2.1 Geometrische AnalogievorstellungOberflächenstrukturen der Sprache
zu Tiefen- und
II.1.3 KONSEQUENZEN FÜR DIE SPRACHSYNTHESE
Für computergesteuerte Ausgabe von Meldungen ist es daher zweckmässi¬ger, diese nicht erst in Form orthographischer Texte zu erzeugen undanschliessend in ein Sprachsignal umzuwandeln, sondern sie gleich inForm einer vollständigen Beschreibung einzugeben, welche alle für Be¬tonung und Transkription notwendigen inhaltlichen und den Satzaufbaubetreffenden Angaben zu liefern vermag. In der englischsprachigen Li¬teratur wird eine solche Beschreibung als 'conceptual input' bezeich¬net [68}. So können beispielsweise im Rahmen eines Lagerauskunftsy¬stems einige wenige Standardsatzstrukturen festgelegt werden, inner¬halb derer lediglich einige Begriffe, wie Gegenstand, Bestellnummer,Datum, Stückzahl, Lieferfrist etc. ausgetauscht werden müssen.
-13-
1Transkription undProsodiebestimmungmittels Ersatzstrategien
vorbereiteteMeldung
Transkription
Lautfolge
orthographischer Text
syntaktische undsemantischeAnalyse
vollstaendigeAussagebeschreibung
Prosodiebestimmungmittels Regeln
Betonungsinformation
eigentliche Synthese
\ t akustisches Sprachsignal
Fig.2.2 GesamtuberSicht des Sprachsyntheseprozesses
Für die künstliche Aussprache ausschliesslich in orthographischer Form
vorliegender Texte stehen immer noch zwei Wege offen (cf. Fig.2.2),nämlich entweder-die fehlenden syntaktischen und semantischen Informationen durch Ana¬
lyse der Satzstruktur ind soweit überhaupt möglich der Bedeutung zu
rekonstruieren, also gewissermassen zur Tiefenstruktur zurückfinden,oder aber-mittels der Anwendung von Ersatzstrategien, die beispielsweise die
Interpunktion oder die Worthäufigkeiten ausnützen, den direkten Über¬
gang von einer Oberflächenstruktur auf die andere zu versuchen.Die erste Methode entspricht dem menschlichen Vorgehen und versprichteine naturlicher klingende Sprache, bedingt aber eine tiefe Einsichtin die Mechanismen des Sprechens und in grammatikalische Zusammenhan¬ge, und verlangt, dass dem Sprechautomaten eine Fülle daraus abgelei¬teter Regeln zur Verfügung stehen. Eindeutig als naturgemäss fehlerbe¬haftete Ersatzstrategie muss das Transkriptionsverfahren bezeichnetwerden, welches auf einen Vorschlag von Kästner zurückgeht {28} undvon Gut und Rentsch {29} auf unserer Computeranlage implementiert wor¬
den ist. Immerhin werden damit ca. 95% der Wörter eines zusammenhan¬
genden deutschen Textes richtig transkribiert.
-14-
II.2 UMWANDLUNG PHONETISCHER TEXTE IN SPRACHSIGNALE
II.2.1 PROBLEMSTELLUNG
Halten wir uns einen Text und das zugehörige Sprachsignal vor Augen,so erkennen wir die unterschiedlichen Naturen dieser beiden Vehikelfür sprachliche Kommunikation. Hier liegt eine Kette genau gegeneinan¬der abgegrenzter Symbole aus einem endlichen Vorrat vor, dort ein kon¬tinuierliches, sich stetig enwickelndes und daher kaum unterteilbaresZeitsignal, das unendlich viele verschiedene Verläufe annehmen kann.Das akustische Sprachsignal steht damit in scharfem Gegensatz zur
Schrift, als dem ältesten und gebräuchlichsten Mittel seiner Darstel¬lung und Speicherung. An dieser Situation ändert sich auch dannnichts, wenn, was wir im folgenden annehmen wollen, der Text in seiner
phonetischen Form vorliegt. Dennoch steht fest, dass einzelne Aus¬schnitte des Signals durch die Aussprache bestimmter Satzteile, Wör¬ter, Sprechpausen oder Laute hervorgebracht und in ihrem Verlauf be¬stimmt werden.
Das Problem besteht also darin, Segmente innerhalb des Sprach¬signals zu finden, deren Eigenschaften einerseits von einem mög¬lichst exakt eingrenzbaren Ausschnitt innerhalb der Symbolketteabhängig sind, und aus denen andererseits jede verlangte Nach¬richt ökonomisch zusammengestellt werden kann.
Diese beiden Forderungen sind widerspruchlich. Die Entscheidung füreine bestimmte Art solcher Bausteine stellt in jedem Fall einen Kom-promiss dar. Sie hängt insbesondere davon ab, ob ein unbeschränktesVokabular angestrebt wird oder nicht.
II. 2. 2 MÖGLICHE GRUNDELEMENTE
Als zum Aufbau zusammenhängender Sätze geeignete Bausteine sind dienachstehend aufgezählten Grundelemente denkbar, deren für die Sprach¬synthese massgebenden Eigenschaften im folgenden naher erläutert wer¬
den:
-Satze oder Satzteile-Einzelwörter-Wortfragmente wie Silben oder Teilwörter (z.B. 'Bahn-hof')-Halbsilben-Lautübergänge, sogenannte Diphone-Einzellaute (das entsprechende Verfahren wird im Englischen häufigetwas irreführend als 'phoneme synthesis' bezeichnet)
II.2.2.1 EinzellauteWegen der geringen Anzahl notwendiger Elemente erscheinen Einzellautezunächst besonders interessant. Für die deutsche Sprache können ca. 34Laute unterschieden werden, für die französische ca. 36, wobei die ge¬naue Zahl vom Grad der Differenzierung zwischen den einzelnen Lautenabhängt. Es hat sich aber leider herausgestellt, dass es enorme
-15-
Schwierigkeiten bereitet, die Übergänge zwischen den Einzellauten der¬art vorzunehmen, dass dabei ein eimgermassenverständliches und na¬
türlich klingendes Sprachsignal entsteht. Die Koartikulation genanntewechselseitige Beeinflussung benachbarter Laute ist einfach zu gross,als dass ein Sprachsignal als simple Abfolge von Lautelementen ver¬
standen werden könnte, wie man dies vielleicht aufgrund der Laut¬schrift gerne glauben möchte.
II .2.2.2 LautubergängeDiesem Umstand kann unter anderem mit der Verwendung von Lautubergan-gen als Grundelemente Rechnung getragen werden. Ein solcher auch Di-
phon genannter Ausschnitt reicht von der mehr oder weniger stationärenZone in der Mitte eines Lautes bis zur Mitte des darauffolgenden Lau¬tes und umschliesst namentlich die ganze dazwischenliegende Übergang¬sphase. Die Verwendung von Diphonen ist bereits 1956 von Küpfmüllerund Wams nach einem enttäuschend ausgefallenen Versuch mit Einzellau¬ten vorgeschlagen worden {50}, konnte jedoch damals infolge apparati¬ver Probleme nicht erfolgreich in die Praxis umgesetzt werden. Vergli¬chen mit Einzellauten wird allerdings eine wesentlich grössere Anzahldavon benötigt. Auf die Bestimmung ihrer genauen Zahl und den Aufbaueiner vollständigen Diphonsammlung werden wir noch zurückkommen.0_0
11.2.2.3 Satze, Worter und WortfragmenteDas Bestreben, bei der Verkettung der Grundelemente mit möglichst we¬
nigen und zugleich unkritischen Nahtstellen auszukommen, führt zwangs¬läufig zu grösseren Lautverbanden. Sätze und Satzteile können derartgewählt und gegeneinander abgegrenzt werden, dass die gegenseitige Be¬
einflussung hinreichend klein bleibt. Aber bereits zwischen einzelnenWörtern und erst recht zwischen Silben oder Teilwortern sind am
Sprachsignal im allgemeinen keine offensichtlichen Grenzstellen fest¬stellbar .
11.2.2.4 HalbsilbenDaher entstand die Idee, dass wenn schon Schnittstellen künstlich ein¬geführt werden müssen, diese an der unkritischsten Stelle anzubringenseien. Jede Silbe besitzt definitionsgemäss genau einen Vokal oder
Diphtong (im Deutschen "au", "ei", "eu"="äu"). Halbsilben entstehennun durch Aufspaltung der Silbe in der quasistationären Phase diesesVokals (z.B. 'Schla-af'). Aufgrund von Lautverbindungseigenschaftenist die Anzahl möglicher Halbsilben einschrankbar. Dettweiler {11}gibt die Anzahl zur Synthese deutscher Sprache benötigter Halbsilbenmit ungefähr 1400 an, wobei er allerdings gewisse Halbsilben noch wei¬
ter unterteilt hat.
Allgemein bedeutet die Wahl der Grundelemente einen Kompromiss zwi¬schen grossem Speicheraufwand und einfacher Verkettungsmöglichkeit ei¬nerseits und komplexen Verkettungsalgorithmen respektive Qualitätsein¬schränkungen bei kleinem Speicheraufwand andererseits. Nicht nur dieAnzahl, auch der Speicherbedarf pro Element steigt nämlich mit derGrundelementgrösse an!
-16-
II.2.3 LAUTERZEUGUNGS- UND -VERKNÜPFUNGSVERFAHREN
Bisher haben wir lediglich die wichtigsten Bausteine aufgezählt uns
aber noch keine Gedanken darüber gemacht, welche Signaleigenschaftendiese Grundelemente überhaupt beschreiben sollen und wie daraus einneues Sprachsignal erzeugt werden kann. Dies ist nicht bloss eine Fra¬
ge der Speichereffizienz und des Schaltungsaufwandes. Die Art und Wei¬se wie Laute erzeugt und miteinander zu Wortern und Sätzen verknüpftwerden bestimmt ganz entscheidend, wie naturgetreu die synthetischeStimme im besten Fall überhaupt klingen kann. Die wichtigsten Möglich¬keiten, welche von der blossen Wiedergabe von Signalabschnitten biszur Simulation der Artikulationsbewegungen beim menschlichen Sprecherreichen, sollen nun etwas näher beleuchtet werden:
Darstellung der Grundelemente-direkt als Signalabschnitte mittels Kurvenformcodierung-als Folgen von Steuerparametersätzen für einen Kanalsynthetisator-als Folgen von Steuerparametersätzen für einen Formantsynthetisator-als Folgen von LPC-Parametersätzen, das heisst von Steuergrössen fürdas Sprachproduktionsmodell nach dem Verfahren der Linearen Pradik-tion
-als Regeln für die Steuerung eines Sprachproduktionsmodells, Synthesenach Regeln-als Steuergrössen für ein Artikulatorisches Modell
Zunächst kommen all diejenigen Verfahren in Frage, welche auch zur di¬gitalen Übertragung von Sprachsignalen eingesetzt werden, denn dortsoll schliesslich Sprache bei geringsten Verzerrungen mit der kleinst-moglichen Datenrate codiert werden.
II.2.3.1 KurvenformcodierungDie direkte Darstellung von Signalabschnitten in digitaler Form (PCM)ist mit 64 kbit/s sehr speicherintensiv. Mithilfe raffinierterer Kur-venformcodierungsverfahren kann diesem Nachteil bis zu einem gewissenGrad begegnet und die Datenrate bis etwa 16 kbit/s vermindert werden.Es gibt darunter sogar Methoden, welche eine beträchtlich höhere Re¬dundanzreduktion erreichen, indem sie auf die spezifischen Eigenschaf¬ten des Sprachsignals und des Gehörsinnes eingehen und dennoch eineeinfache Synthese im Zeitbereich ermöglichen, wie etwa die Mozer-Co-
dierung {12} (eine eingehende Diskussion von Kurvenformcodierungsver-fahren findet sich bei Jayant und Noll {77}).
Zwei weit bedeutendere Probleme bleiben jedoch bestehen: Für mit¬tels Kurvenformcodierung abgespeicherte Grundelemente lässt sich kein
Verkettungsverfahren finden, welches einen kontinuierlichen Übergangderart vornimmt, dass er dem entsprechenden natürlichen Übergang nahe¬kommt . Kurvenformcodierung eignet sich daher nicht zur Sprachsynthesein Verbindung mit Einzellautelementen. Weiter kann von einem einmal
abgespeicherten Grundelement allenfalls noch die Lautstärke wahrendder Synthese beeinflusst werden. Sprechmelodie und Sprechgeschwindig-keitsverlauf, welche für die Betonung noch wichtiger sind, können da¬
gegen nicht mehr verändert werden.
Die nachstehend beschriebenen Verfahren weisen diese Nachteile nicht
auf, denn sie speichern nicht das Signal selbst ab, sondern bilden in
-17-
mehr oder weniger abstrakter Form die Lauterzeugung beim Menschennach. Daher wollen wir sie unter dem Begriff 'Modellierungsverfahren'zusammenfassen. Sie ermöglichen überdies eine effiziente Speicherungder Grundelemente durch Redundanzreduktion auf Datenraten von circa 1bis 5 kbit/s.
II.2.3.2 LPC-SynthetisatorDas der Methode der linearen Prädiktion (Linear Predictive Coding) zu¬
grundeliegende Sprachproduktionsmodell Fig.2.3 entspricht weitgehenddem menschlichen Sprechapparat Fig.2.4 .
Grundperiode VerstaerkungAnregungperiodisch/aperiodisch
Impuls¬generator
Rausch¬generator
Reflexions¬koeffizienten
ff .ffvariables
DigitalfilterM(z)
Sprach¬signal
s' (m)
Fig.2.3 Das LPC-Sprachproduktionsmodell
In diesem Analogiemodell steht der Impulsgenerator für die vibrieren¬den Stimmlippen (in der Umgangssprache meist ungenau als Stimmbänderbezeichnet) bei Lauten mit periodischem Signal, der Rauschgeneratorfür die wahrend aperiodischer Passagen je nach Laut an unterschiedli¬chen Orten (z.B. zwischen den Stimmlippen oder zwischen Zunge und Zäh¬nen) entstehende turbulente, ein zischendes Geräusch verursachendeLuftströmung. Die beiden Generatoren werden alternativ betrieben undliefern Signale gleicher Leistung mit einer flachen frequenzunabhängi¬gen Spektrumsenveloppe. Die Klangformung, welche beim Menschen vom Vo¬kaltrakt bestehend aus Hals, Mund- und Nasenraum, Zunge und Mundöff¬nung vorgenommen wird, bildet ein zeltvariables Digitalfllter nach.Schliesslich erlaubt ein Multiplikator die Steuerung der Amplitude unddamit der Lautstärke.
Zur Analyse des Sprachsignals wird dieses in Zeitabschnitte festerLange, sog. Frames, unterteilt und für jeden davon ein Satz von
-18-
_>
a
Nasenhoehle
Mundhoehle
Stimmlippen
Fig.2.4 Der menschliche Sprechapparat
Steuerparametern bestimmt. Deren Verläufe in Funktion der Zeit werdenanschliessend stellvertretend für das Signal gespeichert (Sprachausga¬be) resp. übertragen (Vocoder).
Wie können nun aus einem gegebenen Sprachsignal diejenigen Para¬meter bestimmt werden, die ein äquivalentes künstliches Signalerzeugen?
Dazu macht man einen Ansatz mit einem Transversalfilter p(z) der Ord¬nung p welches als Prädiktor wirkt und aus den p zurückliegenden Ab¬tastwerten des Signals s(m-p), s(m-p+l), ..., s(m-l) eine Schätzungs(m) für den nächsten Abtastwert s(m) bildet, (cf. Fig.2.5):
I(m) = £ a s(m-k)k=l k
(2.1)
Liegt dieser Abtastwert vor, kann der Pradiktionsfehler e(m) alsferenz zum Schätzwert berechnet werden:
Dif-
e(m) = s(m) - s(m) (2.2)
Das Ziel der Methode besteht nun darin, die Filterkoeffizienten aK desPrädiktors so zu wählen, dass die Summe E der quadrierten Pradiktions¬fehler, welche als Fehlerenergie bezeichnet wird, über einen endlichen
-19-
O Signal s (m) ^
D praediziertes Signal s' (m)
\? \r
Zeit m
Praediktionsfiltermit p=6
Fig.2.5 Signal, pradiziertes Signal und Prädiktionsfehler
Signalabschnitt, innerhalb dessen die Signaleigenschaften als konstantangenommen werden können, minimal wird:
Im
(m) = Yj ( s(m) - s(m) ) = minimal (2.3)
Dieses Problem kann mithilfe partieller Ableitung auf die Lösung eineslinearen Gleichungssystems zurückgeführt werden. Unter Ausnutzung spe¬zifischer Eigenschaften der zugehörigen p x p Koeffizientenmatrix,welche immer symmetrisch und im Falle der sog. Autokorrelationsmethodezusätzlich Toplitz ist, konnten effiziente Matrixinversionsalgorithmendafür entwickelt werden. Für die weiteren Einzelheiten dieser Berech¬nung sei auf die Literatur verwiesen {14...16}, und hier nur das Re¬sultat genauer erläutert. Wird die Übertragungsfunktion des Synthese¬filters M(z) invers zu derjenigen der Analyseapparatur gemacht,
M(z)1 - P(z)
(2.4)
so kann gezeigt werden, dass die Minimalisierung von (2.3) im Zeitbe¬reich, im Frequenzbereich äquivalent ist mit der Minimalisierung derAbweichungen zwischen dem Betragsspektrum des natürlichen Sprachsig¬nals und dem Modellspektrum, wobei letzteres infolge der beschränktenFilterordnung eine geglättete Näherung für das erstere darstellt. Li-
-20-
neare Prädiktion ist daher ein Verfahren zur spektralen Estimation, imvorliegenden Fall durch ein Allpolfilter. Fig.2.6 zeigt Signal- undModellspektrum berechnet aus dem zweiten Viertel des in Fig.2.7 abge¬bildeten Zeitsignals.
ti"? 5
1.00.0 0.5 2.0 2.5 3.0 3.5 4.0
[KHZ]
Fig.2.6 SignalSpektrum O und Modellübertragungsfunktion A
Nachdem die spektrale Enveloppe des Signals bestimmt ist, muss ledig¬lich noch Art und Amplitude des AnregungsSignals festgelegt werden.Dies geschieht indem die Autokorrelationsfunktion des Fehlersignalsberechnet und daraufhin untersucht wird, ob eine Periodizität im Be¬reich der menschlichen Stimmgrundfrequenzen (50 bis 400 Hz) vorliegt,andernfalls wird der vorliegende Signalabschnitt als aperiodisch er¬kannt. Dieser Schritt der Analyse wird als Pitchdetektion bezeichnet.Zugleich liefert der Wert der Autokorrelationsfunktion an der StelleNull die Leistung des Fehlersignals, aus der sich die Verstärkung Gableiten lässt. Fig.2.7 zeigt einen Auschnitt aus einem natürlichenSprachsignal, Fig.2.8 denselben Ausschnitt aus dem resynthetisiertenSignal. Im Zeitverlauf fällt es nicht schwer Unterschiede festzustel¬len. Diese rühren zur Hauptsache davon, dass das Fehlersignal bei derSynthese durch ein Anregungssignal ersetzt wird, welches lediglich inLeistung und allfälliger Periodizität übereinstimmt, nicht aber etwaim Phasenspektrum. Infolge der Unempfindlichkeit des Gehörs für kurz¬zeitige Phasenverzerrungen {46,45} bleibt dieser Fehler aber akustischkaum wahrnehmbar.
II
CUi
X.
ui
Olra
UUi
3uj
_jCD
COcd
tnU|
LQ.J
3Ol
1CL
uiOJ
3m
tDoi
NOl
Ol3
HUl
uj
rHOJ
TJOl
in
UlOl
UJ
¦H
rltn
*Ul
ui
TJtn
OlUi
CDUi
uTJ
OJSZ
CCD
OTJ
t-lCD
TJUJ
tDC
cui
nj11
ffl>H
SZOl
UiII
CUl
fflUJ
IDO
rlOl
_ra
crH
OlUi
Olc
OJin
oi>o
E>
0>Ul
c>
CDUl
C.rH
_1TJ
Ol3
3Oi
_Ui
CL01
Win
3Ol
Sr-A
Ol3
Ul-r|
UH
ffl_
IDOl
UJ
UlHO
¦rirö
Ului
SZui
rH
TJCD
_:,u
uj
rH
l_|TJ
01ra
¦HOl
3tu
cCSZ
TJ<
IDÖ
tutUl
3
u2
_rH
01C
mCD
H•H
OJUl
ETJ
XITl
ui
3CD
UJ
c<
«ICH
TlCD
»LS
_rA
Olr|
01-1
NTJ
TJTJ
Nrl
Cc
cOi
tuiOJ
rlIIB
OlC
IUIx:
CDUi
33
0Ju
XI01
tri_.o
Ol>
OlUl
.*Ut
tn
_im
Mcl
inSZ
t-t-P
01Ul
cdU
TJin
UJ
ui
TJUi
CUi
r-lC
33
01¦r|
CD.TJL
_i
cn>
_.
Ulin
gu
OlOl
rH
¦rlUJ_
Ul¦rl
Q(0
¦rl-rl
TlTJ
CUl
(DUJ
co
Oiui
_:l/l
Ul•
rlOl
OiUJ
01cmm
_.rl
Ol•rl
-Utn
TJ-H
H13
Cc
CC
Tl•H
OlOl
HUl
_»
ui
t-l3
-0J
r-ASZ
SZU
JCra
•
OLI
01Ut
CTJ
raui
uj
injtv
COl
OlOJ
ui
•rA-rA
cooi
aUl
inui
-22-
11.2.3.3 Kanal- und Formant-SynthetisatorBeide sind ursprünglich für die analoge Schaltungstechnik entwickeltworden und verwenden wie der LPC-Synthetisator getrennte Anregungs¬und Klangformungseinrichtungen, unterscheiden sich aber in der Art derDarstellung der spektralen Enveloppe des Sprachsignals. Geschieht diesbeim Kanalsynthetisator mittels einer Filterbank mit steuerbarer Ge¬wichtung der einzelnen Kanäle, so arbeitet der Formantsynthetisatormit drei bis fünf Bandpassfiltern, deren Durchlassfrequenzen und Band¬breiten elektronisch veränderbar sind.
In den bis hierher erwähnten Verfahren ist die Grundidee zur Spracher¬zeugung stets diesselbe geblieben: In einer von der auszugebendenNachricht festgelegten Reihenfolge werden Sprachgrundelemente mitei¬nander zur vollständigen Meldung verkettet. Diese Grundelemente sindihrerseits in einem vorausgegangenen Arbeitsschritt aus naturlichenSprachsignalen gewonnen worden und liegen im Synthetisator abgespei¬chert vor. Die zwei folgenden Verfahren dagegen bilden den Artikula¬tionsvorgang selbst nach, das erste davon rein phänomenologisch, daszweite in seinen Einzelheiten. Wegen ihrer naturgetreuen Nachahmungder Artikulationsvorgänge ist es weder sinnvoll noch notwendig dieseVerfahren mit grösseren Grundelementen als Einzellauten zu verwenden.
11.2.3.4 Synthese nach RegelnAnhand von Messungen an natürlichen Sprachsignalen wird versucht festeRegeln für die beobachteten Phänomene abzuleiten, aufgrund derer füreinen beliebigen Kontext ein verständliches Sprachsignal produziertwerden kann. Nicht der eigentliche Artikulationsvorgang wird beschrie¬ben, sondern lediglich seine Auswirkungen auf wichtige und im Signalmessbare Grössen, wie etwa Formantfrequenzverlaufe, Art und Periodeder Anregung, Signalleistung usw.. Ein Vorteil dieses Verfahrens könn¬te möglicherweise darin bestehen, dass sich ein Teil der Regeln alsuniversell gültig herausstellt, und nur wenige der jeweils gerade vor¬
liegenden Sprache angepasst werden müssten.
11.2.3.5 Artikulatorisches ModellBeim Artikulatorischen Modell wird eine ganz konkrete Simulation desmenschlichen Sprechvorgangs vorgenommen. In einer ersten Stufe wirdder Artikulationsvorgang nachgeahmt, indem die Bewegungsabläufe derSprechorgane aus ihren mechanischen Eigenschaften berechnet werden.Aus der Kenntnis der momentanen Stellung des Sprechapparates lässtsich der Querschnitt als eine Funktion des Ortes bestimmen, der mass¬gebend für seine akustischen Filtereigenschaften ist. In einer zweitenSimulationsstufe wird dieses akustische Filter auf dem Rechner nachge¬bildet und sein Ausgangssignal berechnet. Die zu diesem Vorgehen not¬wendigen physiologischen Angaben werden Röntgenaufnahmen sprechenderMenschen entnommen.
N3dHV=ja3A3S3HlNASIH0vadS
Ö30
N31SV*aSrOSIDO-lOHdMOW
6'
Z'
C,J
ua-Ju.ej_i3/\S9)|g9eu96
;i9Qji/3pus63t|jOABip
jsnj
:„,
stposojd_t[;_LSuii|
ajapuosaqsui
•6unj_e>ija/\ay-ist}Bweiqojd
:dPua6ipa
ijjsqun
ai_i,tienb
=06issaeuiiioaMzun
:Q
apua6a-|
1-
(09)
I0
I
CET)II
C99)II
(69)I
0I
(99'09)0
I(I79'e9-T9)
I(Z9)
ainBii©zuL3
ifrg
-B-j
(81)I
dI
IiiMuaejyss
auotHdLQi
099
"BD
I-aqun
-I-
ueqi^sqieui
I00frT=<
II
IaiuawesjiiJOM
i-I
r
II
I-jaujaOM
I-l
jI
II
3_8ES
I
iaoiipua
-un
IMUse-iups
-aq
1lapoH
sa_s
ljo)
-Blflllt1JV
uia6ay
iupau
iasamuAs
illapon
-3dl
1iaP°W
-)ueujj03
1lapow
-lauiBx
Iaiuama
iapunrjr)
6unjaipoj
-ujjo^i
-us/ijnx
iI6un[laisjea
I_s_bg
IjBinqB_A
IJ8nj
iS|(BU
[_zuv
IjBqpuaMUB
II
Is/»tq>1S,,3
Is/iiquj-
s/}tqi19I=
<I
aiejuaiBQ
i
llapoi.
Il
LSpOlftii
jGjBdde
-Od
.
I-lueuuoj
i-MOa__S
UJ
i
taßad
Iituu
i_6By
i6unpLiq
jap
ul
I¦jap
ul
i-;nei
jap
U34JEL|_SUa6
LS
ieußLS
uaie_j}visds
jap
3*1LULiosqe
-ieu6isja;jaL|0
-iadse6
Lt
sp
o(Aj
36u3s6joasi
6u
n
uo
i:ie
tnvi
lijy
iap
iB
Ljo
sn
I
a^uaiua[apunjg
J9UL3ZU13
un;-._a>)je
II9q_ßj9p3LM
I1-
S13»
Lltl
Bun6na_rjeTne-j
ILOjno
iI
6unjdenuv|jeAx
I-,ne-i
i_!
1
-24-
Zusammenfassend können Sprachsyntheseverfahren in einem morphologi¬schen Kasten Fig.2.9 dargestellt werden, dessen eine Dimension von derArt der verwendeten Grundelemente gebildet wird, die zweite von derForm, in welcher diese beschrieben sind. Die mit Buchstaben markiertenFelder stellen unserer Meinung nach weniger geeignete Lösungen dar,welche entweder qualitativ nicht zu befriedigen vermögen ('Q'), Pro¬bleme hinsichtlich Verkettung und Betonung aufwerfen ('P') oder aberunzweckmässige Kombinationen von Nachahmungsverfahren mit grösserenGrundelementen darstellen ('U').Für Berichte über Verfahren zur Syn¬these unbeschränkten Wortschatzes verweisen die Zahlen in das Litera¬turverzeichnis, für Anwendungen mit beschränktem Vokabular gibtSickert [67} eine gute Marktübersicht.
II.2.4 FESTLEGUNG EINES VERFAHRENS
Unter den für die Synthese unbeschränkten Vokabulars überhaupt in Fra¬ge kommenden Möglichkeiten hat sich eine hinsichtlich Sprachqualität,Speicher- und Rechenaufwand, sowie Flexibilität allgemein als optimalanerkannte Losung noch nicht durchsetzen können. Die wenigen kommer¬ziell erhältlichen Synthetisatoren enttäuschen denn auch meist in be-zug auf Sprachverstandlichkeit und -natürlichkeit. Wir haben uns fürdie Verkettung LPC-codierter Diphonelemente entschlossen, wie dies inFig. 2.9 durch einen Stern * angedeutet wird.
Ein Verkettungsverfahren haben wir vorgezogen, weil diese weder aufschwierig zu erfassende physiologische Daten noch auf die bisher eherspärlichen, wenig verbindlichen und kaum allgemeingültigen Artikula¬tionsregeln angewiesen sind, sondern alle benötigten Daten dem Sprach¬signal selbst entnommen werden können. Diphone tragen auf einfacheWeise den koartikulatorischen Einflüssen Rechnung, welche auf einSprachsegment von den unmittelbar benachbarten Lauten ausgeübt werden.Ihre Anzahl und der notwendige Speicherumfang von ca. 300 bis 500 kbitbleiben vertretbar. Die Methode der Linearen Pradiktion LPC schliess¬lich ist eines der leistungsfähigsten Instrumente der heutigen Sprach¬verarbeitung. Sie ist mathematisch fundiert, eignet sich gut für digi¬tale Signalverarbeitung und liefert präzise Schätzwerte für die ein¬zelnen Sprachparameter. Als Modellierungsverfahren ermöglicht sie zu¬
dem die unabhängige Steuerung der suprasegmentalen Parameter.
-25-
II.2.5 DEFINITION DES DIPHONS
Das Diphonelement wird von Emerard {62} definiert als
das SprachSegment, welches den Abschnitt zwischen zwei benach¬barten Lauten samt ihrer gegenseitigen Beeinflussung in seiner
Mitte enthält, und dessen Anfang resp. Ende sich in der phone¬tisch stabilsten (quasistationären) Phase des jeweiligen Lautesbefindet.
Diese Definition wird jedoch nicht allen Lauten gerecht. Namentlichdie Plosivlaute enthalten in ihrem Inneren keine quasistationare Pha¬
se, in welche eine Diphonschnittstelle gelegt werden könnte. Dafür
geht dem eigentlichen Explosionsvorgang eine Verschlussphase voraus,wahrend derer kein Sprachsignal beobachtet werden kann. Die Definitionwird deshalb dahingehend erweitert, dass bei Plosivlauten als phone¬tisch stabile Phase diese sog. präplosive Pause aufgefasst wird.
Das folgende Beispiel zeigt wie ein einzelnes Wort aus Diphonelementenzusammengestellt werden kann.
orthographischphonetischdiphomsiert
"halten"[HALT6N][\H HA AL LT T6 6N N\]
-26-
KAPITEL III. DER GRUNDELEMENTKORPUS*************************************
II1.1 ZIELSETZUNG
Damit die als Grundelemente vorgesehenen Diphone überhaupt gewonnenund abgespeichert werden können, muss zunächst eine Sammlung aller zur
Synthese benötigten Lautübergangselemente zusammengestellt, gespro¬chen, aufgezeichnet, digitalisiert und schliesslich LPC-codiert wer¬den. Ziel des zweiten Teilschrittes innnerhalb dieses Kapitels ist es
deshalb herauszufinden, wie viele und welche Lautübergangselemente ei¬nem Synthetisator für deutsche Standardsprache zur Verfügung gestelltwerden müssen und zwar in dem Sinne, dass jedes einzelne Element not¬wendig ist, und dass sie alle zusammen für die unbeschränkte Synthesedeutscher Standardsprache ausreichen. Gewissermassen als Nebenproduktergibt sich dabei die Häufigkeitsverteilung für die einzelnen Übergän¬ge. Zuvor muss aber eine zweckmässige Lautschrift festgelegt werden,denn jeder Lautübergang ist beschrieben durch je ein Anfangs- und End¬symbol aus dem gewählten Lautalphabet. Diese Kenntnisse bilden dieVoraussetzung für die Konstruktion eines vollständigen Diphonkorpus,wie er im letzten Abschnitt dieses Kapitels beschrieben wird.
III.2 WAHL EINER GEEIGNETEN LAUTSCHRIFT
II1.2.1 KRITERIEN
Als Minimalanforderung muss von einer Umschrift für die zu untersu¬chende Sprache verlangt werden, dass sie zwischen den verschiedenenPhonemen differenziert, indem sie jedes davon durch ein eigenes Symboldarstellt. Ein derartiges Transkriptionssystem wird 'einfach phonema-tisch' {10} oder 'phonemisch' {03} genannt. Abweichungen davon sindnur in der Richtung möglich, dass auch stellungsbedingte Allophone undfreie Varianten genauer unterschieden und separat wiedergegeben wer¬den. Im Grad dieser weiteren Differenzierung unterscheiden sich dieverschiedenen 'phonetischen' Schriften voneinander, wobei die detail¬liertesten darunter hauptsächlich in der Dialektforschung eingesetztwerden. Für auf Verkettung abgespeicherter Grundelemente beruhende au¬
tomatische Sprachsynthese wird man einerseits aus Gründen der Speiche¬rökonomie nicht mehr Laute unterscheiden wollen als für die Gewährlei¬stung der Verständlichkeit erforderlich sind, mochte aber andererseitsein Signal erzeugen, das der natürlichen Aussprache möglichst ent¬
spricht. Es soll daher verlangt werden:
Die der Sprachsynthese zugrunde liegende Lautschrift muss stel¬lungsbedingte Varianten unterscheiden können, freie Variantensoll sie dagegen nicht berücksichtigen.
Diese Forderung stützt sich letzlich immer noch auf abstrakte Begrif¬fe, die nur über den menschlichen Intellekt zugänglich sind (Phonem,Variante, Minimalpaar usw.). Im Hinblick auf den Syntheseprozess ist
-27-
aber der Bezug zur physikalischen Realität der Sprache, d.h. zu den im
Sprachsignal messbaren Eigenschaften mindestens ebenso wichtig:
Mit demselben Lautsymbol bezeichnete Sprachsegmente müssen inihren Signaleigenschaften übereinstimmen, während zu unter¬schiedlichen Symbolen gehörende Segmente sich in mindestens ei¬nem messbaren Kriterium voneinander abheben sollen. Allerdingswird dieser Forderung infolge der in menschlicher Sprache feh¬lenden exakten Reproduzierbarkeit und der koartikulationsbeding-ten Veränderungen einzelner Laute in der praktischen Anwendungetwas von ihrer Schärfe genommen.
Mit der von einer internationalen Normkommission festgelegten IPA-Lautschrift (IPA: International Phonetic Association) lässt sich dieerste Forderung gut erfüllen. Ihre Anwendung auf die deutsche Standar¬
daussprache ist im Duden {03} verbindlich festgelegt, sodass minde¬stens die manuelle Transkription keinerlei Schwierigkeiten aufwirft.Aus diesen Gründen wurde sie als Ausgangsbasis für die vorliegende Ar¬beit gewählt. Zudem ist die IPA-Lautschrift auch für die Darstellunganderer Sprachen weit verbreitet. Vorläufig offen bleibt die Fragenach der zweiten Forderung. Wir setzen an dieser Stelle voraus sie seierfüllt, werden diese Annahme aber in Kapitel V. eingehend überprüfen.
II1.2.2 AUSSPRACHENORM
Als Aussprachenorm dient im wesentlichen die im Duden Aussprachewör¬terbuch 2.Aufläge {03} festgelegte deutsche Standardaussprache, diesich an der Sprechweise gehobener Gesellschaftsschichten aus dem Han¬
nover Raum orientiert. Für unsere Zwecke machen wir jedoch einige un¬bedeutende Abweichungen zugunsten der gemässigten Bühnenaussprache,wie sie noch in der 1.Auflage als Norm vorgeschrieben war. Diese im
folgenden aufgezählten Anpassungen haben alle zum Ziel Grundelemente
einzusparen, die Verständlichkeit zu verbessern oder die Transkriptionzu vereinfachen.
1.Ausschliesslich in Fremdwörtern auftretende Laute werden nicht be¬
rücksichtigt und zwar nicht nur zur Einsparung von Grundelementen,sondern auch um die Auswertung phonotaktischer Regeln in Abschnitt3.3 nicht in Frage zu stellen. Davon betroffen sind der Anfangslautim französischen "genie" und die Nasalvokale wie beispielsweise in
"salon", das im Duden auch als [ZA'LQ9] transkribiert wird.2.Der Duden schreibt den Laut [4] vor, für die Aussprache von:
"-er" am Wortende ("bauer" ['BAU4]),-er-" vor Konsonant ("anders" ['AND4S]>,
"er-" in Präfixen ("erobern" [34'<0;B4N]),:-" nach langem Vokal ("pferd" [PFE;4T]) und:" am Wortende ("haar" [HA;4]).
Wir möchten stattdessen die Bühnenaussprache gemäss Duden ({03} S60)wählen, also [6R] für "er", resp. [R] für "r". Damit kann der Laut[4] entfallen.
-28-
3.Wortfinal sieht der Duden sogenannte silbische Konsonanten vor inden Endungen:"-em" ("grossem" ['GRO;SM]),"-en" ("haben" ['HA;BN}) und"-el" ("löffel" ['L8FL].Dieser ebenfalls einer raschen Sprechweise entsprungenen Aussprachestellen wir wieder die Bühnenaussprache entgegen, die den Schwa-Lautzwar nicht betont aber auch nicht vollständig verschluckt, also[6M], [6H] resp. [6L].
4.Nach Duden wird die Endsilbe "-ig" als [IC] ausgesprochen ("einig"['A1NIC], "predigt" ['PRE;DICT]), ausser es folge unmittelbar diezweite Endsilbe "-lieh" ("königlich" ['K0;NIKLIC]). Der einfacherenTranskription halber wählen wir stattdessen immer die Bühnenausspra¬che [IK].
5.1m Einklang mit dem Duden aber für schweizer Ohren etwas ungewohntwollen wir an der Aussprache für orthographisch "qu" als [KV] undnicht etwa [KU] festhalten.
II1.2.3 VOKALSYSTEM
Das deutsche Vokalsystem umfasst sechzehn Einzelphoneme,
/1,V /!/ /!;/ /_/ /u;/ /2//E;/ /3/ /0:/ /8/ ,6/ /0;/ /Q//3;/ /a;/ /Kl
zu denen jeweils genau ein Allophon gehört. Dazu kommen noch dreiDiphtonge.
/AI/ /AU/ /Q7/
Der nur in unbetonten Silben auftretende Reduktionsvokal /6/, er wirdauch als Schwa bezeichnet, wird nicht von allen Phonetikern als eigen¬ständiges Phonem eingestuft, sondern teilweise auch als Allophon zu
/E/ gezählt ({21} S50).
Die Unregelmässigkeit wegen des fehlenden Kurzvokals zu /3;/ hat eben¬falls zu vielen Auseinandersetzungen in der phonetischen Literatur An-lass gegeben (für einen Überblick siehe {21} S53). Tatsächlich neigtinsbesondere der Deutschschweizer in seiner vermeintlich richtigenSchriftsprache ({10} S143) dazu, das System folgendermassen zu erwei¬tern:
/E;/ /3//_;/ /W/
Beispiele: /E;/ "seelen" "wenig"/3/ "wellen" "wende" "eitern"/W/ "wällen" "wände" "altern"/W;/ "wählen" "wähnen"
Wir halten uns in dieser Beziehung strikt an den Duden, und verzichtenauf eine Differenzierung zwischen /3/ und /W/, sehen jedoch in Kapi-
-29-
tel V. eine Überprüfung dieser Vereinfachung anhand der Signaleigen¬schaften gesprochener Laute vor.
Eine weitere Streitfrage in der phonetischen Literatur ist die bl¬öder monophonematische Wertung der Diphtonge ({21} S51). Im Einklangmit dem Duden fassen wir sie zwar als selbständige Phoneme auf, werdenaber aus den erwähnten ökonomischen Gründen sie als Übergange zwischenzwei Einzelvokallauten, also diphonisch zu synthetisieren versuchen.
Im deutschen Vokalsystem stehen sich im allgemeinen ein geschlossenerLanglaut und ein offener Kurzlaut gegenüber. Die IPA-Notation postu¬liert allerdings, dass die Unterschiede zwischen /A;/ und /A/, sowie
zwischen /3;/ und /3/ lediglich die Länge der zugehörigen Laute be¬treffen, also rein quantitativer Natur sind, was wiederum erst in Ka¬
pitel V. phonoakustisch bestätigt werden kann.
Es verbleiben somit vierzehn verschiedene Lautqualitäten sowie eindiakritisches Zeichen zur Quantitätsbezeichnung.
II1.2.4 KONSONANTENSYSTEM
Es umfasst für die deutsche Sprache neunzehn Phoneme,
/P/ /B/ /T/ /D/ /K/ /G//F/ /V/ /S/ /Z/ /5/ /X/ /_/
/M/ /N/ /9//L/ /R/ /H/
von denen unter Vernachlaessigung der freien Varianten nach Abschnitt2.1 alle bis auf eines eindeutig auf den entsprechenden Laut abgebil¬det werden. Zum Phonem /X/ gehören die Allophone [C] und [X] als stel¬lungsbedingte Varianten. Das stellungsbedingte vokalische /R/-Allophon[4] ist durch die in Abschnitt 2.2 getroffenene Aussprachekonventionüberflüssig geworden.
Affrikate setzen wir wiederum zum Zwecke der Speichereinsparung ausden beteiligten Plosiv- und Frikativlauten zusammen und interpretierensie auch wie Kohler [10} biphonematisch.
Weitere Streitpunkte, wie die phonematische Wertung von /H/ oder dieEinteilung von /J/ als Frikativ oder Halbvokal ({21} S62), bleiben oh¬ne Einfluss auf die letztlich für die Synthese massgebende Frage nachden zu unterscheidenden Lauten, wir werden lediglich in Kapitel V.diese Problematik nochmals kurz streifen.
Insgesamt müssen also zwanzig verschiedene Konsonantlaute berücksich¬tigt werden.
-30-
II1.3. EXISTENZ DER LAUTÜBERGÄNGE
III.3.1 ANSATZ
Kann eine Sprache mit n Lauten beschrieben werden, so sind (n+1) -1Lautubergänge denkbar, wobei das +1 von der Berücksichtigung des Leer¬lautes herrührt, das -1 von der Trivialität des Leerlaut -> Leerlaut-Übergangs. Mit den 34 für das Deutsche festgesetzten Lautqualitätensind somit 1224 Übergänge denkbar. In einer natürlichen Sprache exi¬stiert glücklicherweise nur eine Untermenge davon.
Für den deutschen Einsilbler hat Kohler [10} eine sogenannte Struktur¬formel angegeben, welche sich ohne weiteres in ein äquivalentes Syn¬taxdiagramm Fig.3.1 umformen lässt, das allerdings nicht bis auf seine
terminalen Symbole zurückgeführt ist. Die Bedingungen für das Auftre¬ten der einzelnen Konsonanten oder Konsonantenklassen an den jeweili¬gen Positionen werden vielmehr mithilfe einer stattlichen Anzahl von
Regeln ausgedrückt. Anhand dieser Regeln lassen sich viele Lautverbin¬dungen als inexistent ausschliessen.
Vo
Kc Kb Ka Ka Ka
Kb Kb Ka
Ka KaKa - Ka
0; 8 Q A; A KaVoDiKaKbKc
ein Vokal aus
ein Diphtong aus
ein Konsonant ausein Konsonant aus
ein Konsonant aus
1; I 7; YU; 2 E; 3 3;A1 AU Q7PBTDKGFVSZ5XCJMN9LRH
= Ort der Morphemgrenze
Fig.3.1 Syntaxdiagramm des deutschen Einsilblers
1sz
1c
ut
0)1
l«
1i
t1
Iai
OJC
rH
0>1
11
1X)
LJ
1..
11
C1
11
4-11
Tl1
x:c
-
c
_._
•Hc
03'rH
•H
H-.
Cc;
rH
4J
OiLi
3sz
u01
szc
3-Q
Oitn
esz
uc
tn•H
•H
LiCU
Li•H
CUC
Liu
cuc
cu<-t
fflXZ
XTJ
-»J<U
CU0)
CU3
•H
fflUl
u0)
_i
103
inOl
•rlC
3u
01Ol
C_
CU__
CU0)
Oi3o
oCP
Clc
mvt
mJ_
U0)
_
_
•_:s
tnLi
3-ffl
4JQ
LiUl
jaLi
N4-J
LiOl
UH
10•rA
sUH
o01
>c
_EÄ
3x:
a»d>
•H
4-16
fflin
x:_J
CU•r4
oOl
-.
¦rlOl
Li3
Litz
inUH
¦rl-3
cTJ
Li
_
_
_
x:tu
U-tU
4-1
§Li
e
_
_
CULi
-
CUffl
13>
4J
•H
01XJ
COHOH
U3o
_0)
ce
CUu
o><u
4J
34-»
fH
STJ
(Uo»
utja
c•H
sC
o*
j_:OJ
tnja
cJ=
01c
10•
01a
OiCU
ffl_a
•H
OJ_<
Li4-1
N4J
fflXJ
'O•H
££
^h
rH
cuCU
U4-J
Cffl
•rA•rl
dlM
=1_
tnin
•rA*J
LI
rH
•rJ.c
4-J4J
:3rH
o»u
CUUl
f.
.
x:C
CU
3EÄ
•h
3a>
SZÄ
TJ(U
<UM
CU4_>
¦0rH
•H
1001
Oi01
10SZ
Xsz
tn_.
3>.
UlOi
*J
:3•rA
•Hcu
sctu
HH
Cl)N
CPU
•H
c•H
cc
o10
¦o_
X)c
Li•rl
010J
10tn
LI
N(U
C:0
CLi
CE
OOi
CD«_4
.
0)*c
cuin
4->ai
•H
TJIffl
oc
_tOl
uOl
OJ01
LIcH
310
01•rA
4JH
QJS
0)TJ
•H
cE
CD4-i
•H
_:-•.__
in«H
SZai
u•H
o(U
iHJ3
ja+J
OiCK
•rlsz
inUHC
tuOJ
CPc
ine
cuffl
CX.
C.•»•H
4->•H
TJ<u
CU3
0)U
tnsz
4->x;
¦oU
tnr-H
•H
_c
co
3Li
SZ_;
LI
inOJ
0)0)
3•H
TJifl£
Up
C.*_-
0)CU
TJ£
ffl_<
tn(U
uc
Q,10
j«:01
s01
01•rl
0110
01O
OlX
cCO
x:CU
TJ<
rHa
3U«
TJ__£
Li-
CUCP
_)c
Ul(U
•H
szUH
oin
ja0J
_LJ
•rH01
cu0)
cu4-1
LiCU
3N
Ul4-1
TJ£
t.£
CUTJ
TJLi
•H
Ctu
inc
>J_
Vc
01tn
13c
j«:01
XLtO
UH
EhOi
cH
*H
3X)
-3
f.M£
•r.*H
ffl_c
LiCU
J-J(U
4-»rHM
ccu
•rA•H
.0J
¦LI_••H
Olu
Di01
0)tn
3•H
0)N
(U_r
li01
MCU
<u0)
(Uu
3*«4-1
__
•H
a•-<
rH
<Uffl
0)o
ctu
~A
01N
•H
r-A3
01c
01•rl
EhHH
rH
troffl
tn4-»
0)3
0)c
OJ4-1
Qtn
£0
x:3
£Sc
OXi
133
Li:*.
•r.
t/1SZ
Qo
103
.0J
Liio
sc_01
Vitu
J_|I.
LiC_
3>
KC
fl
.
uIffl
i—t0)
>rHO
N4J
»Ih
CUtu
uN
10£
_1sz
inN
LilO
sz3
•r46
0JOJ
4Joj
mEj
:3+J
inX
r-tin
_j•H
«Lt4-t
(UTJ
_c-rH
«0c
tnLi
utn
01S
-Ol
uN
Li•H
4JOl
LiLi
EOl
•r.
0)<D£
»in
LiC
3•H
_
cQ
tnifl
o01
oio
0J0J
XJs
Li•rl
4-1«-I
CULi
O0)
i3u
x:3
£-U
.H
utn
C0)
•H
•*(U
34J
OlLi
-
c-
UH
Lic
CLi
szrH
in3
•H
ON
Sc:*
LiLt
L)CU
curH
T3£
S3
L.•H
rH
OJs
x:10
CbCM
01Li
01•H
c01O
rA
LiTJ
4-10)
fflTJ3
CUin
CUffl
H-C
N01
CU£
CUCU
V)CU
DJJ3
inin
o+J
cu
C4J
ijCM
•rlX)
Um
01OJ
XIUH
13c
•H
J_Li
_a3
rH
4-1S
rH
U1-J
O»Cn
3s
OiQ)
TJrH
fflm
tn0)
Ma>
rH
OJi
CLI
CXI
A-l3
Sffl
4J
Liffl
<c•H
Ul4-J
^H
CU£
(U-rA
SZOi
CU
__
ffl6
•H
__
TJin
CP3
ja•H
«LI
3ja
rloj
a¦0
10C
TJUl
0fE
uiiE
OlUl
-4.o
«Cl0.
U•H
inu
Ll•O
_;TJ
0Jdl
Oiu
cc
Oi01
rA
0)M
3LJc
£4->
0)•H
c__
•H
fl]OJ
tn
l-iOi
tT>Q)
fflffl
0)Li
*H
4->3
+j
3Ol
sztn
4rl01
•rl0J
J3Li
m_!
01li
•rA(U
Ulc
XZUl
X.cu
C4J
TJN
fflLi
Ul£
CLC
LiXI
X"rH
uC
mCP
4J3
u_
t-l01
+J•H
o13
.cSZ
rlO
tn§
E•4-1
Li•H
VCP
H4-1
x:_>
L|3
.3_.
ai0)
3-.
_a(U
_
CPCU
ECU
UlN
1013
m3
¦LI_
cr-l
•rAUH
UlU
LI
0Li
3CU
CU¦rA
cSc
uUl
ffl4-1
CU£
3JQ
(/)LiW
LiU
SZCUs
•H
4J3
UlC
_•IH
[_01
Li01
01r-t
01•rA
tn_
Q.c
offl
vi3
CUin
Ulc
_
c0)
__o
(U0)
3ffl
fflOi
inm
Li•H
«a
10H
XJOJH
Oi_!
.
LiXI
¦H
0JE
•H
_.
c4-1
rH
CPM
•H
•r4CU
HÜ>
ffl•H
•r.
CCO
cc:
mLi
C!CU
CUui
¦aX
3c
Li01
Ol_
XIo
<UOi
CU«
0)•r4
0)4J
Sc§
4-1H
oij»;
TJm
£ffl
=fflcu
in<U
CUX)
x:Ol
u01
0Jc
301
•_£
ctO
0J:_
cc
TJOJ
-CCU
OiOi
tnCU
HO
3=>
c•r.
CU«1TJC
OlTJ
tuLi
Li0)
:_DOl
aiFH
szOi
01rG3
•G10
01a
c(_
CU3
LiE-*
U4-J
_:h
¦H
Oi¦H
».ai
>~tTJ
o>CU
Li0)
OOi
Ulc
cJ<
o1/1
J=u
UXI
jaOl
-I
c•H
CULi
3U-l
4J
X.OJ
LiLi
c¦P
fflLi
C
.
UCU
Litn
4->>
cuLi
fflHO
0Jc
ztn
3o
•H
Em
10¦H
rH
O3
0)CU
CU4-1
3ffl
LiUH
0)0)ja
60)
<*.<u
0)ffl
.-jx:
4.i3
inc
Li(U
TJOi
sz10
111¦H
fl•rl
01tu
Li01
sz01
rHC
>C
ffltu
TJs
>CU
ffl4-1
CUtn
£w
uj0.
SO*1
>.ffl
:3«4H
3•r-l
4-1Ul
Liu
oUi
o:1/1
r-Ai
C01
Li3
1001
Ol4-1
cc
UlLi
x:tn
cLi
Iflrl
3CU
ÜlLi
Li0)
.
.
4->e
XOi
(UOl
tn
sz[_
tn
_;sz3
•r|Li
«0u
Nt_
jaCP
cL|
(UCU
4-14-1
•rACU
-H
CU4J0
_<:4->
CUH
Li3
x:tn
0)c
4-JLi
X!U
uo
10•rl
u01
a3
•rA•C
H•H
0)Oi
CPLi
•H
Mer
LiCU
><
TJ._
.H
cuCU
0)
_
_
0)ffl
uc:
c.EH
3¦H
<Ua
3m
LI
10t/1
3&
C•1
01to
£>
c.c
CU0)
cuc
CUc;
£c
_.
o>sz
4-J
.
c>
?J3
cu3
Ul0)
_.
+j
01_:
tnLi
tutn
01m
_;x:
CUc:
3iffl
4-JJSt
>3
£4-1
0)•H
3(0
uffl
u•H
4->Q)
fflo>
Cin
SU
p¦o
01rJ
-H
CL_
010J
J3rH
UIh
0)Li
TIX.
Li0>
I-IrH
•H
•H
4-JC
J-tui
in•r-l
CU3£
LiLi
c4-J
0)a>
•H
10Ih
LI
tnIh
cc
c0J
._¦in
01Li
4J
<UC
c'O
•
.
CUo
CUE
4J
fl)^
•*x;
cuUl
i-Hi-H
fflU
HCU
CU3
in4->
•H
L<rH
_1
01m
Ol10
in01
01•H
0JLI
_.
Lic:
CUCU
X.•H
<u2
<u
_ax:
in•h
4-im
£CJ
t.3
x:<uJ
inS
ino>
-M
inx:
r-t0)
CPM
_l_]
sz_l
Ols
•H01
0Jtn
tn10
01c
TJ4J
LiCJ
xj3
_
_
Lix:
CLi
(M
Li-1
_
<u
CP4-»
inc:
Li•H
usz
Oi-O
IH01
cz
utn
din
01XJ
01Li
•rlX
4->•
.
LiCU
iffl<u
Lio
X.CD^
<uoj
3•ffl
_3C
3•
•H
cu0)
0)3
V•H
601
¦o3
cI-H
•Ain
flC
inOJ
c3
3Ol
Lt4->
0)^
0)ffl
inX
LiTJ
CU
_
o•HU
"_4->
-Q03
tnffl
<U0)o
se
"_SZ
tnin
cc
01-t]
aOi
Oi01
•rA3
01N
01LJ
x:H
MLi>
Ultn
?rH
ui3
E1-
£0)
4-JC.W
CULi
inM
Ul•H
01c
tnOi
Lic
ec
Li3
LiOl
10C
-U
SZu
CU13
3¦H
CUO
-H
Litn
nE
O3
Li•rH
fflCU
i-HCr»
0)3
\nQ)
3CU
x:tn
•rlrH
co
Oi3
3c
10O
OiQ
OJLi
u•H
Li4-J
_JCU
N*_
•H
34J
t33
Url
30
TJ4->
inXI
Mffl
4-1ffl
ffl4-1<
aiin
103
zc
XI01
Siin
3Li
XIO
•rlc
0)Li
fflc
CUTJ
M4J<
3Li
>4-J
CU(U
NC
+J
TJE.
0)N
0Ol
XI_1
10c
cc
Ns
U3
cXJ
iOC.
cuLi
Oi•
_•CU
fflfflO
£4-»
3(U£
.
HC
C_3
5.3
-H
IMS
r-l•rA
cEh
UH
•rl10
r-le
0)4-J
C3
4-1CU
*4-fC
-HH
CQ)
¦HN
in•H
uCU
rH
CUCU
CU»
<UrH
SZ•a
•.
r|_:
Eja
a01
0101
•o_01
301
XJX.
<Dc
T-\TJ
30)
TJUl
Ulo>
ecn
TJ•H
cnffl
sz+J
0)H
TJe
4-J•H
uOl
ja[_
3u
Li3
LI
LI
-LIs
Oi¦rl
cu
CT0)
cu01
cffl
TJE
VIQ)
CUU
¦HU
ffl£
0)tn
C!C
*r4X.
0)1/1
IhOi
rH
301
01tO
tnin
301
oinQ
3•H
c•H
Ull/l
_
¦rAo
S0)
fflN
CUrQ
0)
_
LtW
Ol•H
•HC
•H
4-1•H
0113
cOJ
Ul>
üLI
>101
3N
[_Li
imQ
inin
JtfTJ
sOJ
CTJ
Liffl
13rH
_|
_
cuCU
_JLi
>:CU
otn
Cn•H
•HXI
ÖlUH
ml>
_1LI
+J
+J
min
.J
_01
CU.SZffl
ffl(Js_
H0
_
tn__
0)C
¦HOw
>c
+JE
1/1tn
•*10
310
in01
tn01
Oi••
rH
cUl
CE
rHO
„-H
tnfc
ifflÜ
U•H
iD
0^¦H
CU>
Liin
3tn
Ih3
01Li
Ih-C
10SZ
tn
UH
c>
LiC
rH
H0)
4-1<u
r-iLt
•H
4-1•
¦H3
TJs
_a
X.m
TI£
CUjC
cu3
CUTJ
0)TJ
•H
10X
OJOl
Nrj
10o
Li0
orl
01Oi
c•H
CUCU
•-fc
X)4-1
fflfi
intu
Ul'ffl
+J
tn•H
C.TJ
-H
CX}
Cs
cja
+J
¦oc
•rl0J
+J>
_;01U
cuCU
Ol*->
4-10)
cuc
rH
*•r.
Li>HO
CU¦<-
S4->Ol
di4-J
3O»
S
_
_
(UTJ
c.TJ
•H
3r-A
1013
Oim
u_
Ol01U
rA
J<¦H
-LiSZ
_34->
•H
XZU)
TJ-Li
•H
X.4->
cin
CUffl
Liffl
uc.
fflC
fflXI
4-1c:
tu_u
tu0)
tuc
LJ
Q.10
tutn
*u
_T3
c.Ul
Lic
UtnC
_sc
ffl_4
OJin
m<U
Li4)
tutn
XICU
Cx:
<ULi
•H
ina)
OlJ5
3rH
Hc
3tn
•H
_:Lt
C0)O
10e
o3o
•H
fflffl
fflLi
StLi
Ec
intJ
U0)
c.cu
£sz
•H
•H
ffl-Q
*~>0)
fflx;
fflc
x:CU
Ol3
x:01
u10
01M
Ol•H
J3•H
01Li
•rA•rl
3J>
5501
J«M>
CUSE
_4
x:4JE
OJH
fflOJ
r-t4-J
>in
TJ_D
tnO
J.u
_c•<
u>^
fflu
f_t/1
_lJ3
rH
s01
UC
_äJ£
UH
XI-M
1IH
o<s
s_TJ
XI3
TJ
-32-
Fassung verwendet worden. Es enthält keine Fremdwörter und ausser demNamen der Titelheldin keine Eigennamen. Auf einmaliges Auftreten sindbeschränkt worden: 'Schneewittchen[s]', 'Königin', 'Spieglein', 'sie¬ben', 'Zwerg[e[n]]', 'Zwerglein'. Dermassen beschnitten enthält derText noch 13801 Lautübergänge verteilt auf 2707 Wörter. Sicher istdies eine schmale Basis, um daraus allgemein gültige gesicherte stati¬stische Angaben über die Lauthäufigkeit abzuleiten, immerhin sind aberbereits knapp zwei Drittel aller deutschen Lautverbindungen darin ent¬halten. Zur Überprüfung phonotakt'ischerRegeln in mehrsilbigen Wörternhat sich dieser Text jedenfalls als genügende Grundlage erwiesen. DieHauptarbeit bei solchen Auswertungen besteht nicht in der eigentlichenAuszählarbeit, welche ohnehin mithilfe eines Computerprogramms erle¬digt wird, sondern vielmehr in der Eingabe und Transkiption des Tex¬tes, welche absolut fehlerfrei sein muss und daher nicht automatischvorgenommen werden kann.
II1.3.3 PRÜFUNG UND AUSWERTUNG PHONOTAKTISCHER REGELN
Gemäss dem Ansatz aus Abschnitt 3.1 sind die phonotaktisehen d.h. diegegenseitige Berührung von Lauten betreffenden Regeln des Einsilblersanhand der Textauswertung daraufhin untersucht worden, ob und gegebe¬nenfalls inwieweit sie beim Übergang zum Mehrsilbler Gültigkeit behal¬ten. Es folgt eine Zusammenfassung der auf den Mehrsilbler anwendbarenRegeln. Die sich daraus ergebenden Einschränkungen für die Lautüber¬gänge sind in der Ausschliessungsregelmatrix Fig.3.2 mit dem entspre¬chenden Buchstaben markiert.
Muster fuer die nachstehenden Ausschliessungsregeln:
x.betrifft damit neu ausgeschlossene Übergänge #Regel
a.finaler Vokal 5Es kommen nur lange Vokale oder Diphtonge in wortfinaler Positionvor ({10} 6.1.3.1), zusätzlich ist der im Einsilbler generell nichtvorhandene Schwa-Laut möglich, ausgeschlossen sind also die nur kurzexistierenden Vokale [I], [_], [2], [8], [Q].
b.finaler Konsonant Ka 6Die Auslautverhärtung ({20} Nr.119) bewirkt die Entstimmlichung al¬ler Ka im Auslaut, sodass die Plosive [B],-[D], [G] und die Frikati-ve [V], [Z], [J] final nicht existieren.
c.finaler Konsonant Kc 1Wie aus dem Syntaxdiagramm ersichtlich ist Kc nur unmittelbar vor
einem Vokal möglich, also sicher nicht final. Da Kc nur einen Konso¬nanten umfasst, entfällt lediglich das finale [H].
d.Vokal -> Vokal 169Definitionsgemäss enthält jede Silbe genau einen Vokal oder Diph-tong, vom Einsilbler lässt sich also nichts weiter über Vokal -> Vo¬kal-Verbindungen ableiten, denn sie bilden (ausser innerhalb derDiphtonge selbstverständlich) immer Silbengrenzen. In zusammenge-
-33-
ECCCCCCCCCCCCCCCCCCCC
oj oj oi <u o» e a a a i
laiajo) m oj oj oj aimaiaiaiaiaiai
l _ w a o
ia>_t_i_tc_<_>_fi>_i_i
•¦-_ d d o _ _
Cü. .D. . .€HD. __
Ü.D.. ..D.uOüuTj
DDDDDDDDDDDDDD
DDDDDDDDDDDDDD
DDDDDDDDDDDDDD
Du D D -DDÜDDUOtJ .
HD .ÜT3 13 D . DD DDDU
D D D D D D
DDDDDDDDDDDD D
DDDDODDDDDDDDD
DDDDDDDDDDD DD
0) 0)
Ol Ol
Ol 0)
0) 01
Ol 0)
Ol Ol
0) 0)
Ol 0)
0) Ol
0) 0)
*_
DDDDDDDDDDDD
HHS>jCVlUinO_00<lDü.lDhO^ÜII.>l_NmXÜT2Z.JQ:r
-34-
setzten Wörtern (z.B. "seeufer" [ZE;<U;F6R], "frühauf" [FR7;<AUF]>und Präfixbildungen (z.B. "beachten" [B6<AXT6N], "geöffnet"[G6<8FN6T]) trennt der Glottalverschluss die Vokallaute voneinander
({03} S40). Bei Suffixen wird dagegen kein Glottalverschluss einge¬fügt, sodass es, allerdings selten, zu Vokal -> Vokal-Übergängenkommen kann. Suffixe beginnen aber mit einem der Vokale [6], [I],[2] oder einem Konsonanten ({03} S21) und können offenbar nur an
diejenigen unter den Vokalen angehängt werden, welche final möglichsind (cf. Punkt a) ausser an den Reduktionsvokal Schwa, sodass
letztlich nur noch die Paare in Frage kommen, welche mit [1], [7],[U], [E], [3], [0], [0], [A] beginnen und auf [6], [I], [2] enden
(z.B. "mähen" [M3;6N], "Vorsehung" [FO;RZE;29]). Da Diphtonge als
Übergänge zwischen zwei Vokalen synthetisiert werden sollen, müssen
sie ebenfalls zugelassen werden, womit 169 von insgesamt 196 Vokal-> Vokal-Übergängen entfallen.
e.Allophone von /X/ 34
Allgemein gültig bleibt die Wahl der stellungsbedingten Varianten
[x] und [C] des Phonems /X/ in Funktion des vorangehenden Lautes,nämlich als [X] nach den Vokalqualitäten [u], [2], [0], [Q], [A],als [C] nach allen anderen Lauten ({03} S76).
f.Vokal -> Konsonant Ka 15
Die beim Einsilbler stärkste Einschränkung, postvokalisch keinestimmhaften Ka ({10} 6.1.3.2), kann offensichtlich nicht in dieser
Allgemeinheit aufrechterhalten werden (z.B. "möve" [M0;V6], "dane¬ben" [DANE;B6N]). Wird sie allerdings darauf eingeschränkt, dass
keine stimmhaften Frikative [V], [z], [J] (Untermenge der stimmhaf¬ten Ka) auf kurze Vokale folgen ausgenommen auf den Schwa-Laut (Un¬termenge der Vokale), dann scheint ihre Gültigkeit auch auf mehrsil¬
bige Wörter ausdehnbar zu sein. Stimmhafte Plosive sind dagegen nachKurzvokalen belegt (z.B. "flügge" [FLYG6], "schmuddelig"[5M2D6LIK]).
g.Konsonant Ka oder Kb -> Vokal 33Im Einsilbler ist prävokalisch jeder Konsonant möglich ausser [9]({10} 6.1.3.2). Wiederum mit Ausnahme der Suffixbildungen (z.B. "be-
dingung" [B6DI929]) trifft dies auch im Mehrsilbler zu, womit 11
Lautverbindungen verschwinden. Weder bei Kohler noch im Duden findetsich allerdings ein Beispiel eines deutschen Einsilblers mit prävo-kalischem /X/. Folgerichtig fehlt dieses Phonem auch in Scholz' Li¬ste ({20} Nr.70) der (bezüglich des Vokals) linksstehenden Konsonan¬
ten. Im Mehrsilbler sind [X] und [C] nur in der Diminutivendung "-
chen" (z.B. "häuschen" [HQ7SC6N]) und in Suffixbildungen (z.B. "mil¬
chig" [MILCIK], "Versuchung" [F3RZU;X29]) prävokalisch möglich, in
Komposita interveniert wie bei den Vokal -> Vokal-Übergängen der
Glottalverschluss (z.B. "fachausschuss" [FAX<AUS52S], "kriechöl"[KR1;C<0;L]). Um auch Fremdwörter abzudecken, welche als einzigenoch Träger von Übergängen des Typs /X/ -> Vokal sein konnten, tref¬fen wir folgende Konvention: Prävokalisch in griechischen, hebräi¬
schen und arabischen Fremdwörtern wird "ch-" als [K] statt [C] oder
[X] gesprochen (z.B. "Chirurgie" [K1R2RG1;], "cheops" [KE;QPS]), in
französischen, italienischen, spanischen und englischen Wörtern istohnehin [5], [K] oder [T5] vorgesehen.
-35-
.¦.OHO(NOHooo(.a_'H(.o(.oHOHO'toc.c.,io^oHHino
Ol OO*.OCJO01O_IOOOO_)OOOOOOOOOOOOOOOOOOOOOCM CO
_._>tiCNrioNo_aiHinN_HHn(i)r>inoHOrtHnQH(OriiDa.ooi co r- HSrH<tm co co ¦. co co
-i .» ^ mnl^l_N'l^^tomrlHHn_tDHO-OHo.OHotNHOH._|nHoocnim r.HH -iinro ^
^T-iO'-ioooooooHoomHoc.O'.O'HorMOHoooHc.oHmocn
ONN._OOOK)ONOOOO_OOO^OHOnOHOOO_HO_inO
0000010-.OOOOC.- <oooooooooooooooooooooCM Ol
in ^_I_H(.^-lH(.or.olN(n^_o(0O'^O'-|a'^o•^l.HO(._N[._aH rH rHCN
n inoionoNO.Hino.oNior.ot.oc.O'-iQsooi.HaNCHr.i.o
.oCD Ico a
P.nOMOOO_O(-O0OM^_Ol0OnOHOOO01NfMOHri(i)H(i)O
XUJ 2
raa uj
? _
O D-1 IL Za oou cc_• tu r_
OD 10uj 2 r-.-1 DM ZIL II
QCC ZO •. D —IL O O Ol
*tf IL OlV) CO 0)iü inM II UJ O<_) Q Z r-Z UJ OUJr-IÜ3 < Cl UJO D m HIU JOhCC < 2IL > r- r.
UJ U _lUJ Zz tn •- ujo o t- ccIii.<0. O r-.m 3 amQ UJ
IL U- r.
UJ oour- Zd or er tuJ UJ UJ 3O (D Q_ OW 2 2 UJCD D D tr<ZZIL
._H.OHHWNHOnH(JinrlC)HOHO_OHOHHHONNH(\^0•.«¦¦- CM ¦* H
_(.NC.._riHCO(\l^lD._^HOfiQHO'-iO(.OlIlHHO(.HHO(t)oro *¦ 1 CN in
*v
ocoooio_ioc_-.^o^otoo'._icMo*coir)^rH^fsjoco'-^^ooc_*.o¦H CO f. O CO CD CO N CO H rH CO inHCMCO^J-
r. CM CN -* ,-1
OOOOOOOOOOOOOOOON.NNNHIDO.OOOlDin.ONO.co h <* ¦
_ m to cn cn co h r- -h r-t m m -h •. aiC0 H H ^ r4
OOOOOOOOOOOOOOOCMf-COtOCMHcDCO^'COCOOOHrHr-iotDOCOH rH *J [M r-t
COOOOOOOOOOOOOOOHHHHinr.CM-Hr-t-ir.oOOHHO'.H-i
COOOOOOOOOOQOOOOHtOUl-ih-'-iHHrHr-ioiOOOHtOOlOCNCMCO rH
3 CO C
inooooooooooooooHcoHocM-.maiiNCDcoooco<tcDoooNinCO H CN H rH H
^HOHOCNOHrHHO^OHOnr4^C_CO^-tO_.-HtO^HtDO)COH|-^rHN H CN rH H
_oooooooooooo.OHNma)rtcoHiD...oo_Hir)OH<nnin «H CO H H H
HOOOOOOOOOOOOOO-HNlDNnn.NHCiHOO'iHNOMflPJ
COOOOOOOOOOOOHOOHHtDHCOCMinCMHrHrHOO'.r.OO^CDrO•H CO H
0<OOU.OCOOOCMrHO-.00)'*'*OHOOOOOCOOCJIHtDoincOlDOCNOCO CO H *|- «t (D CM CD CO ID CD -UDO) -< •- ¦. 0) UlCM CO Ul CO H f_ CO
¦<N>DCNUJC0OC_OO<tDÜ.lDHO_:O-->-0NU-X_'~)2Z0)_l0_I
-36-
h.Konsonant Kc -> Vokal 1Im Syntaxdiagramm des Einsilblers kann die Kategorie Kc, deren ein¬
ziger Vertreter [H] ist, nur vor Vokalen ausser dem Schwa-Laut auf¬
treten. Diese Eigenschaft bleibt offenbar auch im Mehrsilbler beste¬
hen, sodass die Verbindung [H6] entfällt.
i.Initialer Vokal 1Von allen Fällen, in denen ein orthographisches "e" als Schwa ausge¬
sprochen wird, bezieht sich kein einziger auf den Anfang eines Wor¬
tes ({03} S80). Da aber ausser "e" kein Buchstabe zu einem Schwa-Laut führen kann, bleibt [6] als Initiallaut ausgeschlossen.
j.Initialer Konsonant 3
Der Laut [9] tritt morphem- und damit auch wortinitial nicht auf
({10} 6.1.1.4.4). Als Folge der Konvention in Punkt g sind zusatz¬
lich initiale [C] und [X] ausgeschlossen.
k.Vokal -> [9] 6
Allgemein gültig scheint die Einschränkung zu bleiben, dass der Laut
[9] keine Langvokale vor sich duldet, womit die Paarungen der Vokal¬
qualitäten [1], [7], [U], [E], [0], [0] mit einem nachfolgendem [9]ausfallen.
1.Vokal -> Konsonant Kc 5Im Syntaxdiagramm des Einsilblers tritt [H] nur in initialer und zu¬
gleich pravokalischer Stellung auf. Im Mehrsilbler kann es daher nur
morpheminitial stehen, das heisst dem Leerlaut oder einem morphemfi¬nal möglichen Laut folgen. Wie vor den stimmhaften Ka in Punkt f
entfallen somit alle kurzen Vokale ausser Schwa, welches am Ende der
Präfixe "be-" und "ge-" steht, sodass sich 5 weitere Verbindungenerübrigen.
m.Schwa -> Konsonant 2
In der betonten Hauptsilbe mehrsilbiger Wörter tritt der Reduktions¬vokal Schwa ebensowenig auf wie im Einsilbler ({10} 6.1.2). In zu¬
sammengesetzten Wörtern (z.B. "liegestuhl" [L1;G65TU;L]) und Präfix¬
bildungen (z.B. "belagern" [B6LAG6RN]) folgt ihm immer die Morphem¬grenze, sodass die nach Punkt j morpheminitial ausgeschlossenen Kon¬
sonanten [X], [C] und [9] als Nachfolger nicht in Frage kommen. Die
Verbindungen [6X], [6C] und [69] wären demnach nur noch innerhalbunbetonter Nebensilben möglich. Allerdings konnte dafür kein einzi¬
ges Beispiele beigebracht werden, auch die Liste deutscher Suffixe
und Suffixfolgen ({03} S21) enthält keines. Es wird daher die Regelabgeleitet, dass auf den Schwa-Laut nur diejenigen Konsonanten fol¬
gen dürfen, welche morpheminitial verwendet werden können. Mit den
drei genannten Verbindungen entfallen zwei weitere mit den bisheri¬
gen Regeln noch nicht ausgeschlossene Lautübergänge.
n.Konsonant -> [9] 20
Sämtliche zwanzig Übergänge entfallen, weil der Laut [9] postkonso¬nantisch ausgeschlossen ist ({10} 6.1.3.9).
-37-
« o> <WS
O t/1oulu.-zoOOr a
z a uj
o s
00 cc uiWHIH £D
a_ coWS*. H_l D Dm z m
QQ_ Z OOSD -
ILOOOIIUr~ u. Ol >
(_ CN 0) OLU </) (DH II UJ O <U Q Z 1-Z UJ O LOUJ r- I O UJ3<ai_ DODm H _JHl JÜH<er < 2 >IL > H m
uj cj _i erUJ z OZWHIUILOQ \~ CCr er v) < ^
ao-H i
m 3 Q LOQ UJ OILlLHh
UJ O O CJ> Z r-
ih tr er uj ujh- UJ UJ 3 .</>< m a_ o-J 22 UJ QUJ D D er zer z z il <t
X 01OOOOOOOOOOOO--iHOOOOOOOO--iOOOOOO'HOO'-"O
Q- 0J(nrJrtrlrlH<J_r1OH(.S.(SHHrlrlrl^OOO^OOOOOHO^O
_J ^rHrHHOrHrHHHOO^'H(-JCMO'H'HO'-'--<HO'-lO-HOOOO'-HOO'-IO
Ol OOHOOO'-'O'HOOOOHOOOOOOOOOOOOOOOOOOOOO
z iDHuiririHNH[MniHHHii)rj)oooHrHO'<ooo^oooaHo-i^arHIIIHI II CM III I!
s [0rHrHrHO--iHr-irHOOO'-i-.CMOO-'OOO'-«OHOO-HOOO--<OO--tO
-> rHOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO
U O-Hr-rHOOOO-HOHDOOO-HO'-iO'-iOOO-iOOOOOOOO'H'-tO
x: OOOOOHOOOOO-hh<,000000000000000 0 OOOOO
in ooHoo-<ooooooO'HrHrHO'Hoaoooooo--iooO'-<0'H'-io
N t0rHo--'0*HO--<OHO'-ioO'Hooooaooo'HOOO*-ioC'--oO'-'o
y-, 0-H^^O_H01flHO^H_HrlO(I10HOHOOOOOOOOHH_HC
> COOOOOOO-HOOOOOO'-IOO'-IOOOHO'HO'-'OOOO'-'OO'-'C-H 1 I III I'
IL C0HrHoO(NO-HOO-HOHrHHHOrHOOOOO'-'O'-iOOOO'-tO'-''-iO
O CDHHOO'HOH-HOOHOHHrHO'-IOOOHOHOOOOOO'-IOOHOI III IIIII II >
z£ c0rHrHO'-irHrHrHHOO'-<--i'--'-*OOOOOOOOOOOO'-iO'-<^,-iO'-'O
Q CO'-IO'HOOO--IOOO--IO'H'-IOOOOOOOOOOOOOOO'-IO'H-HOCM I IIII
'
H r^CMCM-H^HrHrHrHrHOHHCNCM-HOHOCMOHO_10CNCMCNO--'CDO'-'-0
m NrHOHOHO-.HOO'-iOt0-ioO'-<OOO'-iO--HOOO'HO'-'OOOrHO
a ,HrHo~i*-i'-iO'-<-<oO'HH.Hoooaoooooaomooo— oo-h-ho
CD o^O^O.HO-H^^OOO^O-H_)COCO-H(SHOCO^^'--'-tOCNr---i'.CMO
< OlOOOOOOODOOOOQOHriNfjuilrtrtairi.HOO^BNO-ttl.
O HOOOOOOOOOOOOOOOHrHrHHHCNrHrHrHOOOO--<^0"-t-H^
O rHOOOOOOOOOOOOOOOHHOrHOHrHr-ifOHOOOOOOHHrH
co rHooooooooooaooooo-.O'-ioaoooooooooO'.oo
O 0O00000000000000HrH0.i00000CN0OO0O00-.rH
CO l-OOOOOOOOOOOOOO-HHrHrHrHHHrHrHHrHOOHrHHO'^'^CNUJ CMOOOOOOOOOOOOOOOHrHrHrHrHHrHOHrHOOHHrHO^HH
CM rHOOOOOOOOOOOOOOOH-HHrHrHH-HrHO'HOO'HrHHO'H'-,'H
3 OOOOOOOOOOOOONOO'HO-iO'-0'HCMrHrHOOO*-'HOrHHrH
> oOOOOOOOOOOOOOOOOHO'-tOHO'-tO'HOOOOOO'HOHIIIII II
r- HOOOOOOOOOOOHOOOOHOOOHOOOOOOOHrHOHrHrH
M CDOOOOOOOOOOOOOOHrHHrHrHrHHHrHCMOOOOHCNO'HHrH
«h cOOOOOOOOOOOOO^O-iO-»NOOHCOHiDOOOO'H^OCMHrH
^ hmi_>3Cmijjcoomoa<cDQ.__r-Q_:oiL>i-ONinxu-)2zoi-Jcrx
-38-
o.Konsonant Kc -> Konsonant 18Ebenso sind alle Verbindungen von [H] mit nachstehenden Konsonantenunmöglich, da offenbar im Mehrsilbler wie im Syntaxdiagramm des Ein-silblers Kc nur prävokalisch auftritt.
p.Konsonant Ka -> Konsonant Ka 78Im Einsilbler sind Übergänge zwischen Ka nur dann möglich, wenn bei¬de Ka stimmlos sind ({10} 6.1.3.3), was für den Mehrsilbler offen¬sichtlich nicht aufrechterhalten werden kann, da hier zusätzlichstimmlos -> stimmhaft Verbindungen auftreten (z.B. "abbauen"[APBAU6N], "ausdauer" [AUSDAU6R]). Für die umgekehrte Lockerung derEinschränkung, wonach der erste Ka stimmhaft sein dürfte, konnte je¬doch kein Beispiel beigebracht werden, sodass 78 noch nicht erfasstePaarungen gestrichen werden dürfen.
q.Konsonant Ka -> Konsonant Kb 11Bis auf die Ausnahme [VR] (z.B. "wrack" [VRAK]) sind stimmhafte fri-kative Ka vor Kb nicht möglich ({10} 6.1.3.7). Die noch seltenerePaarung [VL] im Namen "Vladimir" wird als fremdsprachlich verworfen.
r.Konsonant -> Konsonant Kc 6Wie bereits unter Punkt 1 erwähnt, darf ein Kc nur vor dem Leerlautoder einem final möglichen Lauten stehen, womit nochmals 6 Übergängeausgeschlossen werden können.
s./X/ -> /X/ 2Im Einsilbler muss bei Lautverbindungen zweier stimmloser Ka minde¬stens einer apikal sein, mit Ausnahme des Übergangs [PF] ({10}6.1.3.4). Im Mehrsilbler hat diese Regel praktisch keine Gültigkeitmehr, da durchaus zwei nicht apikale Ka aufeinanderfolgen können(z.B. "aufkommen" [AUFKQM6N], "abwaschen" [APVA56N]). Ausgeschlossenbleibt jedoch offenbar die Paarung zweier Phoneme /X/ (stimmlos,nicht apikal, nicht plosiv, nicht labial), wenn man von Konstruktio¬nen wie "bächchen" oder "mönchchen" absieht, welche im Sprachge¬brauch indessen durch "bächlein" resp. "mönchlein" ersetzt werden.Mit [XX], [XC], [CX] und [CC] entfallen zwei zusätzliche Verbindun¬gen.
t.Leerlaut -> Leerlaut 0Bereits in Abschnitt 3.1 berücksichtigter Trivialfall.
Durch keine der erwähnten Regeln ausgeschlossen und damit in der deut¬schen Sprache grundsätzlich möglich bleiben 808 Lautubergänge. Im un¬tersuchten Text vorhanden sind davon 481. Um diese Anzahl belegterLautverbindungen weiter anzuheben, ist eine Liste von naturlichendeutschen Wörtern mit ausgesuchten Lautverbindungen angelegt worden,welche im Text noch fehlten. Damit konnten total 767 Lautübergängenachgewiesen werden. Welche dies sind geht aus der ExistenzmatrixFig.3.3 hervor. Die Anzahl in der deutschen Sprache realisierter Laut¬übergänge liegt also zwischen diesen beiden Schranken von 767 und 808,vermutlich jedoch wesentlich näher am unteren Wert, da es rechtschwierig ist Beispiele für weitere Verbindungen zu finden.
CULi
x,i
i=
1C
lTJ
Cin
11
1Ul
eC
SZUJ
11
f-
3U
4-1Ql
4-1U
•rAU
dO
OJ3U
¦U
301
0u
UH
r|O
SQ
£r.
30>
£01
0J3
>*JN
3x:
nT)
HJ3
10UJ
S*=)
tn
rflin
Q)>
X10
uC
o(0
SZ_
£_.
3e
l/l•a
COl
_rl
rl01
c.o
-e
..
fl>nj
cu01
IZ01r_
01Eh
Olui
Cr-A
0Ul
uit/1
4-Jrd
£4J£
x.tr¬
HH
•rA-ulZ
UJ
QUi
01r-A
Er-l
UJ
a>CU
—(
euu
ITIX
tnOl
IO-rH
inOJ
ui
tD(0
UlUl
4-1tjl
TJCU
w.
_;
_
mXI^
01fll
•X.
CUH
rH0)
¦H£
LiCt-
in£
U£
EhCZ
J£Tl
(*•10
HH
01C
_
3TI
(U3
CU(0
-H
Ql01
OlOi
OlN
uiE
10C
01Ul
Lity-
3£
rH
_H
rH
=c
tri5
CH
<*»Ol
C¦HS
Osz
XJ-1
4-1H
rH
CUtJ1
fl>c
MOl
unO
<sz
•rlo
01H
in<-t
4-1CU
SZO
UJ
¦10Ol
Oi3
l/l_S
UlOJ
o4H
•rH-r|
OlCU
HX.
t7»in
rdS
-X.
Ol>
rH
HOU
3Ul
•r|J<
aiUl
UJ
XICU
U0>
CUTJ
£'—¦
utH
I-IOX
SZ:3
IH(0
OirHC
UlOl<
4-»rö
OSLi
3J
301
inhh
u+-I
fl)Ui
cUl
3Ol
V)Ql
§c
QJTJ
•-
tnXI
'-IC
-A
l/lTl
10tO
13b.
XJDQ
CUC_
*->£
OUa
OJ_i
01in
QOi
UJ
01§
ND-
CUH
3inH
tuA-l
B3
inO
Ui10
AA
4-JLi
_.
0)rH
OJHH
3fö
-H
_CO
Tl•
01c
Uiu
UXZ
rdCU
_£u
S£
röH
c10
Ol_
Ol0)
flc
-uiXJ
OJ01
cuu
intJ
Utn
0)rH
3rj
•H
io.
tn3
rH
13Ih
TJ3
TJ-H
Ei£
OH
cux:
4-i>
QTJ
tnt-l
r-lAJ
01(U
3CU
"O4-1
£(J
-r.
•—'
tn0J
0JrA
t-l01
3TJ
TIin
S4-J
r-A__
X.Li
etu
C.
-Ol
*H
E-H
ui
tDUl
e3
6-<
£coO
Oi_
TI01C#CH
0)tn
_]
UJ01
3OJ
4->fd
rd<U
4-1X.
TJ=
c.
-i
inj-
.*tu
CHJ
Hin
-4-14-1
O•
CUrH
Olr-l
_i
.tue
_>Oi
Oic
01._
cue
0)cd
cN
Cn0)
0c
01rH
•=*_
01O
HUl
01N
10Ul
¦H
ox:
4-1o
4J
-HH
3N
ID01
.Ol
<u
10TI
OUi
CTJ
-u
*-*xz
_
4J
TJLi
-U
c_._
c3
TJC
_10o
4J
tnrd
3C_
X.X,
4J
U•rA
01-rlO
1(0Ul
:(0u
[_sz
•rl£
_
_
0)£
U)U
U^-H
010)
OlE
Oitux
rC01
uUJ
rdi
.
£cu
VirA
£>
Iul
OlU
USZ
•H
Crh
tn0.
£4->
£<L>
_
tn
Utn¦—¦
-rlOJ
CC
Ulu
U|E
cJtf
£0)
rH
CULi
0-3
01ojy
nxi
01Ol
-H
-H
>0•rl
•H
Mrd
_.
rH
£4-1
O£
£<
X!UHZ
d=13
Ih+J
x:oj
10UH
(0(d
CUf.
_E(U
(fl•
i—i
10Ifl
Uia
a.a
014-1
rH
<4-|tn
4-J£
.-.
CO_
C**
sn
S01
10ui
X.Q
mCU
¦H
£CU
3£
x._i
•Ol
01•
UJN
rr,•rH
Ul3
Ox:
a.qj
rA£
CUH
CUN
oSZ
A-lf>C
OrA
OlN
c3
0)cu
U4-i
_aTJ
cux:
>¦—
zu
•rH•
0J-IH
UlCO
3XI
aio
UJH
rH
£Q>
_3CJ
cu_J
in01
oiE
e3
•rl3
3c
rH
Ein
roUJ
t/1_;
inCU<
3in
x:c
_1
rAj:
3N
s0)
N4-J
uQ)
£rH
U01_H
UJ
10._
cn
cui
_
1104-1
£4-1
W3
rH
4-1CU
61Ul
¦H
C_01
UJ3
•io
01HJ
UiLi
<UJ«
in
-h
CUCU
3Li
H-H
UH
Ol-rl
t-lUt
Oioi
x:OJ
_
X.3
_)QJ
TJS
rdrd
0!UJ3
X01
tnE
01fl)
HTJ
rlu
£01
.?3
3:
s_¦J
3=I_
10HO
•H
rH
CTl
_.
cOl
Ul£
>£
»>
_ix:
tn(0
i-Htn
+J10
iH¦IH
01¦rA
Li0)
LiCU
£Li
Ulin
int->
czaj
¦HC
s0)
UlXJ
Li3
'Sdi
CrN
£cu
rej£
HC
(0-rl
•-H
Et|H
_>Ol
eoj
CUH
TJC
QJ_<_
TJ£
£O
TJ
.
(.M
Olsz
-H
310
1XJ
££
3(U
X.£
TJ(_
01-u
inOl
Liu
<Q)
Ntu
a.•¦H
-Ü4-i
.
Hli
lit_
XiOJu
in*
fl)*
Ulsz
z<_01
tP£
¦-I£
tn£
wXZ
*M
(Uo
OIh
•H10
Ol
OQC
HHHU
uUl
>OJ
<ULi
r-A:_J
¦-¦
8.
*M
in
A-l0)
Tl01
3ui
a>3
10c
VILi
H-J0)
4->Li
>;ht
3UH
_sai
•U
Nrl
TJ10
UJo
mO
0)N
0)X.
0)ul
Ih_l
m3
Ol_l
l-lIM
OlUl
.y3
_JCQ
££
U4-1
3fl>
Cr.
öl¦.
¦Hin
3H
OiUl
<—t
TJLiin
SZrn
4J
dl„
r—>
XSZ
_l
-H
-M
tDUl
_Ol
UlOi
01£
(U£
CJ_
CpOJ
IrtJu
C3
HH
(0oi
rac
OlTJ
Li0)
Ho
HH
CO
C«1E
«Ji¦rA
01110
OlS
_>-U
j_
CTl
3a
c:Q)
4-1ai
cuCU
CdÄ
(U?
_Ul
tOin
•oa:
cr-A
0)c
HOin
t(0oj
LiCZ
¦H
Ö"<0»
TJiQ
öiO
ci
SM
-H<
ro
c3
SZ01
Oi-
inOi
Olsz
cin
TJa>
Tl¦—¦U
HHE
_SZ
toUl
H-rA
(04J
N£
eu
tuqj
szO
rH
01rQ
UCZ
yy
Dl_10J
uuh
010J
J*£
H4-J
¦rA3
i_
_XIOK
I-H¦rJ
01Ol
HH
XJXJ
rlUl
XJUJ£
CUQ)
Q)cd
_-.
NUH
fc.:_
Uli—i
I-HQ
OlTl
XJ¦—¦
:3Ul
Ul13
rH
_]3
UlH
rQe
x»Ul
OiII
<_II
(1II
_:II
zll
oII
XII
l_II
I-HII
uIIII
55II
UII
t".II
UH
UII
5IIII
HII
t/1II
COl
CUJ
_ä1
TlTJ
11
*J1
01SZ
WSZ
UC
CC
u•-A
Uu
ulV
-0O
10>*
33
fll(0<
tuUl
rH
CH
HJ
UJ
szs
13O
01C
UlC
ct-l
szE
tnoi
UH
01-3
czu
rH
U•H
r-lrH
Ol10
UJ
..
Dlo
tn01
E-h
(0tu
cr-l
CC!
UH
3TJ
10E
•H
01r-l
OJrl
CUUH
TJH
fl)fll
cHEU«
ujin
uii-j
ujc
-1O
OlX
3TJ
x;Ul
o!_
rH
11)10
Cu
u•
Olic
TJUl
OH
01u
fl)-ui
OiC
riin
uh
SZUl
3•a
cc
C•H
SrHC
U3
¦a0
0101
Ul(0
'rlU
H(0
duj
¦ac
fll01
UJ
ujfll
o>_
coi
_oi
x:u
OiC
XJt6
0101
-H
CUJU
Oico
Ul3
HJ
rH
(0Ul
•rlC
01•rA
¦H
Ol3
rH
OJA
tnrH
(0rH
.
UJ
HN
t-i10
SO
UUJ
OJ_;
uj
ux:
ee
3E
HXJ
cu
01¦uC
3UJ
3>
310
Ul¦rl
C01
UlUl
(0it.
dd
oic
(0c:
CU
fllOl
fll01
3O3
Olx:
oi-uj
Oltu
0i._
0JSZ
t-ltu
cc
¦r|¦rl
•rACu
•in
CUl
:|fl01
SZ-H
tuuj
UlrH
CUl
•H
Olu
szu
aai
iiitu
UJ
uin
uu
10c
sz¦rl
OlrH
¦rtm
01dl
COl
r>.c
oixj
fllt-l
ux;
czC
OlUJC
0JJ<
:3Tl
CZfll
10r-A
fl)UJ
Ultu
ujOi
ujcg>
TJ01
TJUJ
UiTJ
H-rl
33
N111
OlIh
OlTJ
(0u
01u
UlC
CXJ
>01
_;C
-Jo
Ulsz
3•rH
~H
.S
Oi(0
flla
01Oi
Ul•H
HJ
Cc
TJtn
u-C
3UJ
UH
Ul0)
fllc
oHJC
rla,
tu0J
rH
Uc
3-
!_x;
flj01
IhTl
3rH
fljrH
01o
TJO
C(0
OOi
OlC
rH
uH
UiC
_!0J
x:>
rlN
fllH
01c
01Ui
CS
Ctu
eSZ
DlTJ
*dlO
UlO
013
UUJ
OJUJ
SZDl
SZUl
:(0tu
UlN
inH
Oic
uia
>am_
•rAt-l
Ul_.
cHl
:0-H
•rlrJ
tuA-l
tD3
UK0
TJ3D
UJQ
.Ol
•HXm
EX
OlC
X0)
-rlTJ
10z
Ul3
CUJ
0JC
OlTJ
UJ
TJ01
(_01
UH
-rHtui
Ehtu
_§ui
EHXI
01H
x:fli
ue
cX
¦3Oi
UM
OC
3Ol
tntu
uUJ
COi
Dl•rA
-H
UH
uu
§I-H
3UO
fl>Ol
r-lDl
(0»fl
Cfll
J10
Ol>
CQH.UH^
301
UJ
rH
iL.rJ
UJ
XJsz
u01
0hU
EDI
¦OOi
3H
•u
3Ol
uo
TJ_«u
UlH3
drA
Ol3
CTJ
rH
(J-H
crH
3•
¦rHU
3OJ
UlX3
flltu
tuoj
u•Sf
TJOJ
rH
UXJ
UU
-rAJJ
d•
OlE
01fll
3SZ
•rl¦H
TJrA
110S
4Jc
UJ
UUJ
tuX3
du
cn
10U
(0C
Heac
3U
fllOl
OlM
QH
t/13
013
Ul01
NUl
uj
TJTJ
kumulierteHaeufigkeit
in%
vs.
AnzahlLautuebergaenge
nachfallender
Haeufigkeitgeordnet
i'ijjt!'•i;
80i!li
üüi'
lli
¦
ii''i
¦(\;
:':'.IUI
:¦¦
80
ys
¦':.
IiiIii!ni
ijj'.'l
i:
40
Uliih!I.i
t
¦
Ih! Ijlii
20
¦ffff
23
4S
67
8910
23
.
56
TB9100
23
45
67
891000
Fig.3.5Verteilung
derLautübergänge
-41-
Ein für die Gewinnung von Diphonen geeigneter Korpus soll
-alle deutschen Lautübergänge umfassen,-lediglich aus natürlichen Wortern bestehen, da die Aussprache von
künstlichen Wortern, Eigennamen und Fremdwörtern nicht immer verbind¬
lich festgelegt ist,-die jeweils interessierenden Übergänge in möglichst gleichartiger Um¬
gebung in bezug auf Lautnachbarn und Silbenstellung im Trägerwortenthalten,
-nicht von Annahmen ausgehen, die im gegenwärtigen Stadium noch einer
experimentellen Überprüfung bedürfen,-von einem einzigen Sprecher sauber und konsistent artikuliert werden,-möglichst wenig ausgeprägt betont werden.
III.4.2 RICHTLINIEN BEIM ZUSAMMENSTELLEN DES DIPHONKORPUS
Die nachfolgenden Kriterien zur Auslese der in den Diphonkorpus aufzu¬
nehmenden Worter bezwecken alle dasselbe, nämlich eine möglichst rei¬
bungslose Verkettung der aus dem Korpus zu gewinnenden Grundelemente
bei der späteren Synthese sicherzustellen. Dazu sind insbesondere zwei
Forderungen zu erfüllen:-Die bei der Verkettung ursprünglich nicht benachbarter Grundelementeentstehenden Diskontinuitäten in den Modellparameterverläufen sollen
so gering wie möglich ausfallen.-Die den zur Synthese verwendeten Grundelementen von ihrem ursprüngli¬chen Kontext her anhaftende prosodische Färbung soll ebenfalls mög¬lichst wenig ausgeprägt sein.
Dieser Forderungen wegen ist das von Moore {30} vorgeschlagene Vorge¬hen, das sich allerdings auf phonetische Testsatze und nicht Diphonli-sten bezieht, in diesem Zusammenhang nicht geeignet. Der Vorschlagsieht vor, mittels Computerunterstützung die einzelnen Elemente zu¬
nächst nach steigender Häufigkeit zu ordnen. Mithilfe dieser Liste
stellt im nächsten Schritt eine Person Worter zusammen, wobei sie ver¬
sucht möglichst weit vorne auf der Liste stehende, also seltene Ele¬
mente zu verwenden und jedes Element nur einmal zu benützen. Durch Um¬ordnen der Liste, wobei die nur schwer einzubauenden Elemente einen
besseren Platz am Anfang erhalten, und Wiederholung dieses Schrittesentsteht schliesslich eine äusserst kompakte Sammlung von Wörtern, die
sämtliche Grundelemente enthält. Allerdings treten sie ohne irgendeineRegelmässigkeit an jeder Stelle innerhalb der einzelnen Wörter auf,sodass sowohl von der lautlichen Umgebung als auch von der Betonungher grosse Unterschiede zwangsläufig auftreten müssen.
Lautliche Einbettung:Die lautliche Einbettung des jeweils interessierenden Diphons kann
nach zwei einander teilweise ausschliessenden Prinzipien erfolgen:-HaufigkeitsprinzipJeder Diphon soll von denjenigen Machbarlauten begleitet werden, dieihm in natürlichen Texten am häufigsten vorangehen resp. folgen. Da¬
mit wird die Diskontinuität beim Zusammentreffen mit den wahrschein¬lichsten Nachbargrundelementen mimmalisiert.
-UniformitatsprinzipAlle Diphone sollen möglichst immer von ein- und demselben Nachbar¬laut begleitet werden, wobei dieser einer artikulatorischen Neutral-
-42-
stellung entsprechen soll und keine weitreichenden Koartikulationsef-fekte auslösen darf. Mit diesem Kriterium wird eine über alle Grunde¬lementverbindungen minimale Nahtstellendiskontinuität angestrebt.
Da sich die meisten Laute mit einer ganzen Reihe anderer Laute kombi¬nieren lassen, von denen mit wenigen Ausnahmen keiner derart domi¬niert, dass er alle anderen zusammen an Häufigkeit übertrifft, fälltdie Entscheidung zugunsten des Uniformitätsprinzips. Allerdings mussdieses etwas abgeschwächt werden, wenn der gesamte Korpus wie verlangtausschliesslich aus natürlichen Wörtern aufgebaut werden soll. Ausphonotaktisehen Gründen müssen mehrere Vorzugsnachbarn zugelassen wer¬
den, die nicht nur möglichst neutral und untereinander ähnlich, son¬
dern auch noch weitgehend frei kombinierbar sind. Als Vorzugsnachbarnsind gewählt worden,unter den Vokalen:[6] Schwa, der Neutrallaut par excellence, seine
Artikulationsstellung entspricht der Ruhelage des
Sprechapparates.[8],[3] kurze Vokale, ähnliche Formantfrequenzen wie [6].[0;],[3;] lange Vokale, ähnliche Formantfrequenzen wie [6].und unter den Konsonanten:[L] Liquidlaut, Artikulationsstellung ähnlich [6],
recht frei kombinierbar.[_].[V],[J] stimmhafte Frikative.[S],[F],[5] stimmlose Frikative.[N],[M],[9] Nasallaute, bis auf die Nasalierung recht neutral
artikuliert, vor allem [N] sehr frei kombinierbar.Nicht in diese Liste aufgenommen worden sind insbesondere die Plosivewegen ihres koartikulatorischen Einflusses auf bestimmte Nachbarlaute(cf. V.5.2.1), und trotz seiner hohen Kombinierbarkeit [R], wegen derverschiedenen freien Varianten, die zum entsprechenden Phonem existie¬ren. Als ungünstig hat sich später lediglich die Einbettung eines Plo-sivlautes nach einem stimmlosen Frikativlaut (vorab [5]) herausge¬stellt, da letzterer offenbar abschwächend auf den ersteren wirkt. Einaus einer derartigen Umgebung hervorgegangener stimmloser Plosivdiphonbewirkt in anderem Kontext die Wahrnehmung des entsprechenden stimm¬haften Plosivlautes (cf. Aspirationseffekte in VIII.4.2).
Ort des Auftretens:Da prosodische Effekte nicht nur die Beziehungen zwischen den einzel¬nen Wörtern eines Satzes reflektieren, sondern auch innerhalb einesWortes die einzelnen Silben verschieden gewichten, sollen die Grunde¬lemente möglichst immer derselben Silbe entnommen werden. Ausser füreinige typisch wortinitiale resp. -finale Lautübergänge (wie etwa dieunbetonten Affixe "be-", "ge-", "ver-", "-er", "-en") trachten wir da¬nach das Diphon in betonten Mittelsilben vorwiegend dreisilbiger Wör¬ter auftreten zu lassen. In betonten Silben darum, weil der menschli¬che Hörer Aussprachefehler innerhalb betonter Silben leichter wahr¬nimmt und so den Sprecher sozusagen zwingt diese deutlicher und lang¬samer auszusprechen als unbetonte. In der Mittelsilbe darum, weil sieeinerseits kein ausgeprägtes Betonungsmuster trägt, wie etwa der Aus¬klang innerhalb der Endsilbe, andererseits weil sie am besten eine denobenerwähnten Richtlinien entsprechende lautliche Einbettung gestat¬tet.
-43-
III.4.3 AUFBAU DER DIE DIPHONELEMENTE ENTHALTENDEN WORTLISTEN
Der zusammengestellte Korpus enthält sämtliche belegten Lautübergänge.Für die meisten, speziell die häufigeren Diphone ist mehr als nur einTragerwort aufgeführt, um Ausweichmoglichkeiten offen zu halten, fallssich die eine oder andere Einbettung hätte als ungeeignet erweisensollen. Darüberhinaus sind einige Laute mehrfach aufgelistet worden,um die in Abschnitt 2.3 getroffenen Annahmen verifizieren zu können.Dies betrifft die Laute [A] und [3], die in jeweils zwei verschiedenenQuantitätsklassen existieren, wobei bei letzterem auch noch zwischenseiner Herkunft von orthographisch "e" und "ä" differenziert wordenist. Weiter sind für die drei Diphtonge sechs separate Listen erstelltworden, für den Fall, dass sie sich nicht als Vokal -> Vokal-Übergängehätten synthetisieren lassen und stattdessen als eigenständige Vokalehatten aufgefasst werden müssen. Schliesslich wurden noch eine Listefür Spezialfälle, d.h. grösstenteils fremdsprachige Laute und Lautver¬bindungen sowie eine Liste mit Einzellauten erstellt, sodass der in
langwieriger Kleinarbeit zusammengestellte Korpus 48 Listen mit insge¬samt ca. 2200 Wörtern umfasst, was bei der verlangten Sprechdisziplineiner Brutto-Abspieldauer von knapp 1.5 Stunden (!) entspricht. Dervollständige Korpus ist in der Literatur {04} enthalten.
II1.4.4 SPRECHER, AUFNAHMERAUM UND -APPARATUR
Der Diphonkorpus ist von einem professionellen Sprecher gesprochenworden. Kuwabara und Ohgushi {74} haben an japanischen Sprechern fest¬gestellt, dass professionelle Ansager im Vergleich zu Laien die Arti¬kulationsmöglichkeiten besser ausschöpfen. In der Sprache der Berufs¬sprecher konnten sie die für einen gegebenen Laut typischen Formant¬
frequenzen deutlich ausgeprägt erkennen, während in derjenigen derLaiensprecher die Zielwerte zwar angestrebt aber in aller Regel nichtvollständig erreicht wurden.
Unser Sprecher war angewiesen worden, sich an die erwähnte Aussprach¬norm zu halten, langsam und deutlich aber dennoch unverkrampft zu
sprechen, keine Endungen zu verschlucken und möglichst wenig zu beto¬nen. Seine Stimmgrundfrequenz variierte höchstens im Bereich von 67bis 125 Hz. Die Aufzeichnungen sind im reflexionsfreien Schallmessraumdes Instituts für Fernmeldetechnik der ETHZ durchgeführt worden. Diefolgenden für die Aufnahme benutzten Geräte sind derart plaziert wor¬
den, dass keine Fremdgeräusche (z.B. vom Tonbandantrieb) und Reflexio¬nen (z.B. von einer Tischplatte) in das Mikrophon gelangen konnten.
Mikrophon: Kondensatormikrophon Sennheiser 405mit Windschutz auf Federhalter montiert
Tonbandgerät: REVOX A77, 2 Spur, LRA02
Aufzeichnungsgeschwindigkeit 19 cm/sMischpult: Stellavox (lediglich als Vorverstärker)Bandmaterial: Agfa PEM 369, 1100 m
-44-
KAPITEL IV. OBJEKTIVE VERZERRUMGSMASSEllf************************************!.**
IV. 1 BEDEUTUNG OBJEKTIVER VERGLEICHSMETHODEN
Das Ziel dieses Kapitels besteht darin, im Hinblick auf die Gewinnungder Diphonelemente ein Instrument zur wahrnehmungsgerechten Beurtei¬lung der Ähnlichkeit resp. Verschiedenheit von Signalausschnitten zur
Verfügung zu stellen. Die in diesem Zusammenhang zu vergleichendenSchnittstellen zwischen den Lauten und quasistationären Phasen inner¬halb der Laute sind derart kurz (ca. 15 bis max. 200 ms), dass einesubjektive Beurteilung mit dem Gehör nicht möglich ist. Objektive Ver¬
gleichsmethoden sind primär für Zwecke der Bewertung und Optimierungder Güte von Sprachübertragungsverfahren entwickelt worden {33...35},um die recht umständlich durchzuführenden und nie exakt reproduzierba¬ren Hörversuche zu vermeiden. Obschon gewisse Begriffe aus der diesbe¬
züglichen Literatur in unserem Zusammenhang etwas deplaziert wirkenmögen (z.B. 'Verzerrungsmass'), wollen wir sie dennoch verwenden, wenn
dies durch dieselbe mathematische Definition gegeben erscheint.
«.
ParameterE> extraktlonQuuitiaierting
^ undCodierung
¦^ Speicherung
¦^ Speicherunf
\
Reaynthese Decodierung Uebertragungs-kanal
Stoerung
Fig.4.1 Anwendungen objektiver Vergleichsmethoden
-45-
Mögliche Anwendungen objektiver Methoden zum Messen der durch einen
bestimmten Verarbeitungsschritt hervorgerufenen Verfälschung des
Sprachsignals oder zum Vergleich verschiedener Signalausschnitte aufihre Ähnlichkeit hin sind (cf. Fig.4.1):a.Wahrnehmungsmässig fundierte Messung der Güte einer digitalen
Sprachübertragungsstrecke oder -aufZeichnungseinrichtung,b.Beurteilung der Veränderung eines Sprachsignals hervorgerufen durch
dessen Darstellung als Folge von Parametersätzen mittels eines Mo-
dellierungsansatzes.c.Minimalisierung von Verzerrungen bei der Quantisierung und Codierungder erwähnten Parametersätze. (Bei der Skalaren Quantisierung ge¬schieht dies implizit durch die Wahl geeigneter Quantisierungsfunk¬tionen, bei der Vektorcodierung explizit durch Abbildung auf denähnlichsten Mustervektor.)
d.Bewertung der Sprachverzerrungen aufgrund der Übertragung von Mo¬
dellparametern über gestörte Kanäle,
e.Vergleich von Sprachausschnitten mit gespeicherten Referenzmustern
zwecks Sprecherverifikation, -Identifikation oder Spracherkennung,f.Hilfestellung bei der Isolierung der Grundelemente für einen Sprach¬
synthetisator, hauptsächlich zum Auffinden quasistationarer Signal¬ausschnitte, zur Lautabgrenzung und zur Minimalisierung der sich aus
der Verkettung ursprunglich nicht benachbarter Sprachausschnitte er¬
gebenden Diskontinuitäten.
Infolge der unterschiedlichen Zielsetzungen und der vielen verschiede¬
nen Signaldarstellungsformen kann es keine universelle objektive Beur-
teilungsmethode geben. In den folgenden Abschnitten wird daher die
Auswahl eines für unsere Zwecke (Punkt f) geeigneten Verzerrungsmassesbegründet.
IV.2 DEFINITION VON QUALITÄTS- UND VERZERRUNGSMASSEN
Die meisten objektiven Beurteilungsverfahren schreiben ein Vorgehen in
zwei aufeinanderfolgenden Schritten vor:
l.Zwei Vergleichskandidaten, wie z.B. das verzerrte und unverzerrte
Signal, werden jeweils für einen Ausschnitt j miteinander vergli¬chen. Die auf diese Art lokal ermittelten Abweichungen werden quan¬titativ mithilfe eines noch näher zu bestimmenden Verzerrungsmasses
d(j) ausgedrückt.2.Diese Verzerrungsmasse werden sodann über die Gesamtheit des jeweilsinteressierenden Sprachmaterials gemittelt, um als integrale Grosse
ein Qualitätsmass q zu erhalten.
E w(j) d(j)j
(4.1)£ w(j>j
Die Wahl der Gewichtungsfaktoren w(j) legt dabei die Art der Berück¬
sichtigung der lokalen Abweichungen fest. Die Mittelung kann nämlich
entweder gleichförmig erfolgen (w(j)=l für alle j) oder aber indivi¬
duell gewichtet beispielsweise mit der jedem Ausschnitt innewohnen¬den Signalenergie, beruhend auf der Annahme, dass Fehler in energie-
-46-
reichen Sprachauschnitten stärker empfunden werden als solche inleisen Passagen. Andere Strategien sehen eine Klassifizierung dereinzelnen Ausschnitte in phonetische oder akustische Kategorien(z.B. still, periodisch und aperiodisch) und eine darauffolgende Ge¬wichtung entsprechend dem Unterscheidungsvermögen des menschlichenHörsinns für Laute der entsprechenden Kategorie vor {40}.
Wegen der ausschnittweisen Bestimmung der Verzerrungen werden derarti¬ge Methoden als framed bezeichnet. Demgegenüber liefert dasSignal/Rauschverhältnis, so wie es in der Nachrichtentechnik gewöhn¬lich verwendet wird, direkt in einem Schritt ein Qualitätsmass, indemder Quotient zwischen Signal- und Rauschenergie über einen langen Zei¬tausschnitt bestimmt wird, es gilt daher als unframed. Es ist dennochmöglich auf Signal/Rauschverhältnissen beruhende framed Qualitätsmassezu berechnen, als Verzerrungsmass dient dabei das über einen einzelnenAusschnitt (Frame) bestimmte Signal/Rauschverhältnis.
Für gewisse Aufgaben, wie in Punkt f und teilweise auch c und e er¬
wähnt, reichen die lokalen Verzerrungsmasse völlig aus, da ohnehin nureinzelne Frames miteinander verglichen werden. Leider können aber Ver¬zerrungsmasse nicht ohne weiteres auf ihre Wahrnehmungstreue hin über¬prüft werden, denn die zu ihrer Berechnung herangezogenen Ausschnitteentziehen sich wegen ihrer zu kurzen Dauer einer subjektiven Beurtei¬lung. Der Weg zu wahrnehmungstreuen Verzerrungsmassen führt alsozwangsläufig zur Beurteilung und Auswahl von Qualitätsmassen. Die Aus¬wahl eines wahrnehmungstreuen objektiven Qualitätsmasses kann nur er¬folgen, indem die Resultate mehrerer Verfahren, welche jeweils be¬schrieben sind durch das verwendete Verzerrungsmass und die Art derMittelung über alle Sprachausschnitte, den von einer grösseren Hörer¬gruppe in einem Test erarbeiteten Ergebnissen gegenübergestellt wer¬
den. Je besser die Übereinstimmung, desto wahrnehmungstreuer das Qua¬litätsmass. Derartige statistische Gegenüberstellungen müssen sichüber ein sehr umfangreiches Material (Art der Verzerrungen, Sprecher,Vokabular etc.) erstrecken, um repräsentative Aussagen liefern zu kön¬nen.
-47-
IV.3 ANFORDERUNGEN AN VERZERRUNGSMASSE
Wenn von zwei Sprachsignalen die Darstellungen s und s' gegeben sind,welche nicht notwendigerweise Zeitfunktionen sein müssen, können von
einem Verzerrungsmass verschiedene Eigenschaften verlangt werden
{31,32}:a.perzeptorisch konsistent
Das objektiv bestimmte Verzerrungsmass d(s,s') muss für alle s unds' möglichst eng korreliert sein mit den Resultaten eines subjekti¬ven Hörvergleichs zwischen s und s'.
b.positiv definit
d(s,s') > 0 (4.2)d(s,s') = 0 dann und nur dann, wenn s' = s
c. symmetrischd(s,s') = d(s',s) (4.3)
d.erfüllt die Dreiecksungleichungd(s,s') < d(s,s") + d(s",s') (4.4)
e.physikalisch interpretierbarIn mindestens einem Darstellungsbereich des Sprachsignals (Zeitbe¬reich, Frequenzbereich, Paramterraum etc.) soll das Verzerrungsmassd(s,s') sinnvoll gedeutet werden können.
f.berechenbarDas Verzerrungsmass d(s,s') soll mit vertretbarem Aufwand berechnetwerden können, unabhängig davon in welcher Darstellung die Signale s
und s' gerade vorliegen.
Je nachdem welche der drei Eigenschaften b, c und d erfüllt sind, wer¬
den Verzerrungsmasse wie folgt klassifiziert:
positiv Dreiecks¬definit symmetrisch ungleichung
Verzerrungsmasse 1 X XDistanzmasse 1 1 X
metrische Distanzmasse 1 1 1
Von den zur Sprachsynthese benötigten Verzerrungsmassen wird insbeson¬dere die Erfüllung der Eigenschaften a, b und f verlangt, wobei dieBerechenbarkeit auf die bei der Methode der linearen Pradiktion auf¬tretenden Darstellungsformen des Sprachsignals beschränkt bleibenkann. Für die Beurteilung der perzeptorisehen Konsistenz greifen wirauf die Resultate von Barnwells Untersuchungen zurück.
IV. 4 DIE VERSUCHE VON BARNWELL
Barnwell {36...41} hat in grossangelegten Versuchen objektive und sub¬
jektive Beurteilungen verschiedenster Verzerrungsarten einander gege¬nübergestellt und deren Korrelationen gemessen. Darüberhinaus hat er
für jedes der untersuchten Distanz- und Verzerrungsmasse die freienParameter optimiert um die jeweils bestmögliche Übereinstimmung zu er¬
zielen. Sein Vorgehen zeigt Fig.4.2 .
-48-
Zusammenstelleneiner SammlungunverzerrterSprachproben
AnwendungverschiedensterVerzerrungen
AnwendungobjektiverQualitaetsmasse
AnwendungsubjektiverQualitaetsmassein Hoertests
statistischeUntersuchungder Korrelation
Fig.4.2 Barnwells Versuche
Die folgende Tabelle fasst seine Resultate zusammen {42}.
Signal to noise ratio measures:
unframed SNRframed SNR
frequency variant framed SNR
maximum estimatedcorrelation coefficient
.24
.77
.93
spectral measures:
logarithmic spectral distance .60
frequency variant logarithmic spectral distance .72
frequency variant linear spectral distance .72
residual energy measures:
residual energy ratio distance .65
parametric measures:
feedforward coefficient distance .14
logarithmic feedforward coefficient distance .33
parcor distance .43
logarithmic parcor distance .32area ratio distance .32
log area ratio distance .66
tuC
Gl
d>«.
1u
1¦a
JBi
cUl
|1
11
-u
|OJ
1U
1l
Oi4-1
|1
•rA0)
QJG
_.
OJ•rA
a>u<
cU
c0>
01•r|
01c
UtSZ
c•rl
cDl
•Hc
ma>
diTJ
TJC.
Pu
in
Olc
d)D
D01
IhHJ
01_.
aiOJ
u3
TlrAU
3Ul
3r.
3XI
GG
_«;ffl
in>.
•H>
IflOl
szIH
Ulu
3>
•H01M
01Tl
0)P
gt/i
_
HJ
tuOl
10Ul
Olo
trc
Cul
UUl
UiN
ptn
MUi
_J4-J
OiU
IDUH
01u
Ul01
0101
UlDI
ctu
G4-1
1.vi
4-1Ui
U|ffl
IHDl
4-)c
DlUl
N01a
_TS
_HJ
10TS
3C
SZffl
•H
ffl0)
<u_.H
<_OlI
•H
pSa¬
01Ui
jaUl
UHC
01Ul
TSOl
01U
4-1e
GTJ
inN
u2
tiE
ids
>01
t301
•o01
J3Ol
01UH
¦dtTJ
min
Uitn
Uitn
Olin
O10
(0•H
Ul>
OJOi
cAA
103
Oi3
CAJ
•H
dlp
<DC
tnu
cTJ
CZOl
cs
3•rl
•aOJ
HJ
rH
1001
aa
TJ4-J
G«TJ>
•HOl
-
oc
HJ
_!OJ
c3
10Ol
UiOl
UirHo
COl
bZC.
OJ<D
M_.
•
.
>a:
UlVI
HJ
c_
UiHJ
OlUl
HJ
HJUH
OJOl
DlO
Pe
TJ0
QB
aiU
c01
UtUH
HJ
szOl
UlUl
OJc
•rHHJ
•rA•H
roU
>0)
OJto
u-G
jaX
0JX)
0J13
•H
uUt
•r|Ol
HJ
•rlUl
crA
Dl4J
U|0)
CPG
_a
_U
NH
EUl
•rlC
Ulc
1001
cUl
c•rA
fflffl
s•r.
¦CG
UH
UH
_in
c55
tutu
Ul3
szsz
UiXI
Ul3
01Ul
Ulo
UH
TSu
in0.
4-1O
_HJ
•H
tuX
3•rA
01u
Qt13
UlE
Oi01
Ul_:
3ffl
4-J&>
UltP
IhUl
j«:_
_Ul
101
AA
EUl
l/l01
10SZ
UlUt
1010
ffleU
J_G
fflg
COl
Olzz
erX
1T3
CUl
r-l3
EDl
33
TSc
szd)
NOi
uP
U|0)
P¦o
XIu
•rlOJ
uc
r-A10
Ol0J<
01Ul
C10
Ul01
u01
t-,G
_
_
•rAu»
OJCP
M10
t-lIH
Uls
D_
HJ
•rATS
Ui•H
UlUl
10TS
•H•rl
ffl01
XZ-O
T.
_
UlC
inai
_t1
Ult-lo
Ul>
OlC
UHc
SZOl
01HJ
Ui01
UH
4-1G
U4-1
CPdi
Olc
CaT3
dlO
HJ
Ulc
01HJ
tDsz
sUl
(UCP
mOl
Ul
_
.
roN
•oOJ
•rl10
c
_
_
•rH¦a
Olc
OlSZ
01rA
33
OlUl
o•H
4-J0>
•W
TJt.
•H_
Dl_
CC
cN
01
.
uc
«0sz
OlQ
UiCP
Pd)
tu.
l__
Ul_.
Or_
D_
Ul•rl
•H
szu
u10
Ult-l
szo
a.cn
OJOJ>
CrH
tuo
I-H>
uOl
Ul•rH
01W
u01
•rlUt
UlN
uc
d>in
_.
PTJ
tn•C
Otc?
QUl
C>
t3SZ
3DI
TlUl
HJo
HJUl
10•H
C.u
fflC
Ulin
Gu
stu
OiX)
01s
Uja
>u
u01
•rlHJQ
_.
¦H
_.3
Pffl
OUl
orA
010.
c<
r-At/1
10¦Ul
SZOl
HJOJ
OiUl
HJ
ulU
<u0
ca.
>_J
_i10
XZJ3
OD
110C
UlIh
3u
c10a
01j_
•Htn
a.>
<IH
uu
t_Ui
c•rl
OJ01
_:OS
Ul3
szUl
¦POi
10T3
in•H
VI.c
GG
Ut+J
inui
01_l
tO>
u3
J3Ul
cUl
0)Ul
(Utn
rH
u0)
dlDl
d)X
•H
t/1•H
uX
c•rl
10U
cHJ
10Oi
oin
4-1CP
innJ
•H
CP+J
HJ
TS01
.
10w
Ul01
_U
<_3
01C
Ui0)
•rlin
OJXJ
_3c.
-H
t-l=3
a._l
Irto
OlA-l
OJC
UtHJ
Ul
Ul
10tu
czHJ
£ro
Eit^
jsUi
_CCn
tuUl
•r|l/l
UlOl
ct-l
T301
1301
r-lUl
Ul•rA
TlUi
Dl10
rAV
rQc
U_i
Hc
3•rl
cXI
._
tDOJ
_
us
SZu
_
Gc
Cm
«0O
G3
IhDl
DOl
cO
Ulc
CHJ
10u
•H
dlO
in0)
13IH
tua
0Jtn
Uic
10sz
UlOl
01Oi
cUl
>SZ
sz3
10G
OJTJ
•H
4-)oi
4-1C
M•a
EHJ
o3
cUi
u_
•rl¦o
•r|3
Oiu
uUl
tu<D
4-1
_
rH
-GOl
0)Ul
OJN
zN
01HJ
Ul3
3l/l
cr*
•rA3
UlUl
.G
_
_
inffl
C4J
rH
USZ
3c
HJ
3Z£
tHm
CHJ
CHJ
c3
Utu
1001
10O
UP
4-1o
fflP
uDl
•rt10
XI01
_;C
utu
3Dl
rH
3•rl
E0J
Ulc
Ui_>
in
ffl0)
>0»
in
Ulm
oUl
«Ol
01ja
¦*SZ
rA
01Ui
Ui01
01ja
Ol•H
r-tLi
inUi
IDCT
Ui01
uOi
Uto
U01
Uta
c01
tu3
jaUJ
0Ul
_
TJ(_.
tn'S
OJu
_IH
cu.
o>N
c0J
C•rA
HJ
OJi•H
SZN
CTN
ErH
4-1e
(.•H
G+JU
3Ol
_Ul
cf_
Dsz
c01
Ulja
01ilfl
Uldl
C3
rA
KVG
ro0)
G•HG
D>N
r-A
CPOl
rlw
rH
uO
XIOl
0)10
c01
Ut01
100J
Tl£
s4-1
CP4-1
inP
jaSZ
tuc
01>
rH
tu>
rH
_Ol
>UH
3._
3C
(0e
_4
GG
rH
dtu
Dt_
aOJ
Ul01
01c
cc
HJUl
erc
3Ul
t-iP
MP
«_G
d>•rH
_ls•0
cVI
HJa
OiUl
>10
OJ01
•rA01
0101
01Ih
-o
«.U|
x:Ol
_.
CZai
•rl01
wUl
t/1c
01Ul
HHB
cc
•rlUi
Ol10
oa
5.Ol
OlUi
TJu
UlXI
01Ol
XE
3•rA
UlOl
Ul•rA
01TS
Hu
OSm
•rlUl
4->CP
CDUi
•r.
10£
10Ui
SZc
01¦a
HH
TSOJ
szOl
10D>
OlrA
HJ
dia>
_<:rö
>P
¦ou
CTai
uD
t_c
UiX)
us
Ul
Oi•rA
Uic
c10
in_.
CPd)
xz3-
4J
oUl
•atn
IhXI
301
Ulc
•rAOi
C•rA
u13
s10
•H
UlOJ
u¦H
UlL.
uts
tuhj
Ui_l
O3
rH
nj01
tuc
3DI
XIUH
UlTJ
inG
UlOJ
inHJ
3HJ
c01
XUi
Dl•H
crH
sz3
Ulm
:301
..
•
.
<uo
XI3
-M
inu
mUlu
N<
o.
szca
01•rl
Olu
OiUl
HJ
HJc
TJ£
_.
_P
_
d)111
•H•H
«tUl
su
s01
u10
0101
•H
c3
tuU|
G•r.
D_TJ
U|•H
Uls
tutn
c10
M01
HH
OlUl
UaE
c01
oOiTS
d)d)
rH£
•
Q)\
c<_>
>c
01>
30)
Ui3
"A>a
CZUl
r-A01
N•rA
EG
4J
J_U
G•H
rH
OJJ3
•H
c01
cC
<¦oa
NE
vi<*
SZo
•oC
HJ8
QJin
ph
a>TJ
ffls
tp4J
DlG
Ul01
0)m
HJ
01u
>OJ
10u
cG
OJ-HG
d)G
d)10
ts0)
«0•o
Ulin
Nsz
E¦a
•rAc
szU
•rl01
r-tP
4->XZ
_.
c.tp
CP£
rHu
¦Gc
c10
-H
uHJ
VIh
cIH
_
Ol_
_u
OiC
sz(0
CPV)
GU
J__•H
•H
Gd)
tu3
OD
sz>
0101
10•rA
OOl
OJtu
r-A•rH
OlDl
01•H
uP
PrH
0J0J
bQJ
t/1r.
CPIH
3tn
XIXI
_.
rH
m¦o
UlCZ
[_UH
cN
OlUl
-IHOZ
HJ£
Ul
TJN
ffltn
ui
a.[_Jii
cOlTS„
_:01
TlOi
_Ul
301Ui
Ol._
finO
c
nsN
01•rl
UtUH
HSUHOJ
Ol(1
(l_i
r-AUln
Dlti
•H•r|
UX
Ol110
llll
HJ
•H
t3rA
UlIhc
r-A01
fi
ode>ehe
T.UiOl
Oi
UHJ
IT.Ol
Olc
TS
_
3Olc
UlOl
(1Ifl
Ul>
Ols,J_u
cu
•rl01
01rA
HJTl
OiUl
•HOJ
TSfi
UJ10
(1.C
TlU
sz-1
4J
11ifl
Olm
c•H
rA
«0
_
Dl•Q
UlID
N11
CUl
N10
tl.C
HJ
01Ul
013
•rl•rl
rrUu
01IA
oUH
•H
XiTl
HJ
tDC
103
_.C
MP
-50-
IV.6 OPTIMIERUNG DER ANALYSEBEDINGUNGEN
Bei der LPC-Codierung sind etliche die Analyse bestimmenden Grossenfrei wählbar. Um deren Einflüsse auf die Qualität der resynthetisier-ten Sprache systematisch zu erfassen und für die Analyse des Diphon¬korpus die günstigsten und dem gegebenen Sprecher am besten angepas-sten Werte dafür auswählen zu können, sind mithilfe des auf der logarea ratio Distanz beruhenden Qualitätsmasses mit frameweiser Gewich¬tung proportional zur Signalamplitude eine ganze Anzahl Sprachprobenbewertet worden, die sich in ihren Analysebedingungen unterscheiden.Leider fielen diese Versuche insofern nicht besonders ertragreich aus,als sie im wesentlichen nur die bereits vorhandenen Erfahrungswertebestätigten {05}. Der Verarbeitung des Korpus wurden schliesslich fol¬
gende Analysebedingungen zugrunde gelegt.0_0
Abtastfrequenz: 10 kHzSignalbandbreite: 40...4700 HzAuflösung des A/D Wandlers: 14 bitPrädiktionsfilter: moving average MA
Ordnung: 12
Analyseverfahren: AutokorrelationsmethodePreemphasiskoeffizient: -0.9Fensterfunktion: HammingLange der Analyseframes: 22 ms
Versetzung der Analyseframes: 15 ms
Pitchdetektionsverfahren: PDWUST {07}Länge der Pitchdetektionsframes: 32 ms
Grundperiodensuchintervall: 8...15 ms
Zwischen die Digitalisierung und die LPC-Analyse ist noch ein zusätz¬licher Schritt geschaltet worden, mit dem Ziel alle irrelevanten Pau¬sen in den Aufnahmen zu entfernen, um den Speicherbedarf und die Re¬chenzeit für die nachfolgenden Verarbeitungsprozesse zu verringern. Eshat sich herausgestellt, dass Pausenlängen von 120 ms oder mehr aufeben diesen Wert gekürzt werden können, ohne dass sinn- oder beto-
nungsentstellende Veränderungen wahrgenommen werden. Die Pausen sindaufgrund der Signalleistung und Nulldurchgangshäufigkeit automatischdetektiert und eliminiert worden. Bedingt durch den Einzelwortcharak¬ter des Diphonkorpus, konnte sein Speicherumfang dadurch bereits um
etwa die Hälfte gesenkt werden.
IV.7 EINFLUSS VON STIMMGRUNDFREQUENZ UND FRAMEPOSITION
Die Modellfilterkoeffizienten werden im Prinzip nur von der spektralenEnveloppe des gemessenen Signals bestimmt, sie streuen jedoch in Ab¬
hängigkeit von Art und Frequenz der Anregung und von der relativen La¬
ge des Analyseframes zu den Anregungsimpulsen. Diese Streuungen über¬
tragen sich naturgemass auf daraus berechnete Distanzmasse. Eine wei¬tere Versuchsreihe diente dazu, für die log area ratio Distanz dasAusmass dieser als zufällig zu betrachtenden Störeffekte abzuschätzenund für die spätere Arbeit signifikante und irrelevante Abweichungenunterscheiden zu lernen. Das Vorgehen ist in Fig.4.3 festgehalten:
-51-
Auswahl einesModellkoeffi-zientensatzea
£
1EinsetzenverschiedenerGrundfrequenzeninkl. aperiodisch
Resynthesemit mehrfacherWiederholung
Analysemit geringerFrameverschiebung
graphischeDarstellungder paarweisenDistanzen
Fig.4.3 Bestimmung der Einflüsse von Stimmgrundfrequenz undFrameposition
Als Analysebedingungen sind diejenigen von Abschnitt 6 verwendet wor¬
den, lediglich die Analyseframeversetzung ist auf 1 ms reduziert wor¬
den, um den Einfluss der relativen Lage zu den Anregungsimpulsen mitgenügender Auflösung erfassen zu können. Verglichen worden sind achtverschiedene Anregungen:
periodisch, Periode 6.8 ms
periodisch, Periode 8.2 ms = höchste Grundfrequenzperiodisch, Periode 10 ms des Korpussprechersperiodisch. Periode 12 ms
periodisch, Periode 15 ms = tiefste Grundfrequenzperiodisch, Periode 18 ms des KorpusSprechersperiodisch, Periode 22 ms
aperiodisch
-52-
Die Resultate dieses Versuchs sind in den Figuren 4.4 bis 4.11 gra¬phisch dargestellt. Dabei zeigt die linke Seite jeweils das periodi¬sche (sechs Frameverschiebungen a 15 ms), respektive im Falle der ape¬riodischen Anregung das stationäre (zehn Frameverschiebungen a 15 ms)Zeitsignal, welches aus einer Resynthese mit Modellparametern aus ei¬
nem Laut [A] entstanden ist. Auf der rechten Seite geben horizontaleBalken mit ihrer Länge die log area ratio Distanz zwischen dem Resul¬tat der Analyse eines Ausschnitts des resynthetisierten Signals unddem Vergleichsparametersatz wieder. Die Zeitachse verläuft dabei nach
unten, und zwischen zwei benachbarten Distanzbalken liegt entsprechendder Verschiebung von einem Analyseframe zum nächsten ein Zeitintervallvon 1 ms (insgesamt 60 resp. 200 mal).
Erwartungsgemass nimmt mit abnehmender Stimmgrundfrequenz der Einflussder Frameposition zu (Fig.4.4...4.10). Für den vom Sprecher des Di¬
phonkorpus bestrichenen Bereich übersteigt der Maximalausschlag nie
den Wert von 0.4. Bei aperiodischer Anregung bewegt sich die log area
ratio Distanz in einem Bereich von 0.3 bis 1.4. Dies rührt wohl daher,dass die 220 Abtastwerte eines Frames einen zu kurzen Ausschnitt einer
Zufallsfolge darstellen, als dass sie in jedem Fall ein annähernd fla¬ches Leistungsdichtespektrum aufweisen könnten. (In den Simulationenist für die Erzeugung gleichverteilter Zufallszahlen der Zufallsgene¬rator URAN {09} verwendet worden, welcher mit einem Kongruenzverfahrenund einem Schieberegister arbeitet.) Bei Lauten mit vollständiger odermit bedeutendem Anteil aperiodischer Anregung muss also mit einer we¬
sentlich stärkeren Streuung der Modellkoeffizienten und der Distanzen
gerechnet werden, als für solche vorwiegend periodischer Natur.
Im Verlaufe der weiteren Arbeit haben sich Erfahrungswerte für die logarea ratio Distanz herausgebildet. Als Faustregel muss die Schwellezwischen unbedeutenden und wahrnehmbaren Unterschieden knapp unter demWert eins angesiedelt werden, während der Wert zwei bereits ganz er¬
hebliche Abweichungen anzeigt.
-53-
synthetisches Signal
yvA--' yv"— - >\!%-_--—iy\,.>..—-\f%__,—I yv_.- - Iyv_—- ¦ yv^--—'y. "¦--
- ly.».—'yv"-—-\f\<-.. ly, ... ly
frameweise Distanz zur Referenz
J| ll . 3| .
:3B
: 68
t J ms
Fig.4.4 Anregung mit einer Periode von 6.8 ms.
synthetisches Signal
yv»- ¦—' yV"- ¦
'y."- 'y\ .-
-—'¦/.*• V3^-—lyv»-—^V.,__ 1 y\, _ - .—1\/v*~-—ly1,»-—
frameweise Distanz zur Referenz
J| 1| _| 3| 4|
38
: 68
11 ms
Fig.4.5 Anregung mit einer Periode von 8.2 ms.
-54-
synthetisches Signal frameweise Distanz zur Referenz -»¦
0| l| 2| 3| 4|
yv- lyv*-Iy\-¦¦
yv^- ¦ lyv-"lyv^
y.*-- ly\...-(yv^
:68
tl ms
Fig.4.6 Anregung mit einer Periode von 10 ms.
synthetisches Signal frameweise Distanz zur Referenz -
0| l| 2| 3| 4|
yv*- ^\fV1
Ar<A -
-Iyv~W lyv
5 |\v
= 68
t< ms
Fig.4.7 Anregung mit einer Periode von 12 ms.
-55-
aynthe tische 9 Signal
r-*X_-__.
frameweise Distanz zur Referenz ¦
0| l| 2| 3| 4|
r-20
i.A. ¦¦
.-..-¦.
,-..-.
=. 68
t ? ms
Fig.4.8 Anregung mit einer Periode von 15 ms.
synthetisches Signal
i,./V/>-.
n/W»-
frameweise Distanz zur Referenz ¦
0| l| 2| 3| 4|
: 18
.28
i/A»" ¦¦
.38
S
Au-»-.
=T48
.58
—60
t ? ms
Fig.4.9 Anregung mit einer Periode von 18 ms.
-56-
synthetisches Signal
/V*
frameweise Distanz zur Referenz
0| 1| 2| 3| 4|
r38
r38
=.68
t\ ms
Fig.4.10 Anregung mit einer Periode von 22 ms.
synthetisches Signal
i
.V_J_V^W'A/.>^
vMM^^^i^AiW^
W\li/W^f0i^•J\j[fiw*^i\jW
frameweise Distanz zur Referenz
0| l| 2| 3| 4|
148
Fig.4.11 aperiodische Anregung.
-57-
KAPITEL V. LAUTBESCHREIBUNG MITTELS ZENTROIDEN************************************************
V.l ZIELSETZUNG
Das Hauptziel dieses Teilschritts besteht darin, die notwendigenKenntnisse über die Lauteigenschaften zu liefern, welche notwendigsind, um die Isolation der einzelnen Lautubergange von willkürlichenEntscheidungen möglichst zu befreien und auf eine systematische Grund¬lage zu stellen. Für konkrete Probleme der Analyse oder Synthese desSprachsignals bietet die von Linguisten wie Jakobson, Halle, Fant undChomsky entwickelte Theorie der Distinctive Features {06,08}, welchejedes Phonem als Bündel von Merkmalen wie scharf/mild, ge¬spannt/schlaff, konsonantisch/nicht konsonantisch, kompakt/diffus usw.
beschreibt, keine ausreichende Handhabe, da die verwendeten Eigen¬schaften lediglich über subjektive Eindrucke mit der physikalischenRealität des Sprachignals verknüpft sind. Vorrangiges Ziel ist es da¬her signalbezogene Merkmale zu finden, welche zur Charakterisierungund Abgrenzung der einzelnen Laute untereinander dienen können. Dazu
sind insbesondere notwendig:-Eine auf LPC-Parametern beruhende von Zufalls- und kontextbedingtenEinflüssen unabhängige Beschreibung sämtlicher deutscher Laute.-Kenntnisse über die für den jeweiligen Laut typische Gestalt der
spektralen Enveloppe, resp. seiner typischen Werte für die Modellfil¬terkoeffizienten.
-Kenntnisse über die jeweils lautspezifischen Verläufe und Werte der
Anregungsamplitude, Anregungsart und gegebenenfalls Stimmgrundfre¬quenz sowie der Lautdauer.-Eine Überprüfung der IPA-Lautschrift hinsichtlich ihrer Übereinstim¬mung mit den Eigenschaften des Sprachsignals.-Ein Instrument zum quantitativen Vergleich einzelner Signalausschnit¬te, wie es in Form eines Distanzmasses in Kapitel IV. vorgestelltworden ist.
Wenngleich die gewonnenen Resultate die herkömmliche Phonetik, welcheauf artikulatorischen und auditiven Kriterien beruht, vielerorts er¬
gänzen, indem sie einen bisher vernachlässigten Bezug zum Sprachsignalherstellen, aber manchmal auch in Frage stellen, beispielsweise beider Abgrenzung der Lautqualitäten (cf. Abschnitt 7), sind sie nichtals Ersatz dafür gedacht. Die Beschränkung auf eine einzige Spracheund einen einzigen Sprecher sowie der im Hinblick auf die Sprachsyn¬these speicherokonomisch bedingte Zwang, nicht mehr Laute zu unter¬scheiden als unbedingt notwendig, wären für die Erarbeitung einer all¬gemein gültigen Signalphonetik keinesfalls zulässig gewesen. Verfahrenzur sprach- und sprecherunabhanigen Lautbeschreibung auf der Grundlagenormalisierter Formantfrequenzen sind von Ferrari {55} untersucht wor¬
den, allerdings lediglich für einige Vokale.
-58-
V.2 ZENTROIDBESTIMMUNG
Von den der LPC-Analyse entstammenden Grössen, beschreiben p Stück das
Synthesefilter, beispielsweise in Form der Reflexionskoeffizienten,und damit indirekt die spektrale Enveloppe des Signals, die übrigendas Anregungssignal. Der aus den ersten p Komponenten gebildete Vektorbewegt sich beim Sprechen in Funktion der Zeit im entsprechenden Para¬meterraum. Diese Bewegung kann durch eine Trajektorie beschrieben wer¬
den, deren Verlauf von der vorliegenden Lautfolge und vom Sprecher be¬stimmt wird, aber auch zufallsbedingten Schwankungen unterworfen ist,da es im Bereich des menschlichen Sprechens keine perfekte Reprodu¬zierbarkeit gibt (der Einfluss von Grundfrequenz und relativer Lagedes Anregungsimpulses zum Analyseframe auf die LPC-Parameter ist in
IV.7 untersucht worden). Für verschiedene Realisierungen eines gegebe¬nen Lautes verdichten sich diese Trajektorien jedoch in einer für ihncharakteristischen Zone des Raumes, ohne sich exakt zu schneiden, wo¬
bei ihre Herkunfts- und Zielrichtungen von den jeweils benachbartenLauten abhängen. Diese Verdichtungszone soll für jeden Laut oder gege¬benenfalls jedes Allophon durch ein Zentroid beschrieben werden, das
folgendermassen definiert wird:
Der Zentroidvektor ist derjenige Vektor, dessen mittleres Ab¬
standsquadrat von seiner Spitze zu dem jeweils nächstgelegenenPunkt jeder Trajektorie minimal ist.
Als Distanzmass wird dabei die log area ratio Distanz verwendet, diein IV.5 ihrer guten Wahrnehmungstreue und anderer Eigenschaften wegenfür diese Arbeit ausgewählt worden ist. Da zu einem gegebenen Satz von
Punkten der Schwerpunkt das mittlere Abstandsquadrat minimalisiert,muss im log area ratio Raum von jeder vorhandenen Trajektorie derjeni¬ge Punkt gefunden werden, deren gemeinsamer Schwerpunkt das kleinstemittlere Abstandsquadrat aufweist. Im Falle der frameweisen d.h. zeit¬diskreten LPC-Analyse liegen die Trajektorien nicht als kontinuierli¬che Funktionen, sondern nur als zeitlich äquidistante Stützstellenvor. Damit ergibt sich zur Berechnung des gesuchten Zentroidvektors ~gzaus den log area ratio Vektoren g"t(j) der Trajektorien 1 bis T folgen¬de Vorschrift:
Tg = 1/T £ g (j) je {1 J } (5.1)z t=l t t
wobei die Stützstellen j auf den einzelnen Trajektorien derart gewähltwerden, dass
T_ _
'
21/T £ ( d (g (j), g ) ) = minimal (5.2)
t=l lar t z
Die Quadratwurzel des Ausdrucks (5.2) bezeichnet die RMS-Distanz einesZentroids von den jeweils nächstliegenden Stützstellen aller Trajekto¬rien. Sie kann als Mass für die Ausdehnung der Verdichtungszone desgegebenen Lautes und damit der Streuungen in seiner Realisation ver¬
wendet werden. Um auch für die verbleibenden LPC-Parameter typische
-59-
Werte für alle Laute zu erhalten, werden sie aus den ParameterSätzenderselben nächstliegenden Stützstellen gemittelt. Für die Restfehler-und die nur zu Darstellungszwecken mitgeführte Signalamplitude werdendas geometrische Mittel, für die Stimmgrundperiode das arithmetischeMittel verwendet, wobei letzteres nur dann zum Tragen kommt, wenn dieMehrheit der Frames periodisch ist, andernfalls wird das Zentroid als
aperiodisch festgelegt.
An dieser Stelle sei noch festgehalten, dass wir mit der Einteilung instimmhaft/-los die gebräuchliche phonologische Klassifikation meinen,während sich periodisch/aperiodisch auf die vom automatischen Pitchde-
tektionsalgorithmus {07} dem jeweiligen Signalabschnitt zugeordneteArt der Anregung bezieht und damit ein signalbezogenes Kriterium dar¬stellt. Man beachte aber, dass Signalausschnitte aus gesprochenerSprache nie exakt im mathematischen Sinne periodisch sind, sondernmeist sowohl periodische als auch aperiodische Anteile enthalten. Als
Grundlage für die Zentroidberechnung ist jeweils eine der in KapitelIII. erwähnten Diphonlisten verwendet worden, welche jeden Laut insämtlichen in der deutschen Sprache möglichen lautlichen Umgebungenenthalten. Das praktische Vorgehen für die Berechnung der Zentroidezeigt Fig.5.1 .
Von der ganzen im Verlauf eines Trägerwortes beschrittenen Trajektoriedes Modellfilterkoeffizientenvektors, wird zur Zentroidbestimmung nur
derjenige Teil ausgewertet, der sich von einer vorgegebenen Realisa¬tion des untersuchten Lautes nicht zu weit entfernt und keinen zu
schnellen zeitlichen Veränderungen unterworfen ist. Einen Anhaltspunktfür die zeitliche Ausdehnung eines Lautes liefert daher die Mittelungder Längen Jt aller ausgewerteten Trajektorienabschnitte aus (5.1).Die Lautdauer Jm wird so in Vielfachen der Analyseframeverschiebungausgedrückt.
T
J = 1/T £ J (5.3)m t=l t
V.3 ZENTROIDDARSTELLUNG
Aus den Reflexionskoeffizienten kj eines LPC-Modells können die area
Koeffizienten Aj mit folgender einfacher Rekursion berechnet werden:
1 + ki
A = A i = p, p-1, ..., 1 (5.4)i-1 i 1 - k
In Ermangelung einer absoluten Bezugsgrösse wird üblicherweise Apgleich eins gesetzt. Die area Koeffizienten entsprechen den Quer¬schnittsflächen eines aus kreiszylindrischen Segmenten zusammengesetztgedachten akustischen Resonators, der dasselbe Frequenzverhalten auf¬weist wie das LPC-Synthesefllter M(z). Gray und Markel {16} haben ge¬zeigt, dass, eine geeignete Preemphasis des Signals vor der Analyse
-60-
Auditive und visuelleAuswahl eines typischenFrames innerhalb einerRealisierung desfraglichen Lautes
AutomatischesFinden allerquasistationaeren Framesmit kleiner Distanzzum gewaehlten Frameergibt Trajektorien
Auditive und visuelleVerifikationderTrajektorien, Eliminationirrtuemlich gefundener
AutomatischeiterativeBerechnung des Zentroidsmit minimalemmittleremAbstandsquadrat
Fig.5.1 Zentroidberechnung
vorausgesetzt, die Querschnittsflächen dieses künstlichen Vokaltraktesdiejenige des natürlichen gut approximieren. Allerdings bestehen fürdie Schätzbarkeit der Stellung des Vokaltraktes aus dem Sprachsignalnach dieser Methode zwei Einschränkungen:-Die Anregung des Vokaltraktes beim Menschen muss am glottisseitigenEnde erfolgen, wie es bei der LPC-Modellierung vorausgesetzt wird.Dies trifft bei allen periodischen Lauten zu, da hier die Stimmlippenselber durch ihr Vibrieren die Luftsäule im Vokaltrakt in Schwingungversetzen. Die bei aperiodischen Lauten die Anregung liefernde Strö¬mungsturbulenz entsteht dagegen an der engsten Stelle des Vokaltrak¬tes, die je nach seiner Stellung zwischen Lippen und Zähnen genausowie zwischen den Stimmlippen liegen kann. Ist die Voraussetzung derglottisseitigen Anregung verletzt, existiert keine Ähnlichkeit zwi¬schen dem aus den LPC-Parametern berechneten und dem natürlichen Vo¬kaltrakt, der erstere wird vielmehr so bestimmt, wie wenn eine Quelleweissen Rauschens an der Stelle der Stimmlippen sasse.
-61-
-Der Nasenraum darf an der Klangformung nicht beteiligt sein. Andern¬falls wird der kombinierte Effekt von Mund- und Nasenraum durch denkünstlichen Vokaltrakt nachgebildet.
Bei der Beschreibung der einzelnen Laute in Abschnitt 5 ist für jedesZentroid die Modellübertragungsfunktion in einfach logarithmischerDarstellung (Frequenz linear 0...5 kHz, Verstärkung logarithmisch überdrei Dekaden) wiedergegeben. Darüber wurde der Längsschnitt durch denkünstlichen Vokaltrakt gezeichnet, an dessen linke Seite die Stimmlip-pen zu liegen kämen, während sein rechtes Ende der Mundöffnung ent¬
spricht. Über die Längsabmessung der einzelnen Segmente kann nur aus¬
gesagt werden, dass sie die Strecke zwischen Glottis und Mundöffnunggleichmässig aufteilen. In vertikaler Richtung aufgetragen sind die
Quadratwurzeln der area Koeffizienten, d.h. Grössen proportional zum
Radius des Resonators. Die numerischen Werte der Zentroidparametersind in Anhang C aufgeführt.
V.4 AUDITIVE UNTERSUCHUNGSMETHODEN
V.4.1 DESTRUKTIONSVERSUCHE
Für die Mehrheit der Laute lassen sich in der beschriebenen Art undWeise Zentroide berechnen, welche tatsächlich die charakteristischenEigenschaften ihrer quasistationären Phasen wiedergeben. Daneben exi¬stieren aber einige weitere Laute, die nicht oder mindestens nicht nur
mit einer zeitlich unveränderlichen spektralen Enveloppe beschriebenwerden können, weil sie sich auch durch ihr dynamisches Verhalten
und/oder bestimmte Eigenarten in der Anregung des Vokaltraktes aus¬
zeichnen. Um auch in diesen Fällen die lautunterscheidenden Eigen¬schaften erkennen zu können, sind sogenannte Destruktionsversuche ein¬
gesetzt worden. Dabei wird jeweils versucht die Wahrnehmung des be¬treffenden Lautes, eingebettet in ein gesprochenes Trägerwort, durch
gezielte Manipulationen an einem oder mehreren Modellparametern undanschliessende Resynthese zum Verschwinden zu bringen. Gelingt dies,wird die veränderte Grösse als charakteristisch für den vorliegendenLaut erkannt. Im Gegensatz zu älteren Destruktionsverfahren {17}, las¬sen sich in Verbindung mit der LPC-Modellierung selektiv die einzelnenden Sprechvorgang bestimmenden Grössen beeinflussen. Die Lautstärke,die Art der Anregung, bei periodischer Anregung die Stimmgrundfrequenzund über den Längsschnitt des Vokaltraktes die Positionen der einzel¬nen Sprechorgane können ja bekanntlich unabhängig voneinander verän¬dert werden.
-62-
V.4 .2 KONSTRUKTIONSVERSUCHE
Um zu überprüfen, dass die berechneten Zentroide die wesentlichen Ei¬genschaften der Laute, aus denen sie konstruiert worden sind und diesie vertreten sollen, auch wirklich enthalten, respektive, dass die inden Destruktionsversuchen gefundenen Eigenschaften tatsächlich überdie Lautwahrnehmung entscheiden, sind bei Bedarf Konstruktionsversuchedurchgeführt worden. Dazu sind aus dem jeweils vorliegenden Zentroidund mit den entsprechenden Verläufen der übrigen Parameter Hörprobensynthetisiert, abgehört und auf die korrekte Wahrnehmung des fragli¬chen Lautes hin überprüft worden. Ausser diesen laufend durchgeführtenVersuchen sind nach Abschluss sämtlicher Lautcharakterisierungen ausallen errechneten Zentroiden Hörproben mit jeweils vier verschiedenenLängen (entsprechend 3, 5, 8 und 12 Frameverschiebungen) synthetisiertworden. Damit konnte der Einfluss der Lautdauer auf die Wahrnehmungder Lautqualität, dessen Existenz im Falle einiger Vokallaute bereitsvon Grossmann {18} und aus eigenen Vorversuchen {01} bekannt war, sy¬stematisch für sämtliche Laute untersucht werden. Während die die Mo¬dellübertragungsfunktion des Zentroids beschreibenden Reflexionskoef¬fizienten jeweils über die ganze Probe konstant gehalten wurden, hates sich manchmal als nötig erwiesen, die übrigen Parameter zu variie¬ren. Werden z.B. Frikativlaute mit einem harten übergangslosen Einsatzerzeugt, wird ein vorangestellter Plosivlaut wahrgenommen, der mit ei¬nem weicheren Anregungsamplitudenanstieg nicht in Erscheinung tritt.Die Resultate dieses abschliessenden Konstruktionsversuchs sind in derTabelle in Abschnitt 6.2 festgehalten.
V.5 LAUTBESCHREIBUNGEN
V.5.1 VOKALE
Mit der Zentroidberechnung für die Vokallaute wurde speziell auch dasZiel angestrebt, zu überprüfen, ob die in der IPA-Lautschrift unter¬schiedenen Vokalqualitäten mit der Wirklichkeit des Sprachsignalsübereinstimmen. So differenziert die IPA nicht zwischen verschiedenen[3]-Lauten, ob diese nun von orthographisch "e" ("die welle" [V3L6])oder von "ä" ("die wälle" [V3L6]) stammen. Selbst der lange [3]-Laut,der übrigens ausschliesslich von orthographisch "ä" ("wählen"[V3;L6N]) herrührt, wird als lediglich in seiner Dauer, nicht aber inseiner Qualität verschieden vom Kurzlaut bezeichnet. Um diese Hypothe¬se zu überprüfen, ist für jede der erwähnten Varianten ein separatesZentroid berechnet worden. Dasselbe gilt für den Gegensatz zwischen!kurzem ("kalt" [KALT]) und langem ("kahl" [KA.L]) [A]-Laut. Ebenfallsals ein und diesselbe Lautqualität transkribiert wird der Schwa-Laut,unabhängig davon ob er in einem Präfix ("das gefühl" [G6F7;L]) oder ineiner Endung auftritt ("die frage" [FRA;G6]). Auch hier haben wir zweiZentroide berechnet.
Da die meisten Vokale durch die Zentroide genügend genau charakteri¬siert werden, werden im folgenden Kommentare zu einzelnen Lauten nurdort angebracht, wo spezielle Beobachtungen gemacht worden sind.
-63-
V.5.1.1 [1;] wie in "biene" [B1;N6]Zentroid <CE.l] . RMS-Distanz 0.62
dB Amplitudengang60 —
40
20
0I 0 | 1 kHz | 2 | 3
Fig.5.2 Zentroid <CE.l]
Lautdauer 13.0
Radius
— 6
— 4
4 5
V.5.1.2 [I] wie in "kiste" [KIST6]Zentroid <CE.I] RMS-Distanz 0.72
dB Amplitudengang60 —
40 -
20 —
Lautdauer 4.7
Radius
— 6
— 4
— 2
0I 0 | 1 kHz | 2
Fig.5.3 Zentroid <CE.I]
I 4 5|— 0
-64-
V.5.1.3 [7;] wie in "früh" [FR7.1Zentroid <CE.7] RMS-Distanz 0.58
dB Amplitudengang60 —
40
20—
0—
I 0 I 1 kHz | 2 | 3
Fig.5.4 Zentroid <CE.7]
Lautdauer 10.4
Radius
- 6
— 2
- 04 5
V.5.1.4 [Y] wie in "tücke" [TYK6]Zentroid <CE.Y] RMS-Distanz 0.72
dB Amplitudengang60 —
40
20 —
Lautdauer 5.0
Radius
- 6
— 4
- 2
I 0 | 1 kHz | 2
Fig.5.5 Zentroid <CE.Y]
— 04 5
-65-
V.5.1.5 [U;] wie in "glut" [GLU;T]Ähnlich aber weniger deutlich wie bei [0;] wurde folgende Eigenartfestgestellt. Gegen die Lautränder hin weist das Modellspektrum einen
tiefen aber ausgeprägten zweiten Formanten auf (periphere Form), in
der Mitte tritt dagegen meist ein Modellspektrum mit sehr schwachem
zweitem Formanten auf (zentrale Form). Manchmal ist gar ein mehrfacherWechsel zwischen den beiden Formen zu beobachten, speziell bei langemfinalem [U;]. Für beide Formen existieren lokale Minima des mittleren
Abstandsquadrates, daher sind auch zwei separate Zentroide berechnet
worden.Für die zentrale Form:Zentroid <CE.U] RMS-Distanz 0.58 Lautdauer 11.3
dB60 -
40 —
20—
Amplitudengang Radius
— 6
— 4
— 2
0| 0 | 1 kHz | 2
Fig.5.6 Zentroid <CE.U]
5 I0
-66-
Für die periphere Form:Zentroid <CE.UP RMS-Distanz 0.60
dB Amplitudengang60 -
00 | 1 kHz | 2 I 3
Fig.5.7 Zentroid <CE.UP
Lautdauer 11.3
Radius
40
- 4
20-
— 2
4 5 |— 0
V.5.1.6 [2] wie in "schuld" [52LT]Zentroid <CE.2] RMS-Distanz 0.82
dB Amplitudengang60 —
40 -
20 —
| 0 | 1 kHz | 2
Fig.5.8 Zentroid <CE.2]
Lautdauer 4.9
Radius
- 6
I 4 5
— 4
— 2
0
-67-
V.5.1.7 [E;3 wie in "see" [ZE;]Zentroid <CE.E] . RMS-Distanz 0.57
dB Amplitudengang60 -
40 -
20 —
Lautdauer 12.4
Radius
— 6
— 4
— 2
00 I 1 kHz | 2
Fig.5.9 Zentroid <CE.E]
4 5 |
V.5.1.8 [3] wie in "welle" [V3L6]Ausschliesslich aus orthographisch "e"Zentroid <CE.3E RMS-Distanz 0.72
dB Amplitudengang60 —
40 —
20-
Lautdauer 5.4
Radius
- 4
— 2
| 0 | 1 kHz | 2
Fig.5.10 Zentroid <CE.3E
— 04 5
-68-
V.5.1.9 [3] wie in "wälle" [V3L6]Ausschliesslich aus orthographisch "ä"zentroid <CE.3A RMS-Distanz 0.63
dB Amplitudengang60 —
40
20 -
Lautdauer 6.0
Radius
- 6
- 4
| 0 | 1 kHz | 2 | 3
Fig.5.11 Zentroid <CE.3A
V.5.1.10 [3;] wie in "wählen" [V3.L6N]Zentroid <CE.3L RMS-Distanz 0.57
4 5
60
40 -
20 —
dB Amplitudengang
0| 0 | 1 kHz | 2
Fig.5.12 Zentroid <CE.3L
Lautdauer 13.0
Radius
— 6
- 4
- 2
4 5
-- 0
-69-
V.5.1.11 [0;] wie in "getöse" [G6T0;Z6]Zentroid <CE.O] RMS-Distanz 0.59
dB Amplitudengang60 -
40
20
0 —
Lautdauer 14.0
Radius
0 | 1 kHz | 2 I 3 | 4
Fig.5.13 Zentroid <CE.0]
¦- 0
V.5.1.12 [8] wie in "plötzlich" [PL8TSLIC]Zentroid <CE.8l RMS-Distanz 0.73 Lautdauer 5.3
dB Amplitudengang60
10
20—
| 0 I 1 kHz | 2
Fig.5.14 Zentroid <CE.8]
Radius
— 6
-— 0
-70-
V.S.1.13 [0;] wie in "boot" [B0;T]Wie bei [U;] weisen die Trajektorien in der Lautmitte mehrheitlich einoder mehrere Frames auf, deren zweiter Formant nur stark abgeschwächterscheint (zentrale Form), während in etwa einem Viertel der Fälle derzweite Formant durchgehend ausgeprägt erhalten bleibt (periphereForm). Eine Gesetzmässigkeit für diese Erscheinung konnte nicht gefun¬den werden. Wiederum sind zwei getrennte Zentroide berechnet worden.Für die zentrale Form:Zentroid <CE.O] RMS-Distanz 0.73 Lautdauer 13.6
dB Amplitudengang60 —
40 -
Radius
20
0—
— 4
0 I 1 kHz | 2 | 3 | 4 5 |
Fig.5.15 Zentroid <CE.0]
— 0
-71-
Für die periphere Form:Zentroid <CE.OP RMS-Distanz 0.69
dB Amplitudengang60 -
40 -
00 I 1 kHz | 2 I 3
Fig.5.16 Zentroid <CE.0P
Lautdauer 13.4
Radius
— 6
— 4
20— 2
I 4 5 |—- 0
V.5.1.14 [Q] wie in "rock" [RQK]Zentroid <CE.Q] RMS-Distanz 0.77
dB Amplitudengang60 -
40 -
20
00 | 1 kHz | 2
Fig.5.17 Zentroid <CE.Q]
13
Lautdauer 5.6
Radius
— 6
— 4
I 4 5 |
-72-
V.5.1.15 [A] wie in "kalt" [KALT]Zentroid <CE.AK RMS-Distanz 0.68 Lautdauer 5.3
dB Amplitudengang60 —
Radius
40 —
20
0| 0 | 1 kHz | 2 | 3
Fig.5.18 Zentroid <CE.AK
— 04 5
V.5.1.16 [A;] wie in "kahl" [KA;L]Zentroid <CE.AL RMS-Distanz 0.44
60dB Amplitudengang
20 —
Lautdauer 14.6
Radius
— 2
00 I 1 kHz I 2
Fig.5.19 Zentroid -CE.AL
13 4 5
-73-
V.5.1.17 [6] wie in "frage" [FRA.G6]Ausschliesslich aus Finalsilben.Zentroid <CE.6] RMS-Distanz 0.80
dB Amplitudengang60 -
40
20
Lautdauer 5.6
Radius
— 6
— 4
— 2
0—
| 0 | 1 kHz I 2 | 3
Fig.5.20 Zentroid <CE.6]
V.5.1.18 [6] wie in "gefühl" [G6F7;L]Ausschliesslich aus Präfixen:Zentroid <CE.6P RMS-Distanz 0.73
dB Amplitudengang60
4 5
Lautdauer 4.7
Radius
40 —
20—
0| 0 |1 kHz | 2
Fig.5.21 Zentroid <CE.6P
— 6
— 4
— 2
I 4 5 |— 0
-74-
V.5.2 KONSONANTEN
Im Gegensatz zu den Vokalen enthalten nicht alle Konsonanten eine mehroder weniger stationäre Mitte, insbesondere kann daher für die Plosiv-laute kein Zentroid berechnet werden. Da sie aber andererseits für dieDiphonsynthese mit der in II.2.5 vorgeschlagenen Modifikation nichtTräger einer Schnittstelle zu sein brauchen, ist auch darauf verzich¬tet worden, sie hier anderweitig zu charakterisieren. Wortinitialestimmhafte Plosivlaute sind von Blumstein und Stevens {56} auf ihrecharakteristischen Eigenschaften hin untersucht worden. Die auf dieenglische Sprache bezogene Studie gelangt zum Ergebnis, dass der grobespektrale Verlauf unmittelbar nach dem Signaleinsatz (10...20 ms) alsprimäres lautunterscheidendes Merkmal dient. Für [D] ergab sich dabeieine diffus steigende, für [B] eine diffus fallende bis flache Enve-loppe und bei [G] schliesslich dominierten die mittleren Spektralan¬teile. Die Frikativlaute weisen allgemein weniger ausgeprägte spektra¬le Leistungskonzentrationen auf, die wir aus Analogiegründen auch hierFormanten nennen wollen, als die Vokale. Auch sind die Streuungen zwi¬schen aufeinanderfolgenden Modellübertragungsfunktionen teilweise be¬deutend grösser. Dennoch hat Glave {19} anhand der Laute [C] und [X]nachgewiesen, dass die Lage der Formanten auch für diese Klasse vonKonsonanten ein wichtiges lautunterscheidendes Merkmal bildet.
V.5.2.1 [F] wie in "falten" [FALT6N]Wie bei den übrigen stimmlosen Frikativen konnte eine starke koartiku-latorisch bedingte Abhängigkeit der Lautdauer vom Vorgängerlaut beo¬bachtet werden. Gross ist sie nach Vokalen (12...15), extrem kurz da¬gegen nach homorganen Plosivlauten (3 4).Zentroid <CE.F] RMS-Distanz 0.57 Lautdauer 9.1
dB Amplitudengang60 -
40 —
Radius
20
— 4
- 2
I 0 ! 1 kHz | 2 | 3 | 4 5 |
Fig.5.22 Zentroid <CE.F]-
¦- 0
-75-
V.5.2.2 [V] wie in "wanne" [VAN6]Das errechnete Zentroid weist eine recht grosse RMS-Distanz auf. DerVersuch die Trajektorien in Gruppen zu unterteilen, und für jede davonein separates Zentroid mit womöglich geringerer Streuung zu berechnen,brachte keine entscheidende Verbesserung. Da beim zweiten stimmhaftenFrikativlaut [Z] ähnliche Schwierigkeiten aufgetaucht sind, und sichbeide dadurch auszeichnen, dass sich in gesprochener Sprache ihre An¬
regung sowohl aus einer periodischen als auch aus einer aperiodischenKomponente zusammensetzt, sind wir zu folgender Erklärung gelangt. Jenach der im Einzelfall gerade vorliegenden Leistungsaufteilung zwi¬schen den beiden Anregungsquellen streuen die Modellkoeffizienten auf¬grund der in Abschnitt 3 erwähnten Eigenschaften der LPC-Analysestark, ohne dass mehrere Allophone in Form unterschiedlicher Formant¬
frequenzen oder Artikulationsstellungen tatsächlich vorliegen. Gemässdem automatischen Pitchdetektionsalgorithmus, welcher in bezug auf dieArt der Anregung einen binaren Entscheid treffen muss, kann der nurvor Vokalen und selten vor dem ebenfalls periodischen [R] auftretendeLaut (cf. III.3.3) folgendermassen charakterisiert werden. [V] enthältin seiner zweiten Hälfte stets den Stimmeinsatz, falls der Vorgänger¬laut aperiodisch ist, andernfalls bleibt es durchgehend periodisch. Eswird immer von einem kräftigen Anstieg der Anregungsamplitude beglei¬tet. Destruktionsversuche haben ergeben, dass die beschriebenen Ver¬läufe von Anregungsart und -amplitude zwar die Wahrnehmung von [V]enorm unterstützen, allein aber nicht ausreichen, um es etwa gegen [H]abzugrenzen. Die Modellübertragungsfunktion ist eindeutig distinktiv,wobei eine zeitliche Verlängerung der typischen [V]-Phase eine schein¬bar stärkere Betonung der [V]-Wahrnehmung entstehen lässt.Zentroid <CE.V] RMS-Distanz 0.97 Lautdauer 5.1
dB Amplitudengang Radius60 — —
_
— 6
40
— 4
20 - x_
„
4| 0 | 1 kHz | 2
Fig.5.23 Zentroid <CE.V]
— 0
-76-
V.5.2.3 [S] wie in "nass" [HAS]cf. Abschnitt 5.2.1Das Modellspektrum ist von demjenigen des Lautes [F] nur oberhalb vonetwa 3.5 kHz (!) wesentlich verschieden.Zentroid <CE.S] RMS-Distanz 0.67 Lautdauer 11.0
60
40 —
20 —
dB Amplitudengang Radius
- 6
— 4
- 2
o —
I 0 | 1 kHz | 2 | 3
Fig.5.24 Zentroid <CE.Sj
I 4
— 0
-77-
V.5.2.4 [Z] wie in "nase" [NA;Z6]Obschon wie [V] allgemein als stimmhafter Frikativlaut bezeichnet wird[Z] vom automatischen Pitchdetektionsalgorithmus bis auf wenige Framesvor dem zwangsläufig folgenden Vokal (cf. III.3.3) als aperiodischklassifiziert, es enthält den Stimmeinsatz also stets in seinem letz¬ten Abschnitt. Im Gegensatz zu [V] ändert auch ein periodischer Vor¬gängerlaut nichts daran, dass [Z] über weite Teile aperiodisch bleibt.Interessanterweise gelangt nur Wüthrich in seiner Arbeit {57}, in derer die deutschen Konsonanten anhand auditiv-phonetischer Kriterien
klassifiziert, zu einer solchen unterschiedlichen Beurteilung von [V]und [Z] hinsichtlich ihrer Geräuschanteile, indem er ersteren zur Ka¬
tegorie 'halb Klang, halb Geräusch' zählt, letzteren dagegen mit denstimmlosen Frikativen unter 'Geräusch' einordnet. Der Laut [z] wirdimmer von einem kräftigen Anstieg der Anregungsamplitude begleitet.Auch hier kommt der Modellübertragungsfunktion lautspezifische Bedeu¬tung zu, wenngleich für eine klare Wahrnehmung als [Z] die geschilder¬ten Verläufe von Anregungsart und -amplitude ebenfalls massgebendsind. Folgt [z] auf einen stimmlosen Frikativlaut, wird der Stimmein-satz hinausgezögert und [Z] eher als [S] artikuliert. Es handelt sichbei dieser Erscheinung um einen typischen Koartikulationseffekt, indem
gewisse Eigenschaften des einen Lautes von denjenigen seiner Nachbarnbeeinflusst werden, im vorliegenden Falle im Sinne einer Anpassung.Zentroid <CE.Z] RMS-Distanz 0.79 Lautdauer 7.6
dB60 -
Amplitudengang Radius
- 6
40 -
20-
0—
| 0 I 1 kHz | 2
Fig.5.25 Zentroid <CE.Z]
I 4
— 4
— 2
— 0
-78-
V.5.2.5 [5] wie in "schlag" [5LAK]cf. Abschnitt 5.2.1Zentroid <CE.5] RMS-Distanz 0.64
dB Amplitudengang60 —
40 -
20
Lautdauer 10.4
Radius
— 4
- 2
0| 0 | 1 kHz | 2
Fig.5.26 Zentroid <CE.5]
-- 04 5
-79-
V.5.2.6 [X] wie in "flach" [FLAX]cf. Abschnitt 5.2.1Der automatische Pitchdetektionsalgorithmus schwankt innerhalb von [X]Lauten zwischen periodisch und aperiodisch hin und her, wobei im pe¬riodischen Fall die gefundene Grundfrequenz wilden Variationen unter¬
worfen ist. Konstruktionsversuche haben ergeben, dass eine durchgehen¬de Synthese mit aperiodischer Anregung dem [X] wesentlich besser ge¬
recht wird, als mit periodischer. Werden ungefähr entsprechend der au¬
tomatischen Detektion ein Drittel bis die Hälfte aller Frames perio¬disch, der Rest aperiodisch synthetisiert, ergibt sich eine leichte
Zunahme der für das [X] typischen Rauhheit.
Zentroid <CE.X] RMS-Distanz 0.76 Lautdauer 11.0
dB Amplitudengang60 -
40 -
Radius
20
- 6
— 4
— 2
| 0 | 1 kHz | 2
Fig.5.27 Zentroid <CE.X]
0
|3 I 4
-80-
V.5.2.7 [C] wie in "mönch" [M8NC]cf. Abschnitt 5.2.1Zentroid <CE.C] RMS-Distanz 0.65
dB Amplitudengang60 -
40 —
20
Lautdauer 11.4
Radius
- 6
— 4
— 2
I 0 | 1 kHz | 2
Fig.5.28 Zentroid <CE.C]
5 I— 0
1c
C_
Oi1_
.-Ulli
i10
c•rt
aidl
cIh
U-.
ui
C10
dXI
jyc
J_TI
•o3
dl10
r-
-rl<
nj10
oO
Hdl
cN
>c
cm:
>cn
Cdi
OiC
UlHJ
'HJ0
aix:
HJ
0101
Chj
uid
Uiin
dIh
CQo
tu•rA
Iho
dl•H
3dl
lOC
o0
iHA-l
Oi•rl
•1—1d
10hj
SZO
>>
3in
HJ
inXI
HJ
J_
3dl
HZN
tuUHC<
J_
U10
OirO
Lj3
<*3
•oin
hj
rH
c.
3„
HJ
10Ui
UiXIü
>TJ
dlHJ
d10
XIc
dlHJ
•rl.C
-I
CTJ
dlXI
dl•rl
Ul
_3
HJ3
tn
-H
dlSZ
OlTJ
c•
Q.10
3r~
in2(0
dlrA
u¦H
oUH
TJz<
OiN
_.
-0HJ
Xutn
*:U
C«rl
C•H
in
HJ
•rlUH
DlHJ^
fflUi
3Oi
-U
'S*
.rAtn
110C
X!_
HJ
fc.d
-1
dlUi
_
BS—
eT-A
10_
•H
UX
Ct/1
-H
hjd
01tn
C._
Jf01
13dl
Cdl
3o
3^-i3
ID0
rH
-H
UH
EDl
SZDl
sz10
l|H>
sE
dl1COUO
DaT3
HJN
c»0
10110
OlO
dlul
CHJ
rH
HJu
_c
cSZ
CX
Ulli
-H
Ui3
¦tDtD
01Ol
•Hsz
V0>
LIrHW
dldl
10SZ
ui"O
HJV
cu
OlUl
10TJ
rj
HJC
co
dlzz
Ih-H
CUi
HJ
C-n
10tn
C•_
T!T3
SZU
--I
ÜJe
dl0)
tur-A
0Ih
roO
hj
x;•H
drH
>dl
34J
TJUi
x;C
SHJ
¦03
dlto
ddi
din
uO
Hin
UH
IhIh
TJdl
rH
IflOl
Odl
-H
¦rAHJ
•H
c01
dl3
rH
3S
110H
01Ol
¦MUl
dl•H
HJHJ
(0JC
MM
HJ
TJN
r~
JH•c
XIx:
SZ•H
JfH
dJHJ
j_Ui
0Jm
eu
dl•r|
oO
-W>
dd
•H
XIo
HJ
OJtn
Li10
a.>
u,di
3s
0)TI
•H
ind>
Ei
10_
_3[_
NTJ
SOl
dlTI
Uld
dlrH
Nro
dJ=
-«rl
3tn
dlE
SZ-A
CZd
J£10
Ur-
•H
T>¦o
10Oi
TIO
HOVI
dltu
OHJ
HJ
f-lU
uHJ
C¦H
>d
SZrH
>Ul
¦H
*dl
dl•H
dl3
DIin
u10
XJ•rA
CUf-l
o.•H
sHJ
Ol_3
OlHH
Ul>
Q10s
•H
[_dl
¦rA0J
Ifl.H
•H
10bo
Cl-i
dlUl
UtS
-H
OiXIX
l_a
0)rA
HJ
NrH
cdl
>dl
O1
_
SZrA3
XIOl
TJ<
Uld
-rl-H
Ulem
u10
udl
cdl
dld
dO
rH
cin
•rH
inXI
3M
•rix:
did
Ul10
01-H
IH
Li•rH
•odl
TJU
rH
UlO
dl•_
HJO
dl2c
dlHJ
uim
oix:
insz
Sg~
Ol3
T>I-H
c¦rA
J£a,
dl-
C¦H
310
Ul-_¦
OHJ
•H
3o
c«0
IHHJ
HJ
dldl>
HJ
UlTJ
10HJ
COi
Ol•H
eUl
dd
-h
dil-J
P.03
10Uta>
rH
tuc
¦ho
du.
dTJ
ioje
0Ql
rH
odi
x;oi
hj
Hd
Ol_1
>TI
E(0X
atJ
di3
U_
cc
10_.
rH
UlUl
Ul•*V
.m
Udl
dlin
Ot-l
UID
rA
AJOi
03.•o
J=dl
x:>
Oi>
•rA01
ddl
Hd
UH
r—•TJ
uj•o
di•H
cE
3Ol
SZDl
O3o
•H
inhj
OlHJ3
C10
-h
roui
>«t
rHo
tntn
Ulx:
10Oi
dldl
TJUl
T3Ui
UiHO
r-lu
_;dl
TJSZ
HJ
dlHJ
Ed
r-A_
•H
_u
3E—.
UiUi
dIH
d01
dlCD
3_
B3
3ID
Or-j
01dl
tudl
dlO
rH
_l
tjt_
«1N
in-j>
•—•tj
x:HJ
rH
IM
_ä
-82-
V.5.2.9 [M] wie in "mahl" [MA;L]Es hat sich herausgestellt, dass die Nasallaute untereinander sowohlvisuell anhand der Modellübertragungsfunktion als auch mithilfe der
log area ratio Distanz nur schwer auseinanderzuhalten sind. Ob eineallfällige Erweiterung des Sprachproduktionsmodells zum Pol-Nullstel¬len Modell {51} diesbezüglich eine Verbesserung bringt, ist nicht un¬
tersucht worden.Zentroid <CE.M] RMS-Distanz 0.77 Lautdauer 7.3
dB Amplitudengang60 —
Radius
40
20 —
0
- 4
— 2
I 0 | 1 kHz | 2
Fig.5.30 Zentroid <CE.M]
14 5 |
-83-
V.5.2.10 [N] wie in "nicht" [NICT]cf. Abschnitt 5.2.9Zentroid <CE.N] RMS-Distanz 0.74
dB Amplitudengang60
40 -
20—
0-
,0 | 1 kHz I 2 13
Fig.5.31 Zentroid <CE.N]
V.5.2.11 [9] wie in "zwang" [TSVA9]cf. Abschnitt 5.2.9Zentroid <CE.9] RMS-Distanz 0.68
dB Amplitudengang60
40 -
20—
0—
0 | 1 kHz I 2
Fig.5.32 Zentroid <CE.9
Lautdauer 6.3
Radius
- 6
I 4 5|
— 4
— 2
— 0
Lautdauer 7.9
Radius
- 6
— 4
— 2
4 5
— 0
-84-
V.5.2.12 [L] wie in "lack" [LAK]Das berechnete Zentroid weist eine relativ grosse RMS-Distanz auf. Zu¬dem erwies sich die Abgrenzung zum Vokal Schwa zunächst als schwierig,da die Modellübertragungsfunktionen beider Laute einander stark äh¬neln. Der zweite, dritte und vierte Formant stimmen praktisch uberein.Destruktionsversuche haben gezeigt, dass die Verschiebung des erstenFormanten von ca. 300 Hz bei [L] zu ca. 400 Hz bei [6] distinktivwirkt. Dies gilt auf keinen Fall für den ebenfalls beobachteten Unter¬schied in der Anregungsamplitude, die beim Schwa im Mittel um gut 8 dBhöher liegt. Merkwürdigerweise erwies sich auch das log area ratio Di-stanzmass als unempfindlich gegenüber solchen Unterschieden, wie siezwischen [L] einerseits und Lauten wie [6], [Y], [8], [0], [I] und [7]andererseits auftreten (cf. Abschnitt 6.1). Die errechneten Zentroid-distanzen bleiben nämlich weit hinter denjenigen Werten zurück, dieder subjektive Vergleich erwarten lässt.Zentroid <CE.L] RMS-Distanz 1.13 Lautdauer 5.8
dB Amplitudengang Radius60 -
_
40
20
I 0 | 1 kHz | 2 | 3 | 4 5 |
Fig.5.33 Zentroid <CE.L]
V.5.2.13 [R] wie in "rot" [RO;T]Dieser Laut erwies sich als der problematischste überhaupt. Bereitsbei einer reinen LPC-Analyse und darauffolgender Resynthese leidetseine Wiedergabequalltat wesentlich stärker, als diejenige andererLaute, wobei eine versuchte Verkürzung von Länge und Verschiebung desAnalyseframes auf 10 resp. 5 ms keine Verbesserung brachte. Der Laut[R] konnte im Sprachsignal jeweils anhand folgender Merkmale erkanntund lokalisiert werden:
-83-
V.5.2.10 [H] wie in "nicht" [NICT]cf. Abschnitt 5.2.9Zentroid <CE.M] RMS-Distanz 0.74
dB Amplitudengang60 -
40 -
20—
0 -
0 | 1 kHz I 2 I 3
Fig.5.31 Zentroid <CE.N]
Lautdauer 6.3
Radius
— 6
— 4
4 o
0
V.5.2.11 [9] wie in "zwang" [TSVA9]cf. Abschnitt 5.2.9Zentroid <CE.9] RMS-Distanz 0.68
dB Amplitudengang60 -
Lautdauer 7.9
Radius
40 -
20 —
4 5| 0 I 1 kHz I 2
Fig.5.32 Zentroid <CE.9
— 6
— 4
— 0
-84-
V.5.2.12 [L] wie in "lack" [LAK]Das berechnete Zentroid weist eine relativ grosse RMS-Distanz auf. Zu¬dem erwies sich die Abgrenzung zum Vokal Schwa zunächst als schwierig,da die Modellübertragungsfunktionen beider Laute einander stark äh¬neln. Der zweite, dritte und vierte Formant stimmen praktisch uberein.Destruktionsversuche haben gezeigt, dass die Verschiebung des erstenFormanten von ca. 300 Hz bei [L] zu ca. 400 Hz bei [6] distinktivwirkt. Dies gilt auf keinen Fall für den ebenfalls beobachteten Unter¬schied in der Anregungsamplitude, die beim Schwa im Mittel um gut 8 dBhöher liegt. Merkwürdigerweise erwies sich auch das log area ratio Di-
stanzmass als unempfindlich gegenüber solchen Unterschieden, wie siezwischen [L] einerseits und Lauten wie [6], [Y], [8], [0], [I] und [7]andererseits auftreten (cf. Abschnitt 6.1). Die errechneten Zentroid-distanzen bleiben namlich weit hinter denjenigen Werten zurück, dieder subjektive Vergleich erwarten lässt.Zentroid <CE.L] RMS-Distanz 1.13 Lautdauer 5.8
dB Amplitudengang Radius60 - _
40
20—
0 —
0 | 1 kHz | 2 | 3 | 4 5 |
Fig.5.33 Zentroid <CE.L]
V.5.2.13 [R] wie in "rot" [R0;T]Dieser Laut erwies sich als der problematischste überhaupt. Bereitsbei einer reinen LPC-Analyse und darauffolgender Resynthese leidetseine Wiedergabequalität wesentlich stärker, als diejenige andererLaute, wobei eine versuchte Verkürzung von Länge und Verschiebung desAnalyseframes auf 10 resp. 5 ms keine Verbesserung brachte. Der Laut[R] konnte im Sprachsignal jeweils anhand folgender Merkmale erkanntund lokalisiert werden:
-85-
-Der Maximalausschlag des Zeitsignals innerhalb der einzelnen Grundpe¬rioden pendelt seinerseits mit etwa 45 ms Zykluszeit zwischen einemMaximalwert und beinahe Null.
-[R] ist durchgehend periodisch. Die Grundperiode nimmt gegenüber ei¬ner periodischen Umgebung leicht zu, vor allem aber pendelt sie sel¬ber ebenfalls mit einer Zykluszeit von ca. 45 ms.
-Gegenüber vokalischer Umgebung nehmen Signal- und Anregungsamplitudestark ab und schwanken im selben Zyklus wie die Stimmgrundfrequenz.
-[R] zeichnet sich kaum durch eine einzelne spezifische Modellübertra¬gungsfunktion aus. Typisch ist dagegen, dass einzelne Frames völligvon ihren Nachbarn abweichen. Entsprechend kommt dem berechneten Zen¬troid geringere Bedeutung zu, als bei den meisten übrigen Lauten.
Die Figuren 5.34 und 5.35 zeigen diese Erscheinungen am Beispiel desWortes "bohren", der Laut [R] erstreckt sich etwa vom Frame 1900 biszum Frame 1908.
ZeitsignalAnregungsamplitudeSignalamplitudeGrundperiodenlaenge
M^^llU^*".
/VA^-M/v—^VA
y»i^W^"^
f* T^tf*~*to*
TT"Y90 00 10 20
I frames 1896 bis 1909 I I frames 1880 bis 1929 I
Fig.5.34 Zeitsignal eines [R] Fig.5.35 Zugehörige Verläufe von
Anregungs- und Signalamplitudesowie Grundperiode
-86-
Destruktionsversuche haben ergeben, dass ein Ausgleich der erwähntenVerläufe von Grundfrequenz und Amplitude nicht ausreicht, um die Wahr¬nehmung als [R] auch nur zu schwächen. Werden die von der Umgebungstark abweichenden Frames jeweils durch die ParameterSätze ihrer Vor¬
gänger ersetzt, verblasst der [R] Eindruck ein wenig. Erst ein Ersatzaller Frames durch ein und denselben Parametersatz, lässt es etwa zu
einem [4] entarten. Die Untersuchung und Manipulation der Veränderun¬gen des künstlichen Vokaltraktes in Funktion der Zeit brachteschliesslich einige Fortschritte in der Charakterisierung von [R],wenngleich die gefundenen Resultate noch nicht umfassend sind. Es wur¬
de festgestellt, dass der Querschnitt des Vokaltraktes gegen seinmundseitiges Ende hin sich zyklisch verengt und erweitert, und zwar
derart, dass seine geringste Öffnung mit dem kleinsten Wert der Sig¬nalamplitude zusammenfällt.
Radius des akustischen Resonators
I frames 1898 bis 1903 I I frames 1904 bis 1909 I
Fig.5.36 Zugehörige Vokaltraktlängsschnitte
-87-
Ein Konstruktionsversuch, bei welchem die Vokaltraktsegmente 0 bis 4
auf die eben beschriebene Weise gesteuert worden sind, vermochte ein
Signal zu erzeugen, das als [R] empfunden wird, wenn es auch immer
noch nicht genügend rollt. Die Vermutung liegt nahe, dass die für den
[R] Laut charakteristischen durch ein Vibrieren der Zungenspitze ver¬
ursachten Modulationen von Vokaltrakt, Stimmgrundfrequenz und Amplitu¬de infolge der LPC-Modellierung nur ungenügend wiedergegeben werden.
Krämer {52}, der die verschiedenen Allophone des Phonems /R/ anhand
von Sonagrammen untersucht hat, stellt eine durch wiederholte Ver¬
schlussbildung des Vokaltraktes bedingte zyklische Signaldämpfung und
Schwankungen insbesondere der Formantfrequenzen drei und vier fest,wobei der Verschluss durch Bewegungen der Zungenspitze oder des Hals¬
zäpfchens entstehen könne (als freie allophonische Varianten). Er be¬
zeichnet die Wiederholungsfrequenz dieser Phänomene als Intermissions-
frequenz und gibt dafür in guter Übereinstimmung mit den vorliegendenBeobachtungen einen Wert von maximal 30 Hz an, wobei mit beträchtli¬
chen sprecherabhängigen Variationen zu rechnen sei. Ebenfalls interes¬
sant ist seine Feststellung, dass das vokalische /R/-Allophon [4] aus¬
ser im Fehlen eben der Intermissionseffekte mit den bisher besproche¬nen konsonantischen Allophonen in jeder Beziehung übereinstimmt, und
daher als phonetischer Grundgehalt aller /R/-Allophone betrachtet wer¬
den könne.
Zentroid <CE.R] RMS-Distanz 1.07 Lautdauer 5.3
dB Amplitudengang Radius60 - —
— 6
40 -
20
| 0 | 1 kHz I 2 | 3 | 4 5 |
Fig.5.37 Zentroid <CE.R]
-88-
V.5.2.14 [H] wie in "huhn" [HU;N]Es ist eine grosse Streuung der Lautrealisationen beobachtet worden,die wahrscheinlich wieder wie in Abschnitt 5.2.2 auf unterschiedlicheAufteilungen zwischen den zwei Anregungsarten zurückzufuhren ist. Im
Gegensatz zur Situation bei [V] konnten die Realisationen zwei Gruppenzugeordnet werden, und überdies eine koartikulatorisch bedingte Ge¬setzmässigkeit für das Auftreten der einen oder anderen Form gefundenwerden. Die erste Kategorie (unvoiced Form) tritt offenbar immer dann
auf, wenn [H] auf einen aperiodischen Laut folgt, wozu auch der Leer¬laut zu zählen ist, und enthält selber den Stimmeinsatz, welcher durchden stets nachfolgenden Vokal (cf. III.3.3) bedingt ist. Die zweiteKategorie (voiced Form) erscheint dann, wenn bereits der Vorgängerlautperiodisch ist, und wird vom Pitchdetektionsalgorithmus als durchge¬hend periodisch erfasst. Sie wird von einer wesentlich schwächeren Zu¬nahme der Anregungsamplitude begleitet als die unvoiced Form. Die Mo¬dellübertragungsfunktion hat sich in Destruktionsversuchen als wesent¬lich herausgestellt. Über Manipulationen der Grundfrequenz und Anre¬
gungsamplitude kann die Wahrnehmung als [H] nicht unterdrückt werden.Ein Austauschen der beiden Formen untereinander führt zu keiner miss¬verständlichen Wahrnehmung, wenn die Anregungsamplitude einigermassenangepasst wird. Offenbar können sie als stellungsbedingte Allophonedesselben Phonems interpretiert werden, die sich vor allem im Zeit¬punkt ihres Stimmeinsatzes unterscheiden (cf. (53)). Für beide Formenist ein separates Zentroid berechnet worden.Für die unvoiced Form:Zentroid <CE.HU RMS-Distanz 0.98 Lautdauer 3.9
dB Amplitudengang60 —
Radius
40 —
20 —
— 6
— 4
o—
| 0 | 1 kHz | 2
Fig.5.38 Zentroid <CE.HU
I 4
-89-
Für die voiced Form:Zentroid <CE.HV RMS-Distanz 1.02
dB Amplitudengang60 -
Lautdauer 4.7
Radius
40 -
20
— 4
— 2
0I 0 | 1 kHz | 2
Fig.5.39 Zentroid <CE.HV
I 4 5
— 0
V.6 GEGENÜBERSTELLUNG ALLER LAUTE
V.6.1 OBJEKTIVER ZENTROIDVERGLEICH
In der Tabelle von Fig.5.40 sind die mit dem log area ratio Distanz-mass berechneten paarweisen Abstände aller 35 Zentroide festgehalten.
0
120
146
011
54
017
1517
14
LOG
AREARATI0(2)
CENTROIODISTANCE
TABLE
DISTANCESARE
ROUNDED.
LIMITED
TO
9.9
ANDMULTIPLIED
BY
10
CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCrrr
EE
EE
EE
EE
EE
EE
EE
EE
EE
EE
EE
E£
II
E1
EI
EI
IE
I5lllnD?n?i!?S!?°°*Ä66FVSZ5icJMN9LRHH
33333P3DEAL333P3KL3P333J333333333UV
<CE.13
0<CE.I3
20
0<CE.73
20
150
<CE.Y3
26
1214
0<CE.U3
49
46
4139
0<CE.UP
50
46
4139
30
<CE.23
42
34
3226
24
23
0¦CCE.E3
20
616
1649
49
38
<CE.3E
22
1214
1438
39
29
<CE.3A
25
14
1816
38
38
29
<CE.3L
24
1116
1340
40
30
<CE.03
25
14
13538
38
27
<CE.83
24
1514
1033
33
22
19
1113
1212
0<CE.03
49
45
4138
99
2148
37
36
38
37
32
0<CE.OP
514642
38
15
1418
49
39
38
40
37
33
10
0<CE.O]
4130
28
2127
26
13
33
24
24
2422
18
2424
0<CE.AK
3223
2420
30
30
22
26
1616
17
2112
28
3114
0<CE.AL
36
27
27
22
3131
22
30
21
2121
24
1529
3113
40
<CE.6]
25
1316
1234
36
23
17
10
1211
15
734
35
1911
150
<CE.6P
20
911
840
40
28
1210
12
10
9839
39
24
1822
90
<CE.F3
34
29
37
29
48
48
37
3128
24
26
3127
43
45
33
27
29
27
28
0<CE.V3
27
25
26
22
32
33
2529
24
25
2522
1930
33
26
22
26
1921
29
0•CCE.SJ
43
37
48
40
64
64
50
3940
39
38
43
41
59
60
46
4142
39
39
1740
0<CE.Z3
3428
3831
55
5642
32
33
34
3234
32
52
54
40
34
37
30
3125
2525
0<CE.53
4539
4841
5657
47
40
36
35
3543
38
52
5442
35
36
38
39
144220
34
0<CE.XD
3534
38
33
44
4534
38
32
32
3234
29
39
42
34
28
29
29
3119
24
2727
28
0<CE.C3
48
39
4840
5657
46
40
37
35
35
42
38
52
54
40
35
36
38
39
14
4220
35
11
310
<CE.J3
184
1415
4949
37
815
18
1515
1848
49
33
27
3118
1131
27
3829
4135
410
<CE.M3
23
24
1923
3132
27
30
23
25
24
22
18
31
3428
23
27
2121
38
2050
40
50
33
5128
05rr"on
1111
112B
3S36
32
32
25
27
2B
2B
23
3A
37
3A
27
3l24
25
3»
23
5141
50
3152
30
110
VH'F,11
?!2l
2?
3?3B
33
3124
26
27
29
23
36
A0
3A
2i
30
2A2S
3B
25
49
4148
31
5131
137
05ÜI'»?i
?1S"
39
39
26
20
i61B
1713
1237
38
23
1B20
101230
1940
29
42
29
42
17
1822
22
0<CE.R3
28
2123
1732
32
19
25
18
17
18
1913
28
29
1915
19
1317
25
1438
29
38
24
37
24
20
22
22
14
0
Jrc-Üü11V
2B
22
35
35
27
26
1B17
1B2A
t632«
23
1A""
2»«
2131
30
2i5l
27
27111111
23
170
<CE.HV
32
26
28
25
29
30
25
29
2119
2126
18
2730
23
1621
1822
26
1741
32
36
28
36
30
24l?III4
1315
0
Fia.5.40
TABELLE
DER
PAARUEISEN
ZENTROIDDISTANZEN
-91-
V.6.2 AUDITIVER VERGLEICH
Die Ergebnisse der Lautbeschreibungen und der abschliessenden Kon¬
struktionsversuche sind auf der folgenden Seite im Sinne einer grobenÜbersicht tabellarisch zusammengestellt.0 0
Legende für die einzelnen Spalten:
Laut : Lautqualität und -quantität gemäss IPA-Lautsystem
Kat : phonologische KategorieV : VokalP : PlosivlautF : FrikativlautH : HalbvokalN : Nasallaut } KonsonantL : LaterallautR : VibrantA : Aspirationslaut
Stirn : Stimmhaftigkeit gemäss phonologischer Klassifikationh : stimmhaft1 : stimmlos
Zen Zentroidbezeichnung, Suffix zu <CE.
Voic : Art der Anregung gemäss Pitchdetektion und Hörprobenv : periodischu : aperiodischu->v : Stimmeinsatz innerhalb des Lautes(u)->v : Stimmeinsatz falls nicht bereits vorher periodisch
Merk : Primäre distinktive Merkmale für die Lautqualitätausser der Anregungsart
r : Modellfiltercharakteristikg : Amplitudenverlaufd : Lautdauero : Modulation von Modellfiltercharakteristik,
Amplitude und Grundfrequenz
## : plausibelste Wahrnehmung im Konstruktionsversuch03 : mit 3 Frames entsprechend 45 ms Dauer05 : mit 5 Frames entsprechend 75 ms Dauer08 : mit 8 Frames entsprechend 120 ms Dauer12 : mit 12 Frames entsprechend 180 ms Dauer
? : unidentifizierbarer Laut
Beo : Beobachtungen zur Lautqualität im Hörvergleich
Ol
mi
COI
.—i
uu
¦—1
3<nm
oOl
dl<D
dldl
10-H
-H
•H
ss
s3
.*
'-twr^otn^af-txirnmnocoooo-rtirtjioi
olOoo
•»
**
*~<
wp*otJt>p-»«Hfnr<")fnf-oot3t3r-»rtj«i;ioio
liiiii
6L,>^/l^]LnXU,-)
X55
cr\jm
p«
p«
tu>UiNli-)>«;U'^
S55CT>
JiO
p-.o-.
HhjMSDNHnnniHiONfM^flKiioio
ii
tI
ii
04>üiN(V'XUh
2*55d
jio
r-
o-
t^>iSEDCMMmmro>iCOMO]^*ie(<\ovo
Ifc
l/lLT)X
(JU
Oj
Hr-^
<^-
«-«Säct»
Cl
Oli
NJ(
SI
¦HI
4J
Il/l
I
4->I
(0I
*:i
3I
tft
>>>>>>>>>>>>>>>>>>>>
fs.(v.
^.
^.
r.
ts.p'a3Da33>
>>>
r—1<—tl
lt-ii
1{L,
iii—.
[q«(
.J.—,,
irnOji
1\£J
.—.
CLiHwr-tMö^3(NWmnmoooooO'<'a:iou>
x:.c
x:.c
x:x:.c.c:.C£:.cx:.c
x:x:
x:x:
^i
x,rH
x:-i
x:-t
x:r-<
x:.-i
>>
p>
II
II
I|
.—.r-i,—.r—.r—,.—,,—,^-,
r-,nr-i
II
1I
II
b>rtNinXUr5
X55
Ol
£x:
x:.c
x:x:
>>>>>
>>>>>>>>
>>>>
CU&iOjCUCUCL
fcfarJL.fcifofclijlirscasa
—I
l-lr-
>*^»
CMWroronOtOO
O<
OiKD
D.tOHD«Ü
fc>UlNiflXUh
£|zot
J05
<
JCÜ
X
-93-
V.7 DISKUSSION
Die bisherigen Abschnitte dieses Kapitels haben sich auf eine Be¬
schreibung der Lauteigenschaften und deren Erfassungsmethoden be¬schränkt. Im folgenden sollen nun einige Schlussfolgerungen aus diesen
Ergebnissen gezogen werden, die sich jedoch nicht alle unmittelbar aufdas gesteckte Ziel der Sprachsynthese beziehen.
-Die grösste Zentroiddistanz von 6.4 ergibt sich zwischen den Lauten
[U;] und [S]. In der Tat bilden sie auch in artikulatorischer und au¬
ditiver Hinsicht einen sehr starken Gegensatz.
-Die innerhalb der beiden Langvokale [U;] und [0;] festgestellten Un¬terschiede zwischen einer peripheren Form mit ausgebildetem zweitemFormanten und einer zentralen Form, bei der dieser zurücktritt, sind
nur visueller Art. Perzeptorisch sind die zwei Formen nicht auseinan¬derzuhalten. Die Zentroiddistanzen sind in beiden Fällen gering,wenngleich man von der Wahrnehmung her speziell bei [0;] noch kleine¬re Werte dafür erwarten müsste.
-Die minimalen Abweichungen der für die verschiedenen Varianten von
[3] (kurz aus "e" und "ä", sowie lang aus "ä") berechneten Zentroidesowie die ebenfalls minimalen perzeptorischen Unterschiede zeigen,dass es sich tatsächlich um diesselbe Lautqualität handelt, wie diesim IPA-Transkriptionssystem festgelegt ist und für die Untersuchungenüber Lauthäufigkeiten und Lautverbindungen in Kapitel III. vorausge¬setzt worden war.
-Auch der kurze und der lange [A] Laut dürfen aufgrund ihrer geringenDistanz ohne weiteres als nur in ihrer Dauer voneinander verschiedenbetrachtet werden. Beide Zentroide werden eindeutig als [A] wahrge¬nommen, wobei dasjenige aus dem Langvokal ein bisschen klarer er¬
scheint.
-Der Schwa-Laut wird dagegen leicht verschieden artikuliert, je nach¬dem ob er in Präfixen oder in Endungen erscheint, wobei das aus den
Endungen stammende Zentroid sich besser gegen die übrigen Vokallaute
abzugrenzen vermag. Die Auswirkungen dieses Phänomens auf die Synthe¬se werden in VII.2 beschrieben.
-Im Gegensatz zu den beiden bereits erwähnten Vokalpaaren, bei deneneine zeitliche Streckung respektive Raffung einzig die empfundeneLautquantität verändert, wie dies auch in den geringen Zentroidab-ständen zum Ausdruck kommt, nämlich
[3] <-> [3;] Distanz 0.4 (zwischen den beiden "ä"-Formen)[A] <-> [A;] Distanz 0.6
existieren genau drei andere Paare, bei denen die Lautdauer die emp¬fundene Lautqualität derart stark beeinflusst, dass die jeweiligenPartnerlaute durch Änderung lediglich ihrer zeitlichen Ausdehnung in¬einander übergeführt werden können. Zwei davon weisen in der Tat sehr
geringe Zentroidabstände auf. Dies obschon in der phonetischen Lite¬ratur {03,10} dafür jeweils unterschiedliche Artikulationsstellungenund Formantfrequenzen angegeben werden, welche ganz ohne Berücksich¬tigung der zeitlichen Ausdehnung alle Lautqualitäten voneinander un-
1£
ii
Ii
idl
uu
Li1
dlC
1c
x;1
LiS
<DrH
0>•H
Li10
Udl
Oldl
U•H
dlLi
<uu
d>d)
STJ
fÖc
Lidl
4-»IÜ
TJ4-»
TIdl
TJr-t
dlNo
J23
••
C-*:
o'O
>—1
10tn
>•H
CX!
njc
M(1)
ox;
x:3
o.c
cL4
dlc
4J
OlrH
LiTJ
dlc
<ocj>>
ELdl
m-4-»
HLi
dlOl
4J
dlc
3di
d)P
TJP
3Li
d)TJ
crH
Cr3
dl3
dl•r4
c•H
LiTJ
1erp
u~>in
nj3
N03
10X!
x:dl
•odl
•H
NoOOoooooooooooo
Qi-pc
mii
0»¦
i-H(0
JtfN
10J
UTI
c4-»
oIjXMom
in
CNoooo
in
00m
^<
vovo
u•H
3-3
S-^CM
TJO
TJC
3N
•H
dlC
Lio
CV]m
cjm
CJ
-*
rnmmm
**
ro
in
ix»\o
ü-,e
LiLi
1—1
0)>
Lidl
(0-M
dl3
34J
tufO
LiC
P•»n
x:Li
dldl
T3C
0in
4J
4J
Cc
TJd)
d)TJ
J3(1)
OLi
U0)
0)•a
•H
Cdl
tnu
•H
odl
rH
<dV)
XI>—':3
H3
rHCQ
dl4IHH
CH
OiCE
c3N
4-»LipQ>
rH•TJ
0)0)
cc
x;oj
dldl
Cdl
•3
inN
CX!
P4-1
Utn
t-ip
2"
yp
4->4-J
4J
<os
cXI
OlOl
dl13
Mx:
•H
3XI
>>
CM
:<TJP
Li«M
X!(/]
Cdl
dl•H
cc
TJ«4-1
0)u
OrH
Unj
i—i
tn
H<U
10U
Ac
dll-iXJ
dl10
•H
dlx:
•Hs
NV)
MH
V)TJ
EC
C3
4J
dlOl
HU
--ITJ
dlin
Olu
T3(
ii
11
++
t+
1+
++
acß
d)Li
3-
x:l-i
uUl
dlXI
4JC
dlX!
.*LiC
3144
0•H
i1
++
oIMH
J-lTJ
ON
Cu
a>l/l
•00
nu
x:O
cdl
U10
3x:
>Olo
d>w
c[b
<DV)
TJc
Cc
yoiu
m*H
r-\•H
10<U
XIo
•H
C•H
t/iöiSc
a>dl
33
dlTJ
tnd>U
r-tdl
dlu
^DP
Lid>
in
C0>
Htr»
Nt-i
N-tC
uXI
10Li
•r4c
c0)
ind>
LiP
-H
•H
Cd)
oaii
dlTJ
dld)
-Qin
13in
d)M
0)l-i
eu
dlOl
a1/1
4-1e
inCO
4J
I-IT3
Oln!p
§¦H
LiLi
d>P
f0•H
-*
Liu
•H
Cc
•w
dlC
cx:
x:0>
<üXI
HC
a>di
Cn1A
3dl
»3
oU
10v
orH
1i
ii
11o
++oooo
++
p0>
(0d,
0)CDP
iH
x:3
\XI
UM
Olx:
in4J
3e
oid
x:*H
4-1tj
ed>
C(0
TJQj
•H
SU>
LirHu
N+
uCL
TJC
LiDi
Liin
—4
10Li
x:c
oB
Li4J
U-H
0)d)
1/1X)
V0
Ul3
0)dl
•H
dlO
^0)
3TJ
Cd)3
0)QJ
(1)H
XI•H
10XI
LiC
TJc
T-*M
TIIn
j_is
«JCL
CP
fO4->
dlLiG
CdiC
3TJ
Cp
cN
ctji
Jx;
cCH
inLi
Ai
TIdl
dl(0
.H
0H
•H
c0)
0)X3X
c•—<
LiO
d)0)
3dl
Ac\
•HTJ
TJC^K
10m
dlT3
4_)u
(TJ0
OM
MH
•H
3C
in0)
j:¦o
Oiuo2
1/1-H
o4J
cto
Ox:0)
N•—«Hm
c:10
CC
s^
dl3
dlLi
dlc
x;in
31
i+
+•
ti
i+
+•H
<£>Li
-^
.»
<uU
H(0
10>
+S
4->«a:
Cdl
i-H•H
uLi
Ihtn
CM
LiP
TJo
CL,<U
'Sc
^H
V•r4
3O
>^H
•r4dl
0)c;
V)d)
cJ3
Xld)
VOm
oo
l—-C
c•H
1(0
c>
dlc
dlU>
orH
(1)(U
(TJ0)
3dl
^c
x;.-1
dlc
XIdl
4J
rH
CX
f00J
0J3
mh
ea»
0)d)
tn
"9Oo
«-tx:
o>s
x.c
¦ö\
+di
uLi
x:c
•H10
Ol4J
Oidl
cU
0)P
udl
dlc
+V
4Jo
dlU
dldlH
c10
LiTJ
C4-1
c(U
NN
NH
CJ>0)
fTJX!
o>•HV
c«
CH
+JU
•rH4J
dll-i
++
++
1+
++
++
ii
iV)
c:tn
GC
C«n
Cu
Udi
1/1Ol
104-1
rH
Cdl
Lim>
Lio
0)•H
rH
C!P
rHO
^h
(d^:
d>
0JfÖ
fü>h
«—•
a.tn
o>Ol
cE
•1—1
Li4J
ig10
HS
U•H
-Q13
>s
oPP
+jw
x:om
•Hc
c3
uOl
TJB
iu
0)[Li
Win
inw
pH
Lic
dl3
.-fo
4->Di
dlLi
CLi
3rH
•H
•H
•H
0)0)w
cO
di-M
C~t
[14X!
NO
•H
&3
dlN
CCT»
i—|c
4-ti-l
4-tQQQ
r-tP
0)4-1
c1-4C
d)dl
dlDl.
dlC
N•H
dlc
+i+
I+
1+
+i
+1
+i
+t
md)P
0:rd
•H>P
C^H
L|m
x:10
o10
dl4Jc
4-1•H
dl>
N0]
Tab<j_>
(U0)
0)u
^H
•Ha
T3</l
dl1^
TJLi
C4J
C
armamrH
-H
<MrH
VI3
4-tu
1/1t/1
4-»dl
dlM
CA
dli—1
i
1rH
0)XIPÄ
10ui
3c
VIx:
u4->
dlo
dlC
X!3
inC
fflrH
fl)3
0O
3•^m
c<
0Li
dlLi
x:wi3
cin
•-IV
er£
d>viWOO
CnH
t^a>
+J
•H
0>•H
dlT~i
H-HU
uin
odi
5\
\•\
\\
\\
\4->
denTJ
U>-H
Oldl
4J
.-)ul
dldl
•H
XILi
cu
Ct.LiP
A1A1
CO»
(0(0
•Hx;
101/1
di§
4-1c
dlb
o¦H
tn
r^
>*Ö
CMW
romo
00oo<<
0J-
d>3
d>c
1P
(0*
LiP
0)x:
d)Liu
u•rH3
dlXI(0
6Li
indl
3dl
c3X)di
Oi1011
Cx:
^v\.^^\\\\\
-^\.\\w
\•H
cd)N
S(0
4_t•HV
VV
NQ>3
TJu
4Jc
f-tJ<
HTI
CM
OlrH\
dl(I)
IH
>-letirvor f
er—.
+J durLaudete zeitArti Lage
dlc
CC.
»x:
diifelsuchhsermanttelt
11
1t
\1
t1111
I1
rev:ersie-i
ni
ni
x:1
1
ab 441zeichniauf diiuu
r-
'S•*
inc
c•H
CU
Oldi
Mu
Li+V
0)<D
Ed>O
>idi
dldi
dl01
-H
ro3
dl3o
+•r4
oP
m.*
i—im
eOv
sin
4-1CJN>
inU.
VB
*QT3
-95-
Bei zeitlicher Raffung geht das Vokalphonem mit den Eigenschaf¬ten <+ lang, x vorn, y gerundet, z hoch> in dasjenige mit den
Eigenschaften <- lang, x vorn, y gerundet, z hoch> über und
entsprechend umgekehrt bei zeitlicher Dehnung.
Allerdings kann gestützt auf die Zentroiddistanztabelle von Abschnitt
6.1 derselbe Zusammenhang ohne heuristische Klasseneinteilungen und
vorsichtiger in Bezug auf die zwischen [2] und [0;] beobachtete laut¬
liche Verschiebung so formuliert werden:
Bei zeitlicher Raffung geht ein Langvokal in denjenigen Kurzvo¬
kal über, dessen Zentroid am nächsten beim eigenen Zentroidliegt und viceversa, wobei nur geringfügige Distanzen eine pro¬blemlose Umwandlung erwarten lassen. (Als geringfügig geltenunter den vorliegenden Analysebedingungen log area ratio Di¬
stanzen unter eins.)
-Unter Ausnutzung der festgestellten gegenseitigen Beeinflussung von
Quantität und Qualität bei den drei Lautpaaren [I] und [E;], [Y] und
[0;] sowie [2] und [0;] wäre es grundsätzlich möglich, für die
Sprachsynthese lediglich die jeweils zum Langvokal gehörenden Grunde¬lemente abzuspeichern und die eingesparten Kurzvokale durch Reduktion
der Lautdauer davon abzuleiten. Von dieser Möglichkeit haben wir
nicht Gebrauch gemacht, weil Lang- und Kurzvokal sich phonotaktischjeweils unterschiedlich verhalten (cf. III.3.3), was zur Folge hat,dass nicht alle in Verbindung mit dem Kurzvokal notwendigen Diphon-elemente auch entsprechend mit dem Langvokal existieren.
-Die Distanztabelle Fig.5.40 bestätigt die in Abschnitt 5.2.8 gemachteFeststellung, dass der Konsonant [J] nicht aufgrund seines Zentroids
allein von den Vokalen [I] resp. [E;j unterschieden werden kann, denn
dazu sind die Abstände zu gering. Erst der Verlauf der Anregungsam-plitude bewirkt eine Differenzierung.
-Die folgende Beobachtung ist nicht als endgültiges Resultat zu ver¬
stehen, sondern vielmehr als Anregung für weitere Untersuchungen über
die umstrittenen Beziehungen zwischen den Begriffen Silbe, Silbenträ¬
ger, Vokal und Konsonant untereinander sowie zu den Eigenschaften der
entsprechenden Signalausschnitte. Die in Abschnitt 5.2.12 beschriebe¬
ne ausgeprägte spektrale Ähnlichkeit zwischen dem Konsonanten [L] unddem Vokal [6] scheint zu bestätigen, dass die Einteilung in Vokale
und Konsonanten sich vor allem auf phonologische und allenfalls auch
artikulatorisch-phonetische Kriterien stützt ({10} 4.9), die jedochauf der Ebene des Sprachsignals keine Entsprechung finden. Dagegengibt es offenbar signalbezogene und damit möglicherweise sprachüber¬greifende Anhaltspunkte dafür, welche Laute als Silbenträger über¬
haupt in Frage kommen und welche nicht. In der deutschen Standard¬
sprache treten silbisch alle Vokale und Diphtonge sowie die folgendenKonsonantlaute auf:
[M] z.B. in "keinem" [KA1NM][N] z.B. in "hinten" [HINTN][L] z.B. in "löffel" [L8FL]
-96-
Ihnen allen ist gemeinsam, dass sie in ihrer Mitte eine quasistatio¬näre Phase aufweisen, keinen Rauschanteil besitzen und daher alsdurchgehend periodisch detektiert werden, und nicht auf den Amplitu¬denverlauf als distinktives Merkmal angewiesen sind, wie der Tabellein Abschnitt 6.2 entnommen werden kann. Das vokalische /R/-Allophon[4] haben wir in III.2.2 aus ökonomischen Gründen (leider) von unse¬ren Untersuchungen ausgeschlossen. Infolge seines vokalähnlichen Cha¬rakters dürfte es aber die erwähnten Bedingungen ebenfalls erfüllen.
[4] z.B. in "geier" [GA14]Von den untersuchten Lauten genügen zusätzlich noch [9] und [R] die¬sen Bedingungen. Tatsächlich existiert nach Duden {03} im Serbokroa¬tischen silbisch [R], beispielsweise im Namen für Triest "trst"[TRST], und im Tschechischen silbisch [M], [L] und [R]. Silbisch [9]schliesslich tritt zwar nicht in der deutschen Standardausspracheauf, wohl aber in der Umgangslautung {03}. Wortfinales silbisches [N]kann sich bei nachlässiger Aussprache bezüglich des Artikulationsor¬tes dem voranstehenden Konsonantlaut anpassen und so nach [K], [G]oder [X] zu silbisch [9] werden.
[9] z.B. in "tagen" [TA;G9]Das Mengendiagramm in Fig.5.41 zeigt die Beziehungen zwischen denVertretern der Kategorien Vokal resp. Konsonant und ihrem Auftretenals Silbenträger, am Beispiel der deutschen Standardsprache.
F V SP B T
M N 9
H
unsilbische Laute
Z 5 X C JDKG
L R 4
Konsonanten
Vokaleund Diphtonge
1; I 7; Y U;E; 3 3; 0; 8
„». 0: Q A: Asilbisch 0; Q A;auftretende 6
LauteM N
Q7A1 AU
Fig.5.41 Vokale, Konsonanten und Silbentragerin der deutschen Standardsprache
-97-
-Wie sich herausgestellt hat, gehört bei insgesamt vier Lauten nämlich
[V], [Z], [J].und [H] eine ausgeprägte Amplitudenzunahme zu den di¬stinktiven Merkmalen. Wir werden sie daher bisweilen unter dem Be¬
griff 'Anstiegslaute' zusammenfassen. Interessanterweise zeigt eine
Gegenüberstellung mit den Resultaten der phonotaktisehen Untersuchungin Kapitel III., welche in Fig.3.2 zusammengefasst sind, dass sie al¬le vier in ihren Kombinationsmoglichkeiten mit benachbarten Lautenexakt denselben Restriktionen unterworfen sind (bis auf die selteneAusnahme von [VR] in "wrack" und "wringen"). Die charakteristische
Amplitudenzunahme ist es offenbar auch, die Berührungen untereinanderund das Auftreten in wortfinaler Position ausschliesst, indem sie we¬
der zweimal nacheinander noch unmittelbar vor einer Pause realisiertwerden kann.
-Im Interesse einer möglichst naturgetreuen Wiedergabe von gemischtresp. transient angeregten Lauten wäre es wünschenswert mit einem
Synthesemodell zu arbeiten, welches mit beiden Anregungssignalen zu¬
gleich gespiesen werden kann, wobei die Einspeisung der aperiodischenAnregungskomponente an der physiologisch korrekten Stelle innerhalbdes Vokaltraktes erfolgen müsste. Ebenso könnte die Sicherheit von
Lauterkennungsverfahren auf der Basis der LPC-Modellierung und des
Parametervergleichs mittels Distanzmassen gesteigert werden, wenn ein
Analyseverfahren gefunden würde, dessen Modellfilterkoeffizientennicht in Abhängigkeit der gerade vorliegenden Aufteilung zwischen denbeiden Anregungsarten streuen und damit die Verdichtungszonen dieserLaute verwischen. Zum gegenwärtigen Zeitpunkt sehen wir jedoch keinenbrauchbaren Ansatz zur Lösung des Analyseproblems, welche leider auchdie Voraussetzung für eine erfolgreiche Synthese mit gemischter Anre¬
gung bildet. Holm {58} berichtet allerdings über eine nur synthese-seitig vorgenommene Erweiterung der LPC-Modellierung, bei der mithil-fe der Reynoldschen Zahl für jedes Segment des kunstlichen Vokaltrak¬
tes bestimmt wird, ob die Strömung dort laminar oder turbulent er¬
folgt, und bei der im zweiten Fall eine entsprechende Rauschkomponen¬te hinzugefügt wird.
-98-
KAPITEL VI. GEWINNUNG DER DI PHONELEMENTE******************************************
VI.l PROBLEMSTELLUNG
Den in Kapitel II. erwähnten Verkettungsverfahren ist gemeinsam, dassder eigentliche Syntheseprozess durch zeitliches Aneinanderfügen ir¬
gendwie gearteter Grundelemente in einer vom umzusetzenden Text dik¬tierten Ordnung erfolgt. Die dabei zwangsläufig entstehenden Nahtstel¬len sollen unhörbar bleiben, obschon die zu verkettenden Einheiten imSprachmaterial, dem sie entnommen worden sind, in aller Regel nichtbenachbart waren, und ihnen von ihrem ursprunglichen Kontext her un¬
terschiedliche prosodische Färbungen anhaften. Konkret soll das syn¬thetische Sprachsignal in unmittelbarer Nähe vor und nach den Naht¬stellen die folgenden nach fallendem Gewicht geordneten Bedingungenerfüllen:a.Die Signalwerte und auch die Schnittpositionen innerhalb allfälligerGrundperioden müssen übereinstimmen, um nicht den Eindruck eines
diskontinuierlichen Zeitsignals zu erwecken (von einer Stetigkeits¬bedingung im mathematischen Sinne kann hier nicht gesprochen werden,da das Abtastsignal nie, das Signal nach dem Rekonstruktionsfllterimmer stetig ist).
b.Die Formantstrukturen beidseits der Nahtstellen müssen einander ent¬sprechen.
c.Die beiden Stimmgrundfrequenzen und damit auch die Lage ihrer Harmo¬nischen sollen übereinstimmen, wenn periodische Anregung vorliegt.
d.Die Signalamplituden vor und nach der Nahtstelle müssen vergleichbargross sein.
Eine allfällige Verletzung der Kontinuitätsbedingung a hätte schwereKnackstörungen zur Folge, sie wird aber glücklicherweise bei Verwen¬dung eines Modellierungsverfahrens wie der LPC-Methode ohne weiteresDazutun erfüllt.
Diskontinuitäten in der Formantstruktur beeinträchtigen die Lautver-standlichkeit und führen häufig auch zur Wahrnehmung vermeintlicherzusatzlicher Laute (speziell [L]) im synthetischen Sprachsignal. Wirhaben uns zum Ziel gesetzt, die Forderung nach spektraler Kontinuitätohne irgendwelche aus der Luft gegriffene Interpolationsoperationen imSyntheseprozess zu erfüllen. Vielmehr wollen wir mit der von uns ent¬wickelten und in Abschnitt 3 beschriebenen Methode die Bedingung b be¬reits bei der Extraktion der Diphone aus dem Tragermaterial möglichstumfassend berücksichtigen.
Ganz krasse Diskrepanzen ausgeschlossen haben Missachtungen der Bedin¬gungen c und d keinen Einfluss auf die Lautverständlichkeit, sondernbeeinträchtigen lediglich die Wahrnehmung von Wort- und Satzbetonung.Obschon sich diese Arbeit nicht mit prosodischen Erscheinungen be-fasst, werden in Abschnitt 4 die Ergebnisse eines kleinen Vorversuchszur Egalisierung der Stimmgrundfrequenz an den Diphonnahtstellen be¬schrieben. Die Kontinuität der Signal- resp. Anregungsamplitude hatsich als sehr unkritisch herausgestellt und wird durch die getroffenenVorkehrungen bei der Aufnahme des Korpus in genügendem Masse gewähr-
11
11
G1
t1
<H1
11
dl1
11
di
i1
Tli
1TJ
4J
11
Ul|
l|
1c
d)C
cic
c1
d)P
HP
dlP
a>C
dlOl
dlLi
ind>
dl-1
dlH
-H
,~-C
din
dld
Lidl
Lidl
LiX
dC
Li•H
•H
0)Li
•H
didJ
rH
in>
rHrHH
T-i
d)TJ
stn
dl-H
COOl
4-»Ol
dldl
dldlp
TJdl
rdLi
dlTl
dlu
oo
0)in
rH
Q)•p
¦H
d)0)
Erd
0)C
c4J
dld
did
tnxl
a?xl
inird
dXi
Li>
x:x:
TJrd
>c
Lid)
CUj
TJLiN
Cd>
Hu
Xid
3Tl
10x;
3Li
tnrH
Ulp<
dldl
HUl
UlCL
CLc
Cc
Mdl
Oc
oc
Pa>
x)d>
UlO
3T-i
d4-4
TJ6
10rH
Hdl
•H
OlTJ
dldl
Lillro
¦H
•H
00>
d)p
V)S
0X!
3-
X.Li
d>PQ
Li•H
¦H
3d
¦H
rfl»4
l/lH
rH
LiUl
34-»
3TJQ
Qinp
OiÄ
Lifd
Lix;
av
mr—.
0)in
(dOi
dl^H
dldl
Oi>.
dl«;
rH
•H
dl3
dlN
N4J
Liß
cdl
dlx;
dlCL
•¦HOi
CTCM
CL01
5d)
•J<
x:4J
Oid
uiXi
dl—.£
dlXi
XITl<
d4Ja.
dlC
Liu
cifd
aTJ
CLP
•H
Q-H
<P
\Din
TJoi
x:O
ud
3U
Hr*l
HU
rdo
ddl
dlUl
•H
dld)
oDi
inG
Co
TJ3
cu
e13
33
dM
UlQ
IOTJ
UlP
dC
dl-H
Lid
CTJP
J<Li
fdc
3P
Gfd
LiG
d>-H
roLi
ininc
Cdl
4-14l5
UlO
ax;
Li3
du
Nd)
Lic
diLi
•H
d)d)
d)Ö>
TI-HM
TSLi
du
HTJ
d•
-h
a>>
4J
Hu
ui0
diUl
pPp
XId)
•H
Li0>
E5
rdG
TJXI
gG
Litn
dlOl
10s
ucm
x;OlO
uirH
t£•T-i
LiH
•H
3•H
13TJ
dltrö
MTJ
P5
Q)O
33
dlx:
3>
4J
•4-1dl
4J
di•—>
No
•di
dlc
H<*
dl3
4-1di
CP
Pc
d>d»
OP
grH
LiTJ
TJu
10in
dOl
-H
Tl3
CrH
XiHO
dl3
jaU
roJ£
dl3
X3•H
o3
Ein
adl
CU-1
Li•H
4J
dl•H
4J
dlc
ud
indi
rduc
¦HN
•dl
J<S
x:^Q
rdV
E•H
rd3
Q)§
d)Li
d)d)
Odl
in¦H
Tldl
dX
dldl
dlLi
LiLi
LirH
X)Tl
doi
didl
ou
rJ
•H
PO
Lix:
d)-
LiH
ox:
x:>w
LiT-i
die
Lidi
x:Xi
3U
3d)
d>P
dlro
4J
OlH
•H
Li4J
*H
¦H
rdP
PP
TJCTNX
UU
Ltdl
raXI
Hdl
Eu
Vx:
4-1>
HJ<
3d
-Lig
rH
3Li
3^HcP
cp
«4-1P
LiC
cc
crd
dltn
3di
XIc
LiB>
•H
4->(0M
N0>
dlH
grH
O5
Oid)
dld)
x;3
ind)
d>>»
d)(0
GCLTJP
in4J
tr<;
rH
rH
rHH
»4-13P
«Ha
dTJ
dH
(0*:
3•H
TJXI
urd
•H
LiN
inEX
OviG
GLi
in•H
•H
dldl
TJLi
dlLi
Liin
4h
in
4Jdi
LiXi
4J
1W
Lird
LiC
•H
rH
inx;
x:d>
Ul3
Edd>
a>dl
tnLi
dd
TJd
13Li
dl4JX!
Hdl
4J
dlU
Ul
T-idl
TJrd
E-<<ü
did)
inXJ
fdE
u-h
c:Li
>o>M
dlO
•H
dioM
>u>
l/lUP
cd
3ui
drH
TJd
x:P
sin
c<
3•H
mtu
oTJ
d)G
Gdl
gUl
Lih
dl3
4-1rH
dlrd
Cc
diUl
hrrj
3Li
dic
•H
tr'x;Li
TJ>
a-<j
O)0)
vi
rde
didl
4-iLi
inHflC
LiC
0)Oi
u•H
C3
dlTJ
co>
Lio>
dlx:
Uc
CLG
3d)
OiG
dio>
•-4TJ
UlX
4-1O
Li¦H
01dl
3TJ
Odl
NLi
rdLi
TJd
dlo
TJbd
cTJ
Edi
•H
dlVI
3TJ
eG
dlx:
Md
io•w
dl3
4-14-1
XiN
-r-lin
Li•H
dlrH
did
3<4J
>rd
d>d)
•H
•-fin
LiC
C!m
3ihP
odl
4->3
Li§>
Ul
rH
Udl
IM
Oiro
XI3
LiU-4
OiP
x;x;
TJOi
rdLiU
dld>
LiG
<Mc
>in
inj4-»
dXi
dl10
TJ3
d>jq
144ro
d13
Oi•H
c;C
d)•H
uU
t3x;
d)x;p
rdx:
o>-*
in
dl4J
3X
13di
d>d
U.*
14-1Li
nc
d>Li
OiOl
»LILi
0)3
>s
rd•H
VIN
CLTJ
Lid)
ft)cu
ULi
tnGC
•r4N
dlOl
-HOHO
dH
•H
4JO
4J
Hd
d3
OiLi
i*-t•H
Ol
Liin
0»in
d)tj>
TJ1Hp
o4J3
d¦o
HTJ
>rH
-H
•H
Sfd
diLiM
dtn
O3<
dO
:3P
*ß
d)CLP
rdX)
OiP
TJP
uU
a>d>
dlH
Cc
-4O
LiU
Oi3
dlE
OT-i
ni¦H
«4-4•T-iP
Lt•H
ctn
•HTJ
sd)
Hd)
clN
Oipp
>4~4
dix:
•r4dl
Li4JO
4-1VI
Hc
3rH
34J
3Ii4
3CLTJ
oQ)
C•HC
Ol"8J<*H
MM
m4J
•H
Qjs
H3
4-is
dd
MHX
diLi
dlJX
Litn
<Li
3x:
LiN
0)o>
cXI
os
3Li
x:nj
x:c
^H
-r4S
UJ
•H
dlLi
3fd
indl'S
¦H
TJda
dld
dlrd
cCL
diP
OiLi
dl0)
HU
Li<
d).3
Liu
O(0Q
dOi
Li-
dlfds
inOl
in3
Li4-1
dldl
XIdi
•H
cC
ind
dlLi
Op
x;O
dtTJ
MHP
mt£
Lidi
dLi
XiUl
dl-4-1
rH
E«0S
4J
<4-ldl
dOi
HO
TJLiQ
dlQ)
d)3
XIdl
.*u
>TJ
Gd>
xLi
(0Li
d10
dlU
LiXi
LiLt
Lil
CH
UlX>
o>•H
TJC
x:x:
TJIH
Lio
•H
Erd
o-H
OOiou
CLdl
CLdl
•H
rH
tn171
dlU
'Odi
diinHU
dlS
4J3
E14-1
Li3
rdC
udl
•H
mu
crd
oi>
GX!
l/l•H
TJdl
dl•a
io3
>>
OiCL
4-»:r0
dl3
c:3
IM
d)o
MH
•H
'Sdl
Li
TJP
cc
3u
TJTJ
¦Hdl
HLi
4-1CJ
HC
UlJ
gdl
4-1dl
inj<D
N<U
Lic
Li3
dlc
•H
rdX
Cni
3TJ
«-»Li
tnc
Ctn
4JTJ
Tldl
Q,in
d)p
3dl
¦HrHw
xix:
rH
<U0>
CLrd
XI'fd
TJ>
SHW
d)UZ
rH
C3
30)
dl<w
Hd
sUl
dd
Uld
tj»d
LiN
HUl
uC!
rH
>in
fdLi
55II
3rH
rdL>
TJTJ
4-13
ul(0
3Li
rH
dlXi
33
--\Li
dM
4J
Hdl
dd
didl
diin
diOi
TJdlP
Oiw
II(0
LirH
go)
x;cl
dlnJ
OiN
dl-H
TJU
du:p
d>dl
rodl
in
inXI
3di
01L.
XI3
Co
Oi3
>Li
•H
iX11
30)
OP
CLi
r-\4J
4J
Liin
o•H
Uldl
¦H
LiN
OiTJdl
uiro
d4J
OiCL
rdin
0c
Nc
x;c
XtlGNP
>in
rrjd)
¦h
g•H
x;H
OUl
Ul
dlXi
Xid
¦H
Lija
ro4-1
rd•H
mx:
•H
•Hp
<Dtu
ßd)
dl<
IId>
inLi
XIrd
dldl
udi
dl>
3Xi
UU
diCL
dl4J
Tltn
Edl
TJ>P
cc;
CQp
diJC
sGl,
IIP
d)P
CTfö
LiO
tuOi
XI3
4-»M
d10
du
roui
OirB
dl>
d•H
Oi4J
drd
diM
Mdi
cmIt
•H-HP
GQ
d>g
Li10
ind
didl
u)Li
-H
•H•H
dlH
»Li
Ol4J
diC
rH
Litn
d>C
uOi
LitxJ
IIdt
TJ-H
3"8S
33
10in
Lidl
LiLi
4J
CLUl
jar-i
ind
dlJX
oid
dlc
•H
30)
UJ3
•H
cP
dird
£3
>II
XIC
rH
LiN
-1
dlin
3dl
TJdl
Lidl
dUl
:QrH
rdui
oOi
ddi
TlH
E4J
LiC
rH
LiLi
pp
3C
IILi
d)X!
Hd>
MO
jain
S4-1
•H
dlTJ
dl-
N•H
Cdi
>•H
(04-1
dlLi
oX!
fdQ)
l£TJ
vivi
WII<P
Ud)
x:>-*
x:id
Ul-
UlTJ
Cd
Ul
0»TJLi
TJOl
4J
dld
fdP
EpS
CTJ
x;UJ
IIÖ>
l/lP
u*#
•-hu
cTJ
doi
e•H
10dl
inro
•H
¦H
d>dl
dLi
HE
in¦P
X3Li
Li3
dldl
Cu
Mtl
C-H
Litn
l£)r-H
rdd)
cdi
ddi
4-»Ol
Xidl
Lidl
UlHH
X!•H
od
HrH
Lifd
uO
iO?HP
d)•H
(XII
d)O
Li3
H'—'CO¦"'S
Tl3
TJd
SU
CUH
Liin
rH
133
>Xi
XH
XiXi
d>•H
C3
cP
l/lp
LiW
IILi
MH
dld>
x;rH
3Li
r-i
Li3
3ro
HTl
inrH
•HX!
uro
dlU
u>
•p
CPP
dl•H
•H
x:p
XII
d)Li
TJma
d)WJ
Cr4m
Ndl
0Oi
NLi
dlLi
0>rd
x;u
inX
3Ul
3in
O»di
•H
inx;
d>E
ifd-H
l/lII
XI0)
rdCL
os
md
Sd
34-»
¦Ha
di4-1
TJ4J
Cin
ddi
dl•H
röC
d0)
diC
uJS
CP
sdi
IH
II:3
ULi
CLin
>0
•H
¦Hin
d-
l/lUl
rrj•H
•HO
didl
Oid
-r-i-U
O=J
ppN
3-H
x:d>
3N
CQII
LiG
Ö>d)
trO
rH
Lix;
-4-1d
>,3
4-1d
ETJ
Lis
•HOl
TJUl
d>ro
C¦H
Cdi
cl£
ux:
fdII
IH
d)G
rH
f0m
inO
dldi
dlXI
Cdl
rH
Cd)
4J
Ul3
>4JS
dlP
C0>
LitH
u_3
d)CM
IIP
3¦h
in
01c
rH
r-lTJ
4->4-4
Ej.H
dldl
4->dl
rdO»
TJJX
Oi10
HOlo
LiJA
Hx:
dl«3
rH
•H
'SP
IIG
O-d»
rH>
o>H
rH
ddc
UlEs
XiLi
Xi-H
HC
x:>rd
Lid
dd
Li4J
rH
4-1Xi
rdS
Ou
LiP
Cdl
Lic
ctH
IIG
0)dl
3d)
GH
d>ItJ
Odi
oLi
O3
U4-1
udia
dlSä•H
33
0dl
roO
3ni
LiCD
x;rH
3x:
rds--H
d)•H
dl>
IIW
grH
tn4-j
Kl»
3<tJ
>Li
10Id
dN
UlUl
UlUl
Ul4J
314-1
Li>C
rH
"4-1rO
14-1P
Oiu
d)rd
•H
cO»
TJV)
E
-100-
VI.3 DIPHONEXTRAKTION ANHAND VON ZENTROIDDATEN
Mit dem Abstandsmass aus Kapitel IV. sowie den Zentroidparametern undLautcharakterisierungen gemäss Kapitel V. liegt nun das Instrumenta¬rium für eine systematische Diphonextraktion aus dem Sprachkorpus, derseinerseits in Kapitel III. beschrieben worden ist, bereit. Im Gegen¬satz zu den erwähnten Verfahren beruht unsere Methode nicht nur aufden zeitlichen Änderungen von Sprachparametern, sondern berücksichtigtin hohem Masse auch lautspezifische Eigenschaften.
VI.3.1 KOSTENFUNKTION
Die Festlegung der Schnittstellen, das heisst des Beginns und des En¬des jeden Elementes, erfolgt durch MimmalisierunghypothetischerSchnittkosten. Für jedes Frame innerhalb des Ausschnitts, der alsSpender für das gesuchte Diphonelement überhaupt in Frage kommt, wer¬
den zwei Kosten berechnet, nämlich je einmal bezogen auf die beiden am
Übergang beteiligten Laute. Die Festlegung der Kostenfunktion ist na¬türlich etwas willkürlich, sie soll aber auf alle Fälle der Abweichungdes vorliegenden Koeffizientensatzes vom entsprechenden Zentroid undder Stationaritat des Signals an der jeweiligen Stelle Rechnung tra¬gen. Die folgende Kostenfunktion hat sich bewährt:
2 2_
_
c (j) = w d (g(j), g ) +
z lar z
(6.1)2 2
+ w ( d (g(j), g(j-D) + d (g(j), g(j+l)) )s lar lar
mit den Gewichtungsfaktoren w=0.7 w = 0.15z s
In der Regel wird nun als erstes Frame des gesuchten Diphons dasjenigegewählt, dessen Kosten bezogen auf den Anfangslaut minimal sind, undentsprechend jenes als letztes, das sie in Bezug auf den Endlaut mini-malisiert. Stehen mehrere Exemplare desselben Lautübergangs als mögli¬che Spender für das gesuchte Diphonelement zur Auswahl, können sieebenfalls anhand der Schnittkosten untereinander verglichen und dasbeste davon ausgesucht werden.
VI.3.2 SCHNITTSTELLENFESTLEGUNG
Mithilfe der Kostenfunktion (6.1) allein können leider nicht alle Fäl¬le genügend genau abgedeckt werden. Um spezielle Gegebenheiten be¬stimmter Laute zu berücksichtigen, sind gewisse Erweiterungen desSchneidekriteriums und einige Ausnahmeregelungen notwendig. Es folgtdaher eine Zusammenstellung der Vorschriften zur Diphonextraktion, wiesie tatsächlich angewendet worden sind.
-101-
-im Leerlaut vor dem Wortanfang, resp. nach dem Wortende [\]:Der gesuchte Diphon beginnt mit dem letzten Leerframe, resp. endetmit dem ersten Leerframe. Die Detektion der Leerframes kann bei einer
qualitativ hochwertigen Aufnahme mit nur geringem Hintergrundrauschenund Nachhall ohne weiteres aufgrund der Signalamplituden in den ein¬zelnen Analyseframes vorgenommen werden.
-in Plosivlauten [P],[T],[K],[B],[D],[G]:Die Schnittstelle wird an den Beginn der präplosiven Pause nämlichzwischen das erste und das zweite Leerframe gelegt. Die Pause wirdalso demjenigen Diphon zugeschlagen, welcher bereits den Explosions¬vorgang enthalt (cf. II.2.5). Dadurch wird auf einfache Weise berück¬
sichtigt, dass ihre Dauer bei stimmlosen Plosivlauten im allgemeinengrösser als bei stimmhaften ausfällt.
-in Langvokalen [1;],[7;],[U;],[E;],[3;],[0;],[0;],[A;]:Langvokale weisen im allgemeinen einen sich über mehrere Frames er¬
streckenden Abschnitt etwa gleichbleibend geringer Kosten auf, wel¬cher ihrer quasistationaren Zone entspricht. Die Schnittstelle wirdan den Anfang dieses Abschnittes gelegt, falls das Diphon auf dem
Langvokal endet, resp. an dessen Ende, wenn es damit beginnt. DieMittelzone ist damit nie Bestandteil eines Diphonelementes, sie wirdbei Bedarf erst während des Syntheseprozesses wieder eingefügt (cf.VII.2). Dieses Vorgehen erlaubt es, für eine gegebene Vokalqualitaetmit denselben Diphonelementen sowohl Lang- wie Kurzvokale zu erzeu¬
gen.
-in stimmlosen Frikativlauten [F],[S],[5],[x],[C]:Die Schnittstelle wird bei tiefen Kosten möglichst gegen Ende desLautes angesetzt, ein grosser Abschnitt des Frikativlautes wird so
dem Vorgängerdiphon zugeordnet. Damit kann der ausgeprägten Abhängig¬keit der Dauer der Frikativlaute vom voranstehenden Laut infolge re¬
gressiver Koartikulation Rechnung getragen werden (cf. V.5.2.1).
-in den sog. Anstiegslauten [V],[Z],[j],[H]:Geschnitten wird beim Minimum der Signal- oder Anregungsamplitude inder ersten Hälfte des Lautes. Die Kosten werden aufgrund in KapitelV. beschriebenen Eigenschaften dieser Laute nur am Rande berücksich¬tigt.
-im Vibranten [R]:Die Schnittstelle wird in die letzte, das heisst häufig die zweiteInternussion gelegt (cf. V.5.2.13).
-in allen übrigen Lauten:Die Schnittstelle fällt in das Kostenminimum, wobei allenfalls nochKorrekturen in Richtung der Lautmitte angebracht werden können.
Wie bereits in II.2.5 vorgesehen ist die Schnittstelle für Plosivlautein Ermangelung einer zentralen quasistationären Phase in die präplosi-ve Pause verlegt worden. Als Folge davon entarten die sechs Diphonedes Typs Leerlaut -> Plosivlaut zu leeren Signalausschnitten und kön¬nen damit weggelassen werden. Eine weitere Einsparungsmöglichkeit er¬
gibt sich daraus, dass die 162 Diphone des Typs Laut -> Plosivlaut al-
-102-
le in der praplosiven Pause enden, unabhängig davon welches der Plo¬sivlaut im einzelnen ist. Unter der Voraussetzung, dass nicht der Ok-klusions- sondern primär der Explosionsvorgang die Wahrnehmung derPlosive bestimmt, lassen sich jeweils sechs Diphone zu einem einzigender Art Laut -> praplosive Pause zusammenfassen, sodass 135 Stück ein¬
gespart werden können.
VI.3.3 PRAKTISCHES VORGEHEN UND BEISPIELE
Als Sprachmaterial für die Extraktion der Diphonelemente dienten diespeziell dafür zusammengestellten und in III.4 beschriebenen Wortlis¬ten. Das praktische Vorgehen zeigt Fig.6.1 .
GrobpositionierungimTraegermaterial anhandder frueher bestimmtenTrajektorien oder fallsnicht vorhanden manuell
Automatische Auswertungder Schnittkosten fuerjedes Frame bezueglichder beteiligten Zentroideergibt ersten Vorschlag
Interaktive Beurteilung,allfaellige Korrektur undBeruecksichtigung derAusnahmeregeln. Eingabedefinitiver Schnittstellen
Automatisches Kopierendes geprueften Segmentesaus dem Traegermaterialin die Diphonsammlung.Nachtrag im Verzeichnis
Fig.6.1 Diphonextraktion
-103-
Bei der zur Zentroidberechnung durchgeführten Ermittlung der Trajekto-rien (cf. V.2), sind bereits viele Laute innerhalb ihrer jeweiligenTrägerwörter lokalisiert worden. Von diesen Informationen ist wo immer
möglich zum schnelleren Auffinden eines gegebenen Lautubergangs Ge¬
brauch gemacht worden. Es kann nicht Aufgabe dieses Berichtes sein,die Extraktion sämtlicher 626 Diphonelemente im einzelnen zu beschrei¬
ben, es folgen daher stellvertretend drei Beispiele.
In den Figuren sind jeweils dargestellt:-Ein Ausschnitt von 360 ms Länge entsprechend 24 Analyseframeverschie¬bungen aus dem Zeltsignal des Trägerwortes mit dem gesuchten Lautu-
bergang.-Die Modellübertragungsfunktionen der zugehörigen Analyseframes in
pseudoräumlicher Darstellung (Auf der Abszisse aufgetragen die Fre¬
quenz, auf der Ordinate in positiver Richtung die Verstärkung, in ne¬
gativer Richtung die Framenummer und damit die Zeit).-Der Output des Extraktionshilfeprogrammes mit folgenden Angaben zu
jedem Analyseframe.FRAME: FramenummerIPTCH: Pitchperiode in Anzahl Abastperioden, 0 falls aperiodischGAIN: mittlere Amplitude des Anregungssignals über ein Frame
C0STS1: Wert der Kostenfunktion bezogen auf das erste Zentroidin Balkendarstellung. Auflosung 0.1, begrenzt auf 2.5
C0STS2: Wert der Kostenfunktion bezogen auf das zweite Zentroidin Balkendarstellung. Auflösung 0.1, begrenzt auf 2.5
-104-
VI.3.3.1 Übergang [E2] aus 'Vorsehung" [F0;RZE;29]Der in den Fig.6.2 und 6.3 wiedergegebene Ausschnitt beginnt im Laut[z] und endet auf [9]. Einmal mehr wird deutlich, wie die einzelnenLaute in gesprochener Sprache ineinanderfliessen, und wie künstlichdazwischen gezogene scharfe Grenzen ausfallen müssten. Klar sichtbarist dagegen die quasistationare Phase des Langvokals [E;], die etwavon Frame 396 bis 401 reicht. Ebenso erkennt man den Kurzvokal [2],der in den Frames 407 und 408 seine deutlichste Ausprägung findet, be¬vor er ab Frame 410 zum nachfolgenden Nasallaut [9] übergeht. Dies al¬les findet seinen Ausdruck in den berechneten Schnittkosten von
Fig.6.4, aufgrund derer das Extraktionshilfeprogramm für den Lautüber¬gang [E2] die Frames 398 bis 408 vorschlägt. Allerdings muss in Würdi¬gung der in Abschnitt 3.2 getroffenen Schnittstellenkonventionen derBeginn des Diphons ans Ende des Langlautes zurückverlegt werden, so¬
dass schliesslich die Frames 401 bis 408 das Diphonelement [E2] abge¬ben.
Zeitsignal Uebertragungsfunktionen
weiAai LAA/s>A "r\AA'^ ft^A*"
h^JV-A*
""tjA/^Vlr«rj^tv \A^"\/A^JW
|A^MV^iJVvaVvsAA^iVW\/WVV|JVW\w^M^
rV^Y»«-«0—y
Tf^tf
v-
I frames 390 bis 413 I I 0 kHz
Fig.6.2 Zeitsignal Fig.6.3 Modellubertragungsfunktionen
-105-
ISOLO PROTOCOLL MESSAGE FOR F0IRZEI2?PARAMETER FILE! <09.23FSTFRM - 3B8 LSTFRM - 415NO LIST FILE SPECIFIED
OUTPUT: GR
FRAME LOC IPTCH<CE.E] CEN 97<CE.2] CEN
388389390391392393394395394397398399400401402403404
40540«407408409410411412413414415
GAIN757.
93 502.0 350.0 300.
959496
969594
979796959495949393
356.343.385.
97 572.95 750.
921.752.766.
95 736.96 754.
852.811.916.
94 879.94 813.95 455.96 552.
473.410.411.343.259.170.140.99.77.
SEGMENT FOUND GOES FROMCOSTS FOR FIRST CUTCOSTS FOR SECONP CUT
C0STS1
************************* ************************************************** ************************************************** ************************************************** ************************************************** ********************************************* ************************************* ************************************* ********************************** ******************************** ******************************* ******************************* ******************************** ********************************* ************************************ *************************************** ******************************************* ********************************************** **************************************** ************************************* ********************************* ******************************* *********************************** *************************************** ******************************************* *********************************************** ********************************************** ************************************************ ***********************
FRAME 39B TO 408 AND CONTAINS 11 FRAMES.63.64
Fig.6.4 Schnittkosten für Diphon [E2]
-106-
VI.3.3.2 Übergang [MF] aus "umfallen" [2MFAL6N]Der in den Fig.6.5 und 6.6 dargestellte Ausschnitt umfasst die Laute[2] bis [A]. Anhand des Zeitsignals lässt sich der Frikativlaut [F]etwa auf die Frames 3206 bis 3214 festlegen, während man andererseitsin den Modellübertragungsfunktionen zwischen Frame 3196 und 3203 denNasallaut [M] wiedererkennt. Allerdings wäre es recht schwierig, sichallein aufgrund dieser Beobachtungen genauer auf die Schnittstellen
festlegen zu müssen. Das Computerprogramm hilft da weiter, indem es
anzeigt, dass die Frames 3201 resp. 3210 zu minimalen Schnittkostenfuhren. Wieder aus Rücksicht auf die getroffenen Vereinbarungen muss
die zweite Schnittstelle etwas nachverlegt werden, ob auf Frame 3211oder 3212 ist jedoch eine Ermessensfrage.
Zeitsignal Uebertragungsfunktionen
mm/^M^v/^
^YYYVYuVV-°<r^-V*- V0-^~
^/^/V^^i
#a-#*~H^•v"
I frames 3194 bis 3217 I I 0 kHz 5 I
Fig.6.5 Zeitsignal Fig.6.6 Modellübertragungsfunktionen
-107-
ISOLO PROTOCOLL MESSAGE FOR 2MFAL6NPARAMETER FILE: <27.F]FSTFRM ¦ 3190 LSTFRM - 3219NO LIST FILE SPECIFIED
OUTPUT: GR
FRAME LOC IPTCH GAIN<CE.M3 CEN 106 222.<CE.F3 CEN 0 231.
3190 140 67.3191 100 236.
3192 97 402.3193 96 489.
3194 95 323.3195 99 160.3196 97 142.3197 92 238.3198 90 270.3199 89 318.3200 89 309.3201 88 252.3202 89 230.3203 91 185.3204 95 110.3205 120 59.3206 0 274.3207 0 219.3208 0 148.3209 0 109.3210 0 89.3211 0 91.3212 0 107.3213 0 319.3214 84 134.3215 95 562.3216 95 1090.3217 96 1438.3218 98 1145.
3219 98 1084.
C0STS1
***********************************************************************************************************************************************
****************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************
SEGMENT FOUND GOES FROMCOSTS FOR FIRST CUTCOSTS FOR SECOND CUT
********************FRAME 3201 TO 3210 AND CONTAINS 10 FRAMES.81.81
*********************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************
Fig.6.7 Schnittkosten für Diphon [MF]
-108-
VI.3.3.3 Übergang [06] aus "böen" [B0;6N]In Fig.6.8 ist oben links gerade noch das Ende des Plosivlautes [B] zu
erkennen, unten rechts beginnt der Nasallaut [N]. Die Laute [0;] und
[6] sind im dazwischenliegenden Ausschnitt nur schwer zu lokalisieren.
Die Modellübertragungsfunktionen zeigen ebenfalls nur geringfügigeVerschiebungen der Formantfrequenzen im Sinne einer zunehmend gleich-massigeren Verteilung an. Ein Vergleich mit den Zentroiddarstellungenin V.5.1 zeigt, dass darin tatsächlich der Unterschied zwischen [0;]und [6] liegt. Infolge der geringen log area ratio Distanz von 1.5
zwischen den zugehörigen Zentroiden, ergeben auch die Schnittkosten¬
verläufe keine so ausgeprägte Trennung mehr, wie in den vorangegange¬nen Beispielen. Dennoch lässt sich die quasistationäre Phase des Lang¬vokals [0;] etwa in den Frames 786 bis 795 ausmachen, bevor eine kon¬
tinuierliche Verschiebung in Richtung [6] einsetzt, welche im Frame
803 ihre deutlichste Ausprägung findet. Der automatisch erarbeitete
Vorschlag lautet entsprechend und kann unverändert zur Abspeicherungder Frames 795 bis 803 für das Diphonelement [06] herangezogen werden.
Zeitsignal
•^ Kr-sJIA' »«|M*». /lAr-lft-W U^-J^^v^Wv^/wvAv-Jv\i ^M-v
Vf*f
rW^Ai/Wv^^'ilV^"tNW^i^-WM wJ\jW JVWt,
5=- ¦f-t-iI frames 784 bis 807
Uebertragungsfunktionen
kHz 5 I
Fig.6.8 Zeitsignal Fig.6.9 Modellübertragungsfunktionen
-109-
IS0L0 PROTOCOLL MESSAGE FORPARAMETER FILE! <20.63FSTFRM - 780 LSTFRMNO LIST FILE SPECIFIED
OUTPUT: GR
FRAME<CE.03<CE.6J CEN
780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814BIS
LOC IPTCHCEN 110
GAIN628.
95 1041.0 18.
13.14.
301.305.658.724.839.
703.625.697.556.553.589,519.543.421.571.750.728.808.953.892.
00
124119115114112
112111110111111112110109108107107107108108108107 1093.104 1085.108 748.105103103103102101101101101
102
328.331.345.272.230.198.112.128.82.
85.
C0STS1
***************************************************************************************************************************************************************************************************************************************************
*******************************************************************************************************************************************************************************************************************************************************************
SEGMENT FOUND GOES FROM FRAMECOSTS FOR FIRST CUT .40COSTS FOR SECOND CUT .40
****************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************
795 TO 803 AND CONTAINS 9 FRAMES
Fig.6.10 Schnittkosten für Diphon [06]
-110-
VI.3.4 VOLLSTÄNDIGE SAMMLUNG EXTRAHIERTER DIPHONELEMENTE
Mit Unterstützung durch entsprechende Computerprogramme sind auf derGrundlage der beschriebenen Kriterien alle zur Synthese deutscher
Standardsprache erforderlichen Diphonelemente aus dem Sprachmaterialdes Korpus extrahiert worden. Trotz aller Hilfsmittel und der nur äus¬serst wenigen infolge von Fehlentscheiden notwendig gewordenen Wieder¬
holungen des Extraktionsschrittes an einzelnen Diphonelementen, nahmdiese Teilaufgabe etliche Monate langwieriger Kleinarbeit in Anspruch.Aneinandergereiht entspricht die Gesamtheit aller Diphonelemente einem
Sprachausschnitt von 88 Sekunden Länge. Im Vergleich mit der Aufnahme-dauer des ursprünglichen Korpus von knapp 1.5 Stunden wird der Gradder Konzentration sichtbar.0 0
VI. 4 EGALISIERUNG DER STIMMGRUNDFREQUENZ
Werden beliebige Grundelemente ohne weitere Massnahmen zu neuen Nach¬richten verkettet, so ergeben sich unzusammenhängende Verläufe der
Stimmgrundfrequenz, da die einzelnen Grundelemente von ihren ursprüng¬lichen Trägerwörtern her abweichende Werte dafür aufweisen. Bei einer
späteren automatischen Erzeugung von Wort- und Satzbetonung wurdensich diese unwillkürlich überlagerten Schwankungen sicher negativ be¬merkbar machen. Eine radikale Lösung besteht darin, nur gerade die Art
der Anregung in den einzelnen Koeffizientensätzen der Grundelemente zu
verwenden, und für periodisch anzuregende Passagen den Stimmgrundfre-quenzverlauf anhand von Regeln von Grund auf neu zu konstruieren. Un¬betonte Sprache wird damit als absolut monoton im Sinne einer konstan¬ten Grundfrequenz aufgefasst. Die Stimmgrundfrequenz ist jedoch keinerein suprasegmentale Grösse, an ihr lassen sich durchaus auch segmen¬tale d.h. lautabhängige Einflüsse beobachten, welche unter dem BegriffMikrointonation zusammengefasst werden (Stimmeinsatz und -ausklang,Intermissionseffekte (cf. IV.5.2.13), usw.). Das hier beschriebene Ex¬
periment ist ein Versuch, die mit den Diphonelementen abgespeichertenGrundfrequenzen auszugleichen, sodass an deren Nahtstellen keine ab¬rupten Änderungen mehr entstehen, und dennoch ihre lautabhangigen Wer¬
te und Verläufe so weit als möglich beizubehalten. Die Egalisierungist jeweils gemäss einer der Vorschriften (6.2) bis (6.5) durchgeführtworden, wobei Koeffizientensätze mit aperiodischer Anregung unverän¬dert belassen worden sind. Der Index a bezeichnet das zum Anfang des
Diphons gehörende Zentroid, z entsprechend das zum Ende gehörende Zen¬troid und e die egalisierten Grundfrequenzen. Keinen Index tragen die
Grundfrequenzen vor der Egalisierung. Die Diphone umfassen die Koeffi¬zientensatze 1 bis J. Mit F ist jeweils der Logarithmus der Stimm-
grundfrequenz gemeint.
-Ul¬
falls Anfangs- und Endframe sowie beide zugehörigen Zentroide periodi¬sche Anregung aufweisen:
i-i J-3F (j) = F(j) + (F - F(l)) + (F - F(J)) <6.2)e J-l a J-l z
j = 1, 2, ..., J
falls nur Anfangsframe und zugehöriges Zentroid periodische Anregungaufweisen:
F (j) = F(j) + F - F(l) j = 1, 2, ..., J (6.3)
e a
falls nur Endframe und zugehöriges Zentroid periodische Anregung auf¬
weisen:
F (j) = F(j) + F - F(J) j =1, 2, ..., J (6.4)
und in den übrigen Fällen:
F (j) = F(j) j = 1, 2, ..., J (6.5)e
Die Fig.6.11 bis 6.13 zeigen jeweils im gleichen Massstab die Verläufe
der über ein Frame gemittelten Anregungs- und Signalamplitude sowieder Stimmgrundperiode für einen Sprachausschnitt mit den Worten 'das
war so weiss wie Schnee, so rot wie Blut'. Die in der ersten Figur ab¬
gebildeten Verläufe sind durch Verkettung (cf. VII.) mit den unverän¬
derten Diphonelementen entstanden, wie sie aus dem Korpus extrahiertworden sind. Dem in der zweiten Figur dargestellten Grundperiodenver¬lauf liegt demgegenüber eine Verkettung egalisierter Diphonelementezugrunde. Nicht nur fehlen gegenüber Fig.6.11 die sprunghaften Ände¬
rungen der Stimmgrundfrequenz an den Nahtstellen, sondern es ist ganz
allgemein eine stärkere Häufung bei Werten in der Mitte des bestriche¬nen Frequenzbereichs zu beobachten. Fig.6.13 schliesslich zeigt das
Ergebnis einer Verkettung mit einer festen Grundperiode von HO Ab¬
tastwerten entsprechend 91 Hz für alle periodisch angeregten Aus¬
schnitte (Werte unterhalb der Abszisse bezeichnen aperiodische Anre¬
gung). Die meisten Hörer beschreiben den subjektiven Eindruck der
Stimme entsprechend Fig.6.11 als 'unsicher' bis 'weinerlich'. Die
Stimme zu Fig.6.12 wird durchaus im beabsichtigten Sinne als 'gefe¬stigter', 'angenehmer', 'langweiliger' aber auch als 'singend' beur¬teilt. Letzteres rührt möglicherweise davon her, dass der Grundfre¬
quenzverlauf nach seiner Egalisierung den Eindruck einer zusammenhan¬
genden Melodie zu vermitteln vermag, währenddem vorher die häufigenUnstetigkeiten eine derartige Wahrnehmung verunmöglicht hatten. Durch¬
weg als 'monoton' und 'computerhaft' wird das Signal nach Fig.6.13empfunden.0 0
-112-
AnregungsamplitudeSignalamplitudeGrundperiodenlaenge (in Anzahl Abtastperioden)
A^hAK^K
150
64U t,\ \ *L> ^\ K,
frames 286 bis 635
Fig.6.11 Verläufe von Anregungs- und Signalamplitude sowie
nicht egalisierter Grundperiode
-113-
AnregungsamplitudeSignalamplitudeGrundperiodenlaenge (in Anzahl Abtastperioden)
AjU-^yiK-. L
150
64
a. Va ^K_ U -v-^ -Vw-^ U
frames 286 bis 635
Fig.6.12 Verläufe von Anregungs- und Signalamplitude sowie
egalisierter Grundperiode
-114-
AnregungsamplitudeSignalamplitudeGrundperiodenlaenge (in Anzahl Abtastperioden)
A^MhriK
dLL-ixi150
64
frames 286 bis 635
Fig.6.13 Verläufe von Anregungs-konstantgesetzter Grundperiode
und Signalamplitude sowie
Ob es für die Sprachsynthese letztlich zweckmässiger ist von derartegalisierten Diphonen oder von solchen mit konstanter Stimmgrundfre¬quenz auszugehen oder ob allenfalls weitergehende Ausgleichsverfahrenzu entwickeln sind, wird sich erst in konkreten Arbeiten zur automati¬schen Betonungssteuerung zeigen.
-115-
KAPITEL VII. SYNTHESEPROZESS******************************
VII.l ÜBERSICHT
Der Syntheseprozess erfolgt ausgehend von der phonetischen Darstellungdes Textes vollautomatisch in drei aufeinanderfolgenden Schritten,welche zwecks Uberprüfbarkeit der Zwischenresultate und zwecks höchst¬
möglicher Flexibilität in drei separaten Programmen implementiert sind
(cf. Fig.7.1). Die resultierenden Abtastwerte werden anschliessend wie
in der PCM-Technik üblich über D/A-Wandler, Rekonstruktionsfilter und
Lautsprecher in hörbare Schallsignale zurückverwandelt.0 0
phonetische Zeichenkette
Diphonisierung
Kette der Diphon- undZentroidelemente
Verkettung
Folge vonLPC-Parametersaetzen
Resynthese
Folge von Abtastwerten
D/A-Wandlung,Filterung undHoerbarmachung
akustisches Sprachsignal
Fig.7.1 Syntheseprozess
-116-
VII.2 DIPHONISIERUNGSSCHRITT
Aufgabe dieses Schrittes ist es, phonetische Zeichenketten in die ent¬sprechenden Abfolgen von Lautubergängen umzuformen. Diese Umwandlungwird wortweise vorgenommen, das Umfeld ausserhalb des gerade vorlie¬genden Wortes bleibt also unberücksichtigt. Der Aufbau eines zur auto¬matischen Umsetzung geeigneten Wortes in phonetischer Schreibweiselasst sich in Backus-Naur Form wie folgt darstellen (BNF-Notation!):
WortSilbe
SilbenträgerVokal
DiphtongVokalqualität
LängensymbolKonsonant
GlottalverschlussAkzent
TrennsymbolEndSymbol
Silbe (Trennsymbol Silbe) Endsymbol[Akzent] [Glottalverschluss]{Konsonant} Silbentrager {Konsonant}Vokal|DiphtongVokalqualität [Längensymbol]Vokalqualität Vokalqualität
"I""Q"
"B""X"
7"|"Y"|"U"A"|"6"
"2"|"E"|"3"|"0"|"8"|
T"|"D"|"K"|"G"|"F"|"V"|"S"|"Z"C"|"J"|"M"|"N"|"9"|"L"|"R"|"H"
"f-|-.-I-I-I-?-Daraus ist sofort ersichtlich, dass nebst den Lautzeichen zusätzlichdie Symbole <;'"+-= innerhalb eines Wortes zulässig sind. Alle übri¬gen, das Leerzeichen miteingeschlossen, markieren eine Wortgrenze undverursachen damit eine getrennte Diphomsierung des vor- und nachste¬henden Textes. Sie selbst werden wie die Akzent- und Trennsymbole un¬
verändert in die Ausgangszeichenkette übertragen.
Es folgen zwei Beispiele zulässiger Wörter.
orthographisch:phonetisch :
"beatmung,"[B6-'<A;T-M29,]
"Schneeglöckchen."["5NE;-'GL8K-C6N.]
Im allgemeinen bestimmen zwei benachbarte Laute das dazwischenliegendeÜbergangselement, wobei selbstverständlich auch die Übergänge vom undzum Leerlaut am Wortanfang resp. am Wortende nicht vergessen werdendürfen. Diphtonge werden wie gewöhnliche Vokal -> Vokal-Übergänge be¬handelt (cf. III.2.3). Die Bezeichnungen der Diphonelemente setzensich jeweils aus den zwei beteiligten Lautzeichen zusammen.
orthographisehphonetischdiphonisiert
"fleisch."['FLA15.][' \F FL LA AI 15 5\
Die in II.2.5 begründete Vorverlegung der Schnittstelle von Plosivlau¬ten in die präplosive Pause und sich daraus ergebenden in VI.3.2 be¬schriebenen Emsparungsmoglichkeiten bedingen eine gesonderte Behand¬lung. Übergange der Art Laut -> Plosivlaut werden als Laut -> praplo-
-117-
sive Pause diphonisiert. Auch der Glottalverschluss wird durch Einfü¬gen eines Pausensegments realisiert.
orthographischphonetischdiphonisiert
"beachtet."[B6-'<AX-T6T.][B6P 6> -
' \A AX X> - T6 6> T\
Als Folge der in VI.3.2 getroffenen Konvention für die Schnittstellen¬festlegung bei Langvokalen liegen die Lautübergangselemente ohne die
jeweilige quasistationäre Phase von ca. 5 bis 12 Frames Länge vor. Sie
produzieren deshalb bei ihrer Verkettung ausschliesslich Kurzvokale.Bei der Synthese müssen aber immer dann Langvokale erzeugt werden,wenn dies von einem nachstehenden Längenzeichen verlangt wird. Eineeinfache und zweckmässige Lösung besteht darin, das Zentroid des ent¬
sprechenden Vokals zwischen die beiden Diphonelemente einzufügen undmehrmals zu wiederholen. Zur Zeit geschieht dies mit einer festen An¬zahl von acht Repetitionen. Im Rahmen einer zukünftigen Betonungs¬steuerung muss allerdings untersucht werden, inwieweit die Dauer von
Langvokalen von der Wort- und Satzbetonung abhängig ist und in Funk¬tion davon variiert werden könnte (cf. Beobachtungen von Chollet etal. in VI.2). Die Schreibweise für Zentroidelemente mit ihrem Repeti-tionsfaktor im diphonisierten Text geht aus dem folgenden Beispielhervor.
orthographischphonetischdiphonisiert
"flachstahl."["FLAX-'5TA;L.][" \F FL LA AX X5 -
'
5> TA "A*8 AL L\ .]
In ersten informellen Hörtests vermochte das synthetisch erzeugte Sig¬nal das Phonem /R/ dort überzeugend wiederzugeben, wo nach Duden ({03}S50) das vokalische /R/-Allophon [4] auftreten kann, blieb jedoch häu¬
fig ein bisschen undeutlich, wo das konsonantische Allophon [R] vorge¬schrieben ist. Der Diphonisierungsalgorithmus ist daher erweitert wor¬
den, um diesem Einfluss Rechnung zu tragen. Immer dort, wo das nach¬drücklicher artikulierte Allophon [R] erzeugt werden muss, wird einElement eingeschoben, welches aus drei Frames besteht und genau einenaus gesprochener Sprache extrahierten Intermissionsvorgang enthält
(cf. V.5.2.13).
orthographischphonetischdiphonisiert
"uhrwerk."["U;R-'V3RK.], nach {03} 2.Aufläge ["U;4-'V3RK.][" \U "U*8 UR RV -
' V3 3R """R R> K\ .]
Eine weitere Aufgabe, welche vom Diphonisierungsalgorithmus wahrgenom¬men wird, betrifft den Schwa-Laut innerhalb von Präfixen. Es waren
seinerzeit zwei separate Zentroide für [6] in Vorsilben und Endungenberechnet worden, welche sich als nur massig voneinander verschieden
herausgestellt hatten (cf. V.7). Der Extraktion von Schwa-Diphonen wa¬
ren daraufhin wegen ihrer weit vielfältigeren Lautverbindungsmöglich¬keiten ausschliesslich Endsilben zugrunde gelegt worden. Bei ersten
Syntheseversuchen, hat sich aber gezeigt, dass in den Vorsilben "be-"
-118-
und "ge-" statt [6] ein eher nach [8] klingender Laut wahrgenommenwird, sodass sich streng genommen eine Differenzierung von zwei stel¬
lungsbedingten Schwa-Allophonen aufdrängt. Um die damit verbundene Zu¬nahme an erforderlichen Grundelementen zu vermeiden, wird stattdessenein Kniff angewendet, welcher sich im praktischen Syntheseexperimentbewährt hat. Aus den beiden erwähnten Präfixen sind zwei zusätzliche
Diphone isoliert worden, welche zur Unterscheidung von den regulärend.h. Finalsilben entspringenden [B6] und [G6] Diphonen die Bezeichnun¬
gen [B6P] resp. [G6P] tragen. Im Diphomsierungsschritt wird nun jenach Stellung innerhalb des Wortes das passende Element gewählt und indie Diphonkette übertragen, wo ihm ein ganz gewöhnlicher mit Schwa be¬
ginnender Diphon folgt, wie am folgenden Beispiel sichtbar wird.
orthographischphonetischdiphonisiert
"getragen."[G6-'TRA;-G6N.][G6P 6> -
' TR ""AR RA AA*8 A> - G6 6N N\ .]
Als Folge der wortweisen Synthese endet jedes Wort mit einem Übergangzu einer Pause hin. In natürlicher Sprache treten Wortgrenzen jedochausser am Ende einer Intonationseinheit kaum als Pausen in Erschei¬
nung. Erwartungsgemäss klingt daher derart synthetisierte Sprachestark abgehackt, und die Finallaute wirken unnatürlich gedehnt. Einemarkante Verbesserung ist möglich, indem am Wortende die weit kürzeren
Übergänge eingesetzt werden, die vor einer präplosiven Pause auftre¬ten. Einzig vor Satzzeichen, welche das Ende einer Intonationseinheit
markieren, werden die gewöhnlichen Pausenübergänge beibehalten. EineAlternative bestünde darin, Wortgrenzen nicht gesondert zu behandeln,sondern auch dort den durch End- und Anfangslaut der beteiligten Wör¬ter gegebenen Lautübergang dafür einzusetzen. Allerdings setzte ein
solches Vorgehen eine weitergehende Prosodiesteuerung voraus, um dievom Hörer vorzunehmende Segmentation des Sprachsignals in einzelneWörter nicht irrezuführen. Zudem müssten die Lautverbindungseigen¬schaften an Wortgrenzen gesondert untersucht werden. Ebenfalls als
grober Ersatz für die fehlende Satzbetonungssteuerung ist etwas will¬kürlich bestimmt worden, dass ein Komma das Einfügen einer Pause von
fünf Frames Lange (75 ms) verursachen soll, die anderen Satzzeicheneiner solchen von zwanzig Frames Lange (300 ms), wobei Kumulieren
uneingeschränkt zugelassen ist. Das folgende Beispiel zeigt die Aus¬
wirkungen von Satzzeichen auf die produzierte Diphonkette.0 0
orthographisehphonetischdiphonisiert
"ohne fleiss, kein preis!"['0;-N6 'FLA1S, KA1N 'PRA1S!][' \0 "0*8 ON - N6 6> ' \F FL LA AI IS S\ , "\*KA AI IN N> ' PR ""R RA AI IS S\ ! "\*20]
-119-
VII.3 VERKETTUNGSSCHRITT
Dank des systematischen Verfahrens, welches zur Extraktion der Diphon¬elemente verwendet worden ist, kann ihre Verkettung auf äusserst sim¬
ple Art und Weise erfolgen. Diphone, Zentroide und das [R]-Intermis-sionselement werden einfach in der verlangten Abfolge aus dem gespei¬cherten Grundelementvorrat abgerufen und ihre Parametersätze aneinan¬
dergereiht. Eine zusätzliche Interpolation ist ausdrücklich nicht er¬
forderlich, weil die entstehenden Diskontinuitäten mit dem entwickel¬
ten Verfahren bereits bei der Gewinnung der Grundelemente klein gehal¬ten werden (cf. VI.3). Der Vorteil eines einfachen Synthesealgorith¬mus, den Verkettungsverfahren gegenüber Nachahmungsverfahren aufweisen
(cf. II.2.3), kommt so wirklich voll zum Tragen.
Allerdings muss der Verkettungsalgorithmus noch der Tatsache Rechnungtragen, dass praktisch alle Diphone betonten Mittelsilben in Einzel¬
wörtern entnommen worden sind (cf. III.4.2) und daher in anderen Posi¬
tionen als zu gedehnt empfunden würden. Die Dauer der einzelnen Frames
wird auf 75% ihres Nennwertes reduziert, ausser sie gehörten zu einer
mit dem einfachen oder doppelten Akzent markierten Silbe, in welchem
Fall sie nur auf 90% verkürzt resp. bei 100% belassen wird. Akzent-
und Trennsymbole in der Diphonkette werden falls vorhanden in diesem
Sinne ausgewertet, fehlen sie dagegen, kann ein fester Wert für die
relative Dauer sämtlicher Frames substituiert werden.
0_0
Wird vom Text ein nicht im Inventar vorhandenes Diphonelement ver¬
langt, so kann wegen dessen Vollständigkeit für die deutsche Sprachebeinahe mit Sicherheit auf einen Transkriptionsfehler oder ein Fremd¬
wort geschlossen werden. Methoden zur Synthese fehlender Lautüber¬
gangselemente sind daher nicht untersucht worden. Mögliche Ersatzstra¬
tegien bestünden indessen im Ausweichen auf einen verwandten Übergang,der zeitlichen Umkehr des inversen Diphonelementes oder in künstlicherInterpolation zwischen den beteiligten Zentroiden.
-120-
VII.4 RESYNTHESESCHRITT
Der Resyntheseschritt, d.h. die Umwandlung der LPC-Koeffizienten inSignalabtastwerte, stellt lediglich eine Implementation des in II.2.3vorgestellten Synthesemodells dar. Bis auf die zusätzlich notwendigeBerücksichtigung des variablen Framedauerparameters kann dafür irgendeines der bei LPC-Vocodern üblichen Verfahren eingesetzt werden{15,16}. Wir haben das Allpol-Synthesefilter als Kreuzgliedstrukturmit zwei Multiplikationen pro Ordnung in Gleitkommaarithmetik auf un¬
serem HP-1000 Minicomputer implementiert, mit welchem übrigens auchalle anderen Berechnungen im Rahmen dieser Arbeit durchgeführt wordensind.
Die das Synthesemodell steuernden Parameter Stimmgrundfrequenz, Ver¬stärkung und Filterkoeffizienten werden jeweils pitchsynchron, d.h.unmittelbar vor dem Beginn jeder neuen Grundperiode, zwischen zweiaufeinanderfolgenden Parametersatzen interpoliert und aufdatiert, inaperiodischen Passagen wird diese Aktualisierung mit der zuletzt vor¬
angegangenen Grundperiodenlänge vorgenommen. Als Anregungssignal fürdie periodischen Passagen wird die von Wong entwickelte Anregungsfunk¬tion verwendet, welche gegenüber dem herkömmlichen Impulszug in Pha¬sengang und Einzelheiten des Amplitudengangs eher der naturlichen An¬regung durch die Glottis beim Menschen entspricht {24}. Bei Darbietungüber Kopfhörer ist eine geringfügige Verbesserung hinsichtlich des fürdie LPC-Methode typischen 'Buzz'-Geräusches zu beobachten.
0_O
Als Alternative zur off line Simulation auf dem Minicomputer steht eineigens dafür entwickeltes Ausgabegerät zur Verfügung, welches den Re¬syntheseschritt in Echtzeit durchführen kann. Damit ist es möglich,das produzierte Signal unmittelbar abzuhören, was den Syntheseprozessals Ganzes erheblich verkürzt. Das Gerät arbeitet mit einem Signalpro¬zessor vom Typ TMS 320 {25,26}. Über eine Interfaceschaltung wird es
vom Minicomputer direkt mit den LPC-Modellparameterfolgen versorgt{27}. Die Anregung geschieht in diesem Falle mit der herkömmlichen Im-
pulszugfunktion. Die Ordnung des Synthesefilters musste leider infolgeeiner programmiertechnischen Unzulänglichkeit im Signalprozessor aufelf statt zwölf beschränkt werden, was wegen der Orthogonalität derReflexionskoeffizienten durch einfaches Nullsetzen (resp. Weglassen)des letzten Koeffizienten erfolgt und sich nur unwesentlich auf die
Sprachqualität auswirkt.
-121-
KAPITEL VIII. VERSTANDLICHKEITSMESSUNGEN******************************************
VIII.1 ZIELSETZUNG
Die Güte eines synthetisch erzeugten Sprachsignals lässt sich nachverschiedenen Kriterien beurteilen, wie Verständlichkeit, Natürlich¬keit in Klang und Betonung, Sinnbezug der Betonung oder bei den Zuhö¬rern ausgelöste Anstrengung und Ermüdung. Diese und allfällige weitereTeilaspekte lassen sich nicht ungeachtet des vorgesehenen Einsatzge¬bietes und des Zielpublikums in einem einzigen pauschalen Urteil zu¬
sammenfassen, sondern bedingen vielmehr eine getrennte Bewertung dereinzelnen Kriterien. Ohne eine umfassende Steuerung der prosodischenParameter ist eine Erfassung der Natürlichkeit und des Sinnbezugs derBetonung, der Anstrengung und Ermüdung, ja sogar der Satzverständlich¬keit gegenstandslos oder zumindest fragwürdig. Wir müssen uns daher imfolgenden auf die Messung der Wortverständlichkeit beschränken. ZweiAbsichten werden damit verfolgt. In erster Linie soll die mit dem rea¬
lisierten Sprachsyntheseverfahren erreichte Qualität überprüft werden.In zweiter Linie sollen Hinweise dafür gefunden werden, wo weitereVerbesserungen ansetzen müssten, um den grösstmöglichen Nutzen zu zei¬
gen.
VIII.2 MESSVERFAHREN
Für die Wahl eines subjektiven Verfahrens zur Verständlichkeitsmessungist ausschlaggebend, dass mit dem synthetischen Sprachsignal immerMenschen angesprochen und über irgendeinen Sachverhalt informiert wer¬
den sollen. Es fehlen heute leider nach wie vor die notwendigen Kennt¬nisse über die Vorgänge des Hörens und Verstehens beim Menschen, dienotwendig wären um die Verständlichkeit eines Sprachsignals, welchesmit derart vielfältigen Verfremdungen behaftet ist wie ein vollsynthe¬tisch erzeugtes, mithilfe objektiver Methoden aus dem Signal selbstabzuleiten. Subjektive Sprachqualitätsmessmethoden sind zunächst ein¬mal zur Bewertung und Optimierung der Güte von Sprachübertragungsver-fahren entwickelt worden {70...72}, Verständlichkeitstests eignen sichjedoch ohne weiteres auch für synthetische Sprachsignale und sind be¬reits entsprechend eingesetzt worden {73}. Für ein gegebenes Sprach-übertragungs- oder Synthesesystem wird einer Hörergruppe eine grössereAnzahl von Testwörtern akustisch dargeboten und der Anteil davon rich¬tig verstandener Wörter ermittelt. In der Art des dabei verwendetenSprachmatenals unterscheiden sich Logatom- und Reimtests. Erstereverwenden als Testwörter einzelne Silben mit der LautstrukturKonsonant Vokal Konsonant , welche künstlich gebildet und daher imallgemeinen ohne Sinn in einer gegebenen Sprache sind. In letzterengelangen dagegen Wörter mit in der jeweiligen Sprache wohlbekanntemSinn zur Anwendung. Bei Test für die deutsche Sprache sind diesemeistens einsilbig und in BNF-Notation von der Lautstruktur[Konsonant] Konsonant Vokal|Diphtong Konsonant [Konsonant] .
-122-
Bei Reimtests mit geschlossener Auswahlmöglichkeit wird den Versuchs¬personen jeweils eine feste Anzahl möglicher Testwörter in schriftli¬cher Form zur Auswahl angeboten und eines davon als sog. Stimulus aku¬stisch präsentiert (multiple choice). Die Wörter einer solchen Ensem¬ble genannten Gruppe unterscheiden sich dabei nur in einem Konsonan¬ten, einer Konsonantverbindung oder im Vokalteil, daher auch der NameReimtest. (Minimalpaartests bilden eine Untermenge der Reimtests, diesich dadurch auszeichnet, dass alle Mitglieder eines Ensembles sichnur in einem einzigen Phonem unterscheiden.) Beispiel für ein Ensem¬ble:
orthographisch: "wisch" "fisch" "drisch" "tisch" "zisch" "misch"phonetisch : [VI5] [FI5] [DRI5] [TI5] [TSI5] [MI 5]
Gestützt auf die Erfahrungen von Kündig {70} und Sotschek {72} habenwir uns für die Durchführung eines Reimtests mit geschlossener Aus¬wahlmöglichkeit entschieden, weil-bereits mit Horergruppen von 10 bis 20 Personen zuverlässige und gutreproduzierbare Resultate erzielt werden können-Logatome keine verbindliche orthographische Schreibweise besitzen unddamit entweder Interpretationsfehler nach sich ziehen oder in phone¬tischer Notation charakterisiert werden müssen, was nur mit geschul¬ten Versuchspersonen möglich ist
-bei der Darbietung sinnleerer Logatome stets die Gefahr besteht, dassdiese mit ähnlich klingenden sinnvollen Wörtern assoziert und dadurchdie Ergebnisse verfälscht werden-ein multiple choice Verfahren die Versuchspersonen von belastendenNebentatigkeiten wie dem Niederschreiben der vermeintlich wahrgenom¬menen Testwörter befreit und leicht automatisch ausgewertet werdenkann. Die eingeschränkte Auswahlmoglichkeit wirkt im übrigen ähnlichwie die durch den Kontext gegebenen syntaktischen und semantischenBindungen in einer realen Spracherkennungssituation.
Das von Sotschek erarbeitete Testverfahren {72} ermöglicht die Erfas¬sung von Konsonant- sowie Vokalverwechslungen und beruht auf demselbenLautsystem, welches wir unserer Arbeit zugrundegelegt hatten(cf. III.2). Das Sprachmaterial ist phonetisch ausgewogen, d.h. seine
Lauthaufigkeiten entsprechen den Mittelwerten in deutscher Sprache,die ermittelten Verständlichkeitswerte sind daher repräsentativ fürdiejenigen bei der Synthese allgemeiner deutscher Texte. Dies gilt al¬lerdings nur mit einer Einschränkung. Der Schwa-Laut ist im Testmate¬rial namlich nicht vertreten, da er in einsilbigen Wörtern bekanntlichnicht existieren kann (cf. Fig.3.1). Das Sprachmaterial umfasst 100Ensembles zu je sechs Testwörter, 34 davon beziehen sich auf die ini¬tialen, 33 auf die finalen Konsonanten, die verbleibenden 33 auf dievokalischen Silbenträger (cf. Anhang D).0 0
t/it
11
11C
Ul1
1i
inui
11
1Ol
11
11
4-1t
cc
XIOl
14-»
C1a
1»
Ul1
c<u
CXI
•H
•H
XIO
OlrH
Ol4-1
OlOl
4-J&•H
Ol•H
•H
•H4->
OlOl
cUl
cOl
Uitn
4-»Ol
uiOl
rH
a>u
tn
>fd
t/lc
OlCn
uld)
4-»Cn
•H
XI0a
OlOl
Ol•H
XICn
3Ol
rH
uXI
Olro
cna
CnOl
CnXI
c•H
«4
uu
NUi
Ol4-1
3XI
UlUl
»4-4Ul
UiE
x;Ul
Ui0
UlXI
03
UlUl
cu
•H
N•H
8•H
L|TJ
tutn
cOH
a.ro
Xia>
Ul<4-l
M4->
os
Cnc
in
UlC
'OCn
rOM
x:0)
ctn
C4->
Q,•H
¦H
>•H
Bu
ccOl
4J
aiOl
Ul3
Ui"4-1
oUi
•HX
0Cn
COl
uU>£
•H
4-)•H
LiUl
J=Ol
uls
OUl
XIUl
x:14-1
•H
XI01
Ol3
mUi
OlUi
E•H
3ro
CuU
tna>£
a.ro
uCn
Old>
13Ol
u3
XIC
EH4-1
>10
OlC
4J
OlOlas
CnOlC
Uiw
tna>
e3
uro
OlUl
XIC
cn•H
XI•H
Liro
•HUl
UlXI
Olc
•H
Uloa
uLtH
0)3
Ul•H
Ol4-J
E3
¦4JQ
Ol13
cd>
sIO
IOU
s3
XIOl
Sl/l
tndl
a><U
4J
l/lOi
XIUl
UlLi
0-4J
U44J
itOl
4-1Cn
J3X
OlrH
•H
3C
roc
inx:
ca>
TJin
l-io
>o13
O>
U|o
CnOl
U|Li
UlCn
Ol¦H
OlI
OlOl
Cn4-1
OlOl
Oltn
•Ho
U|u
d)•H
cd)
01x;
cc
«4-1S
OlU-l
cXI
Olifd
•H
•H
cN
Cnc
•H
Cl/l
XI4-1c
J<Ol
rH
Ol•H
ITff
TJ3
ff>
4-J0
"4-14-J
c3
d»O
UiXI
4->Ol
rH
-H
CXI
UlOl
•H
>3
Uit/1
uUi
j«:XI
•H
HLi
Uivi
Ol-4-1s
Oltn
Ol4->
1443
rom
s•H
Olro
roc
c[14
4J
Ol3
V)Ol
C*J
rH
a>c
ffa>
c0
Uio
3X)
33
U|3
L.Ui
Ol3
•H
rH
U|x;
3B
•H
sin
VI<
rH
0)•H
4-Jm
OlX.
roUl<
COl
Cd)
0)4-1
J<N
Ui•H
cOl
uOl
314-1
tnOl
tnjtn
ffff
3o>
aUi
3•H
rH
Ol>
4-»Ol
OlOl
cOl
3Ul
CXI
N3
rO•H
U|tn
U-4.*:
cCa
•H
cui
roOl
Ss
•H
roCn
TJUl
XIOl
4-1tuH
OlTS
tn•H
Cro
XI3
Ol3
0)3
«TJ£
•H
.cUl
XIU4
CUl
C•H
4->C
Olc
4J
Ul3
XIc
34->
•H
4->Ol
UH
XIc
CN£
Ü-C
0•H
uOl
c+->
Olc
in
3Cnc
OlU
sui
•H
ro10
roOl
Ulro
a:Ol
Cn•H
'SOl
3Ol
(VV
Nxi
o4!
3XIC
•H
UlUlu
rHE
-H3
4J
Ul4J
Olx;S
c0
4J
cOl
Ex;
OlIB
•H
4->c
tnin
d>rd
3B
l/l13
VO
Ol•H
t/1Ul
•H
mc
UlrH
3l/l
c4J
XI•H
uc
Olx;
orH
+Jff
c*M
OlUi
U•H
34-1
c•
4J
Ol>—t
x:Ol
OlUi
UlCn
OlOl
Olc
4J
cnx;
rou
Ol3
uin
(0O
33
•H
OlUl
ulOl
4->IIB
Olrd
tnOl
8fd
u¦XH
3Olo
•HN
cCn
XI>
vic
UUi
rox;
Nin
Ult/1
4->nj
x:>
34-1
cQ,
4JV
4-1Ol
Ulc
CEo
CnC
Ol3
ctn
Olro
Ula
tnu
Ultu
LiXI
tnrH
14o
rH¦8
a,<
Ulul
cCn
CCn
x:•H
roc
x;o
C•H
¦8N
OlH
CnLi
VI4J
ro•H
U|a
<D3
u0)
XI01
l/lUi
3a
x:ff
ai3
•H
Ulo
EXI
OlUi
Oliro
Olc
OlE
d)Ul
roUi
OlOl
V)C
N•H
•r4fd
XI¦o
Ols
•H
•HXI
u3
4-»Ol
OlOl
•H
roUi
T!Ol
co
Cn-H
4Jc
•HUl3
4-J3
E-iaxi
x:Ä
•H
CTJ
4->rH
¦o•H
XJ+jc
UiIIB
Liu
N4-1
>-{C
OlXI
rH
rn
Uic
x;c
•HXI
oc
rom
0Ol
U0)
Nin
l/l•H
+J
u3
3c
4J
tuUi
c•H
ff>t
>C
ro•H
Ou
uu
Cn>
C.3
TSUi
Ul3
XI3
4->c
Cai
cOl
Oltn
tnXI
Ndl
x:Ol
Ol•H
XI10
Ol>
•HVI
•H
Olc
OlUi
OlOl
(/}c
rdd>
OJH
ai4->
4Jc
uls
XIu
312
cXH
4JT^
Olc
XIrd
XIai
roTI
4-10)
Li•H
inc
4J
§ec
uC
33
C3
•HUl
cu
cnH
UiCn
Cn4J
ffTJ
4JCc
d>c
oc
LiOl
uOl
0)rH
OlN
ffOl
roo
rH
rH
c•H
CCd
UlOl
irotn
cCn
CnCn
XI¦H
cUl
3V
u>
•H
(Dinc
a>*
c•H
XIC"
3Cn
CQ.X)
l/lro
OlUl
3Ol
Ul'S
Ul3
OlC
c110
cC
ro4->£
tnro
rH
ffU
oTJ
•H
rH
cc
EC
Ol3
ulUl
Ui»4-1
cnUi'S
Ol4J
roc
33
T-i3
•H
4JC
•rHU|
c3
0)a>X
in
Olcn
Ulo
3•H
3XI
NOl
Ol3
CN
IUIc
•H
OlCn
3x;
oN
Bc
<1)t/i
UVI
l/la
w0)
Ee>a
0)Ol
¦oX!
in4J
Ul4-»
Cn4->
Q.ro
Oo
OlXI
XI1-1
Ulu
CnVI
4J
x:u
t44•H
rH
IOt/i
¦XTl
•H
tnc
TJX)
ihS
•H
Lit/1
Ul3
•H
XI•H
Ulc
äXI
IIBC
XIro
CUl
•H
¦oin
3U-l
uUl
roN
o4-J
ex:
LiLi
3Ul
d>•H
JC,s
l/lrO
OlX!
•H
roXI
Ulc
c3
OlU)
3Ul
ro3
tuOl
Ctu
3C
VIrH
oai
301
roOl
UlQj
4J
Uc
UXI
vJo
XIo
OlOl
•H
4Ja
dlOl
rH
fdc
CnXI
roc
t/)d>
3TJ
2XI
otn
UIc
Olx:
diUl
c3
rH
VI4->
tnl/l
•otn
inc
CnISXI
uC
UUl
Ol«
TJa>
V)£
roOl
Ol>
x:C
•H
su
c;Ol
•H
t/1B
r*lc
4-1•H
tnvi
s•HC
0)C
roa>
inro
in[i.
cnw
Li•W
*J
LiO
3rj>
T-ic
Olu
•HOl
Ui•w
4-1Ol
Ul3
r^
Olc
Ol•H
inc
•H
OlU
4J<
•H
l/l•H
4J
4J
•H>
3T3
Lia>
inN
cf
cXI
3Ol
OlrH
diOl
OlOl
ror^S
Uiu
XIC
roOl
tn.J3
incC
Ul3
u3
rH
Ol*
0)>
fd-H
rotn
U4IC>
l/lXI>
OS<Sa
uUl
4-1Bc
VIUl
Olu
0)IB
Olet
in*H
QU
Ola.
LiOl
UlLi
roOl
Olro
co
x:Ui
UiOl
Ulc
3d>
XI3
XIOl
tutr»
•H
d>l/l
uic
fJJXI
UlOl
Ol:3
U4Cn
Olc
x:X
Xc
4J
cVI
vio
OlOl
XIOl
ulTJ
cx;
UlQ
c•H
Li•H
CL,
c4J
Ol>o
•H
Cn•H
<M
roUl
-H
Oloo
x:•H
OlM
0C.>
Uf•H
4-JM
LiUi
CnV
ux;
30)
01TJ
0)C
Olu
•HUl
XI•H
Oi3
XI4J
>>
14-1osa
Olc
uOl
UlOl
3Ol
•H
oUl
•H
ON
s>
Li3
TSOl
U)a>
crH
J3<M
<144
uu
rH
Qi•H
cXI
Ol>
34J
4JX
•H
SS4->
<uin
x:4-1
OlN
rO•H
OlrH
rH
uLiU
aa,
OJ>o
X)c
Ol4-1
in..
r-iOl
XI3
XXI
COl
i/3•rH
dlc
J34-1
«4HQ
4-»«0
VIfd
o.Ol
Cs
3c
Olc
U|a
c4-1
XI4JU
UlC
§Ol
UUl
Ol•H
OSVI
Ul3
*M
UlX.
l/l0)
UiUl
c»w
1•J
4J
ro¦ro
N3
Uiu
Olu
Ol4J
•H
•H
4J
OlUi
•H
01•H
3X
4J
Li•H
33
UUi
NOl
OlOl
rH
c¦8
roUl
•H3
T3•H
OlE
tn•H
XIXI
Ui3
'SrH
oUl
0)dl
•H
N1
rrjai
UiXI
4-1T-i
XIXI
tnx:
Xil/l
*-H
>in
Ulc
XIOl
30
ro4J
CL4dl
X}3
0)-C
SBD
3a>
l/lro
c-M
IIBtu
ffC
•H
4-1T-i
UiO
x:Ul
u.*
NJ£
in•H
J-J3
XH
fdXI
u4->
ulj<:
MTJ
U|ro
3•H
ro3
4-»4J
3Ul
OlO
Ol3
U3
OlOl
x;Ui
MrH
rH
Cny
'SLi
>iro
LiOl
4J
Olu
irorH
HBro
cd
tn>
VI3
XI•H
uOl
XIOl
Cn«
ed
3s
TSOl
Ul3
XIc
CN
UlOl
Ulfd
UiC
tao
0XI
4J
x;3
-HXI
4J
eX)
-4J¦**
0I3J
Li4-*
3d)
Tf4J
cOl
SOl
Ol4-1
OlOl
X.Ol
UiOl
>x:
rOai
x:o
OlX)
rH
13Ui
3e
•H
inQ
d)ff
LirH
c•HU
4-1rHc
MUl
X)**O
uCn
OlU4
roa
•H
uUl
ing
XIOl
os
'S0)
4-»flÖ
eOl
ai[14
Ui•Hc
uOl
Olin
XIUi
OlXI
Q3
3rO
roe
•H
Olin
cx;
mrH
14s
Cai
J*•H
!24-J
Ero
•Hco
CIO
QCn
VIC
VIXIc
x;C
»0Ol
3£
Olu
utu<
OlrH
Us:
srH
MrH
uOl
IH
OlrH
&c
.H
l/lOl
UlUla
c:Ol
4J
a.Ui
uXI
Uitn
in1-4
trff
4-JrH
¦H
u5
d>+J
Cn•H
Ul>
XIrH
»4-1•H
rH
cro
Cnxl
OlOl
crO
XIina
4J
roOl
4J
4J
i-tM
Cc
¦H
CDs
l/lUl
c•H
MU4
UiOl
cOl
cai
cOi
OlrH
Olvi
cc
4J
4JM
UiUl
3in
Ulin
Ul3
3M
co
0)3
33
aiUl
Oai
CLO
OlOl
Q,Olc
cOl
•H
o0
Ul•H
4->Ol
3•H
cc
OlOl
OlOl
UlC
Oiro
x;Ol
Ol>
M>
TJ4-»
ETf
tnOl
ti.c
tn
3TS
>Ul
4-14->
•H
CnN
HX
o2
Ul
XIN
in3
3~3
4-i3>
Cn•H
VI3
•H
XIQ
Me
ff:fd
0>4J
Olx:
U|0)
dlrH
4->XIC
•Hu
Ol>
Ulo
(Uu
N•H
>c
«H
CDE
•H
UirH
x;W
ß\
tnOl
XIo
in*H
Lii-4
XIc
a.0
fdß
Q)ro
iroTJ
Olff
34J
4~>•H
4-JC
Nin
UiLt
>rH
Lio
UlOl
4-JOJ
rH
dix;
OlXI
Li-H
4J
IfdS
u>
d)+J•H
4-1*Jw
rH
in«LI
C(U
3Ul
3c
3dl
0)X
N0)
Ul5!
Olro
Hin
x;TJ
01Ul
rH
fdu
ßß
4-1x;
Li•H
•H
•HX!
•HIB
rH
Q^rH
dis
c01
34J
TJLi
01.*
CO
rHß
ßLi
Ulx;
ruo>
ird•H
0)x;
uCn
-^TJ
4-1dl
4J
iro•H
oCn
x:ui
XIE
3rH
inC
U3
LiXI
3r-t
Ndl
+J
•H
cUla
rH
>Ul
4-»iro
OlOl
TJß
.cXI
UlC
4J
X!¦H
ßo)
orH
di01
VIN
:fd4-J
DiOl
xi4-1
Ula
OlJ-J
LiUl
•H
Olo
a>ino
dlß
Ol>
>Li
5in
*->•H
.*Ui
0)4J
dl•H
dlc
OlUi
0)
>s
•H
0)u
ca
TlTJ^
rH
•H•H
Ol0)
x:01
rH
Ols
OlH
ßLi
u4J
CnUl
IH
TJ1)
i3•H
4-1IO
E3
rH
ff«4-1
rH
•Hs
3C
¦H
Li-H
ff2
rH
a•
:34J
.ßQ
x;"4-1
Ul4-1
XI<*-*
x:U
EE
rOUi
Ol•H
UlU
•H
rH
•H
3roc
SH
H4->
HUl
x:in
13IB
3IH
.*L.
fdß
3TI
OlW
c4Js
01«*
XIx;
4J
v;3
XIUl
4-J4-»
UOl
Xa
w¦H
3Ul
Cin
in-HC
uUl
rH
ff<
fdOl
C•H
Olc
M4J
-H
Li4J
4->Ol
3U
4-JrH
d»d>
ß4-J
cnx:
cOl
WQ
<d*
dlLi
¦H
OlOl
-u
rH
Uix:
aiUl
ßO
4-J4->
XIOl
Ol10
ci-iff
0)*
x:tn
c'S-0
1t—t
H<
ßin
4-1O
U4Ol
2VI
•HUls
OlOl
CnBS
4-JUl
CQ\X
ßu
TJO
Ul>
rH
-H>
Ww
0)dl
LirH
Olin
oOl
OlO
>4-»
TJ0)
x:Ui
XIin
*H
•HX
s(X
Ul
rH
uOl
x:•H
xix:
wrH
LirH
UlXI
uS
Bu
d)ui<
01•H
M-*-H
1*#
Tf
¦H
ßC
ffCnC
OlrHcOl
>-HXI
HrH
d)4-1
in3
cnx;
4JC
rH
IH
ßrH
d)Li
Cnu
C¦H
:IBH
M¦H
:fdrH
d>•H
•H
OlOl
4-1>
>Ed
j^Xi
TJ4-1
BrH
rH
jevi
ffß
1iß
1u*
C1
1¦*>
Ol1
x;1
Olc
1»
1fcH
1XI
ß0)
d)-H0
OlOl
rorHa
in•H
•H
u4-J
CH
OlOl
cx:
c13
rHc
3rHÜ
d>•H
Cn4J
Olu
X!Olo
OlQ
TJUi
CnOl
OlOl
*H
rH
3N
rd4-J
4J
IH
rH
CVI
•H
r*
XITJ
>oUi
x:tH
VI
04->
Li4->
J<3
OlV
rH
OlXI
c0)
x:Xi
Ux;
•H
>Ol
•H4->
dlrH
ßro
o,3
XIc
CnOl
xix:£
IBVI
uOl
4J
4JUl
ßßS
3a
rOc
c3
Cc
OlO
30
ro3
•HOl
U44-»
di•H
tumo
OlIIB
ai3
OlXI
*H
Ol1-4
3Ol
-H
OlUl
N0)
Li-H
XIOl
4-14Jc
OlN
4-1C
-i
§E
a.N
x:XI
30)
dlß
Olt/i
Uitn
(0>
4J
UlC
BUi
4-1i/i
Cc
tnH
dlTJ
•H
Ui•Ho
U|a
H•H
roOl
IBtö
L4x:
•H
•H
OlU
4-J*H
OlX
x;Ol
3Ol
•H
3l/l
3OiJ<
cOl
Ols
cx;
Ol•H
LiTJ
•H
4-1ß
u3
4J>
ai.*
Uia
CnE
OlXI
OlOl
3Ul
0)C
•H
U%
XIC
COl
3c
cc
tnCn
tH
0o
Jü
¦8LiO
•H
ßOl
OlOl
OlUl
OlUi
OlOl
iroE
Ol¦H
3c
Xi13
ino
cUi
x:•H
dl4-1
4J
CnXX
rH
rH3
cCn
roOl
o*4-l
rH
tn•H
Olu
uXI
<H
tJm
•H
UiOl
rH
ro•H
13Li
Cn4J
•H
LiOl
04•H
Ol3
CnOl
OlCn
Olx:
jeOl
IH
roC
inß
00Ol
rH
rH
XIrö
H•H
jeUi
4-Ju
CnTJ
•H•H
XIO
ßß
Oiü
Cncn
OlNc
iOOl
tn
roOl
OlC
0)G
>0)
0)ff
Ulc
>oc
cXI
auX
x;SS
rH
Hx:
iro4J
TJ•Hß
8Ol
Edl
3Cn
10•H
OOl
UlrHo
u4-J
TJß
Litt*
UXi
cC
CtH
3rH
roH
•H
•H
OlOl>
•H
Ulß
fdO
3ß
Ui•H
33
NXI
OlUi
inu
4-J4-J
Cn•H
rHU
•H
ßs
ßin
-H
Oltu
OlN
roc
•H
a.IB
l/ll/l
NU|
OlUl
0rH
Li0)
•H
ax;
4J
Ul«0
XIt/1
-TJ
4-JOl
OlOl>
Ul4-J
OlOl
OUl
u•H
U4Ol
4-»rH
cOl
•Hax;
XIUl
ßrH
>4->
XIrou
tnt/1
OlXI
intH
Ol•
UlOl
•HE
V)U
cc
rHo
Old)
•H
ro4-J
HUl
>Ui
3x:
ro
Olx:
TJ•H
•HOl
fd*!>
4-J4-»
0>E
XIUla
cCd
cc
Olro
u¦
inu
Ul4-1
rH
x;XI
4->Li
Olui
•H
OlUl
u>
vicn
in•H
cOl
x;H
cLi
ß•HO
rH
ß3
Olc
4-1Ol
104-1
HH
rOrH
rO3u
3XI
Oldl
OlE
fd<0
4-1rH
Ol•H
VIo
cUlC
4-1[14
tH
4J
•Hü
cCn
4-1rH
Li•H
ffUi
Olx;
U|Ol
<JOl
U|tn
OlC
rH
3-H
fd0)
dlLi
ßOl
4Ju
cM
Ola
XI•rl
x;c
OlC
•H
4-1rH
o•H
Li0)
3-H
4J
viOl
roc
ul/l
4JH>
133
jer-i
•H
tTtut
4Jß
TJXI
N.*
•H
•H
CnrH
UiOl
3Cn
je&c
J*Ol
Xi3
¦HU
•H
0)13
4->Uis
4Jc
.*Ol
CnIB
Olu
CrHo
C4-J
OlOJ
ß4-»
d>•H
Ol3
XIC
•H
13m
0)c
Mro
ro3
3m
•H
Li•H
ß4->
UlcC
4J
4J
3C
4-1Oi
X!Ol
OlUl
iroTI
Ojrd
•H
4J
Ol4Jc
4-1c
NOl
Uld)
LiXI
XIroQ
Ol4J
Ulß
fddi
UlXI£
u•H
•H
4J
VIs4J5
2TJ
CXI
£rH
0)o
ÜOl
c•H
Ul•H
in•H
cC
Olc
4JOl
Olin
•H
in
JßIrt
tuB
inUi
4-J<*°
l/lro
SH
Olxi
aiXi
Olin
XI¦H
dlTJ
ßLi
uj<
3c
rH
rH
cc
c13
4Ju
Uiu
XIH
Ul4J
TJq
<t)•H
LirH
Ol•H
U|Ol
cro
OltH
H•H
Ol3
OlOl
3•H
xXI
rH
0)10
•H
OlcO
Olje
HOl
x;ro
tnXI
rOCn
in3
s3
Li13
TJ4-J
CQ1
TJ4J
Olrj\
•H
OlOl
cncn
uC
5u
Ultn
U
&t3
ßß
Li\
min
>x:
4-JC
Ctn
OlOl
roXI
Ol3
aiOl
*LIOl
ifdd>
Ol+
cOl
inc
u•H
33
-H
4J
Cn4-1
IIBx;
<u
rH
4-14-J
•H
rH
rOEH
o0
cin
Olin
tn4-J
Ul-HC
cin
•Hc
3rd
•H
in>
rorH
>Ol
4-J3
tntn
roOl
&4x:
OlH
34-1
Oltu
<ß
ß0>
LirH
jeCn
Cx;
4->0
Olro
Ui3
'Oc
•H
ro•H
Hcn
d)•H
.*Ol
O•H
CCn
0)u
•H
Nl/l
CS
Q.TStn
XI3
•H3
HOl
V)C
£4-J
«LIß
>Ul
4J3
CXI
UlOl
4JOl
Cro
<3
4-1c
OlOl
roXI
x:3
d)•H
U4-1
XIUiC
3Ol
XIOl
CCn
Ol•H
3cn
XIH
ux;
TJ0)
dl•H1
<dai
uC
4-1cn
IBo
¦H•H
er0)
4-1<
3o
^•rH
rH
>•H
XI-H
inXI
>Di
XIOl
J<rH
x;4J
x;in
•HTJ
JßTJ
"9VI
Ol'2
s3
Ui:3
¦H
Olx;
Olc
uX.
uOl
U4Ol
ßo
ßOl
Ul3
3ro
4->Ol
ctH
Uixi
ho
Cnrrj
•H
U•H
UlOl
3dl
•H
'S«fdo
x:Ol
XIai
cnCn
XIOl
cnOl
XI-H
CE
Ol•H
VIOl>
XIJß
rH
ß4J
fdTJ
roCn
C¦H
CnC
•H
4-JrH
IIBrH
Ui4-J
rOU
TJ3
inUl
NXI
cro
4-JOl
c•H
x;H
CXIX
rH
CLOl
•HOl
XIdi
ßLi
Olsu
«*Cn
Ul4-)
XI3
UOl
Olc
Oltn
•H
OlCn
U|Li
irdOl
diTJ
CIB
E•H
inc
UOl
c3
U»B
cC
•HXI
3•H
roa
4-»rH>
OlXI
3Ol
x:Cn
OlOl
4J
OlOl
>XI
X!Ul
inrd
4-i+-»
Cnc
Ol4-J
Uiro
XI¦H
inXI
Ct/1
cg
JJ
LiM
Mu
rOro
cC
Ul•Ha
IHC
uOl
UiU|
uUi
UiVI
Oliro
roß
Olo
OlOl
u4-J
•HOl
OlOl
irOUl
Ol3
H4-1
OlOl
OOl
Olro
•H
4J
4-1W>>
Ul3
XI4-1
t/1U
TJXI
i;3
&4e
33
m>
3c
XI.H
TJXI
Uli/l
-125-
wahre Verstaendlichkeit in % vs.
Anzahl absolvierter Testsitzungenmit Nummern der Stimuluslisten
100 liTf- 1"i- ¦ fi—
90
80
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2012345678912357924681
Fig.8.1 Lernkurve
initiale Konsonantenzentrale Vokale
finale Konsonanteninsgesamt
92.3% 6.4%97.4% 3.5%96.6% 4.1%95.4% 3.3%
Aus der Auswertung der Testsitzungen elf bis zwanzig, d.h. nach einer
Angewöhnungsphase von 1000 abgehörten Wörtern pro Versuchsperson ent¬sprechend einer Sprechdauer von ca. 11 Minuten, ergeben sich folgendeWerte.
initiale Konsonanten 94 2% 4.6%zentrale Vokale 98 1% 3.3%
finale Konsonanten 97 8% 3.1%insgesamt 96 7% 2.4%
Unter der Annahme die Verständlichkeitswerte seien normalverteilte Zu-fallsgrössen, lässt sich bei einer Konfidenzzahl von 0.95 für die Ge¬samtverständlichkeit ein Vertrauensintervall von 96.3% bis 97.1% be¬rechnen. Gemäss den Vergleichsangaben von Sotschek für die Störung derSprachwahrnehmung durch überlagertes weisses Rauschen {78}, entsprichtdiese Verständlichkeit einem Störabstand von ca. 13 dB bei breitrandi¬gem Nutz- und Störsignal und ca. 18 dB bei einer Bandbegrenzung beiderSignale auf 300 bis 3400 Hz.
-126-
VIII.4.2 LAUTVERWECHSLUNGEN
In Fig.8.2 und 8.3 sind in Form von Konfusionsmatrizen die in sämtli¬chen Verstandlichkeitstests erfolgten Lautverwechslungen zusammenge¬stellt. Allerdings soll nicht verschwiegen werden, dass Sotscheks
Sprachmaterial nicht im Hinblick auf eine derartige Auswertung zusam¬
mengestellt worden ist und darum bei weitem nicht alle denkbaren Ver¬
wechslungsmöglichkeiten auch tatsächlich zu überprüfen gestattet. Füreine exaktere diagnostische Beurteilung der Lautverwechslungen müssteein Minimalpaartest eigens zusammengestellt werden. Darauf ist des ho¬hen Aufwandes und der fehlenden Vergleichsdaten wegen verzichtet wor¬
den.
Unter den alles in allem nur zweitrangigen Vokalverwechslungen domi¬niert klar das Missverstehen der Quantität bei Lautpaaren mit identi¬
scher Qualität, wobei Kurzvokale etwas häufiger für Langvokale gehal¬ten werden als umgekehrt (cf. VII.2). Bemerkenswerterweise treten Ver¬
wechslungen innerhalb der in V.7 erwähnten Lautpaare, bei denen diezeitliche Ausdehnung bei praktisch unveränderten spektralen Eigen¬schaften über Lautqualität wie -quantität entscheidet, kaum in Er¬
scheinung. Qualitätsverwechslungen mit mehr als 1% Anteil betreffendie Konfusionen [Y] zu [8], [3] zu [E] und [AI] zu [3].
Bei den besonders wortinitial häufigen Konsonantverwechslungen fallen
[TS] zu [Z] und [M] zu [V] mit je ca. 11% Anteil auf, sowie [B] zu [V]mit gut 4%. Die meisten der übrigen Konfusionen von Bedeutung treten
innerhalb der nasalen und liquiden Konsonanten und noch häufiger zwi¬
schen Plosivlauten auf.
Das Missverstehen von [TS] als [Z] entspricht einer auch ausserhalb
der Verständlichkeitsmessungen gemachten Feststellung, wonach in syn¬thetisierten Affrikaten der Plosivteil leicht unterzugehen droht undzwar umso eher, je länger der Frikativteil dauert. Trotz der in VI.3.2
getroffenen Schnittstellenkonvention ergibt sich bei der Verkettungvon Plosiven mit Frikativen meist eine unnatürlich lange Frikativpha-se. Im erwähnten Beispiel, übrigens dem einzigen Affrikaten im Testma¬
terial, wird dadurch die Wahrnehmung des [T] in Frage gestellt und der
empfundene Frikativlaut als [z] bisweilen auch als [F] identifiziert,weil das naheliegendere [S] wortinitial gar nicht auftreten kann. Vom
signalphonetischen Standpunkt aus sollten demnach Plosiv -> Frikativ-
Verbindungen besser als eigenständige Laute aufgefasst werden.
Für die ausgeprägte Bevorzugung von [V] gegenüber den ebenfalls labia¬len Konsonanten [M] und [B] konnte keine signalbezogene Erklärung ge¬
funden werden. Es hat sich aber nachträglich herausgestellt, dass inden von Sotschek unverändert übernommenen und im Test eingesetzten En¬
sembles die ein [V] enthaltenden Testwörter stets vor denjenigen mit
[M] oder [B] aufgeführt sind, wenn eine derartige Opposition überhauptvorhanden ist. Bei grosser Unentschlossenheit entscheiden sich die
Versuchspersonen offenbar für das erste plausible Testwort und ver¬
nachlässigen die nachstehenden Mitglieder des präsentierten Ensembles.
Dieses Verhalten beeinträchtigt zwar kaum die Verständlichkeitsresul¬tate bringt aber grosse Asymmetrien in die Konfusionsmatrizen, welche
keine perzeptorische Begründung aufweisen. Für diagnostische Verstand-
-127-
X O » OlHK9>Ucc r> => or~ « f> O »-« oar i o« o
r- r- zZi-i ui o03 Q U _Jo UJ3cnci (- _j3 Id o « ••
U. r- O cnZ<I M ZQ3jü: oU _J O t-tCUL Ol
Ljüj « o u.
t- o 3 in« o ojn u aui <E z
oooooooooooooooo
oooooooooooonooo
oooooooooooooooni
OOOOOOOOOOOOOOOO1 I
ooooooooooooooooI I
oooooooooooooooo
000-0000000000000CM
OOOOOOOOOOOOOOOO1
OoOOOOODOOoOOOMOOI I o
l*]000000<40nOOOi-iOO
oooooooooooooooo
OOOOOCNOOOOOOoOOO
OOOOOOOOOOOOOOOO
OOOOOOOOOOOOOOOOI
•0000000^000000000I
oooooomoooooooooI
*>
RELATIVE
CONSONANTCONFUSION
MATRIX
FORFILEBRESIN
IN0/00
300TESTS
EVALUATEDUITH
ATOTAL
OF
114BERRORS.
FREOUENCIES
ARE
LIMITED
TO999,
AND
SETTO
-1
FOR
VALUESABOVE
0,BUT
BELOU
1!
JB
TD
KG
FV
SZ
5X
CJ
MN
9L
RHDR
TSST
XTCTNT
LT
RT
9KRN
p0
34
10
-10
06
-1
00
00
00
00
00
-10
00
00
00
00
00
B3
0-1
02
-16
440
50
00
00
00
01
60
00
00
00
00
0T
60
00
-1
0-1
10
-1
00
00
00
00
00
0-1
00
00
00
00
D16
6-1
00
e6
20
00
00
00
-1
00
00
0-1
00
00
00
00
K8
-1
49
00
10
00
00
00
00
00
00
00
-1
04
-14
-114
00
G0
-1
413
10
0-1
00
00
00
00
0-1
51
00
00
00
00
00
F0
-1
-1
00
-1
0-1
46
70
00
00
00
0-1
0-1
00
00
00
00
V0
01
00
01
00
-1
00
00
-1
00
0s
41
-10
00
00
00
0S
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
z0
00
00
-1
1-1
00
00
00
00
01
00
01
00
00
00
00
50
-1
00
00
10
01
01
00
00
00
00
0-1
00
00
00
00
X0
00
00
00
00
00
00
00
00
0-1
00
00
-10
00
00
0c
00
00
00
00
00
10
00
00
00
00
00
00
00
00
00
J0
00
00
00
00
00
00
00
00
00
00
00
00
00
00
0M
03
-10
00-1110
00
00
00
01
0-1
10
00
00
00
00
00
N-1
00
00
00
00
00
-10
039
06
431
-1
00
-10
00
00
00
90
00
00
00
00
00
00
01
40
00
00
00
00
00
01
0L
00
00
00
00
00
00
0-1
620
00
70
00
00
0-1
00
00
R0
-1
00
00
01
00
00
00
-1
00
00
-1
00
00
00
00
00
H0
-1
00
00
-1
00
16
00
00
00
00
-1
01
00
00
00
00
0DR
00
0-1
00
00
00
00
00
00
00
00
00
00
00
00
00
TS0
00
00
016
00119
00
00
00
00
00
00
00
00
00
00
ST
00
00
00
00
00
00
00
00
00
00
06
00
00
00
00
XT
00
00
00
00
00
00
00
00
00
00
00
00
00
04
00
CT
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
NT
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
LT
00
00
00
00
00
00
00
00
00
00
00
00
00
00
10
RT
00
00
00
00
00
00
00
00
00
-10
00
00
00
00
00
9K
00
00
00
00
00
00
00
0023
00
00
00
00
70
00
0RN
00
00
00
00
00
00
00
0-1
00
00
00
00
00
0-1
00
Fia.B.3
KONFUSIONSMATRIX
FUER
KONSONANTEN
UNDKONSONANTPAARE
-129-
lichkeitsmessungen muss also die Wortfolge auch bei der optischen Dar¬bietung der Ensembles randomisiert werden.
Die Verwechslungen innerhalb der nasalen und lateralen Konsonantenfinden ihre Erklärung in den beobachteten geringen gegenseitigen Zen-troiddistanzen von Fig.5.40 und dem Fehlen zusätzlicher distinktiverMerkmale (cf. auch V.5.2.9).
Dass Konfusionen unter den Plosivlauten so häufig sind, hängt zum ei¬nen mit der LPC-Modellierung zusammen, welche die Explosionsvorgange,deren zeitliche Ausdehnungen unter derjenigen eines Analyseframes lie¬
gen, nur ungenau wiederzugeben vermag. Zum anderen können sich stimm¬lose Plosivlaute in ihrem sog. Aspirationsgrad unterscheiden ([03]S55, {10} 4.0). Wird bei der Synthese ein behauchter Plosivlaut mit¬hilfe eines unbehauchten Diphons hergestellt, entsteht der Eindruckeines abgeschwächten Explosionsvorgangs, welcher zur irrtümlichenWahrnehmung eines stimmhaften Plosivlautes führen kann. Im umgekehrtenFall wird der Plosivlaut entsprechend meist als übersteigert artiku¬liert empfunden. Einmal mehr wäre es im Interesse der Verständlichkeitund Natürlichkeit angezeigt, zusätzliche Grundelemente einzuführen undfür jeden stimmlosen Plosivlaut zwischen mindestens zwei stellungsbe¬dingten Allophonen zu unterscheiden.
Zusätzlich zu dieser allgemeinen Feststellung lassen die beobachtetendiversen Verwechslungen des Lautes [K] etwa mit [T] oder [RT] sowievon [9K] mit [9] darauf schliessen, dass das wortfinale Diphonelement[K\] nicht überzeugend klingt. Die Verwechslungsgefahr kann voraus¬sichtlich reduziert werden, indem der gespeicherte Übergang durch einneu zu extrahierendes Exemplar ersetzt wird.
130-
KAPITEL IX. SCHLUSSFOLGERUNGEN********************************
IX.1 ERREICHTES ERGEBNIS
In der vorliegenden Arbeit konnte der Nachweis erbracht werden, dassdas gewählte Verfahren der Verkettung LPC-codierter Lautübergangsele¬mente eine sehr zweckmässige Lösung zur Sprachsynthese mit unbe¬schränktem Vokabular darstellt.
Anzahl und Identität der zur Synthese deutscher Standardsprache benö¬
tigten Lautubergangselemente konnten fundiert bestimmt und eine voll-standige Sammlung davon aufgebaut werden.
Die Laute der deutschen Standardsprache mit Ausnahme der Plosive sindhinsichtlich ihrer Signaleigenschaften anhand der Werte und Verläufevon LPC-Parametern charakterisiert worden. Diese aufgrund von Sprach¬proben eines professionellen Sprechers vorgenommenen Untersuchungenhaben es ermöglicht, mehrere mit der Übernahme des IPA-Transkriptions-systems implizit verbundene Voraussetzungen zu überprüfen.
Es ist ein neues systematisches und computerunterstütztes Extraktions¬verfahren entwickelt worden, welches die Gewinnung der Lautübergangs¬elemente aus ihren LPC-codierten Tragerwörtern anhand objektiver Kri¬terien ermöglicht, dadurch beschleunigt und zuverlässiger gestaltet.
Die Tauglichkeit des Synthese- wie des Extraktionsverfahrens sind am
Beispiel der deutschen Standardsprache verifiziert worden. Die durch¬geführten subjektiven Verständlichkeitsmessungen haben die hohe Ver¬
ständlichkeit des künstlich erzeugten Sprachsignals unter Beweis ge¬stellt.
Es besteht Grund zur Annahme, dass die erwähnten Verfahren für dieSynthese anderer Nicht-Tonsprachen gleichermassen geeignet sind. Ver¬suche mit deutschen Lautübergängen andere europäische Sprachen zu syn¬thetisieren, soweit dies mit den vorhandenen Elementen überhaupt mög¬lich ist, haben aber gezeigt, dass der Grundelementvorrat für jedeSprache neu gewonnen werden muss, ansonsten ein kräftiger Akzent der¬
jenigen Sprache durchklingt, welche die Grundelemente ursprünglich ge¬
spendet hatte. In der IPA-Notation mit demselben Symbol bezeichneteLaute stimmen in ihren Signaleigenschaften zwischen verschiedenen
Sprachen also nicht notwendigerweise überein.0 0
-131-
IX.2 ERWEITERUNGS- UND VERBESSERUNGSMOGLICHKEITEN
IX.2.1 VERBESSERUNG DER VERSTÄNDLICHKEIT UND NATÜRLICHKEIT
Die beiden Begriffe immer auseinanderzuhalten ist problematisch, daeine verbesserte Natürlichkeit auch der Verständlichkeit zugute kommt.Immerhin steht fest, dass beide Kriterien durch Fortschritte auf dreiEbenen weiter verbessert werden können.
Die erste davon betrifft die Modellierung. Auf die Probleme, welchesich aus der Verwendung der herkömmlichen LPC-Methode ergeben und all¬
fällige Erweiterungsmoglichkeiten haben wir bereits hingewiesen (Na¬sallaute: V.5.2.9, gemischt angeregte Frikativlaute: V.5.2.2 und V.7,Plosivlaute: VIII.4.2).
Auf einer anderen Ebene liegen die Koartikulationseffekte, denen durchdie Verkettung von Lautübergangselementen nur insoweit Rechnung getra¬gen werden kann, wie ein Sprachausschnitt von den ihm unmittelbar be¬nachbarten Lauten beeinflusst wird. Weiterreichende Einflüsse bleiben
dagegen unberücksichtigt. Lokale Abhilfe kann die Unterscheidung zu¬
sätzlicher stellungsbedingter allophomscher Varianten (Plosivlaute:
VIII.4.2, Schwa: VII.2) und das Zusammenfassen innig miteinander ver¬
flochtener Laute zu separaten Grundelementen bringen (Plosiv -> Frika-
tiv-Verbindungen: VIII.4.2). Beide Massnahmen wirken sich allerdingsungunstig auf den Aufwand zur Extraktion und Speicherung des Grundele¬mentvorrats aus und komplizieren zudem den Diphonisierungsprozess.
Die dritte Ebene schliesslich betrifft die Erzeugung einer zusammen¬
hängenden Betonung. In bezug auf Natürlichkeit und Verständlichkeitganzer Sätze und mehrsilbiger Wörter darf von ihr gegenwärtig die
grösste Verbesserung erwartet werden. Sie wurde aus dieser Arbeit aus¬
geklammert, ist jedoch Gegenstand eines weiterführenden Projektes in¬
nerhalb der Gruppe für Sprachverarbeitung.
IX.2.2 WEITERE AUTOMATISIERUNG DER GRUNDELEMENTGEWINNUNG
Es ist gegenwärtig noch eine offene Frage, welche der im morphologi¬schen Kasten Fig.2.9 zusammengestellten Sprachsyntheseverfahren sichschliesslich durchsetzen werden, oder ob sie gar von heute noch unbe¬kannten Konzepten verdrängt werden. Für die Synthese mit unbeschränk¬tem Vokabular werden auf längere Sicht das Artikulatorische Modell uAddie Synthese nach Regeln begünstigt. Zum einen ermöglichen immer exak¬tere Kenntnisse über die Vorgänge des Sprechens und Hörens beim Men¬schen eine naturgetreuere Nachbildung und damit eine bessere Sprach-qualitat. Zum anderen verbesseren sich mit der Verfugbarkelt lei¬
stungsfähiger Signalprozessoren die Möglichkeiten zur Realisierungdieser Verfahren auch unter eingeschränkten Raum-, Kosten- und Ener¬
gieverhältnissen. Entscheidend wird sich ebenfalls auswirken, welcheAnteile an Artikulationsmodellen und Syntheseregeln sprach- resp.Sprecherspezifisch sind und damit, wie aufwendig es ist, ein vorhande¬nes System auf eine andere Sprache oder eine neue Stimmcharakteristik
-132-
zu übertragen.
Der Vorteil von Verkettungsverfahren liegt im verhältnismässig einfa¬chen Synthesealgorithmus, ihr Nachteil in der trotz aller bisherigenAutomatisierungsanstrengungen immer noch recht aufwendigen Gewinnungdes erforderlichen Grundelementvorrats für eine gegebene Sprache oderStimme. Da zudem im Interesse der Sprachqualität die Anzahl Grunde¬lemente eher noch erweitert werden sollte, werden sich Verkettungsver¬fahren langfristig nur behaupten können, wenn es gelingt die Grundele¬mentgewinnung vom Zusammenstellen des Sprachkorpus bis zur Diphonex¬traktion weiter zu automatisieren. Einen möglichen Ansatzpunkt dazubieten die Arbeiten von Wagner (75). Er hat nämlich einen Algorithmusentwickelt, der mithilfe dynamischer Programmierung {69} die zeitlicheZuordnung zwischen dem Sprachsignal und dem zugehörigen von vornehe¬rein bekannten phonetischen Text vollzieht. Damit könnten die dieÜbergänge begrenzenden Laute innerhalb ihrer jeweiligen Tragerwörtermöglicherweise vollautomatisch identifiziert werden.
IX.2.3 REDUKTION DES SPEICHERBEDARFS
Sei nf die totale Anzahl von Koeffizientensatzen sämtlicher Grundele¬mente (Diphone, Zentroide und Intermissionselement) und bs die zur
Speicherung eines Koeffizientensatzes mit skalarer (d.h. für jedenKoeffizienten unabhängigen) Quantisierung verwendete Anzahl Bits, so
ergibt sich ein Speicherbedarf von:
B = n b (9.1)s f s
Bei der Vektorquantisierung werden die Modellfilterkoeffizienten dem¬gegenüber en bloc quantisiert. Zur Sprachübertragung müssen sowohlSender wie Empfanger über dieselbe Sammlung von Modellfilterkoeffi-zientenvektoren verfügen, welche 'Codebuch' genannt wird. Ein zu über¬mittelnder Vektor wird mithilfe eines objektiven Distanzmasses mit demCodebuch verglichen und an seiner statt nur die Codenummer des ähn¬lichsten Mustervektors übertragen, aufgrund derer der Empfänger denMustervektor abrufen kann. Eine gewisse Verzerrung entsteht durch denErsatz der ursprünglichen Modellfilterkoeffizienten durch diejenigendes gewählten Mustervektors aus dem Codebuch. Mit diesem Verfahrenwird eine beträchtliche Redundanzreduktion erzielt. Eine Beschreibungder Algorithmen und konkrete Resultate finden sich in Literatur {76}.
-133-
Für unsere Zwecke kann der Speicherbedarf reduziert werden, indem dieFilterkoeffizienten in ein Codebuch ausgelagert werden, welches weni¬ger Vektoren enthält als der Grundelementvorrat Koeffizientensätze.Die neuen Sätze umfassen also nur noch Verstärkung, Stimmgrundfrequenzund Codenummer. Sei br die Anzahl Bits für einen Satz Filterkoeff1-zienten und w die binäre Wortlänge der Codenummern (die Anzahl Eintra¬gungen im Codebuch wird zweckmassigerweise als ganzzahlige Zweierpo¬tenz gewählt), so folgt der gesamte Speicherbedarf zu:
2 b i (b -
f s
w) (9.2)
Für die numerische Beurteilung gehen wir von nachstehenden Erfahrungs¬werten für die skalare Quantisierung unter den in IV.6 festgehaltenenAnalysebedingungen aus.
Anzahl Bits für die Verstärkung 5Anzahl Bits für die Stimmgrundfrequenz 5Anzahl Bits für die Filterkoeffizienten 58
68 b = 58r
Die Gesamtzahl Koeffizientensätze nj beträgt 5886. Den Speicherbedarffür den Grundelementvorrat bei unterschiedlichen Quantisierungsbedin¬gungen zeigt die folgende Zusammenstellung:
skalar B = 400248 bit
vektor w = 10 bit B = 177112 bit
vektor w = 9 bit B = 141530 bit
vektor w = 8 bit B = 120796 bit
Gemäss unseren Erfahrungen aus der Sprachübertragung ist mit 512 Mu¬stervektoren entsprechend w = 9 die Verschlechterung der Sprachquali¬tät infolge der zusatzlichen Vektorquantisierung bei Verwendung einessog. 'füll search' Verfahrens unwesentlich. Der Speicherbedarf kanndamit um rund einen Faktor drei reduziert werden. Hinsichtlich desSpeicherumfangs rückt damit die Diphonsynthese in den Bereich, denSprachsynthetisatoren mit beschranktem Vokabular bereits für einenmittleren Meldungsumfang erfordern.
-134-
ANHANG******
ANHANG A. ABBILDUNG DES IPA-ALPHABETS AUF DEN COMPUTERZEICHENSATZ
Die IPA-Notation benützt mehrere Spezialsymbole, welche im Zeichensatzeines Computers und seiner Peripheriegeräte üblicherweise nicht ver¬
treten sind. Daher haben wir die für deutsche Standardsprache benötig¬ten IPA-Zeichen eineindeutig auf solche des ASCII-Alphabets abgebil¬det, was durch die Verwendung von Ziffern für einzelne Lautsymbolemöglich ist. Die Zuordnung ist nach dem Gesichtspunkt grosstmoglichergraphischer Ähnlichkeit vorgenommen worden. Im vorliegenden Berichtfinden ausschliesslich die dermassen transponierten Zeichen Verwen¬dung.
L a utzeichen:IPA ASCII Beispiel
[i] [1] Biene [B1;N6][i] [I] Kiste [KIST6][y] [7] früh [FR7;][y] [Y] Tücke [TYK6][u] [u] Glut [GLU;T][v] [2] Schuld [52LT][ej [E] See [ZE;][6] [3] schälen [53;L6N], hätte [H3T6W [0] Getöse [G6T0.Z6][oe] [8] plötzlich [PL8TSLIC][o] [0] Boot [B0;T][o] [Q] Rock [RQK][a] [A] Bahre [BA;R6], Katze [KATS6][3] [6] Hütte [HYT6], sog. Schwa-LautM [4] Ober [0;B4]M [W] in schweizdt.: kämpfe [KWMPF6[p] [P] Pass [PAS][b] [B] Blase [BLA;Z6][t] [T] Tasse [TAS6][d] [D] dann [DAN][k] [K] Katze [KATS6][g] [G] Galle [GAL6][f] [F] falten [FALT6N][v] [V] Wanne [VAN6][s] [S] Hass [HAS][z] [z] Nase [NA;Z6][/] [5] Schlag [5LAK][x] [X] flach [FLAX][c] [C] Mönch [M8NC][j] [J] jagen [JA;G6N]
-135-
IPA ASCII Beispiel
[m] [M] Mahl [MA;L][n] [N] nicht [NICT]fn] [9] Zwang [TSVA9][1] [L] Lack [LAK]fr] fR] rot [R0;T][h] fH] Huhn [HU;N]
sonstige Zeichen:IPA ASCII Bedeutung und Beispiel
['][:[-['
[¦'
[/[
[>] präplosives Pausensegment[\] gewöhnliches Pausensegment, Leerlaut[<] Glottalverschluss: geöffnet [G6<8FN6T][;] Längenzeichen: Bahn [BA;N] vs. Bann [BAN]f-j Silbentrennung: belasten [B6-LAS-T6N]['] Akzent auf folgender Silbe: Karaffe fKA'RAF6]["] Hauptakzent auf folgender Silbe:
Belastungszeuge [B6-"LAS-T29S-'TSQ7-G6][/] Sprechpause, doppelt für längere Pause
silbischer Konsonant: Löffel [L8FL]
-136-
ANHANG B. GLOSSAR PHONETISCHER UND LINGUISTISCHER BEGRIFFE
Alle aufgeführten Beispiele entstammen der deutschen Standardsprache,sie können nicht unbesehen in andere Sprachen übernommen werden!
AffrikatVerbindung eines Plosivlautes mit dem nachfolgenden homorganen Frika¬tivlaut.
Beispiel: [PF]
Allophonlautliche Realisation eines Phonems. Der dem jeweiligen Phonem zu¬
geordnete Laut kann dabei in einer gegebenen Sprache fest vorgeschrie¬ben, stellungsbedingt verschieden oder innerhalb einer Gruppe von Lau¬ten frei wählbar sein.
Beispiele: /L/ -> [L] immer/X/ -> [X] nach "a", "o", "u" /X/ -> [C] sonst
/R/ -> [R], [r] oder [«] als freie Varianten
apikalfasst die Laute mit Artikulationsorten von interdental bis retroflexzusammen.
Artikulationalle Stellungen und Bewegungen der Sprechorgane, welche zur Erzeugungeines gegebenen Lautes erforderlich sind, indem sie die Klangbildungund Klangformung im Vokaltrakt gezielt steuern.
ArtikulationsartArt und Weise der Luftströmung innerhalb des Vokaltraktes, wie frik¬tionslos, plosiv, frikativ, nasal, lateral, vibrant.
ArtikulationsortOrt der grössten Engebildung innerhalb des Vokaltraktes, reicht von
bilabial über labiodental, (inter)dental, alveolar, palatoalveolar,retroflex, palatal, velar, uvular, pharyngal bis glottal.
diakritischheissen diejenigen Zeichen einer Lautschrift, welche selber zwar kei¬nen Laut darstellen, aber eine bestimmte Modifikation an solchen aus¬drücken sollen. Sie treten entsprechend nur in Verbindung mit anderenZeichen auf.
Beispiel: [;] bedeutet länger ausgehaltene Aussprache des voranstehen¬den Lautes, spezifiziert also das Merkmal <+lang>.
DiphtongVerbindung zweier Vokallaute, welche einer gemeinsamen Silbe angehö¬ren. Phonologisch werden Diphtonge als ein einziges Phonem gewertet.Beispiel: [AI] in [KA1M]
dorsalfasst die Laute mit Artikulationsorten von palatal bis pharyngal zu¬
sammen.
-137-
FormantenBereiche hoher Leistungsdichte im Spektrum eines Sprachsignals.
Formantfrequenzendiejenigen Frequenzen, bei denen relative Maxima der spektralen Enve-
loppe auftreten. Die tiefsten zwei davon werden in der akustischenPhonetik üblicherweise zur Beschreibung der Vokallaute herangezogen.
Glottalverschlussvölliger Verschluss der Glottis. In der deutschen Sprache trennt erinsbesondere auf einem Vokal endende Präfixe von Stämmen, falls dieseebenfalls mit einem Vokal beginnen.Beispiel: [B6<AXT6N]
GlottisDie Öffnung zwischen den Stimmlippen.
Grammatikbefasst sich mit dem Aufbau einer Sprache, d.h. mit den Regeln, welchedie Beziehungen sprachlicher Objekte untereinander beschreiben undfestlegen. Die Gesamtheit aller Bildungsvorschriften einer Sprachewird ebenfalls als Grammatik bezeichnet.
homonymheissen Wörter mit identischer Schreibweise, aber unterschiedlicherAussprache und Bedeutung.Beispiel: "löschen" [L856N] oder [L0;SC6N]
homophonheissen Wörter mit identischer Aussprache, aber unterschiedlicherSchreibweise und Bedeutung.Beispiel: [H3MT] "hemd" oder "hemmt"
homorganheissen Laute mit demselben Artikulationsort.
Koartikulation
Veränderung der phonetischen Eigenschaften eines Lautes infolge derBeinflussung durch benachbarte Laute (cf. intersymbol interference).Es wird unterschieden zwischen regressiver, durch Vorgängerlaute be¬stimmter, und progressiver oder antizipatorischer, durch Nachfolgelau¬te verursachter, Koartikulation.
Konsonantenumfassen diejenigen Phoneme, resp. die zugehörigen Laute, welche in
Verbindung mit Vokalen jedoch nie für sich allein Wörter bilden kön¬nen.
Beispiele: /5/, /P/, /H/
labialfasst die Laute mit Artikulationsorten von bilabial bis labiodentalzusammen.
-138-
Lautkleinste artikulierbare Einheit, welche in einer oder mehreren Spra¬chen vielseitig kombinierbar auftritt, gewöhnlich nach artikulatori-schen und auditiven Kriterien untereinander abgegrenzt und eingeteilt.Dementsprechend existieren weite Lautschriften, welche nur eine mini¬
mal nötige Anzahl verschiedener Laute unterscheiden, und enge Um¬
schriften, welche innerhalb dieser Kategorien noch zwischen mehrerenLauten differenzieren. Lautzeichen werden zwischen eckige Klammern [ ]gesetzt.
Lautschrift siehe Laut
Minimalpaarein Paar von Wörtern, welche sich nur in einem einzigen Phonem vonei¬
nander unterscheiden, damit aber zwangsläufig auch zwei verschiedene
Bedeutungen besitzen.Beispiel: /RA1M/ und /LA1M/
Morphemkleinste bedeutungstragende sprachliche Einheit. Morpheme sind entwe¬der Wörter oder Teile von Wörtern (freie resp. gebundene Morpheme).Beispiele: "arbeit-en", "kind-er", "ge-lieb-te", "frei"
Phonemkleinste bedeutungsunterscheidende Einheit einer Sprache. Phoneme wer¬
den anhand von Wortpaaren bestimmt, welche sich nur in einem einzigenLaut voneinander unterscheiden. Je nachdem, ob der semantische Inhalt
und/oder die syntaktische Funktion verschieden sind oder nicht, han¬delt es sich dabei um Minimalpaare und damit auch um zwei verschiedene
Phoneme oder aber lediglich um allophonische Varianten zu einem einzi¬
gen Phonem. Phonemische Zeichen werden zwischen Schrägstriche / / ge¬setzt.
Beispiele: [RA1M],[LA1M] => /R/ und /L/ sind eigenständige Phoneme,denn sie allein bestimmen die unterschiedliche Bedeutung.[MILC],[MILX] => die Laute [C] und [X] gehören beide zum selben Phonem
/X/, weil die Bedeutung in beide Fällen diesselbe bleibt, es handeltsich nur um zwei beispielsweise dialektbedingte Varianten.
Phonetikmeist unterteilt in artikulatorische, akustische und auditive Phone¬tik. Alle befassen sich mit der Realisation von Lauten in gesprochenerSprache unter dem jeweiligen Gesichtspunkt.
Phonologieuntersucht die Laute einer Sprache unter dem Gesichtspunkt, wie diese
ihre Aufgabe Wörter zu unterscheiden erfüllen können. Sie beschäftigtsich mit der Erstellung des Phonemsystems (d.h. der Ermittlung der in
einer Sprache vorhandenen Phoneme mit ihren Allophonen samt Auftre¬
tensbedingungen), der Einteilung in Vokale und Konsonanten, der Phono-
taktik und den Regeln zur Beschreibung phonologischer Prozesse.
Phonotaktikbeschreibt Gesetzmässigkeiten in der Verbindung von Phonemen (oderauch Lauten) zu grösseren Einheiten wie Silben und Wörtern.
-139-
Pragmatikdie Lehre von den Beziehungen zwischen sprachlichen Objekten und ihren
Benutzern, vor allem der vom Sender damit verfolgten Absicht sowie der
beim Empfänger erzielten Wirkung.
Prosodievon altgriechisch: der Beigesang. Die Gesamtheit der akustischen Mit¬
tel zur Redegestaltung hinsichtlich Gliederung, Hervorhebung, Ausdruckvon Emotionen und Stellungnahme zum Gesagten. Sie manifestiert sich im
Signal vor allem in den Verläufen der Parameter Stimmgrundfrequenz,Lautstärke und Sprechgeschwindigkeit.
prosodischdie Prosodie betreffend.
Schwaunbetonter Laut, dessen Artikulationsstellung einigermassen der Ruhe¬
stellung des Vokaltraktes entspricht. Als [6] transkribiert.
Beispiel: [G6TR1;B6]
segmentalheisst eine Grosse, die von den einzelnen Lauten abhängig ist.
Semantikuntersucht die Bedeutung von sprachlichen Objekten.
semantischdie Bedeutung betreffend.
Silbeeiner der umstrittensten Begriffe der Sprachwissenschaften {10}. JedesWort besteht aus mindestens einer Silbe, jede Silbe enthält genau ei¬nen und sei es nur subjektiv besonders hervortretenden Laut als Sil¬
benträger. In der deutschen Standardaussprache sind dies meist, in der
Bühnenaussprache ausschliesslich Vokale {03}. Silbengrenzen fallenstets mit Wortgrenzen zusammen, im Deutschen jedoch häufig nicht mit
den Morphemgrenzen.Beispiele: "ar-bei-ten", "kin-der", "scha-den-freu-de"
silbischheissen diejenigen Laute, welche als Silbenträger fungieren. In derdeutschen Standardaussprache und Umgangssprache kommen dafür neben denVokalen auch bestimmte Konsonanten in Frage.Beispiele für silbische Konsonanten sind die Endlaute in: [HAT-N],[5YS-L]
Sonagrammgraphische Aufzeichnung der Kurzzeitspektren eines Signals. Auf derAbzisse wird die Zeit dargestellt, auf der Ordinate die Frequenz, die
Schwärzung des Papiers entspricht der Intensität.
StimmeinsatzAnschwingvorgang der Stimmlippen.
-140-
suprasegmentalheisst eine Grösse die nicht von den einzelnen Lauten abhängt, sondernvon der Wort- und Satzbetonung bestimmt wird.
synonymheissen Wörter mit gleicher Bedeutung, aber unterschiedlicher Ausspra¬che und Schreibweise.
Beispiel: "keilner" und "ober"
syntaktischden Satzbau betreffend.
SyntaxTeilgebiet der Grammatik, das sich mit den Regeln befasst, welche diein einer Sprache zulassigen Verbindungen von Wörtern zu Sätzen be¬schreiben und zwar hinsichtlich Form, Funktion und Struktur.
Tonspracheals Tonsprachen werden diejenigen Sprachen bezeichnet, bei denen diekleinsten bedeutungstragenden Einheiten nicht aufgrund der beteiligtenLaute allein bestimmt werden können, sondern auch die Berücksichtigungdes Tonfalls (Stimmgrundfrequenzverlauf) notwendig ist. Selbst einsil¬
bige Wörter weisen mehrere einzig durch den Tonfall voneinander zu un¬
terscheidende Bedeutungen auf. Zu den Tonsprachen gehören beispiels¬weise Chinesisch und Thailändisch.
TranskriptionUmsetzung eines orthographischen Textes oder gesprochener Sprache in
Lautschrift.
UvulaHalszäpfchen.
Variantenunterschiedliche Realisierungen eines Phonems, Morphems oder Wortes in
Abhängigkeit von Dialekt, Schicht, Gruppe, Situation und Sprecherresp. Autor jedoch unter Beibehaltung von Funktion und Bedeutung.Beispiele: [MILC] und [MILX], [BAU6R] und [BAU4]
VelumGaumensegel. Mit seiner Hilfe kann der Nasenraum an der Klangformungbeteiligt oder davon ausgeschlossen werden.
Vokaleumfassen diejenigen Phoneme, resp. die zugehörigen Laute, welche fürsich allein oder zusammen mit Konsonanten Wörter bilden können.
Beispiele: /A/, /0/
Vokaltraktder gesamte durch Bewegung der Sprechorgane in seiner Gestalt und da¬mit auch in seinen Klangformungseigenschaften veränderliche Raum zwi¬
schen den Stimmlippen und der Mundöffnung.
-141-
ANHANG C. ZENTROIDPARAMETER
CENTROID FOR [l;] COMPUTED FROM <03.l]GAIN = .36150E+03SIGAM= .33993E+04IPTCH= 94RCOF( 1)= -.200430 -.030601 -.684851RC0F( 6)= .448435 .360497 .452316RCOF(ll)= -.035854 .166545
-.352433.184633
-.274197-.104998
CENTROID FOR [i] COMPUTED FROM <04.IBGAIN = .96201E+03SIGAM= .44685E+04IPTCH= 95RCOF( 1)= -.051201 .323501 - .397759 -.161921 -.507236RCOF( 6)= .169790 -.088893 .444073 .442303 .201263RCOF(ll)= -.079364 .068235
CENTROID FOR [7;] COMPUTED FROM <06.7]GAIN = .33551E+03SIGAM= .40836E+04IPTCH= 94RCOF( 1)= -.563374 .290928 - .553963 -.168163 -.561517RCOF( 6)= .450745 -.009602 .414999 .362272 .320048RCOF(ll)= -.057448 -.130289
CENTROID FOR [Y] COMPUTED FROM <07.Y]GAIN = .10590E+04SIGAM= .56680E+04IPTCH= 95RCOF( 1)= -.348194RCOF( 6)= .171436
RCOF(ll)= -.043494
GAIN = .16706E+03SIGAM= .41209E+04IPTCH= 89RCOF( 1)= -.955173RCOF( 6)= -.087297RCOF(ll)= .067173
.310888 -.272261 .107759 -.556376-.106581 .287802 .311677 .509527-.022016
TED FROM <08.U] CENTRAL TYPE
.130400 .260083 .413574 .140630
.073364 -.119736 .089132 .193290
.160933
CENTROID FOR [U;] COMPUTED FROM <08.U]GAIN = .15765E+03SIGAM= .41544E+04IPTCH= 89RCOF( 1)= -.957608RCOF( 6)= -.152607RCOF(ll)= .078133
PERIPHERAL TYPE
227951 .261808 .407666 .097057100701 -.119855 .169142 .248360149301
-142-
CENTROID FOR [2] COMPUTED FROM <09.2]GAIN = .50221E+03SIGAM= .52915E+04IPTCH= 93RCOF( 1)= -.776786 .166970 .037019 .595413 -.241427
RCOF( 6)= -.136622 -.140679 .244637 .547698 .402365
RC0F(11)= .216504 -.110216
CENTROID FOR [E;] COMPUTED FROM <10 • E]GAIN = .75739E+03SIGAM= .38292E+04IPTCH= 97
RCOF( 1)= -.038509 .479439 .385944 -.263207 -.590797
RCOF( 6)= .203107 .009891 .533019 .390282 .090793
RCOF(ll)= -.056124 .020394
CENTROID FOR [3] COMPUTED FROM <11.3EGAIN = .14967E+04SIGAM= .56893E+04IPTCH= 96RC0F( 1)= -.388775
RCOFf 6)= .256016RC0F(11)= .071724
SHORT E TYPE
.428233 -.173015 -.041736 -.366491
.028416 .502667 .342303 .057186
.035257
CENTROID FOR [3] COMPUTED FROM <12.3AGAIN = .15130E+04SIGAM= .49669E+04IPTCH= 104RC0F( 1)= -.380445RCOF( 6)= .146474RCOF(ll)= .024901
GAIN = .12314E+04SIGAM= .41302E+04IPTCH= 110
RCOF( 1)= -.298907RC0F( 6)= .157699
RCOF(ll)= -.050927
SHORT A TYPE
.571240 -.127242 -.026336 -.280892-.084728 .476909 .269813 .016408-.030972
TED FROM <13.3L LONG Ä TYPE
.514554 -.138022 -.039848 -.375989
.073117 .505683 .296485 .124671
.023652
CENTROID FOR [0;] COMPUTED FROM <14.0]GAIN = .62788E+03SIGAM= .42942E+04IPTCH= HO
RCOF( 1)= -.456443RCOF( 6)= .183243
RCOF(ll)= -.126918
.325457 -.295564 -.030773 -.526211
.009280 .314440 .268869 .583116
.025319
-143-
CENTROID FOR [8] COMPUTED FROM <15.8]GAIN = .13186E+04SIGAM= .57850E+04IPTCH= 105RC0F( 1)= -.502968 .289297 -.196970RCOF( 6)= .306390 -.086958 .210177RCOF(ll)= -.124955 .027927
.172286
.363615.341032.245266
CENTROID FOR [0;] COMPUTED FROM <16.0]GAIN = .25080E+03SIGAM= .46472E+04IPTCH= 102RCOF( 1)= -.924454RCOF( 6)= -.248699RCOF(ll)= .041907
CENTRAL TYPE
.193580 .276911 .463542 .350355
.095466 -.176152 .179393 .298933
.096166
CENTROID FOR [0;] COMPUTED FROM <16.0] PERIPHERAL TYPEGAIN = .19617E+03SIGAM= 46489E+04IPTCH= 101RCOF( 1)= -.926605 .304083 .207316 .531562 .264150RCOF( 6)= -.393413 -.081370 -.254140 .455362 .472772
RCOF(ll)= .017875 -.085400
CENTROID FOR [Q] COMPUTED FROM <17.Q]GAIN = .11402E+04SIGAM= .69877E+04IPTCH= 100RCOF( 1)= -.698095RCOF( 6)= .104221RCOF(ll)= .022793
GAIN = .13178E+04SIGAM= .49196E+04IPTCH= 105RCOF( 1)= -.557392RCOF( 6)= .285304RCOF(ll)= -.058694
GAIN = .14634E+04SIGAM= .55804E+04IPTCH= 109RC0F( 1)= -.553265RCOF( 6)= .386649RCOF(ll)= -.077897
.356993 .232871 .578112 -.303936
.365178 .097001 .385525 .457370
.085667
D FROM <19 AK SHORT TYPE
.268370 .142907 .334786 -.081494
.364391 .279358 .288737 .053177
.037012
ED FROM <18.AL LONG TYPE
.243957 .207632 .516403 -.107102-.465621 .275886 .323838 .186081.042017
-144-
CENTROID FOR [6] COMPUTED FROM <20.6]GAIN = .10415E+04SIGAM= .47532E+04IPTCH= 95
FINAL TYPE
RCOF( 1)= -.405343 .197616 -.189894 .142785 -.329248
RCOF( 6)= .169473 -.270956 .306076 .421372 .123398RCOF(ll)= -.069605 -.042756
CENTROID FOR [6] COMPUTED FROM <20 6] PREFIX TYPEGAIN = .70502E+03SIGAM= .37371E+04IPTCH= 122RCOF( 1)= -.314896 .323667 -.326689 .042043 -.424716
RCOF( 6)= .278704 -.031444 .323892 .393923 .292802RCOF(ll)= -.200194 -.028196
CENTROID FOR [F] COMPUTED FROM <27.FGAIN = .23085E+03SIGAM= .26443E+03IPTCH= 0RCOF( 1)= .408695RCOF( 6)= .201251RCOF(ll)= .059860
CENTROID FOR [V] COMPUTED FROM <28.V]GAIN = .88127E+02SIGAM= .70438E+03IPTCH= 113RC0F( 1)= -.460622RCOF( 6)= -.136890RCOF(ll)= -.002679
CENTROID FOR [S] COMPUTED FROM <29.S]GAIN = .22935E+03SIGAM= .35445E+03IPTCH= 0RC0F( 1)= .849799RC0F( 6)= .162097RC0F(11)= .109831
.440445 .285225 .279788 .248715
.170401 -.001952 .100638 .212795
.037400
-.202226 -.223716 -.022842 -.126745
-.051005 -.207507 -.006120 .207117.060272
.334823 .207762 .345717 .235358
.160943 -.006124 .086045 .215799
.037636
CENTROID FOR [Z] COMPUTED FROM <30.Z]GAIN = .21181E+03SIGAM= .77840E+03IPTCH= 0RC0F( 1)= .620608RC0F( 6)= -.185208RC0F(11)= -.054514
-.303804 -.167754 .038112 -.228257-.176646 -.154678 .011295 .084968.012940
-145-
CENTROID FOR [5] COMPUTED FROM <31.5]GAIN = .75624E+03SIGAM= .14565E+04IPTCH= 0RCOF( 1)= .602566RCOF( 6)= .313240RC0F(11)= -.066109
.619308 .580894 .486774 .434501
.305114 .356856 .092664 .010757
.126200
CENTROID FOR [X] COMPUTED FROM <32.X]GAIN = .27656E+03SIGAM= .57473E+03IPTCH= 0RCOF( 1)= .132179 -.010476 -.210692 .570770 .564741RCOF( 6)= .166775 .147572 -.029136 -.004988 .235026RCOF(ll)= .055045 .036913
CENTROID FOR [C] COMPUTED FROM <33 • c]GAIN = .31071E+03SIGAM= .56333E+03IPTCH= 0RCOF( 1)= .625537 .699331 .650667 .475233 .172837RCOF( 6)= .177521 .084106 .116972 -.106249 .093644
RCOF(ll)= .015279 .083659
CENTROID FOR [J] COMPUTED FROM <34.j]GAIN = .40316E+03SIGAM= .24582E+04IPTCH= 113RC0F( 1)= .024710 .260617 -.482293 -.204193 -.579454RC0F( 6)= .162792 .097018 .483776 .383378 .251206RC0F(11)= -.165538 .048533
CENTROID FOR [M] COMPUTED FROM <35 M]GAIN = .22212E+03SIGAM= .31892E+04IPTCH= 106RCOF( 1)= -.754726 -.035564 -.577126 -.085603 -.043567RC0F( 6)= .450357 -.017344 .013792 .240754 .247442RC0F(11)= .070560 .116241
CENTROID FOR [N] COMPUTED FROM <36.N]GAIN = .21443E+03SIGAM= .31933E+04IPTCH= 102RCOF( 1)= -.721071RC0F( 6)= .304690RCOF(ll)= .135142
.025020 -.733381 -.039110 .268507
.027450 .218044 .176274 .059675
.094958
-146-
CENTROID FOR [9] COMPUTED FROM <37.9]GAIN = .22114E+03SIGAM=IPTCH=RCOF( 1)=RCOF( 6)=RCOF(ll)=
.29782E+04100
-.675546.444715.249337
.144894-.077349-.000998
-.733938 .010000.198555 .097992
.205135-.096708
CENTROID FOR [L] COMPUTED FROM <38 L] (REVISED)GAIN = .41015E+03SIGAM= .29541E+04IPTCH= 99RC0F( 1)= -.352167RCOF( 6)= .256072RCOF(ll)= .022856
.046126 -.471081 .107327 -.320030
.335038 .287376 .287804 .395607
.024825
CENTROID FOR [R] COMPUTED FROM <39.R] LOW SIGNIFICANCEGAIN = .38682E+03SIGAM= .19230E+04IPTCH= 109RCOF( 1)= -.454509RC0F( 6)= -.079023RC0F(11)= -.004600
316079 -.290921 .242537 -.047056142923 -.095691 .310555 .151635083611
CENTROID FOR [H] COMPUTED FROM <40.H] UNVOICED TYPEGAIN = .19283E+03SIGAM= .46189E+03IPTCH= 109RCOF( 1)= -.263211RCOF( 6)= .307128RC0F(11)= -.031451
GAIN = .30475E+03SIGAM= .16188E+04IPTCH= 114RCOF( 1)= -.555076RC0F( 6)= -.044266RCOF(ll>= -.203808
.312269 .230311 .241971 .113115
.102161 .106096 .221547 .044245
.131234
D FROM <40.H] VOICED TYPE
.384017 .052029 .063387 .052825
.147600 -.149796 .128531 -.197174
.028014
OlOl
4-1>
•Hm
ca
tuu
DirO
cu
3tu
l/lm
tntu
4->£
Ul2
IIm
CU
II4-1
tuO
IIE
L42
II•H
tua
iitu
Ulin
n05
Cin
ii3
WII
14£
IIa
Ctn
ii%4
•H
Hii
"||
IhW
IICM
•H
XII
r-
*X
IIU
IIUl
IH
||tu
JIIü
XiQ
IIdl
u2
IIxi
rH
¦<II
utu
HII
tn3
inii
4J
05II
Oh
UII
in4-1
>II
rH
IIb]
IIc
tuIH
||0
4-1D
II>
l/lII
tu05
IIOJ
3II
tnc
rH
1fr.
IIro
tu¦H
1II
TStu
12
II4-J
1W
II4-1
1H
II4J
inC
1tn
iil/l
3ro
1M
n•H
NC
1j
n0
1H
IIin
i05
IIC
roC
iO
IIdl
•Hc
0l
3II
¦a14
tuIC
1II
ctu
XI•
IIOl
4-Jro
U1
OII
turo
Xitu
1II
rH
r~i1
OII
0xi
-u
ro1
tt-fu
tu¦H
1rr)
•o4J
1Li
c¦H
1
Sils
Qitu
C1
4H
in3
¦H1
£,W
4-14->
C.C
CO
EC
wij
UrHuic:
wT3C
fiiHWOCtrOiinw
.Cc-HUÄtn3ux:4->a)ai^o^£H3HUtH4JC!MEU'4-iwicccc;w)incu
HHO(l)Mld'H((lflHfl)3l0Ofl»fl0)iflC)ill3O3^lw3HIBHWllJfl)lfllJ
!^ä:J--h
EkgjuHHHLiKNJu
uh
D,uK
DuiJu
2;CÜ
uK-Hi-fCrii-in
x:C-h-CCUEMC
•H
HO
<UH
IG-H
fÖN^UNN-ÜHE*
min
+J
ijriwCLiiny'OCExiiHin'O
0)(UXIa'OHSHXIHÄCUE-U'WWC;
HQ)3nJ0Q)njaJa)a)fti3303JHfG3H
>cs
iH-r-iSH
uc»-)q;äsms
us*:
es<:
c;tp
Crw
4-ic
x;C
cCw
wc
ua>
-ha>
tua>
in<d
eH
Ec:ä2
sc
d-H-CCUE^C-t-"
¦H<DU£W3ll)£x;
U-HO
<UH
(0H
(G:f0
tnu
.-ht/i
ewwwfiExli-itn'OCDioiuiyfiß
<U.C.piyt4.H3.HU.Ha3£M.3U<MweGG£ininGU
H<U3rGO<VrG0)rG(U(G3OtiHiG3H(VHa)ra(UrG(G
tJ>N2CHCuaEbiOSJaD'a
£D4^J3t3
0>CLQ.HH
S
-h
uo
a>u
eu
c:
IG'H
(ÜHG
13CC"
CT>4J
;X;«4Hin-HC!
CC
Ifl+JÖ£
UW
Wfi
fiH
-IH«
w*u
•»"1
VJ
\J
W»-I
IU
r-i
IU
-IU-r-1
Xim
CTJ'CJCODLlDQjJ'Ö Q)
<D4J
0>UiH3HlL|H*JCUiEU,4-linx;CHlOWWlGU
•H0)PÄO<U<G<lIaJQ)iaDODHiG3Ua)MtHaja)^iG
-OH
Ö>E
CnXIO'O
tJ>£H
Ü3Ä
TJÜ
CnO
wfa'ü'Ü'Ö.Q'Ü'Ü
rH
x:c
Utri
uC
inc
tuu
x:Ol
Xi<u
X.4J
(V.c
71•H
•Hi)
tu•H
tl•H
mS
•Htu
3J=
144a
in
tutn
>m
.Cin
in
ac
rH
x:u
fiC
4J
Ulc
.cti
Ctn
3u
Xix:
tuM
4-J•H
•Ho
tu•H
rtl•H
mirtl
•H
tu3
inin
¦o3
3tn
33
tn3
33
l-ih
tn(U
w3
GE
-C«-<
-OßO>tTnnyC£
OiiHSfinHUfiijEUiHiflCCCfiinwfiü
Hi5miXU)J3i:i3i/ij:
inxJ.äoQ>wi/ix:.c:i:£L<T3w
>-)ui
CU
mT3
CÖ»
M-H
3H£H
-OC
U<D0ÜliD(l)n)<lliD30gx:'wD'acD>o>
+->c
x:Eui-i.CGGeewtnGu
3h
muh
mh
:idm
aimm
Sl/l
HCi/l
inS
»u
viiS23
«4-|4-J
4-1m
:D^rHCin+J4JC:^:
.CP
-H
-H
-H
3H
HU
UtG0)O»<UlG(UnJ<U
ins
SSXJXinX
S
C<M
IHrH
P4->
CnrH
4->G
U-H
DIj
3.C
PP
-H
«H
-H
oa)iGtoa)y(flrtj<D(ua)
CM
suT3
X!«i
JÖh
tw
uim
•-HX)
i-l4->
in
IW
4-J¦H4-J-H
inh
Cntro
4-Jin
vimhc
Qj0)
3330)3X3
3H
HO
XIQ*
4Jll!(lllI|tj8)Uig0)IDl4:33
in^JiJS-MXltnSE
uu
inxz
3-H
rH
C4-J
cU
C14-1
ljrH
mX5
x:Xi
m3
Tlx;
mU
Xi•H
14-H
.COOOSS
tu13
«iiro
tU13
tu:3
OlU
Uls
3X\
l/la:
3DCX
t4TJ
IEtn
4-»G—ITJ--I
w.Q
.*OT3
W4JU-JT3
4-JG
0)H
HH
3(J
XJH
VIV)
OlCA
QJQ)4-J0)Q)iG>H:O
UnJa
^OU0)3
Mi/iiflJöSiJCDuis
emh
ma:
"W
LirH
Q,rH
*J
U-lnjHii'OinwwC
inG
hnj
+j
j^h
chuh
wa
mij
in-w
iu
13a
xjrHrHGin4Jx:i^cnuGy-iMrHx:4-JUrH4-Jx;iG4-Ji-(inpCf>x;4JininoGCjj
03<UPlDtfÜ1(G30*Oa>33lOUa»a><Utl0
04-»tPt03IUtOOaitt)t3M30
mSS
SXJXJuiÄsxi^oiQXi/icQjfci^uimnijgHiSmSE
u*->w
jz
»W
4-J4-J
x:rH£
x:u
Oro
Ows
ss
IH•-*
CL<U
4-jc
jhc
<w
hdiu
rH
ex:
hvia^
ai^
14-14-jx:o>ajx:»w
uixix;
<ucth
ajg
ajtj
<-hm
igu
x;4-j
>3fGOf0f0raf0ia:oua)(GfGOfa4-jfaa)ia*M"-'
iiviasKSiM'oruiiiiHtH-
inm
h3
un)
i
XIS
4J
XIin
E
in
4-J«n
-üin
inaJ
GXi
P<ü
SHfG
OE«
-m
i/ix:
>*Ht-l
rH
<M
l-(rH
rH
•H
T3rOW4-»4-JG
MGMH
i-H-H
4->rH4-JC>-H4-JrHinQ4^H
4J
4J
-Chh
cW4-JI0X;
CnQ)G«wiHrHx:4-i
cnx:
0>XI
-H
+J
x;vi
hU
XI4-t
vim
ufGf0f0f0om(Ga)a)-HH<D(Du«Ha)(iia)aj4-iH3Hi-iou-HOO
msssmximxsffit^a'Ox:m
xi—»
<m
a;w
w-h
,qEHoamesdü
UlVIH£
jq0)
<um
x:
HH
"OTJ
w4->
Oiu
C'
xixjrHGui.MxiGaiaia!
U<D
H-H
-H
RJ0)
-HH
-H-H
ms
sscQxjwx;
sx:
:*;
rH
-H
4-1t7>
rH
mrH
x:<Ü
O)Ol
tH
IGU
-H
H-H
¦OX
IflJ3HW
rH
XI0)
WCHJTlHVlIllÜH
¦MGHOIrHaiHUX:
¦HH
4-JH
(0H
»H(0
UH
-H
-H
Mw
UlJ
fflEH
XIw
E£
05
jec
tnc
tt<•H
cc.
4-1Ois
IH)H
•H
ctu
crH
c14
t4c
x:•H
Uro£
tu3
ro•H
IV•H
UI3
-H
4-JrH
cs£
s3
05G
04«w
CJSCBCEi-tCOUCTJH
^xiafii-ic-HeidU'HCK'-ifi
orjroO-HOIfUroroOO/3
---
>ui
o;^
s-cj
inuimoä
tguijfvaisoo
21»U
OiJKITJj-
TlE
jeM
NIH
C•H
CH
1)M
4-Ji-:
x;c
riltu
m3s
•H
0)•H
4-J-j
05c
BB3
l-l O.I3
£>rHETJOii-iTJ-H
fiSUHlHÜlllllHB
»
r03rHOUrOOHröturorOO<U3.H
C505uh»jh
UlQ5rH
3TJ
-4
HlUl
tf)ü*
XiIE
tu4-J
rH
HU
-H
X.e
o>c
*j
roC
Hu
_Li
tual
3inO
0,3
sri
ec
klf.
aa:
4JNT34JN
surc
3utn.*x.QTjeeex:.*.*HNe4j-g4ri
.H4-JC4-itucux;4j.HCx;34-icu.HCx:cijuccx:rocrHCiH^
tuai3rö-HtD-Hr03rHOuroo-HfuairorooaM3HrouuaiaJ300
U2SES
3Li
EEÜb.
>ul
05rH3Q
_4
inUl
03tP
ffl£
rfl«O
Q.>
JiTJ£
4-Jx.
4Ju
jaXi
4J
.-..__
utu
Mro
tutu
3ro
-H«H
41
«1J3
Ult)
3
3E
XiW
\t/
^j
IU
-r-|w
¦¦-¥
iv
^^
LiCÜSE
305205
_a
UUO.H
x.C
^TJ
UC»Uli
4ihjjKkj:
rO4-1
HO
OO
EX43-4JfJl-l4-HCOltJMUlt,CJ^ra4-'-HUl/U
OuraO.rHaiairör0Ofil3.Hr0UkiQltl]3pO
>i4iB5J30rHuiuirootox:xiuiOcu3j<Qx:
Ul44u
Diui£
mui
HuiHQ.müOIOiui
ro<u
tu3
rgh
tu
N-H
4J
x,x:
ui4/^
2tn
x:x:uj»i4JU4-i
_ui.HUx;3i4OU.HOr0inc
r03rHOrjroO-H:rOrorOroOtU
tux.
x:4-j
eh
flä
uun
CCx:r0UHtnuui
3Hrflrjt4tuai300
4JjiH2EEE3acatiHfcuiiHJ3TjjtninrJ4ürxix:rx!uioi0i3^Q3:
cs
I«
VIIHH
IH
L)W
«4-1>.H
Ul.H
Ul«H
Ul0)
XI<MW
(00)<Ü3Ä-HQ)-HIO
UH
X,4->
x:s
»m
vv»
x:UX.3V1U1V1.HU
3rHOU(GOH0)<yiG
min^
<n
in£hw
-M
uivi
xiin
inu«wwux:
*Gv>
Hinüw
J00)3HiUUiHOJ
-•---»
4-irHt4ÄESSSOäÄOitn'w
inuJ
ST3--^viuilQOcax.a4V)OCU
i£S*.
TJX
ooo\Oi^f^M^^^r^coo»OrHNro^ui>cr^cooiOrHoji^^invDr^ooo*o
io\o^^r^t^i^r^r^r^r^r^cooocoooco<jococDoooooNO^o\o>Ch^Cft^o\C4ftO
-150-
ANHANG E. LITERATURVERZEICHNIS
{01} H. Kaeslin: Synthese deutscher Sprache nach Regeln: Wahl der
Grundbausteine, ihrer Darstellung und der suprasegmentalen Para¬meter. Aktenvermerk J-156 Nr.l der Abteilung für industrielle
Forschung an der ETHZ. 15.9.81
{02} H. Kaeslin: Untersuchung über die Häufigkeit von Lautübergängenin der deutschen Sprache. Aktenvermerk J-156 Nr.2 der Abteilungfür industrielle Forschung an der ETHZ. 30.6.81
{03} Duden: Aussprachewörterbuch, 2.Aufläge, Bibliographisches Insti¬
tut Mannheim, 1974.
{04} H. Kaeslin: Ein Diphonkorpus für die deutsche Hochlautung im Hin¬
blick auf elektronische Sprachsynthese. Aktenvermerk J-156 Nr.4
der Abteilung für industrielle Forschung an der ETHZ. 24.9.82
{05} H. Kaeslin: Objektive Verzerrungsmasse für die elektronische
Sprachsynthese. Aktenvermerk J-156 Nr.5 der Abteilung für indu¬
strielle Forschung an der ETHZ. 21.10.82
{06} R. Jakobson, M. Halle: Fundamentals of Language. Mouton & Co.,Den Haag, 1956. Auch als deutsche Übersetzung erschienen: R. Ja¬
kobson, M. Halle: Grundlagen der Sprache. Akademie Verlag, Ber¬
lin, 1960.
{07} M. Kammer, Y.S. Wu: LPC-Vocoder Projekt, Bericht über 3. und 4.
Quartal 1980. Aktenvermerk J-422 Nr.8 der Abteilung für indu¬
strielle Forschung an der ETHZ. 5.3.81
{08} N. Chomsky, M. Halle: The Sound Pattern of English. New York,1968.
{09} Hewlett Packard Company: Fortran 77 Reference Manual. Hewlett
Packard Data Systems Division, Cupertino, 1981.
{10} Klaus J. Kohler: Einführung in die Phonetik des Deutschen. Erich
Schmidt Verlag, Berlin, 1977.
{11} H. Dettweiler : An Approach to Demisyllable Speech Synthesis of
German Words. Proceedings of the International Conference on
Acoustics, Speech and Signal Processing, Atlanta 1981.
{12} D.W. Weinrich : Speech-Synthesis Chip borrows Human Intonation.
Electronics, Vol.53, April 10, 1980.
{13} C.H. Coker : A Model of Articulatory Dynamics and Control. Pro¬
ceedings of the IEEE, Vol.64, No.4, April 1976.
{14} John Makhoul: Linear Prediction, a Tutorial Review. Proceedingsof the IEEE, Vol.63, No.8, April 1975.
{15} L.R. Rabiner und R.W. Schafer: Digital Processing of Speech Sig¬nals. Prentice Hall Inc., Englewood Cliffs, 1978.
{16} Augustine H. Gray und John D. Markel: Linear Prediction of
Speech. Springer Verlag, New York, 1980.
{17} Gerold Ungeheuer: Systematische Signaldestruktion als Methode der
psychoakustischen Phonetic. Phonetica Nr.18, 1968.
{18} Eberhard Grossmann: Sprachsynthese im Zeitbereich mittels abges¬peicherter Einzellaut- und Übergangselemente. Dissertation, TH
Darmstadt, 1981.
{19} Rolf Dieter Glave: Zur akustischen Struktur stochastischer
Schallsignale am Beispiel der Sprachlaute [C] und [X]. IPK-For-
schungsberichte Band 50, Helmut Buske Verlag, Hamburg, 1974.
-151-
{20} Hans-Joachim Scholz: Untersuchungen zur Lautstruktur deutscher
Wörter. Fink Verlag, München, 1972.
{21} Hans Grassegger: Merkmalsredundanz und Sprachverständlichkeit.Helmut Buske Verlag, Hamburg, 1977.
{22} Helmut Meier: Deutsche Sprachstatistik. 2.Aufläge, Georg 01ms
Verlagsbuchhandlung, Hildesheim, 1967.
{23} Gebrüder Grimm: Schneewittchen. Nord-Süd Verlag, Mönchaltorf,1982.
{24} David Yee-Yan Wong: Evaluation and Improvements to the Qualityand Intelligibility of Linear Prediction Voice Coding. Disserta¬
tion. Signal Technology Inc., Santa Barbara, 1979.
{25} Marco Nai und Beat Pfister: LPC-Sprachsynthetisator mit dem TMS
320. Aktenvermerk G-913 Nr.l der Abteilung für industrielle For¬
schung an der ETHZ. 12.12.83
{26} Beat Pfister: Programm für den LPC-Sprachsynthetisator. Aktenver¬
merk G-913 Nr.3 der Abteilung für industrielle Forschung an der
ETHZ. 12.12.83
{27} Spycher und Saaner: Interface für LPC-Synthetisator. Diplomarbeitam Institut für Elektronik der ETHZ, WS 1983/84.
{28} Wolfgang Kästner: Automatische Phonemisierung orthographischerTexte im Deutschen. Helmut Buske Verlag, Hamburg, 1972.
{29} Dieter Gut und Rudolf Rentsch: Automatische Transkription deut¬
scher Texte. Diplomarbeit am Institut für Elektronik der ETHZ, WS
1982/83.{30} Edward F. Moore: Phonetic Test Sentences. IEEE Transactions on
Information Theory, Vol.26, No.5, Sept. 1980.
{31} A.H. Gray, J.D. Markel: Distance Measures for Speech Processing.
ASSP Vol.24, No.5, Oktober 1976.
{32} Robert M. Gray et al.: Distortion Measures for Speech Processing.ASSP Vol.28, NO.4, August 1980.
{33} R. E. Crochiere et al.: A Study of Objective Measures for SpeechWaveform Coders. Proceedings of the Zürich Seminar 1978.
{34} John Makhoul et al.: A Framework for the Objective Evaluation of
Vocoder Speech Quality. Proceedings of the ICASSP 1976.
{35} R. Viswanathan et al.: Towards perceptually consistent Measures
of Spectral Distance. Proceedings of the ICASSP 1976.
{36} T.P. Barnwell, A.M. Bush: Statistical Correlation between Objec¬tive and Subjective Measures for Speech Quality. Proceedings of
the ICASSP 1978.
{37} T.P. Barnwell: Objective Measures for Speech Quality Testing.Journal of the Acoustic Society of America. Vol.66, No.6, Decem-
ber 1979.
{38} T.P. Barnwell: Correlation Analysis of Subjective and ObjectiveMeasures for Speech Quality. Proceedings of the ICASSP 1980.
{39} T.P. Barnwell: A Comparison of parametrically different objectiveSpeech Quality Measures using Correlation with Subjective QualityResults. Proceedings of the ICASSP 1980.
{40} P. Breitkopf, T.P. Barnwell: Segmental Preclassification for lm-
proved Objective Speech Measures. Proceedings of the ICASSP 1981.
[41} T.P. Barnwell: Frequency Variant Spectral Distance Measures for
Speech Quality Testing.
-152-
{42} T.P. Barnwell, S.R. Quackenbush: An Analysis of objectively com-
putable Measures for Speech Quality Testing. Proceedings of theICASSP 1982.
{43} R. Viswanathan et al.: Objective Speech Quality Evaluation ofNarrowband LPC-Vocoders. Proceedings of the ICASSP 1978.
{44} J.L. Flanagan: Speech Analysis and Perception. Springer Verlag,Berlin 1972.
{45} E. Zwicker, R. Feldtkeller: Das Ohr als Nachrichtenempfänger. S.Hirzel Verlag, Stuttgart 1967.
{46} M.R. Schröder: Models of Hearing. Proceedings of the IEEE,Vol.63, No.9, September 1975.
{47} M.R. Schröder: Noise and Perception. Journal of the Acoustic So¬ciety of America, Vol.65, No.12, December 1979.
{48} J.N. Holmes: The Influence of Glottal Waveform on the Naturalnessof Speech from a Parallel Formant Synthesizer. IEEE Trans, on Au¬dio and Electroacoustics, Vol.21, No.3, June 1973.
{49} Christian de Sainte Marie d'Agneaux: Perzeptorisch begründeteVerzerrungsmasse für die digitale Sprachverarbeitung. Diplomar¬beit am Institut für Elektronik, SommerSemester 1982.
{50} K. Küpfmüller und 0. Wams: Sprachsynthese aus Lauten. Nachrich¬tentechnische Fachberichte Nr.3, Darmstadt, 1956.
[51} Dacfey Dzung: Autoregressive Moving-Average Models for Nonstatio-
nary Signals and Applications to Speech Waveforms. AGEN-Mittei-lungen Nr.33, Zürich, April 1982.
{52} Wolfgang Kramer: Akustisch-phonetische Untersuchungen zum vokali¬schen /R/-Allophon des Deutschen. Forum Phoneticum Band 20, Hel¬mut Buske Verlag, Hamburg, 1979. DA 63.
{53} Dieter Stock: Untersuchungen zur Stimmhaftigkeit hochdeutscherPhonemrealisationen. IPK-Forschungsberichte Band 28, Helmut Buske
Verlag, Hamburg, 1971. DA 40.{54} Rudolf Weiss: Relationship of Vowel Length and Quality in the
Perception of German Vowels. Linguistics No.123, 1974.{55} Sandra Ferrari Disner: Evaluation of Vowel Normalization Procedu-
res. Journal of the Acoustical Society of America, Vol.67, No.l,Jan.1980.
{56} Sheila E. Blumstein, Kenneth N. Stevens: Perceptual Invarianceand Onset Spectra for Stop Consonants in different Vowel Environ¬ments. Journal of the Acoustical Society of America, Vol.67,No.2, Feb.1980.
{57} Hans Wüthrich: Das Konsonantensystem der deutschen Hochsprache.Walter de Gruyter, Berlin, 1974.
{58} Sverre Holm: Automatic Generation of mixed Excitation in a linear
predictive Speech Synthesizer. Proceedings of the InternationalConference on Acoustics, Speech and Signal Processing, Atlanta,1981.
{59} Hans Werner Strube und Reiner Wilhelms: Synthesis of UnrestrictedGerman Speech from Interpolated Log-Area-Ratio Coded Transitions.Speech Communications Vol.l, No.2, 1982.
{60} Herbert E. Wolf: Ein Sprachsynthesesystem für unbegrenzten Wort¬schatz nach dem Formantvocoderprinzip (SAMT). Frequenz Nr.34,Heft 5, 1980.
-153-
{61} G. Chollet, J.F. Galliano, J.P. Lefevre und E. Viara: On the Ge¬
neration and Use of a Segment Dictionary for Speech Coding, Syn-thesis and Recognition. Proceedings of the ICASSP 1983.
{62} Francoise Emerard: Synthese par Diphones et Traitement de la Pro¬sodie. Dissertation, Universite de Grenoble, 1977.
{63} Michel Stella: Fabrication semi-automatique de Dictionnaires de
Diphones. Recherches Acoustiques Vol.7, Centre National d'Etudes
des Telecommunications, Lannion, 1983.
{64} Gian Antonio Mian, Carlo Offelli und Alberto Mioni: An Approachto the Synthesis of German and Italian. Alta Frequenza, No.l,Vol.L, 1981.
{65} Susan R. Hertz: From Text to Speech with SRS. Journal of theAcoustic Society of America. No.72, Vol.4, 1982.
{66} Votrax Company: Datenblatt zu SC-01 Speech Synthesizer. 1980.
{67} Klaus Sickert et al.: Automatische Spracheingabe und Sprachausga¬be. Verlag Markt und Technik, Haar, 1983.
{68} S.J. Young und F. Fallside: Speech Synthesis from Concept, a Me-
thod for Speech Output from Information Systems. Journal of theAcoustic Society of America. No.66, Vol.3, 1979.
{69} Hiroaki Sakoe und Seibi Chiba: Dynamic Programming Algorithm Op-timization for Spoken Word Recognition. ASSP Vol.26, No.l, Fe¬
bruar 1978.
{70} Albert Kündig: Subjektive Versuche zur Ermittlung der Sprachüber-tragungsqualität. Technische Mitteilungen PTT, Nr.51, Heft 6,Bern, 1973.
{71} Albert Kündig: Zur Beurteilung der Verzerrungen bei getasteterSprachübertragung. Dissertation, Nr.5281, ETH Zürich, 1974.
{72} J. Sotschek: Ein Reimtest für Verstandlichkeitsmessungen mitdeutscher Sprache als ein verbessertes Verfahren zur Bestimmungder Sprachübertragungsgüte. Der Fernmeldeingenieur, Nr.36, Heft
4/5, Bad Winsheim, 1982.{73} L.C.W. Pools und J.P. Olive: Intelligibility of Consonants in CVC
Utterances produced by Dyadic Rule Synthesis. Speech Communica-tion, Vol.2, No.l, May 1983.
{74} H. Kuwabara und K. Ohgushi: Acoustic Characteristics of Profes¬sional Male Announcers' Speech Sounds. Acustica, Vol.55, No.4,Juli 1984.
{75} Michael Wagner: Automatic Labelling of continous Speech with a
given Phonetic Transcription using Dynamic Programming Algo-rithms. Proceedings of the International Conference on Acoustics,Speech and Signal Processing, Atlanta 1981.
{76} Andres Buzo et al.: Speech Coding based upon Vector Quantization.ASSP Vol.28, No.5, October 1980.
{77} N.S. Jayant und Peter Noll: Digital Coding of Waveforms. PrenticeHall Inc., Englewood Cliffs, 1984.
{78} J. Sotschek: Messungen zur Sprachverständlichkeit bei additivwirkenden Störsignalen. Persönliche Mitteilung, 1985.
IB3\ >fUB|g/ J99~] e;i0g
utu
iE
•Oi
E•e
1•e
CLi
OlH
Li3
CC
3tu
tuC
4Jtu
0Ol
•
TJTJ
(0H
Ol3
.H
XIOi
Ho>
XiH
TJX
TJUl
tnrH
TJro
-h
inH
u4-1
HXi
roui
-H
3XS
rH
rH
Ul
rflIT
CdLi
uOl
G0
Ol4-j
ro£
HH
4-J3
O-H
-HE
rH
4-1171
CE
tutu
eLi
NM
>QS
XiXI
turo
rH
4J
0Ol
SOl
mo
u<
UlTJ
¦H
tuLi
UlS
TJN
Xl•
uiC
UlOJ
XI4-1
tnu
ro4-J
EOJ
uH
3x:
turo
oitu
tu0
eje
•H
Lije
-H
EXi
tua
aih
XTJ
XITJ
EXi
rou
OlrH
tje
cc
x:ro
utn
c01
Ol0
•tu
tuu
ex:
inLi
3TJ
OJLi
Crji
tuH
röU
OlOl
in
4-1Li
C4-J
4-1tu
ox)
t-im
h0>
4-1Ol
HtU
Ol0>J4
Url
i3m
XIH
etu
tjOi
rH
ruo
tu•n
uir-
oXt
0<<*
3o\
3ro
tu•H
XIOl
O-H
XItu
Li¦H
*L4Cd
tUE
•C
Q,rH
LiLi
roXi
rH
LiOl
3ro
H>i
3ro
OiLi
uLi
OlLi
H4J
4J
Ol4-J
etu
HO
:3*~.N
rH
UlLi
¦H
-H3
>S
>c:
HH
EJ-H
-H6
-Q<U
CX
-t
XiOl
n»
33
rou
htu
jeu
OJ4J
4-1w
3ui
uLi
01rH
OiM
Uro
Xi¦H
-H
3XI
4-JIU
3X
3c
tuH
LiU
TJOl
4-1>iu
4jtj
4J
je3
intu
aiio
g-h
Li3
-HX
HLi
¦h
x:3
Q.-H
XIH
0u
4-1in
CLi
4J
Li-He
0)d|
Ul4->
Ol3
4J
4-1rHu
OlE
Cc
oic
x;ro
.*4J
exi
X:Li
rH
OlH
HLi
UE
Olu
LiOl
roro
Olt4
x:x:
tuh
erH
njOl
rH
Xi05
UlUl
LiU
TJU
TSB
Hpa
x.TJ
roOl
roO
roC
h0
4-JG
HTJ
O,Li
3x:
x:ui
ine
hin
OlTJ
Q,4J
UU
-h
e(0
Oi4J
LiC
Ctn
cOl
-H
-H
-H
roOl
¦h
jeOl
ro•H
Xitu
XIE
Liin
jetj
aiTJ
Olu
cro
tua
EUl
¦H
TH
14-40>
xitn
cx:
tsjam
0H
UlLi
Oe
3c
rj4JO
(^
ro-H
3>i
OlLi
¦H
rö3
¦H
3Ol
Ol£X
Q,X:
TJOi
rH
4J
OlOl
OlrH
H•H
inCU
-Li
-H
tUTS
XIrH
BW
QrH
Ol4_i
OlOl
TJ3
TJ3
rotUi
UlTJ
>XI
UXi
XiC
jeLi
3x:
X3U
OlC
Li3
OlU
U3
-H
tU(J
OlUl
roro
3-H
-H
tn4J
TJTJ
Uui
3Ol
3E
LiTI
LirH
4-Jje
•H
-HN
-H
tuih
ait*1
:3tu
Xiro
jeC
TJ01
5l/l
M4-1
ULi
H4-J
LiX.
Li3
xio\
c4J
3a
c•h
roU
:3N
•U
.H
-H
C-H
Ul.£
X.E
30)
44
Ul4-J
ro¦HS
OlLi
OrH
uiOl
inL.
4J
XI<v
tuTJ
in3
uiha
Ul4-J
(US
4J
CO
cLi
LirH
01in
3ÄH
•»
Or-
0)i3
0x:a
OlU
3TJ
LiE
Ih01
tn14-1
inrj
4-JC
Li3H£
C««U
rHUl
tnul
COl
:3>i
TJ»M
¦<huiflei
Ol4-J
OlXI
3N<
iL,ui
oie
-h
tu¦H
tnc
•Q4
L4rH
tUIU
rH
OlrH
4->O
Xiro
01**
r-iro
OTJ
Cd
--I3
EIH
3x:
CXi
¦H
LiU
4-JQ.
röU
4jax.
roui
O.Xi
-H
144IU
0Li
•4-4ul
UlrHU
rl
4J3
EU
Li3
LirO
i3<
ino,
rrj&,2
144SSd
roro
-h
e2a
eli
l/lOlu