Rights / License: Research Collection In Copyright - Non ... · INHALTSVERZEICHNIS Zusammenfassung 4 Abstract 5 Resume 6 Riassunto 7 I. EINLEITUNG 1.1 Anwendungen und Zielsetzungen

Research Collection

Doctoral Thesis

Systematische Gewinnung und Verkettung von Diphonelementenfür die Synthese deutscher Standardsprache

Author(s): Kaeslin, Hubert

Publication Date: 1985

Permanent Link: https://doi.org/10.3929/ethz-a-000332310

Rights / License: In Copyright - Non-Commercial Use Permitted

This page was generated automatically upon download from the ETH Zurich Research Collection. For moreinformation please consult the Terms of use.

ETH Library

https://doi.org/10.3929/ethz-a-000332310

http://rightsstatements.org/page/InC-NC/1.0/

https://www.research-collection.ethz.ch

https://www.research-collection.ethz.ch/terms-of-use

Diss. ETH Nr. 7732

SYSTEMATISCHE GEWINNUNG UNDVERKETTUNG VON DIPHONELEMENTEN

FÜR DIE SYNTHESEDEUTSCHERSTANDARDSPRACHE

ABHANDLUNG

zur Erlangungdes Titels einesDOKTORSDER TECHNISCHENWISSENSCHAFTEN

derEIDGENÖSSISCHENTECHNISCHENHOCHSCHULE

ZÜRICH

vorgelegt vonHUBERT KAESLINdipl. El.-Ing. ETH

geborenam 14. August 1953von BeckenriedNW

angenommen auf Antrag vonProf. Dr. W. Guggenbühl, ReferentProf. Dr. A. Kündig, Korreferent

ADAG Administration & Druck AG

Zürich 1985

Dem unbekannten Erfinder des Dominospiels gewidmet,der die Idee der Sprachsynthese aus Diphonelementenum ein knappes Jahrtausend vorweg genommen hat.

DANKESWORT

Die nachfolgende Arbeit ist am Institut für Technische Physik unterder Leitung des verstorbenen Prof. Dr. E. Baumann begonnen und am In¬stitut für Elektronik unter der Leitung des Referenten Herrn Prof. Dr.W. Guggenbühl fertiggestellt worden, dem ich an dieser Stelle für sei¬ne Unterstützung und das Interesse an meiner Arbeit herzlich dankenmöchte.

Herrn Prof. Dr. A. Kündig danke ich für die Übernahme des Korreferatesund Herrn Dr. S. Horvath für die Lancierung des Projektes.

Mein tiefer Dank gilt Herrn Beat Pfister für die tatkräftige Führungder Gruppe für Sprachverarbeitung und viele nützliche Anregungen.

Für verschiedene Hilfestellungen und die Teilhabe an ihren Erfahrungenschulde ich folgenden gegenwärtigen oder ehemaligen ArbeitskollegenDank: Carlo Bernasconi, Dr. Federico Bonzanigo, Patrizio Collovä, Dr.Dacfey Dzung, Hans Forster, Josef Goette, Dr. Beat Hohmann, Karl Hu¬

ber, Martin Kammer, Dr. Walter Kraft, Dr. Peter Mathys, Massimo Milan,Bruno Schneuwly sowie Dr. Yung-Shain Wu.

Nicht vergessen möchte ich ferner alle meine Kollegen und Freunde,welche sich als Versuchspersonen für die auf die Dauer doch rechtlangweiligen Verständlichkeitsmessungen zur Verfügung gestellt haben.

Zürich, im Dezember 1984

INHALTSVERZEICHNIS

Zusammenfassung 4Abstract 5Resume 6Riassunto 7

I. EINLEITUNG

1.1 Anwendungen und Zielsetzungen der Sprachsynthese1.2 Gliederung der vorliegenden Arbeit

II. GESAMTÜBERBLICK

II 1II 1 1II 1 2II 1 3II 2II 2 1II 2 2II 2 3II 2 4II 2 5

Probleme der Transkription und Prosodiebestimmung 10

Einfuhrung 10

Exkurs über Funktion von Sprache und Schrift 11

Konsequenzen für die Sprachsynthese 12

Umwandlung phonetischer Texte in Sprachsignale 14

Problemstellung 14

Mögliche Grundelemente 14

Lauterzeugungs- und -verknüpfungsverfahren 16

Festlegung eines Verfahrens 24Definition des Diphons 25

III. DER GRUNDELEMENTKORPUS

111.1 Zielsetzung 26111.2 Wahl einer geeigneten Lautschrift 26111.2.1 Kriterien 26111.2.2 Aussprachenorm 27111.2.3 Vokalsystem 28111.2.4 Konsonantensystem 29111.3 Existenz und Häufigkeit der Lautübergänge 30111.3.1 Ansatz 30111.3.2 Auswertung eines längeren Textes 31111.3.3 Prüfung und Auswertung phonotaktischer Regeln 32111.3.4 Häufigkeitsverteilung 39111.4 Aufbau eines vollständigen Diphonkorpus 39111.4.1 Pflichtenheft 39111.4.2 Richtlinien beim Zusammenstellen des Diphonkorpus 41111.4.3 Aufbau der die Diphonelemente enthaltenden

Wortlisten 43111.4.4 Sprecher, Aufnahmeraum und -apparatur 43

IV. OBJEKTIVE VERZERRUNGSMASSE

IV.1 Bedeutung objektiver Vergleichsmethoden 44IV.2 Definition von Qualitäts- und Verzerrungsmassen 45

IV.3 Aaforderungen an Verzerrungsmasse 47IV.4 Die Versuche von Barnwell 47

IV.5 Auswahl eines Verzerrungsmasses für die

Sprachsynthese 49

IV.6 Optimierung der Analysebedingungen 50IV.7 Einfluss von Stimmgrundfrequenz und Frameposition 50

LAUTBESCHREIBUNG MITTELS ZENTROIDEN

V.l ZielsetzungV.2 ZentroidbestimmungV.3 ZentroiddarStellungV.4 Auditive UntersuchungsmethodenV.4 rH DestruktionsversucheV.4 2 KonstruktionsversucheV.5 LautbeschreibungenV.5 1 VokaleV.5 2 KonsonantenV.6 Gegenüberstellung aller LauteV.6 1 Objektiver ZentroidvergleichV.6 2 Auditiver VergleichV.7 Diskussion

57585961616262627389899193

VI. GEWINNUNG DER DIPHONELEMENTE

VI.l Problemstellung 98

VI.2 Bisherige Verfahren 99VI.3 Diphonextraktion anhand von Zentroiddaten 100

VI. 3.1 Kostenfunktion 100VI.3.2 Schnittstellenfestlegung 100

VI.3.3 Praktisches Vorgehen und Beispiele 102VI.3.4 Vollständige Sammlung extrahierter Diphonelemente 110

VI.4 Egalisierung der Stimmgrundfrequenz 110

VII. SYNTHESEPROZESS

VI1.1 Übersicht 115VII.2 Diphonisierungsschritt 116

VII.3 Verkettungsschritt 119VII.4 Resyntheseschritt 120

VIII. VERSTANDLICHKEITSMESSUNGEN

VIII.1 ZielsetzungVIII.2 MessverfahrenVIII.3 Durchführung der VersucheVIII.4 ErgebnisseVIII.4.1 VerständlichkeitVIII.4.2 Lautverwechslungen

121121123124124126

IX. SCHLUSSFOLGERUNGEN

Erreichtes Ergebnis 130Erweiterungs- und Verbesserungsmöglichkeiten 131Verbesserung der Verständlichkeit und

Natürlichkeit 131Weitere Automatisierung der Grundelementgewinnung 131Reduktion des Speicherbedarfs 132

ANHANG

Anhang A. Abbildung des IPA-Alphabets auf den

Computerzeichensatz 134

Anhang B. Glossar phonetischer und linguistischer Begriffe 136Anhang C. Zentroidparameter 141

Anhang D. Wortlisten für die Verständlichkeitsmessungen 147Anhang E. Literaturverzeichnis 150

Anhang F. Hörproben (nur in den fünf Pflichtexemplaren) 154

ZUSAMMENFASSUNG

Es wird ein elektronisches Sprachsyntheseverfahren beschrieben, wel¬ches alle Schritte zwischen der Eingabe eines phonetisch transkribier¬

ten Textes und der Ausgabe des entsprechenden akustischen Signals um-

fasst. Automatische Erzeugung von Wort- und Satzbetonung sowie die Um¬

setzung eines orthographischen Textes in phonetische Schreibweise sindnicht Gegenstand dieser Arbeit und werden nur am Rande gestreift. Das

künstliche Sprachsignal wird durch Verkettung LPC-codierter Lautüber¬

gangselemente und anschliessende Umwandlung in Signalabtastwerte mit-

hilfe eines geringfügig erweiterten LPC-Sprachproduktionsmodells er¬

zeugt (LPC: Linear Predictive Coding).

Anhand einer Kombination phonotaktischer Regeln und der Auswertung ei¬

nes längeren Textes konnten wir bestimmen, wie viele und welche Laut¬

übergänge in der deutschen Standardsprache existieren und für eine

Synthese ohne Einschränkungen des Vokabulars tatsächlich benötigt wer¬

den. Davon ausgehend ist zur Gewinnung der Lautübergangselemente eine

Sammlung natürlicher Tragerwörter zusammengestellt worden, welche von

einem professionellen Sprecher gesprochen, unter Studiobedingungenaufgezeichnet, digitalisiert und in Form von LPC-Koeffizienten codiert

worden ist.

Da die Extraktion der Grundelemente aus dem Sprachmaterial für die

Sprachqualität entscheidend ist, haben wir ein neues systematischesund computerunterstütztes Extraktionsverfahren entwickelt, welches

stark auf der Auswertung lautspezifischer Eigenschaften beruht. Dazu

war es erforderlich die Laute der deutschen Sprache aufgrund ihrer

Signaleigenschaften und speziell ihrer LPC-Koeffizienten zu charakte¬

risieren. Zum einen war es damit möglich, die getroffene Wahl des

weitverbreiteten IPA-Alphabets zur Beschreibung phonetischer Sachver¬

halte auf ihre Zweckmässigkeit hin zu überprüfen (IPA: InternationalPhonetic Association). Zum anderen konnten wir Kriterien erarbeiten,welche die Schnittstellen zu Beginn und am Ende jeden Lautübergangsfestlegen helfen, indem mithilfe objektiver Distanzmasse für jede po¬tentielle Schnittstelle hypothetische Schnittkosten berechnet werden.Deren Mimmalisierungbestimmt in der Regel die bestgeeigneten Grenzen

für ein gesuchtes Lautübergangselement innerhalb seines Trägerwortes.Mit dieser Methode haben wir sämtliche für deutsche Standardsprachebenötigten Grundelemente aus dem Sprachmaterial extrahiert und abge¬speichert, wozu ein Speicherumfang von ca. 400 kbit erforderlich ist.

Schliesslich haben wir einen Synthesealgorithmus entwickelt, welcher

aus diesen abgespeicherten Daten ein neues Sprachsignal entsprechenddem eingegebenen Text erzeugt. Dabei werden gewisse Variationen in der

zeitlichen Ausdehnung der Laute in Funktion der Interpunktion und dia¬

kritischer Zeichen berücksichtigt. Mithilfe eines subjektiven Reim¬

testverfahrens konnte nachgewiesen werden, dass das resultierende

künstliche Sprachsignal eine hohe Wortverständlichkeit von knapp 97%aufweist.

Diese Arbeit ist zur Hauptsache in Form von off line-Simulationen auf

einer Minicomputeranlage durchgeführt worden.

ABSTRACT

A method for electronic speech synthesis is described, that includesall the Steps required to convert a phonetically transcribed text into

the corresponding acoustic Signal. Automatic generation of Intonation

and automatic transformation of Orthographie texts into their phoneticrepresentation were not dealt with in this study and thus are onlybriefly touched. The synthetic speech Signal is generated in concate-

nating diphone elements described by linear predictive coding (LPC).The sequence of these diphone elements is subsequently eonverted to

speech samples using a slightiy extended LPC Synthesizer.

The determination of how many and which diphone elements are requiredto synthetically produce Standard German speech with unrestricted vo-

cabulary has been made using phonotactical rules in conjunction withthe results of the Statistical analysis of a transcribed text. Basedon these informations we compiled a collection of natural carrierwords embedding the complete set of diphones. These words were then

spoken by a professional Speaker, reeorded under studio conditions,digitized and finally coded using linear prediction.

Since the extraction of the diphone elements from spoken speech is de-cisive for the quality of the synthetic speech Signal, we have deve-

lopped a new systematic and Computer aided process, which is stronglyfounded on the characteristics of the phonemes involved. It was thusnecessary to investigate and speeifiy the Signal properties for allGerman phonemes in terms of LPC parameters. On one hand it was therebypossible to verify, that the IPA transcription is an appropriatechoiee for describing phonetic facts (IPA: International Phonetic As¬

sociation). On the other hand we were able to work out a set of crite¬ria, which help to locate the beginning and the end of a diphone ele-ment to be extracted. These criteria are based on objeetive distancemeasures and are used to evaluate hypothetical costs for every poten¬tial location of a diphone boundary. In general the minimization ofthese costs leads to the Optimum boundaries. Using this method we haveextracted all the required diphone elements from the previously men-tioned carrier words. Storing them in memory takes about 400 kbit.

We finally developped a synthesis algorithm, which generates a new

speech Signal by assembling the stored diphone elements under controlof the input text. Phoneme duration is varied aecording to punctuationand diacritic marks. It was shown in a subjeetive rhyme test, that theresulting synthetic speech Signal has a high intelligibility: Word re-

cognition experiments yielded an intelligiblity of almost 97%.

This study has mainly been carried out by off line simulations on a

minicomputer System.

-6-

RESUME

Nous decrivons une methode pour la Synthese de la parole electroniquecomprenant toutes les Operations necessaires ä convertir un texte en

transcription phonetique en un Signal acoustique correspondant. Ni laproduction automatique de l'intonation, ni la transformation d'un tex¬te orthographique en sa representation phonetique n'ont cependant eteetudiees, elles ne sont donc traitees qu'en peu de mots. Le Signal dela parole synthetique est produit en enchainant des diphones codes parprediction lineaire (LPC: Linear Predictive Coding). La suite des di¬

phones est ensuite convertie en echantillons par 1'intermediaire d'unmodele de production de la parole LPC legerement modifie.

En combinant des regles de phonotactique avec l'analyse d'un textetranscrit nous avons pu determiner le nombre et l'identite des dipho¬nes existants dans la langue allemande Standard et etant donc neces¬saires ä sa Synthese Sans restrictions du vocabulaire. En se basantsur ces informations nous avons compose une collection de mots natu-rels comprenant tous les diphones. Ces mots ont ensuite ete prononcespar un professionel, enregistres dans des conditions ideales, conver-tis en numerique et codes sous forme de coefficients LPC.

L'extraction des diphones etant decisive pour la qualite du Signal dela parole artificiel, nous avons developpe un nouveau procede systema-tique et assiste par ordinateur se basant beaucoup sur les caracteris-tiques des phonemes. Pour faire cela, il etait necessaire de caracte-riser les proprietes du Signal et surtout des coefficients LPC pourtous les phonemes de la langue allemande. D'une part il etait ainsipossible de verifier, que le choix du Systeme de transcription IPAconvenait ä la description de faits phonetiques (IPA: InternationalPhonetic Association). D'autre part nous avons pu developper des cri-teres aidant ä localiser les coupures au debut et ä la fin de chaquediphone. Des coüts hypothetiques sont calcules pour tous les endroitsde coupures possibles par 1'intermediaire de mesures de distance ob-jectives. En minimalisant ces coüts on obtient en general les meilleu-res coupures possibles pour un diphone ä l'interieur de son mot por-teur. Nous avons ensuite extraits tous les diphones necessaires ä la

Synthese de la parole allemande par cette methode. Leur memorisationrend necessaire une capacite d'environ 400 kbit.

Finalement nous avons mis au point un algorithme de Synthese, qui pro¬duit un nouveau Signal de la parole en enchainant Selon le texte d'en-tree les diphones memorises. Une duree variable est accordee aux pho¬nemes individuels en fonction de la ponctuation et des signes diacri-tiques. Moyennant des experiments de perception nous avons pu demon-trer que la parole artificielle possedait une bonne intelligibilite depresque 97% pour la reconnaissance de mots isoles.

Cette etude a surtout ete effectuee ä l'aide de simulations en tempsnon-reel sur un Systeme de mimordinateur.

-7-

RIASSUNTO

Viene descritto un metodo per la sintesi della parola che comprendetutte le operazioni necessarie, dall'entrata del testo in trascrizionefonetica fmo alla produzione del rispettivo segnale acustico. La de-terminazione automatica dell'accentuazione, cosi come la trasformazio-ne dal livello grafematico a quello fonematico non sono oggetto diquesta ricerca e vengono percio toccati solo marginalmente. II segnaledella parola sintetica viene prodotto tramite concatenazione di difonicodificati con il metodo LPC e susseguente conversione in campioni disegnale per mezzo di un modello LPC di produzione della parola lieve-mente perfezionato (LPC: Linear Predictive Coding).

Tramite una combinazione di regole fonotattiche e l'analisi di un te¬sto in trascrizione e stato possibile determinare quanti e quali difo¬ni esistono in tedesco Standard e sono necessari per una sintesi convocabolario illimitato. In seguito e stata compilata una lista di pa¬role contenente tutti 1 difoni sopra citati, la quäle e servita per1'estrazione di quest'Ultimi. Queste parole sono State pronunciate daun annunciatore professiomsta, registrate in condizioni e con mezziideali, trasformate in valori numerici e codificate sotto forma dicoefficienti LPC.

Essendo 1'estrazione dei difoni di importanza decisiva per la qualitadella parola sintetica, e stato messo a punto un procedimento sistema-tico richiedente l'impiego del calcolatore, basato principalmente sul-l'analisi delle caratteristiche dei singoli fonemi. Per questo e statonecessario caratterizzare le proprietä del segnale e sopratutto deicoefficienti LPC per tutti i fonemi della lingua tedesca. Da un partee stato possibile verificare, che la scelta del sistema di trascrizio¬ne IPA e adatta alla codificazione di eventi fonetici (IPA: Interna¬tional Phonetic Association). D'altra parte e stato possibile metterea punto dei criteri atti a localizzare i punti di collegamento all'i-nizio e alla fine di ogm difono. Costi ipotetici vengono calcolatiper tutti i punti di collegamento tramite misure oggettive di distan-za. Minimalizzando questi costi si ottengono in generale i miglioripunti di collegamento possibili per un difono all'interno della parolache lo contiene. Sono stati ricercati in seguito tutti i difoni neces¬sari per la sintesi del tedesco mediante questo sistema. La loro memo-rizzazione richiede una capacitä di circa 400 kbit.

Infine e stato messo a punto un algoritmo di sintesi che produce un

nuovo segnale della parola, concatenando, partendo dal testo, i difonimemorizzati. A secondo della punteggiatura e dei segm diacritici vie¬

ne assegnata ai singoli fonemi una durata variabile. Esperimenti per-cettivi hanno dimostrato che la parola sintetica possiede in media una

buona intelligibilitä di quasi il 97%.

Questo lavoro e stato eseguito principalmente tramite simulazioni su

un calcolatore elettronico.

KAPITEL I. EINLEITUNG

1.1 ANWENDUNGEN UND ZIELSETZUNGEN DER SPRACHSYNTHESE

In zunehmendem Masse werden heute Sprachausgabesysteme bei der Ent¬wicklung verschiedenster neuer Produkte miteinbezogen, um die Kommuni-kationsmoglichkeiten von der Maschine zum Menschen zu erweitern odereinfacher zu gestalten. Die akustische Ausgabe von Meldungen kann denMenschen entlasten, indem sie ihm erlaubt, sich mit seinen übrigenSinnen voll auf ein anderes Geschehen zu konzentrieren und bei Bedarfdennoch Meldungen unverzüglich und in direkt interpretierbarer Form

entgegenzunehmen. Dadurch eröffnen sich Möglichkeiten zur Neugestal¬tung des 'man machine interface', beipielsweise in Steuerzentralen,Flug- und Fahrzeugcockpits, herkömmlichen und neuartigen Telephondien¬sten, Mess- und Überwachungseinrichtungen, Auskunftssystemen, automa¬tischen Post- und Bankschaltern, Blindenlesegeräten, Personenbeforde-rungsanlagen usw..

Elektronische Sprachsynthese kann dabei mit zwei unterschiedlichen

Zielsetzungen betrieben werden, nämlich entweder zur

-computergesteuerten Ausgabe von Meldungen und/oder Daten in Form aku¬stischer Signale, als einfachstes Beispiel etwa in einer sprechendenUhr, oder aber zur

-Umsetzung geschriebener Texte in entsprechende Sprachsignale, wie sieerforderlich ist als Teilschritt in der Realisierung eines Vorlese¬automaten.Im zweiten Fall ist das vom Synthetisator verlangte Vokabular zwangs¬läufig unbeschränkt, da ausser der Sprache in welcher der Text abge-fasst ist und in der auch das Sprachsignal ausgegeben werden soll,kaum Einschränkungen bezüglich der synthetisierbaren Wörter hingenom¬men werden können. Im ersten Fall reicht dagegen häufig ein beschrank¬tes Vokabular aus.

Sprachausgabesysteme mit beschränktem Wortschatz können mit den heuteerhältlichen Geräten und Bausteinen befriedigend realisiert werden.Das Vorgehen ist dabei folgendes: Jede mögliche Meldung, welche dasAusgabegerät von sich geben soll, wird als Abfolge von Sätzen, Wörternoder auch Wortteilen zusammengestellt. Die Gesamtheit dieser Sprach¬segmente wird gesprochen, aufgezeichnet, in eine speichereffizienteDarstellung gebracht und in Magnet- oder Halbleiterspeichern innerhalbdes Ausgabegeräts untergebracht. Erhält dieses die Aufforderung, einebestimmte Meldung abzugeben, ruft es die Segmente in der für die vor¬

liegende Nachricht festgelegten Reihenfolge aus dem Speicher ab undführt sie dem Synthetisator zu, welcher sie in entsprechende Signalab¬schnitte zurückverwandelt und nacheinander hörbar macht. Solche bis¬weilen auch als 'canned speech' bezeichnete (Re-)Syntheseverfahren,sind zwar universell für alle Sprachen einsetzbar, andererseits man¬

gelt es ihnen aber an Flexibilität, da jede Änderung oder Erweiterungdes Wortschatzes eine Wiederholung des Analyseschrittes notwendigmacht. Mit zunehmendem Vokabular wächst auch der Speicherbedarf linearan, sodass bei grösseren Meldungsvorräten oder hohen Flexibilitäts-

1_

11

EC

c

l

*jC

..m

¦ac

iUt

ir-A

uiC

r-Ai

1Ul

uiC

c1

iUl

r-HOl£

Ul

0)OJ

0)u

•rACD

cro

co

CP3

_Ol

SZOJ

Olin

roOl

3Ol

Olt3

rorH

¦rHAJ

Oun

cc

x:01

0)+J

01TI

3•H

OlN

CDOl

uiO

SZUJ

OlUJ

x;ro

uj

•ÖUl

TJ¦rl

OJ_t

ro•rH

•H

uu

XI_:X

XI_>

tnUJc

•rlro

u•H

XIo

uUI

roOl

i~>(V

__

.•H

^3

CPC

CDCD

Croc

Co

Q,rla

ui2

UlC

Hui

T3c

3_.

•ha.

x;•rH

tro•H

•rlOJ

3u

Oltu:

roro

0)Ol

rH

Ol0)

Ol

0TJ

uio

inu

_N

TSIh

Ul3c

roCP

roa

_:rH

UJ

!_>

OJui

CPUJ

TJTJ

>l/l

uja

_>QJ

Cx:

x;o

roUl

roü

rl0)

UJSZ

UJC

Uic

ucp

•ri4J

«0C

"0u

uTl

o>a

Qc

UJC

Ol.

•rl3

O•rl

Ol-ui

UJ

N

l

cE

roin

_l

in

mC

uw

c/l¦a

cOl

rl3

cCP

Ul3

XI3

XIUJE

Ul¦P

uro

in

cTl

CDtn

tuCD

3CL

cOJ

OlUJa

j:rH

•rl•rH

CP¦H

ro•¦H

_

clcp

CX)

XJtn

c3

TJui

XIro

cUJC

OlUl

roUl

Olx:

ê

(drH

in3

ctD

CDo

Uic

N0)

_:m

•H

CD•rl

UiC

•rlx:

3O

30J

a_lC

o•a

CDCP

•r)>ü

a;u>

•rlOJ

OlC

SZOl

cuiC

Ulin

CP-

0)•H

roo>

c>

UtUi

T3CP

t3Ul

¦aC

O.

UJ

SZc

OlOl

4-»c

tnN

ro:D

-H

Cc

cUJ

Ol•a

SZUl

Nu

OlX)

>Ul

3•H

01c

-3u

_|

3c

_»

4H

OlOl

ow

Eui

UJc

O.TJ

OlUJ

•H

o0

_i

QJ(U

CLai

•rl01

Or-A

CDSZ

U»

un

Ul_t

rH

rl3

eXI

3Ol

Uiui

aui

_:3

tn

AA

¦ain

T30J

_:Tl

Vtn

0)rH

ECD

3UJC

NUl

CLX

<uo

_ro

x:CD

OJC

•rltp

BUJ

OlUl

ui

UJ

3CD

Ui0)

UiOl

c.Ä

(0Ol

Qi->u

u_>

cut

t3Ol

•r|¦H

CUJ

UJ

Ol3

UlOJ

Mro

X!Ol

UJ

iOEh

d)U|

UlJ3

uin

SxOJ

HCD

UliH

UJ

3r-A

Ulr-A

NOl

UJ

•oOl

_1>

SZX

*->DJ

Q,U

roc

x:•H

X!oaTi

CDCP

CPSZ

CDUl

OlOl

rH

•HrH

cx:

Ulu

gE

N>

in•H

aiu

CPO

mro

IhCP

-Ui

uui

OJ¦a

CPo

UJx;

Olu

Uiui

3•H

ui

•rHOl

C•a

rH3

Oi<ro

__:

CDc

XIOJ

•rt3

UJ_

UlUl

Ul3

tro3

inOl

UlUJ

Ul•rl

OJ_

_£

XI•H

c¦a

x;3

Ol>

3ro

3ro

roUJ

ui

_;N

_•H

TSOl

roOl

Eo

XIUl

ajro

uro

T3a

cu

c•jax:

TJC

inUl

<DOl

CPUJ

UlCO

otn

13T3

tn

_;C

N_

c3

0J4H

OJin

Uls

aio

Ol•r|

Cp>

O_

Ul0)

0)o

UiOJ

co

ClCD

roAA

roi-i

CDOl

co

XIX

UJ

¦aUH

CDu)

UJ

tnui

C__3

_»

ro>ro>

s_•

14HtH

¦_

CDin

>TJ

CDu

inui

Ul3

UJO

UlH

•rlOl

-uic

cH

Ul

_i

_>

CPD

_5CP

_>3a

x;Ul

3CP

UJ

OJro

SZ•rl

roCD

rJin

0)0)

_

_>s

tnE

o•rH

roro

cUl

_¦N

roAA

0)u

¦oSZ

ErH

•rAin

utna

_.

CDin

SZOl

E-»u

CD_

tu_i

aTl

•rl_:

_:C

in

cV

SZo

CDtn

cN

szUI

•rltn

Vui

Ult.

.ClA

OJUJ

NOJ

_N

Er-A

CD•H

ui3

CDUJ

un

_!•rl

OJUi

SZc

uro

TIro

•H

o_.

uai

Tl__

_in

CDC

EU|

roOJ

CD3

inrl

Ulx:

CIH

0)a,

CDrlQ

ü0)

0)_.

QQ•H£

O_a

UJ>

CDCD

•H

_>n

OJCD

u,_1

uXI

•rHCO

XI-H

CDTlN

TJ

.

inu

«0<w

CDC

<DIh

UlUl

o4H

¦dXI

rH

0•rl

Ol0)

U|U

T!Ih

C_

i/ju

ro_¦

_¦

inCP

0)Ol

CDOl

UOl

Cpin

•-ACP

._

Ero

tnC

cro

roUl

roc

ui

+J

szTI

•rlc

tDXI

C-_

AA

•H

c•a

Uiin

+J

rH

rH

•aUl

x:OJ

tn

rlro

0)XI

rox:

0)z

tn3

SZu

a.>._:

<CD

cro

>•rl

Ol•H

•r|ro

roC

_]u

tn

in

Ul+J

X2Q,

cp

Ol_.

wtn

aiU

tn

IHro

tnt-l

TlCD

EOl

¦aUJa

Oltro

•rlat

0OJ

UlOl

so

XJx:

Qro

tiin

CDQ)

_:_:

C_

Ul5

x:in

XIro

roUl

ui

OJr-A

Eui

Oi0)

EHin

SB_l

_>

_3T)

u>i

PCD

CDu

roin

E!_

0)tn

Ul•H

CPTIO

3Ol

OlX

cOl

«w

_1ai

m3

Ctu

roC/J

N3

roQ

CDin

CPCD

x;cd

Ul¦o

¦0c>

CPCD

OlOl

TJIh

OX,

<nai

34H

IhCD

Ulx:

tnc

UJc

UJc

aiE

cC

uUJc

CPro

<Dw

ai•O

CP•H

D,c

C_>C

Q.u

ro3

tn

ch>

ctn

•rl•H

Olc

OlSZ

•H

cu

>1—1

uj

x:x:

*->„

01l/l

CDai

Oi0

t/i4J

£XI

>.>.

oiOJ

CP01

rlOJ

TJu

0)3

OlOJ

_1

_j

uj

u•rA

D.

Cin

¦r|_:

inOl

tn

•oin

TlC

OlT!

TI0)

•rliH

CPin

(_oi

co

eC

N_

tutn

A->a

•H

3tn

0)Ul

cUl

3•H

ui

•H

_.

0)dt

o__i

Ctu

¦oroa

•rlOl

0)M

Ol•rA

OlOl

OlUi

TJU

Ih3

_l

UJE

_.

>ui

in

•rHX!

tuE

uQ

Tlc

inSZ

¦a3

Ol-M

ui3

Oltro

13CL

CP3

3j-j

<¦M3

0)U

•H

Ih•H

COl

mOl

Uc

szro

UlUJ

UJ

SZCP

_l

ciro

NC.

(_u

01Ol

•atn

x:CD

mC

OlTI

0)•H

in

OlC

UUJ

SZSZ

•rlUi

AIc

OIUI

ro><

tu_

incO

c¦rA

Om

j«;a>

cUl

tnQ

Ol3

Ol•rl

r-A13

uOl

01c

rooi

_x;

UlCD

Ul

Q01

Nsz

0)_»

tn

tnu

4J

OlO

tn

CQJSUl

r-A3

UH

•rl3

UJ

0)XI

-ICP

13sw

XITJ

rou

tn

ro_

¦rlO

CP•H

3ro

x:uim

CD_

3CQ

co

OC

0)•rl

_c

tnE

OJ3

IhTJ

Eui

¦Ulro

cai

CPUl

I_ad

m<

roc

Uc.

saOJ

UJ

01_

.Ol

o>

CDCD

_>4HN

XIC

3tut

aio.

SZUl

rH

SZ0)

UlOl

CLm

•a

o>C

CnN

NrH

•H

_>

CPX!

to0)

C3

Olro

UlCP

UOl

TJUl

OiTI

UH

c•rl

CP_

_.

TJ(_

OJ.

•rHOl

roP

cUi

cro

ro>

01¦H

Ul-H

COl

cc

co:Q

ro•rl

iOc

cu

rH

3_j

XIc

Cro

IH•o

N0)

CDx;

4H

•H

¦Ul>

Ol0)

3r-l

3ro

33

TJX

Dr.

Q_

_Cr

U_

C_»

XICP

uin

Uiui3

inrl

TJSZ

SZ_l

Ulc

1_(/)

_]M

r-t•ro

0)~H

intu

T)3

ro«d

•rACD

roro

cIh

TIU

<c

Olc

[_3

OJ0)

0>KH

OCD

_:_:

Uin

CE

x;OJ

UlCDQ

+J

Ulo

0)CD

UlUl

<_l

r-A•rl

ro3

c"0

_4

_J>

Cua

¦Cro

0)Ul

u•H

EHN

C•rJ,

ro•rl

TJx;

OiCP

_lOl

CPc

UJ

¦r|L.

OJo

Om

rou

4J

CDin

TlOJ

tnCD

A-l¦o

ulu

Cc

•rlUl

C•rl

oOl

O4--

SZx:

_i

roXI

x;XI

CPOl

t-l_

MTJ

Ul

roc

3ro

eUl

rH

¦oro

x:d

_i

_.

OJ

OJCL

u3

M_

tn

ou

•-Iu

CDtn

_lC

Cro

tnro

Uiin

Ui3

Uix;

oCP

CLc

szUt

Gffl

¦_H

_h

<Utu

Qjro

Ui•_

roO

•H

3•H

CD3

roIh

hroa

Olai

c•rl

oiro

•rlc

Ol3

3

.

.Cr-A

QQ

rH

TI>

17}Q

a*m

x:3

3ro

roOl

Eerq

UJ3

»H

inc

UJ<

_CO

!_tn

«ca

Nro

-10-

KAPITEL II. GESAMTÜBERBLICK»*_**,_**«***_**_***»„*,

II. 1 PROBLEME DER TRANSKRIPTION UND PROSODIEBESTIMMUNG

II. 1.1 EINFUHRUNG

Die Umwandlung eines orthographischen Textes in seine phonetischeSchreibweise wird Transkription genannt, die davon ausgehende Erzeu¬gung eines hörbaren Sprachsignals bildet den eigentlichen Synthese¬schritt. Automatische Transkription und Betonungssteuerung sind nichtGegenstand dieser Arbeit, in den folgenden Kapiteln werden wir dennauch von einer phonetischen Umschrift der zu synthetisierenden Texteausgehen, in welcher die Lautabfolge zweifelsfrei festgelegt ist. Einekurze Betrachtung der sich dabei ergebenden Schwierigkeiten verhilftjedoch zu einer besseren Einsicht in die Problematik elektronischerSprachsynthese ganz allgemein und macht einige Anforderungen deutlich,welche an den eigentlichen Synthesevorgang gestellt werden müssen. Inder deutschen Sprache gehen die meisten Buchstaben je nach Umfeld in

verschiedene Laute über, wie das folgende Beispiel anhand von "e"zeigt:

orthographisch:phonetisch :

"fehlen"[FE;L6N]

"feil"[F3L]

"löffel"[L8F6L] oder [L8FL]

(zur phonetischen Umschrift allgemein siehe III.2.1, zur verwendetenNotation siehe Anhang A.) Dieser Sachverhalt kompliziert sich aller¬dings dadurch, dass als bestimmendes Umfeld nicht nur benachbarteBuchstaben, sondern auch die Bedeutung des einzelnen Wortes und seineFunktion in der ganzen Satzkonstruktion wirken. Dies zeigen eindrück¬lich Homonyme wie:

orthographisehsemantisch

phonetischWachtlokal[VAX5TU;B6]

"Wachstube"Tube mit Wachs[VAKSTU,-B6]

Und umgekehrt Homophone wie:

orthographischsemantisch

phonetisch

"leihen"etwas ausborgen

[LA16N]

"laien"Nichtfachleute

Die Abbildung zwischen orthographischem und phonetischem Text ist alsowortweise weder in der einen noch in der anderen Richtung eindeutig.Eine fehlerfreie Transskription kann ohne Kenntnis semantischer undsyntaktischer Zusammenhänge nicht durchgeführt werden.

Anhand des einfachen Beispielsatzes "er hat es doch getan." wird eineweitere Schwierigkeit bei der Synthese beliebiger Texte sichtbar: Le¬diglich aufgrund des orthographischen aber auch des phonetischen Tex¬tes ist es selbst dem Menschen nicht möglich sich auf eine Aussprache

-11-

emdeutig festzulegen. Bei gleichbleibender Lautfolge hängt die Aussa¬ge von der Betonung ab und umgekehrt, wobei in diesem konkreten Fallmindestens vier verschiedene Bedeutungen und Betonungsmuster zur Aus¬wahl stehen:

"er hat es doch getan." Nicht etwa seine Frau,"er hat es doch getan." Trotz unseres ausdrücklichen Verbotes!"er hat es doch getan." Die Handlung ist bereits vollbracht,"er hat es doch getan." Was wollen Sie eigentlich mehr?

Als Träger der Betonung wirken-die Lautstärke,-die Stimmgrundfrequenz,-die Sprechgeschwindigkeit und zeitliche Gliederung.

Da diese Parameter unabhängig von den im einzelnen vorliegenden Lautenvariiert werden können, bezeichnet man sie als suprasegmental oderprosodisch. Ihre zeitlichen Verläufe reflektieren wiederum Zusammen¬hänge, die die Bedeutung betreffen, als auch solche, die vom Satzauf¬bau abhangig sind. Für die Erzeugung von Sprachsignalen mit sinnbe-stimmter und natürlich klingender Betonung ist die Kenntnis dieser Zu¬sammenhänge innerhalb der zu synthetisierenden Satze eigentliche Vor¬

aussetzung. Weder der semantische Inhalt einer Aussage noch die syn¬taktische Funktion der einzelnen Satzteile und Wörter liegen indessenin einem Text explizit vor.

II.1.2 EXKURS ÜBER FUNKTION VON SPRACHE UND SCHRIFT

Die Möglichkeit sprachlich miteinander zu kommunizieren haben die Men¬schen zum Zwecke des Austausches von Gedanken untereinander entwik-kelt. Deshalb werden nur die für den Empfänger jeweils neuen Informa¬tionen übertragen, die Fähigkeit zur Analyse des Satzbaus und dieKenntnis des Zusammenhangs, in welchem die übertragene Mitteilungsteht, werden beim Empfänger stillschweigend vorausgesetzt und nichtin die Nachricht selbst miteinbezogen. Die Bedeutungen der einzelnenWorter und die Konstruktionsregeln der Sprache sind zudem im Gegensatzzu formalen Sprachen nicht ein- für allemal eindeutig und verbindlichdefiniert worden, sondern im Prinzip willkürliche Konventionen, welcheaber von allen Mitgliedern einer Sprachgemeinschaft im Laufe ihrerSprachentwicklung erworben worden sind. Sprache und Schrift dienenbeide lediglich als Vehikel für die zu übermittelnden Vorstellungen,sind also nur gewissermassen an die Oberfläche gebrachte Darstellungenfür eine gemeinsame, tieferliegende und vollständige, das heisst alleZusammenhänge enthaltende, und damit eindeutige Formulierung.

Der Informationsverlust bei der Abbildung von der Tiefenstruktur aufdie einzelnen Oberflächenstrukturen kann mit der Projektion einesräumlichen Körpers auf verschiedene Ebenen verglichen werden. Jededieser Oberflachenstrukturen enthält zwar eine genügend genaue Be¬schreibung der ihr zugrundeliegenden Tiefenstruktur, um eine im allge¬meinen befriedigend zuverlässige Kommunikation zwischen Menschen zu

ermöglichen, gewahrleistet aber keinen eindeutigen automatisch durch¬fuhrbaren Übergang zu einer anderen Oberflachenstruktur. Gerade die

-12-

Umsetzung von Texten in Sprachsignale bildet jedoch einen derartigenÜbergang. Unter Ausnutzung dieses Abbildungsverlustes kann bisweilenselbst dem menschlichen Empfänger ein 'X' für ein 'U' vorgemacht wer¬den, wovon bereits im Altertum die Orakelpriester ausgiebig Gebrauchgemacht haben.

•Ol<^

Fig.2.1 Geometrische AnalogievorstellungOberflächenstrukturen der Sprache

zu Tiefen- und

II.1.3 KONSEQUENZEN FÜR DIE SPRACHSYNTHESE

Für computergesteuerte Ausgabe von Meldungen ist es daher zweckmässi¬ger, diese nicht erst in Form orthographischer Texte zu erzeugen undanschliessend in ein Sprachsignal umzuwandeln, sondern sie gleich inForm einer vollständigen Beschreibung einzugeben, welche alle für Be¬tonung und Transkription notwendigen inhaltlichen und den Satzaufbaubetreffenden Angaben zu liefern vermag. In der englischsprachigen Li¬teratur wird eine solche Beschreibung als 'conceptual input' bezeich¬net [68}. So können beispielsweise im Rahmen eines Lagerauskunftsy¬stems einige wenige Standardsatzstrukturen festgelegt werden, inner¬halb derer lediglich einige Begriffe, wie Gegenstand, Bestellnummer,Datum, Stückzahl, Lieferfrist etc. ausgetauscht werden müssen.

-13-

1Transkription undProsodiebestimmungmittels Ersatzstrategien

vorbereiteteMeldung

Transkription

Lautfolge

orthographischer Text

syntaktische undsemantischeAnalyse

vollstaendigeAussagebeschreibung

Prosodiebestimmungmittels Regeln

Betonungsinformation

eigentliche Synthese

\ t akustisches Sprachsignal

Fig.2.2 GesamtuberSicht des Sprachsyntheseprozesses

Für die künstliche Aussprache ausschliesslich in orthographischer Form

vorliegender Texte stehen immer noch zwei Wege offen (cf. Fig.2.2),nämlich entweder-die fehlenden syntaktischen und semantischen Informationen durch Ana¬

lyse der Satzstruktur ind soweit überhaupt möglich der Bedeutung zu

rekonstruieren, also gewissermassen zur Tiefenstruktur zurückfinden,oder aber-mittels der Anwendung von Ersatzstrategien, die beispielsweise die

Interpunktion oder die Worthäufigkeiten ausnützen, den direkten Über¬

gang von einer Oberflächenstruktur auf die andere zu versuchen.Die erste Methode entspricht dem menschlichen Vorgehen und versprichteine naturlicher klingende Sprache, bedingt aber eine tiefe Einsichtin die Mechanismen des Sprechens und in grammatikalische Zusammenhan¬ge, und verlangt, dass dem Sprechautomaten eine Fülle daraus abgelei¬teter Regeln zur Verfügung stehen. Eindeutig als naturgemäss fehlerbe¬haftete Ersatzstrategie muss das Transkriptionsverfahren bezeichnetwerden, welches auf einen Vorschlag von Kästner zurückgeht {28} undvon Gut und Rentsch {29} auf unserer Computeranlage implementiert wor¬

den ist. Immerhin werden damit ca. 95% der Wörter eines zusammenhan¬

genden deutschen Textes richtig transkribiert.

-14-

II.2 UMWANDLUNG PHONETISCHER TEXTE IN SPRACHSIGNALE

II.2.1 PROBLEMSTELLUNG

Halten wir uns einen Text und das zugehörige Sprachsignal vor Augen,so erkennen wir die unterschiedlichen Naturen dieser beiden Vehikelfür sprachliche Kommunikation. Hier liegt eine Kette genau gegeneinan¬der abgegrenzter Symbole aus einem endlichen Vorrat vor, dort ein kon¬tinuierliches, sich stetig enwickelndes und daher kaum unterteilbaresZeitsignal, das unendlich viele verschiedene Verläufe annehmen kann.Das akustische Sprachsignal steht damit in scharfem Gegensatz zur

Schrift, als dem ältesten und gebräuchlichsten Mittel seiner Darstel¬lung und Speicherung. An dieser Situation ändert sich auch dannnichts, wenn, was wir im folgenden annehmen wollen, der Text in seiner

phonetischen Form vorliegt. Dennoch steht fest, dass einzelne Aus¬schnitte des Signals durch die Aussprache bestimmter Satzteile, Wör¬ter, Sprechpausen oder Laute hervorgebracht und in ihrem Verlauf be¬stimmt werden.

Das Problem besteht also darin, Segmente innerhalb des Sprach¬signals zu finden, deren Eigenschaften einerseits von einem mög¬lichst exakt eingrenzbaren Ausschnitt innerhalb der Symbolketteabhängig sind, und aus denen andererseits jede verlangte Nach¬richt ökonomisch zusammengestellt werden kann.

Diese beiden Forderungen sind widerspruchlich. Die Entscheidung füreine bestimmte Art solcher Bausteine stellt in jedem Fall einen Kom-promiss dar. Sie hängt insbesondere davon ab, ob ein unbeschränktesVokabular angestrebt wird oder nicht.

II. 2. 2 MÖGLICHE GRUNDELEMENTE

Als zum Aufbau zusammenhängender Sätze geeignete Bausteine sind dienachstehend aufgezählten Grundelemente denkbar, deren für die Sprach¬synthese massgebenden Eigenschaften im folgenden naher erläutert wer¬

den:

-Satze oder Satzteile-Einzelwörter-Wortfragmente wie Silben oder Teilwörter (z.B. 'Bahn-hof')-Halbsilben-Lautübergänge, sogenannte Diphone-Einzellaute (das entsprechende Verfahren wird im Englischen häufigetwas irreführend als 'phoneme synthesis' bezeichnet)

II.2.2.1 EinzellauteWegen der geringen Anzahl notwendiger Elemente erscheinen Einzellautezunächst besonders interessant. Für die deutsche Sprache können ca. 34Laute unterschieden werden, für die französische ca. 36, wobei die ge¬naue Zahl vom Grad der Differenzierung zwischen den einzelnen Lautenabhängt. Es hat sich aber leider herausgestellt, dass es enorme

-15-

Schwierigkeiten bereitet, die Übergänge zwischen den Einzellauten der¬art vorzunehmen, dass dabei ein eimgermassenverständliches und na¬

türlich klingendes Sprachsignal entsteht. Die Koartikulation genanntewechselseitige Beeinflussung benachbarter Laute ist einfach zu gross,als dass ein Sprachsignal als simple Abfolge von Lautelementen ver¬

standen werden könnte, wie man dies vielleicht aufgrund der Laut¬schrift gerne glauben möchte.

II .2.2.2 LautubergängeDiesem Umstand kann unter anderem mit der Verwendung von Lautubergan-gen als Grundelemente Rechnung getragen werden. Ein solcher auch Di-

phon genannter Ausschnitt reicht von der mehr oder weniger stationärenZone in der Mitte eines Lautes bis zur Mitte des darauffolgenden Lau¬tes und umschliesst namentlich die ganze dazwischenliegende Übergang¬sphase. Die Verwendung von Diphonen ist bereits 1956 von Küpfmüllerund Wams nach einem enttäuschend ausgefallenen Versuch mit Einzellau¬ten vorgeschlagen worden {50}, konnte jedoch damals infolge apparati¬ver Probleme nicht erfolgreich in die Praxis umgesetzt werden. Vergli¬chen mit Einzellauten wird allerdings eine wesentlich grössere Anzahldavon benötigt. Auf die Bestimmung ihrer genauen Zahl und den Aufbaueiner vollständigen Diphonsammlung werden wir noch zurückkommen.0_0

11.2.2.3 Satze, Worter und WortfragmenteDas Bestreben, bei der Verkettung der Grundelemente mit möglichst we¬

nigen und zugleich unkritischen Nahtstellen auszukommen, führt zwangs¬läufig zu grösseren Lautverbanden. Sätze und Satzteile können derartgewählt und gegeneinander abgegrenzt werden, dass die gegenseitige Be¬

einflussung hinreichend klein bleibt. Aber bereits zwischen einzelnenWörtern und erst recht zwischen Silben oder Teilwortern sind am

Sprachsignal im allgemeinen keine offensichtlichen Grenzstellen fest¬stellbar .

11.2.2.4 HalbsilbenDaher entstand die Idee, dass wenn schon Schnittstellen künstlich ein¬geführt werden müssen, diese an der unkritischsten Stelle anzubringenseien. Jede Silbe besitzt definitionsgemäss genau einen Vokal oder

Diphtong (im Deutschen "au", "ei", "eu"="äu"). Halbsilben entstehennun durch Aufspaltung der Silbe in der quasistationären Phase diesesVokals (z.B. 'Schla-af'). Aufgrund von Lautverbindungseigenschaftenist die Anzahl möglicher Halbsilben einschrankbar. Dettweiler {11}gibt die Anzahl zur Synthese deutscher Sprache benötigter Halbsilbenmit ungefähr 1400 an, wobei er allerdings gewisse Halbsilben noch wei¬

ter unterteilt hat.

Allgemein bedeutet die Wahl der Grundelemente einen Kompromiss zwi¬schen grossem Speicheraufwand und einfacher Verkettungsmöglichkeit ei¬nerseits und komplexen Verkettungsalgorithmen respektive Qualitätsein¬schränkungen bei kleinem Speicheraufwand andererseits. Nicht nur dieAnzahl, auch der Speicherbedarf pro Element steigt nämlich mit derGrundelementgrösse an!

-16-

II.2.3 LAUTERZEUGUNGS- UND -VERKNÜPFUNGSVERFAHREN

Bisher haben wir lediglich die wichtigsten Bausteine aufgezählt uns

aber noch keine Gedanken darüber gemacht, welche Signaleigenschaftendiese Grundelemente überhaupt beschreiben sollen und wie daraus einneues Sprachsignal erzeugt werden kann. Dies ist nicht bloss eine Fra¬

ge der Speichereffizienz und des Schaltungsaufwandes. Die Art und Wei¬se wie Laute erzeugt und miteinander zu Wortern und Sätzen verknüpftwerden bestimmt ganz entscheidend, wie naturgetreu die synthetischeStimme im besten Fall überhaupt klingen kann. Die wichtigsten Möglich¬keiten, welche von der blossen Wiedergabe von Signalabschnitten biszur Simulation der Artikulationsbewegungen beim menschlichen Sprecherreichen, sollen nun etwas näher beleuchtet werden:

Darstellung der Grundelemente-direkt als Signalabschnitte mittels Kurvenformcodierung-als Folgen von Steuerparametersätzen für einen Kanalsynthetisator-als Folgen von Steuerparametersätzen für einen Formantsynthetisator-als Folgen von LPC-Parametersätzen, das heisst von Steuergrössen fürdas Sprachproduktionsmodell nach dem Verfahren der Linearen Pradik-tion

-als Regeln für die Steuerung eines Sprachproduktionsmodells, Synthesenach Regeln-als Steuergrössen für ein Artikulatorisches Modell

Zunächst kommen all diejenigen Verfahren in Frage, welche auch zur di¬gitalen Übertragung von Sprachsignalen eingesetzt werden, denn dortsoll schliesslich Sprache bei geringsten Verzerrungen mit der kleinst-moglichen Datenrate codiert werden.

II.2.3.1 KurvenformcodierungDie direkte Darstellung von Signalabschnitten in digitaler Form (PCM)ist mit 64 kbit/s sehr speicherintensiv. Mithilfe raffinierterer Kur-venformcodierungsverfahren kann diesem Nachteil bis zu einem gewissenGrad begegnet und die Datenrate bis etwa 16 kbit/s vermindert werden.Es gibt darunter sogar Methoden, welche eine beträchtlich höhere Re¬dundanzreduktion erreichen, indem sie auf die spezifischen Eigenschaf¬ten des Sprachsignals und des Gehörsinnes eingehen und dennoch eineeinfache Synthese im Zeitbereich ermöglichen, wie etwa die Mozer-Co-

dierung {12} (eine eingehende Diskussion von Kurvenformcodierungsver-fahren findet sich bei Jayant und Noll {77}).

Zwei weit bedeutendere Probleme bleiben jedoch bestehen: Für mit¬tels Kurvenformcodierung abgespeicherte Grundelemente lässt sich kein

Verkettungsverfahren finden, welches einen kontinuierlichen Übergangderart vornimmt, dass er dem entsprechenden natürlichen Übergang nahe¬kommt . Kurvenformcodierung eignet sich daher nicht zur Sprachsynthesein Verbindung mit Einzellautelementen. Weiter kann von einem einmal

abgespeicherten Grundelement allenfalls noch die Lautstärke wahrendder Synthese beeinflusst werden. Sprechmelodie und Sprechgeschwindig-keitsverlauf, welche für die Betonung noch wichtiger sind, können da¬

gegen nicht mehr verändert werden.

Die nachstehend beschriebenen Verfahren weisen diese Nachteile nicht

auf, denn sie speichern nicht das Signal selbst ab, sondern bilden in

-17-

mehr oder weniger abstrakter Form die Lauterzeugung beim Menschennach. Daher wollen wir sie unter dem Begriff 'Modellierungsverfahren'zusammenfassen. Sie ermöglichen überdies eine effiziente Speicherungder Grundelemente durch Redundanzreduktion auf Datenraten von circa 1bis 5 kbit/s.

II.2.3.2 LPC-SynthetisatorDas der Methode der linearen Prädiktion (Linear Predictive Coding) zu¬

grundeliegende Sprachproduktionsmodell Fig.2.3 entspricht weitgehenddem menschlichen Sprechapparat Fig.2.4 .

Grundperiode VerstaerkungAnregungperiodisch/aperiodisch

Impuls¬generator

Rausch¬generator

Reflexions¬koeffizienten

ff .ffvariables

DigitalfilterM(z)

Sprach¬signal

s' (m)

Fig.2.3 Das LPC-Sprachproduktionsmodell

In diesem Analogiemodell steht der Impulsgenerator für die vibrieren¬den Stimmlippen (in der Umgangssprache meist ungenau als Stimmbänderbezeichnet) bei Lauten mit periodischem Signal, der Rauschgeneratorfür die wahrend aperiodischer Passagen je nach Laut an unterschiedli¬chen Orten (z.B. zwischen den Stimmlippen oder zwischen Zunge und Zäh¬nen) entstehende turbulente, ein zischendes Geräusch verursachendeLuftströmung. Die beiden Generatoren werden alternativ betrieben undliefern Signale gleicher Leistung mit einer flachen frequenzunabhängi¬gen Spektrumsenveloppe. Die Klangformung, welche beim Menschen vom Vo¬kaltrakt bestehend aus Hals, Mund- und Nasenraum, Zunge und Mundöff¬nung vorgenommen wird, bildet ein zeltvariables Digitalfllter nach.Schliesslich erlaubt ein Multiplikator die Steuerung der Amplitude unddamit der Lautstärke.

Zur Analyse des Sprachsignals wird dieses in Zeitabschnitte festerLange, sog. Frames, unterteilt und für jeden davon ein Satz von

-18-

_>

a

Nasenhoehle

Mundhoehle

Stimmlippen

Fig.2.4 Der menschliche Sprechapparat

Steuerparametern bestimmt. Deren Verläufe in Funktion der Zeit werdenanschliessend stellvertretend für das Signal gespeichert (Sprachausga¬be) resp. übertragen (Vocoder).

Wie können nun aus einem gegebenen Sprachsignal diejenigen Para¬meter bestimmt werden, die ein äquivalentes künstliches Signalerzeugen?

Dazu macht man einen Ansatz mit einem Transversalfilter p(z) der Ord¬nung p welches als Prädiktor wirkt und aus den p zurückliegenden Ab¬tastwerten des Signals s(m-p), s(m-p+l), ..., s(m-l) eine Schätzungs(m) für den nächsten Abtastwert s(m) bildet, (cf. Fig.2.5):

I(m) = £ a s(m-k)k=l k

(2.1)

Liegt dieser Abtastwert vor, kann der Pradiktionsfehler e(m) alsferenz zum Schätzwert berechnet werden:

Dif-

e(m) = s(m) - s(m) (2.2)

Das Ziel der Methode besteht nun darin, die Filterkoeffizienten aK desPrädiktors so zu wählen, dass die Summe E der quadrierten Pradiktions¬fehler, welche als Fehlerenergie bezeichnet wird, über einen endlichen

-19-

O Signal s (m) ^

D praediziertes Signal s' (m)

\? \r

Zeit m

Praediktionsfiltermit p=6

Fig.2.5 Signal, pradiziertes Signal und Prädiktionsfehler

Signalabschnitt, innerhalb dessen die Signaleigenschaften als konstantangenommen werden können, minimal wird:

Im

(m) = Yj ( s(m) - s(m) ) = minimal (2.3)

Dieses Problem kann mithilfe partieller Ableitung auf die Lösung eineslinearen Gleichungssystems zurückgeführt werden. Unter Ausnutzung spe¬zifischer Eigenschaften der zugehörigen p x p Koeffizientenmatrix,welche immer symmetrisch und im Falle der sog. Autokorrelationsmethodezusätzlich Toplitz ist, konnten effiziente Matrixinversionsalgorithmendafür entwickelt werden. Für die weiteren Einzelheiten dieser Berech¬nung sei auf die Literatur verwiesen {14...16}, und hier nur das Re¬sultat genauer erläutert. Wird die Übertragungsfunktion des Synthese¬filters M(z) invers zu derjenigen der Analyseapparatur gemacht,

M(z)1 - P(z)

(2.4)

so kann gezeigt werden, dass die Minimalisierung von (2.3) im Zeitbe¬reich, im Frequenzbereich äquivalent ist mit der Minimalisierung derAbweichungen zwischen dem Betragsspektrum des natürlichen Sprachsig¬nals und dem Modellspektrum, wobei letzteres infolge der beschränktenFilterordnung eine geglättete Näherung für das erstere darstellt. Li-

-20-

neare Prädiktion ist daher ein Verfahren zur spektralen Estimation, imvorliegenden Fall durch ein Allpolfilter. Fig.2.6 zeigt Signal- undModellspektrum berechnet aus dem zweiten Viertel des in Fig.2.7 abge¬bildeten Zeitsignals.

ti"? 5

1.00.0 0.5 2.0 2.5 3.0 3.5 4.0

[KHZ]

Fig.2.6 SignalSpektrum O und Modellübertragungsfunktion A

Nachdem die spektrale Enveloppe des Signals bestimmt ist, muss ledig¬lich noch Art und Amplitude des AnregungsSignals festgelegt werden.Dies geschieht indem die Autokorrelationsfunktion des Fehlersignalsberechnet und daraufhin untersucht wird, ob eine Periodizität im Be¬reich der menschlichen Stimmgrundfrequenzen (50 bis 400 Hz) vorliegt,andernfalls wird der vorliegende Signalabschnitt als aperiodisch er¬kannt. Dieser Schritt der Analyse wird als Pitchdetektion bezeichnet.Zugleich liefert der Wert der Autokorrelationsfunktion an der StelleNull die Leistung des Fehlersignals, aus der sich die Verstärkung Gableiten lässt. Fig.2.7 zeigt einen Auschnitt aus einem natürlichenSprachsignal, Fig.2.8 denselben Ausschnitt aus dem resynthetisiertenSignal. Im Zeitverlauf fällt es nicht schwer Unterschiede festzustel¬len. Diese rühren zur Hauptsache davon, dass das Fehlersignal bei derSynthese durch ein Anregungssignal ersetzt wird, welches lediglich inLeistung und allfälliger Periodizität übereinstimmt, nicht aber etwaim Phasenspektrum. Infolge der Unempfindlichkeit des Gehörs für kurz¬zeitige Phasenverzerrungen {46,45} bleibt dieser Fehler aber akustischkaum wahrnehmbar.

II

CUi

X.

ui

Olra

UUi

3uj

_jCD

COcd

tnU|

LQ.J

3Ol

1CL

uiOJ

3m

tDoi

NOl

Ol3

HUl

uj

rHOJ

TJOl

in

UlOl

UJ

¦H

rltn

*Ul

ui

TJtn

OlUi

CDUi

uTJ

OJSZ

CCD

OTJ

t-lCD

TJUJ

tDC

cui

nj11

ffl>H

SZOl

UiII

CUl

fflUJ

IDO

rlOl

_ra

crH

OlUi

Olc

OJin

oi>o

E>

0>Ul

c>

CDUl

C.rH

_1TJ

Ol3

3Oi

_Ui

CL01

Win

3Ol

Sr-A

Ol3

Ul-r|

UH

ffl_

IDOl

UJ

UlHO

¦rirö

Ului

SZui

rH

TJCD

_:,u

uj

rH

l_|TJ

01ra

¦HOl

3tu

cCSZ

TJ<

IDÖ

tutUl

3

u2

_rH

01C

mCD

H•H

OJUl

ETJ

XITl

ui

3CD

UJ

c<

«ICH

TlCD

»LS

_rA

Olr|

01-1

NTJ

TJTJ

Nrl

Cc

cOi

tuiOJ

rlIIB

OlC

IUIx:

CDUi

33

0Ju

XI01

tri_.o

Ol>

OlUl

.*Ut

tn

_im

Mcl

inSZ

t-t-P

01Ul

cdU

TJin

UJ

ui

TJUi

CUi

r-lC

33

01¦r|

CD.TJL

_i

cn>

_.

Ulin

gu

OlOl

rH

¦rlUJ_

Ul¦rl

Q(0

¦rl-rl

TlTJ

CUl

(DUJ

co

Oiui

_:l/l

Ul•

rlOl

OiUJ

01cmm

_.rl

Ol•rl

-Utn

TJ-H

H13

Cc

CC

Tl•H

OlOl

HUl

_»

ui

t-l3

-0J

r-ASZ

SZU

JCra

•

OLI

01Ut

CTJ

raui

uj

injtv

COl

OlOJ

ui

•rA-rA

cooi

aUl

inui

-22-

11.2.3.3 Kanal- und Formant-SynthetisatorBeide sind ursprünglich für die analoge Schaltungstechnik entwickeltworden und verwenden wie der LPC-Synthetisator getrennte Anregungs¬und Klangformungseinrichtungen, unterscheiden sich aber in der Art derDarstellung der spektralen Enveloppe des Sprachsignals. Geschieht diesbeim Kanalsynthetisator mittels einer Filterbank mit steuerbarer Ge¬wichtung der einzelnen Kanäle, so arbeitet der Formantsynthetisatormit drei bis fünf Bandpassfiltern, deren Durchlassfrequenzen und Band¬breiten elektronisch veränderbar sind.

In den bis hierher erwähnten Verfahren ist die Grundidee zur Spracher¬zeugung stets diesselbe geblieben: In einer von der auszugebendenNachricht festgelegten Reihenfolge werden Sprachgrundelemente mitei¬nander zur vollständigen Meldung verkettet. Diese Grundelemente sindihrerseits in einem vorausgegangenen Arbeitsschritt aus naturlichenSprachsignalen gewonnen worden und liegen im Synthetisator abgespei¬chert vor. Die zwei folgenden Verfahren dagegen bilden den Artikula¬tionsvorgang selbst nach, das erste davon rein phänomenologisch, daszweite in seinen Einzelheiten. Wegen ihrer naturgetreuen Nachahmungder Artikulationsvorgänge ist es weder sinnvoll noch notwendig dieseVerfahren mit grösseren Grundelementen als Einzellauten zu verwenden.

11.2.3.4 Synthese nach RegelnAnhand von Messungen an natürlichen Sprachsignalen wird versucht festeRegeln für die beobachteten Phänomene abzuleiten, aufgrund derer füreinen beliebigen Kontext ein verständliches Sprachsignal produziertwerden kann. Nicht der eigentliche Artikulationsvorgang wird beschrie¬ben, sondern lediglich seine Auswirkungen auf wichtige und im Signalmessbare Grössen, wie etwa Formantfrequenzverlaufe, Art und Periodeder Anregung, Signalleistung usw.. Ein Vorteil dieses Verfahrens könn¬te möglicherweise darin bestehen, dass sich ein Teil der Regeln alsuniversell gültig herausstellt, und nur wenige der jeweils gerade vor¬

liegenden Sprache angepasst werden müssten.

11.2.3.5 Artikulatorisches ModellBeim Artikulatorischen Modell wird eine ganz konkrete Simulation desmenschlichen Sprechvorgangs vorgenommen. In einer ersten Stufe wirdder Artikulationsvorgang nachgeahmt, indem die Bewegungsabläufe derSprechorgane aus ihren mechanischen Eigenschaften berechnet werden.Aus der Kenntnis der momentanen Stellung des Sprechapparates lässtsich der Querschnitt als eine Funktion des Ortes bestimmen, der mass¬gebend für seine akustischen Filtereigenschaften ist. In einer zweitenSimulationsstufe wird dieses akustische Filter auf dem Rechner nachge¬bildet und sein Ausgangssignal berechnet. Die zu diesem Vorgehen not¬wendigen physiologischen Angaben werden Röntgenaufnahmen sprechenderMenschen entnommen.

N3dHV=ja3A3S3HlNASIH0vadS

Ö30

N31SV*aSrOSIDO-lOHdMOW

6'

Z'

C,J

ua-Ju.ej_i3/\S9)|g9eu96

;i9Qji/3pus63t|jOABip

jsnj

:„,

stposojd_t[;_LSuii|

ajapuosaqsui

•6unj_e>ija/\ay-ist}Bweiqojd

:dPua6ipa

ijjsqun

ai_i,tienb

=06issaeuiiioaMzun

:Q

apua6a-|

1-

(09)

I0

I

CET)II

C99)II

(69)I

0I

(99'09)0

I(I79'e9-T9)

I(Z9)

ainBii©zuL3

ifrg

-B-j

(81)I

dI

IiiMuaejyss

auotHdLQi

099

"BD

I-aqun

-I-

ueqi^sqieui

I00frT=<

II

IaiuawesjiiJOM

i-I

r

II

I-jaujaOM

I-l

jI

II

3_8ES

I

iaoiipua

-un

IMUse-iups

-aq

1lapoH

sa_s

ljo)

-Blflllt1JV

uia6ay

iupau

iasamuAs

illapon

-3dl

1iaP°W

-)ueujj03

1lapow

-lauiBx

Iaiuama

iapunrjr)

6unjaipoj

-ujjoî

-us/ijnx

iI6un[laisjea

I_s_bg

IjBinqB_A

IJ8nj

iS|(BU

[_zuv

IjBqpuaMUB

II

Is/»tq>1S,,3

Is/iiquj-

s/}tqi19I=

<I

aiejuaiBQ

i

llapoi.

Il

LSpOlftii

jGjBdde

-Od

.

I-lueuuoj

i-MOa__S

UJ

i

taßad

Iituu

i_6By

i6unpLiq

jap

ul

I¦jap

ul

i-;nei

jap

U34JEL|_SUa6

LS

ieußLS

uaie_j}visds

jap

3*1LULiosqe

-ieu6isja;jaL|0

-iadse6

Lt

sp

o(Aj

36u3s6joasi

6u

n

uo

i:ie

tnvi

lijy

iap

iB

Ljo

sn

I

aûaiua[apunjg

J9UL3ZU13

un;-._a>)je

II9q_ßj9p3LM

I1-

S13»

Lltl

Bun6na_rjeTne-j

ILOjno

iI

6unjdenuv|jeAx

I-,ne-i

i_!

1

-24-

Zusammenfassend können Sprachsyntheseverfahren in einem morphologi¬schen Kasten Fig.2.9 dargestellt werden, dessen eine Dimension von derArt der verwendeten Grundelemente gebildet wird, die zweite von derForm, in welcher diese beschrieben sind. Die mit Buchstaben markiertenFelder stellen unserer Meinung nach weniger geeignete Lösungen dar,welche entweder qualitativ nicht zu befriedigen vermögen ('Q'), Pro¬bleme hinsichtlich Verkettung und Betonung aufwerfen ('P') oder aberunzweckmässige Kombinationen von Nachahmungsverfahren mit grösserenGrundelementen darstellen ('U').Für Berichte über Verfahren zur Syn¬these unbeschränkten Wortschatzes verweisen die Zahlen in das Litera¬turverzeichnis, für Anwendungen mit beschränktem Vokabular gibtSickert [67} eine gute Marktübersicht.

II.2.4 FESTLEGUNG EINES VERFAHRENS

Unter den für die Synthese unbeschränkten Vokabulars überhaupt in Fra¬ge kommenden Möglichkeiten hat sich eine hinsichtlich Sprachqualität,Speicher- und Rechenaufwand, sowie Flexibilität allgemein als optimalanerkannte Losung noch nicht durchsetzen können. Die wenigen kommer¬ziell erhältlichen Synthetisatoren enttäuschen denn auch meist in be-zug auf Sprachverstandlichkeit und -natürlichkeit. Wir haben uns fürdie Verkettung LPC-codierter Diphonelemente entschlossen, wie dies inFig. 2.9 durch einen Stern * angedeutet wird.

Ein Verkettungsverfahren haben wir vorgezogen, weil diese weder aufschwierig zu erfassende physiologische Daten noch auf die bisher eherspärlichen, wenig verbindlichen und kaum allgemeingültigen Artikula¬tionsregeln angewiesen sind, sondern alle benötigten Daten dem Sprach¬signal selbst entnommen werden können. Diphone tragen auf einfacheWeise den koartikulatorischen Einflüssen Rechnung, welche auf einSprachsegment von den unmittelbar benachbarten Lauten ausgeübt werden.Ihre Anzahl und der notwendige Speicherumfang von ca. 300 bis 500 kbitbleiben vertretbar. Die Methode der Linearen Pradiktion LPC schliess¬lich ist eines der leistungsfähigsten Instrumente der heutigen Sprach¬verarbeitung. Sie ist mathematisch fundiert, eignet sich gut für digi¬tale Signalverarbeitung und liefert präzise Schätzwerte für die ein¬zelnen Sprachparameter. Als Modellierungsverfahren ermöglicht sie zu¬

dem die unabhängige Steuerung der suprasegmentalen Parameter.

-25-

II.2.5 DEFINITION DES DIPHONS

Das Diphonelement wird von Emerard {62} definiert als

das SprachSegment, welches den Abschnitt zwischen zwei benach¬barten Lauten samt ihrer gegenseitigen Beeinflussung in seiner

Mitte enthält, und dessen Anfang resp. Ende sich in der phone¬tisch stabilsten (quasistationären) Phase des jeweiligen Lautesbefindet.

Diese Definition wird jedoch nicht allen Lauten gerecht. Namentlichdie Plosivlaute enthalten in ihrem Inneren keine quasistationare Pha¬

se, in welche eine Diphonschnittstelle gelegt werden könnte. Dafür

geht dem eigentlichen Explosionsvorgang eine Verschlussphase voraus,wahrend derer kein Sprachsignal beobachtet werden kann. Die Definitionwird deshalb dahingehend erweitert, dass bei Plosivlauten als phone¬tisch stabile Phase diese sog. präplosive Pause aufgefasst wird.

Das folgende Beispiel zeigt wie ein einzelnes Wort aus Diphonelementenzusammengestellt werden kann.

orthographischphonetischdiphomsiert

"halten"[HALT6N][\H HA AL LT T6 6N N\]

-26-

KAPITEL III. DER GRUNDELEMENTKORPUS*************************************

II1.1 ZIELSETZUNG

Damit die als Grundelemente vorgesehenen Diphone überhaupt gewonnenund abgespeichert werden können, muss zunächst eine Sammlung aller zur

Synthese benötigten Lautübergangselemente zusammengestellt, gespro¬chen, aufgezeichnet, digitalisiert und schliesslich LPC-codiert wer¬den. Ziel des zweiten Teilschrittes innnerhalb dieses Kapitels ist es

deshalb herauszufinden, wie viele und welche Lautübergangselemente ei¬nem Synthetisator für deutsche Standardsprache zur Verfügung gestelltwerden müssen und zwar in dem Sinne, dass jedes einzelne Element not¬wendig ist, und dass sie alle zusammen für die unbeschränkte Synthesedeutscher Standardsprache ausreichen. Gewissermassen als Nebenproduktergibt sich dabei die Häufigkeitsverteilung für die einzelnen Übergän¬ge. Zuvor muss aber eine zweckmässige Lautschrift festgelegt werden,denn jeder Lautübergang ist beschrieben durch je ein Anfangs- und End¬symbol aus dem gewählten Lautalphabet. Diese Kenntnisse bilden dieVoraussetzung für die Konstruktion eines vollständigen Diphonkorpus,wie er im letzten Abschnitt dieses Kapitels beschrieben wird.

III.2 WAHL EINER GEEIGNETEN LAUTSCHRIFT

II1.2.1 KRITERIEN

Als Minimalanforderung muss von einer Umschrift für die zu untersu¬chende Sprache verlangt werden, dass sie zwischen den verschiedenenPhonemen differenziert, indem sie jedes davon durch ein eigenes Symboldarstellt. Ein derartiges Transkriptionssystem wird 'einfach phonema-tisch' {10} oder 'phonemisch' {03} genannt. Abweichungen davon sindnur in der Richtung möglich, dass auch stellungsbedingte Allophone undfreie Varianten genauer unterschieden und separat wiedergegeben wer¬den. Im Grad dieser weiteren Differenzierung unterscheiden sich dieverschiedenen 'phonetischen' Schriften voneinander, wobei die detail¬liertesten darunter hauptsächlich in der Dialektforschung eingesetztwerden. Für auf Verkettung abgespeicherter Grundelemente beruhende au¬

tomatische Sprachsynthese wird man einerseits aus Gründen der Speiche¬rökonomie nicht mehr Laute unterscheiden wollen als für die Gewährlei¬stung der Verständlichkeit erforderlich sind, mochte aber andererseitsein Signal erzeugen, das der natürlichen Aussprache möglichst ent¬

spricht. Es soll daher verlangt werden:

Die der Sprachsynthese zugrunde liegende Lautschrift muss stel¬lungsbedingte Varianten unterscheiden können, freie Variantensoll sie dagegen nicht berücksichtigen.

Diese Forderung stützt sich letzlich immer noch auf abstrakte Begrif¬fe, die nur über den menschlichen Intellekt zugänglich sind (Phonem,Variante, Minimalpaar usw.). Im Hinblick auf den Syntheseprozess ist

-27-

aber der Bezug zur physikalischen Realität der Sprache, d.h. zu den im

Sprachsignal messbaren Eigenschaften mindestens ebenso wichtig:

Mit demselben Lautsymbol bezeichnete Sprachsegmente müssen inihren Signaleigenschaften übereinstimmen, während zu unter¬schiedlichen Symbolen gehörende Segmente sich in mindestens ei¬nem messbaren Kriterium voneinander abheben sollen. Allerdingswird dieser Forderung infolge der in menschlicher Sprache feh¬lenden exakten Reproduzierbarkeit und der koartikulationsbeding-ten Veränderungen einzelner Laute in der praktischen Anwendungetwas von ihrer Schärfe genommen.

Mit der von einer internationalen Normkommission festgelegten IPA-Lautschrift (IPA: International Phonetic Association) lässt sich dieerste Forderung gut erfüllen. Ihre Anwendung auf die deutsche Standar¬

daussprache ist im Duden {03} verbindlich festgelegt, sodass minde¬stens die manuelle Transkription keinerlei Schwierigkeiten aufwirft.Aus diesen Gründen wurde sie als Ausgangsbasis für die vorliegende Ar¬beit gewählt. Zudem ist die IPA-Lautschrift auch für die Darstellunganderer Sprachen weit verbreitet. Vorläufig offen bleibt die Fragenach der zweiten Forderung. Wir setzen an dieser Stelle voraus sie seierfüllt, werden diese Annahme aber in Kapitel V. eingehend überprüfen.

II1.2.2 AUSSPRACHENORM

Als Aussprachenorm dient im wesentlichen die im Duden Aussprachewör¬terbuch 2.Aufläge {03} festgelegte deutsche Standardaussprache, diesich an der Sprechweise gehobener Gesellschaftsschichten aus dem Han¬

nover Raum orientiert. Für unsere Zwecke machen wir jedoch einige un¬bedeutende Abweichungen zugunsten der gemässigten Bühnenaussprache,wie sie noch in der 1.Auflage als Norm vorgeschrieben war. Diese im

folgenden aufgezählten Anpassungen haben alle zum Ziel Grundelemente

einzusparen, die Verständlichkeit zu verbessern oder die Transkriptionzu vereinfachen.

1.Ausschliesslich in Fremdwörtern auftretende Laute werden nicht be¬

rücksichtigt und zwar nicht nur zur Einsparung von Grundelementen,sondern auch um die Auswertung phonotaktischer Regeln in Abschnitt3.3 nicht in Frage zu stellen. Davon betroffen sind der Anfangslautim französischen "genie" und die Nasalvokale wie beispielsweise in

"salon", das im Duden auch als [ZA'LQ9] transkribiert wird.2.Der Duden schreibt den Laut [4] vor, für die Aussprache von:

"-er" am Wortende ("bauer" ['BAU4]),-er-" vor Konsonant ("anders" ['AND4S]>,

"er-" in Präfixen ("erobern" [34'<0;B4N]),:-" nach langem Vokal ("pferd" [PFE;4T]) und:" am Wortende ("haar" [HA;4]).

Wir möchten stattdessen die Bühnenaussprache gemäss Duden ({03} S60)wählen, also [6R] für "er", resp. [R] für "r". Damit kann der Laut[4] entfallen.

-28-

3.Wortfinal sieht der Duden sogenannte silbische Konsonanten vor inden Endungen:"-em" ("grossem" ['GRO;SM]),"-en" ("haben" ['HA;BN}) und"-el" ("löffel" ['L8FL].Dieser ebenfalls einer raschen Sprechweise entsprungenen Aussprachestellen wir wieder die Bühnenaussprache entgegen, die den Schwa-Lautzwar nicht betont aber auch nicht vollständig verschluckt, also[6M], [6H] resp. [6L].

4.Nach Duden wird die Endsilbe "-ig" als [IC] ausgesprochen ("einig"['A1NIC], "predigt" ['PRE;DICT]), ausser es folge unmittelbar diezweite Endsilbe "-lieh" ("königlich" ['K0;NIKLIC]). Der einfacherenTranskription halber wählen wir stattdessen immer die Bühnenausspra¬che [IK].

5.1m Einklang mit dem Duden aber für schweizer Ohren etwas ungewohntwollen wir an der Aussprache für orthographisch "qu" als [KV] undnicht etwa [KU] festhalten.

II1.2.3 VOKALSYSTEM

Das deutsche Vokalsystem umfasst sechzehn Einzelphoneme,

/1,V /!/ /!;/ /_/ /u;/ /2//E;/ /3/ /0:/ /8/ ,6/ /0;/ /Q//3;/ /a;/ /Kl

zu denen jeweils genau ein Allophon gehört. Dazu kommen noch dreiDiphtonge.

/AI/ /AU/ /Q7/

Der nur in unbetonten Silben auftretende Reduktionsvokal /6/, er wirdauch als Schwa bezeichnet, wird nicht von allen Phonetikern als eigen¬ständiges Phonem eingestuft, sondern teilweise auch als Allophon zu

/E/ gezählt ({21} S50).

Die Unregelmässigkeit wegen des fehlenden Kurzvokals zu /3;/ hat eben¬falls zu vielen Auseinandersetzungen in der phonetischen Literatur An-lass gegeben (für einen Überblick siehe {21} S53). Tatsächlich neigtinsbesondere der Deutschschweizer in seiner vermeintlich richtigenSchriftsprache ({10} S143) dazu, das System folgendermassen zu erwei¬tern:

/E;/ /3//_;/ /W/

Beispiele: /E;/ "seelen" "wenig"/3/ "wellen" "wende" "eitern"/W/ "wällen" "wände" "altern"/W;/ "wählen" "wähnen"

Wir halten uns in dieser Beziehung strikt an den Duden, und verzichtenauf eine Differenzierung zwischen /3/ und /W/, sehen jedoch in Kapi-

-29-

tel V. eine Überprüfung dieser Vereinfachung anhand der Signaleigen¬schaften gesprochener Laute vor.

Eine weitere Streitfrage in der phonetischen Literatur ist die bl¬öder monophonematische Wertung der Diphtonge ({21} S51). Im Einklangmit dem Duden fassen wir sie zwar als selbständige Phoneme auf, werdenaber aus den erwähnten ökonomischen Gründen sie als Übergange zwischenzwei Einzelvokallauten, also diphonisch zu synthetisieren versuchen.

Im deutschen Vokalsystem stehen sich im allgemeinen ein geschlossenerLanglaut und ein offener Kurzlaut gegenüber. Die IPA-Notation postu¬liert allerdings, dass die Unterschiede zwischen /A;/ und /A/, sowie

zwischen /3;/ und /3/ lediglich die Länge der zugehörigen Laute be¬treffen, also rein quantitativer Natur sind, was wiederum erst in Ka¬

pitel V. phonoakustisch bestätigt werden kann.

Es verbleiben somit vierzehn verschiedene Lautqualitäten sowie eindiakritisches Zeichen zur Quantitätsbezeichnung.

II1.2.4 KONSONANTENSYSTEM

Es umfasst für die deutsche Sprache neunzehn Phoneme,

/P/ /B/ /T/ /D/ /K/ /G//F/ /V/ /S/ /Z/ /5/ /X/ /_/

/M/ /N/ /9//L/ /R/ /H/

von denen unter Vernachlaessigung der freien Varianten nach Abschnitt2.1 alle bis auf eines eindeutig auf den entsprechenden Laut abgebil¬det werden. Zum Phonem /X/ gehören die Allophone [C] und [X] als stel¬lungsbedingte Varianten. Das stellungsbedingte vokalische /R/-Allophon[4] ist durch die in Abschnitt 2.2 getroffenene Aussprachekonventionüberflüssig geworden.

Affrikate setzen wir wiederum zum Zwecke der Speichereinsparung ausden beteiligten Plosiv- und Frikativlauten zusammen und interpretierensie auch wie Kohler [10} biphonematisch.

Weitere Streitpunkte, wie die phonematische Wertung von /H/ oder dieEinteilung von /J/ als Frikativ oder Halbvokal ({21} S62), bleiben oh¬ne Einfluss auf die letztlich für die Synthese massgebende Frage nachden zu unterscheidenden Lauten, wir werden lediglich in Kapitel V.diese Problematik nochmals kurz streifen.

Insgesamt müssen also zwanzig verschiedene Konsonantlaute berücksich¬tigt werden.

-30-

II1.3. EXISTENZ DER LAUTÜBERGÄNGE

III.3.1 ANSATZ

Kann eine Sprache mit n Lauten beschrieben werden, so sind (n+1) -1Lautubergänge denkbar, wobei das +1 von der Berücksichtigung des Leer¬lautes herrührt, das -1 von der Trivialität des Leerlaut -> Leerlaut-Übergangs. Mit den 34 für das Deutsche festgesetzten Lautqualitätensind somit 1224 Übergänge denkbar. In einer natürlichen Sprache exi¬stiert glücklicherweise nur eine Untermenge davon.

Für den deutschen Einsilbler hat Kohler [10} eine sogenannte Struktur¬formel angegeben, welche sich ohne weiteres in ein äquivalentes Syn¬taxdiagramm Fig.3.1 umformen lässt, das allerdings nicht bis auf seine

terminalen Symbole zurückgeführt ist. Die Bedingungen für das Auftre¬ten der einzelnen Konsonanten oder Konsonantenklassen an den jeweili¬gen Positionen werden vielmehr mithilfe einer stattlichen Anzahl von

Regeln ausgedrückt. Anhand dieser Regeln lassen sich viele Lautverbin¬dungen als inexistent ausschliessen.

Vo

Kc Kb Ka Ka Ka

Kb Kb Ka

Ka KaKa - Ka

0; 8 Q A; A KaVoDiKaKbKc

ein Vokal aus

ein Diphtong aus

ein Konsonant ausein Konsonant aus

ein Konsonant aus

1; I 7; YU; 2 E; 3 3;A1 AU Q7PBTDKGFVSZ5XCJMN9LRH

= Ort der Morphemgrenze

Fig.3.1 Syntaxdiagramm des deutschen Einsilblers

1sz

1c

ut

0)1

l«

1i

t1

Iai

OJC

rH

0>1

11

1X)

LJ

1..

11

C1

11

4-11

Tl1

x:c

-

c

_._

•Hc

03'rH

•H

H-.

Cc;

rH

4J

OiLi

3sz

u01

szc

3-Q

Oitn

esz

uc

tn•H

•H

LiCU

Li•H

CUC

Liu

cuc

cu<-t

fflXZ

XTJ

-»Jc

_EÄ

3x:

a»d>

•H

4-16

fflin

x:_J

CU•r4

oOl

-.

¦rlOl

Li3

Litz

inUH

¦rl-3

cTJ

Li

_

_

_

x:tu

U-tU

4-1

§Li

e

_

_

CULi

-

CUffl

13>

4J

•H

01XJ

COHOH

U3o

_0)

ce

CUu

o><u

4J

34-»

fH

STJ

(Uo»

utja

c•H

sC

o*

j_:OJ

tnja

cJ=

01c

10•

01a

OiCU

ffl_a

•H

OJ_<

Li4-1

N4J

fflXJ

'O•H

££

^h

rH

cuCU

U4-J

Cffl

•rA•rl

dlM

=1_

tnin

•rA*J

LI

rH

•rJ.c

4-J4J

:3rH

o»u

CUUl

f.

.

x:C

CU

3EÄ

•h

3a>

SZÄ

TJ(U

<UM

CU4_>

¦0rH

•H

1001

Oi01

10SZ

Xsz

tn_.

3>.

UlOi

*J

:3•rA

•Hcu

sctu

HH

Cl)N

CPU

•H

c•H

cc

o10

¦o_

X)c

Li•rl

010J

10tn

LI

N(U

C:0

CLi

CE

OOi

CD«_4

.

0)*c

cuin

4->ai

•H

TJIffl

oc

_tOl

uOl

OJ01

LIcH

310

01•rA

4JH

QJS

0)TJ

•H

cE

CD4-i

•H

_:-•.__

in«H

SZai

u•H

o(U

iHJ3

ja+J

OiCK

•rlsz

inUHC

tuOJ

CPc

ine

cuffl

CX.

C.•»•H

4->•H

TJx;

¦oU

tnr-H

•H

_c

co

3Li

SZ_;

LI

inOJ

0)0)

3•H

TJifl£

Up

C.*_-

0)CU

TJ£

ffl_<

tn(U

uc

Q,10

j«:01

s01

01•rl

0110

01O

OlX

cCO

x:CU

TJ<

rHa

3U«

TJ__£

Li-

CUCP

_)c

Ul(U

•H

szUH

oin

ja0J

_LJ

•rH01

cu0)

cu4-1

LiCU

3N

Ul4-1

TJ£

t.£

CUTJ

TJLi

•H

Ctu

inc

>J_

Vc

01tn

13c

j«:01

XLtO

UH

EhOi

cH

*H

3X)

-3

f.M£

•r.*H

ffl_c

LiCU

J-J(U

4-»rHM

ccu

•rA•H

.0J

¦LI_••H

Olu

Di01

0)tn

3•H

0)N

(U_r

li01

MCU

<u0)

(Uu

3*«4-1

__

•H

a•-<

rH

<Uffl

0)o

ctu

~A

01N

•H

r-A3

01c

01•rl

EhHH

rH

troffl

tn4-»

0)3

0)c

OJ4-1

Qtn

£0

x:3

£Sc

OXi

133

Li:*.

•r.

t/1SZ

Qo

103

.0J

Liio

sc_01

Vitu

J_|I.

LiC_

3>

KC

fl

.

uIffl

i—t0)

>rHO

N4J

»Ih

CUtu

uN

10£

_1sz

inN

LilO

sz3

•r46

0JOJ

4Joj

mEj

:3+J

inX

r-tin

_j•H

«Lt4-t

(UTJ

_c-rH

«0c

tnLi

utn

01S

-Ol

uN

Li•H

4JOl

LiLi

EOl

•r.

0)<D£

»in

LiC

3•H

_

cQ

tnifl

o01

oio

0J0J

XJs

Li•rl

4-1«-I

CULi

O0)

i3u

x:3

£-U

.H

utn

C0)

•H

•*(U

34J

OlLi

-

c-

UH

Lic

CLi

szrH

in3

•H

ON

Sc:*

LiLt

L)CU

curH

T3£

S3

L.•H

rH

OJs

x:10

CbCM

01Li

01•H

c01O

rA

LiTJ

4-10)

fflTJ3

CUin

CUffl

H-C

N01

CU£

CUCU

V)CU

DJJ3

inin

o+J

cu

C4J

ijCM

•rlX)

Um

01OJ

XIUH

13c

•H

J_Li

_a3

rH

4-1S

rH

U1-J

O»Cn

3s

OiQ)

TJrH

fflm

tn0)

Ma>

rH

OJi

CLI

CXI

A-l3

Sffl

4J

Liffl

<c•H

Ul4-J

^H

CU£

(U-rA

SZOi

CU

__

ffl6

•H

__

TJin

CP3

ja•H

«LI

3ja

rloj

a¦0

10C

TJUl

0fE

uiiE

OlUl

-4.o

«Cl0.

U•H

inu

Ll•O

_;TJ

0Jdl

Oiu

cc

Oi01

rA

0)M

3LJc

£4->

0)•H

c__

•H

fl]OJ

tn

l-iOi

tT>Q)

fflffl

0)Li

*H

4->3

+j

3Ol

sztn

4rl01

•rl0J

J3Li

m_!

01li

•rA(U

Ulc

XZUl

X.cu

C4J

TJN

fflLi

Ul£

CLC

LiXI

X"rH

uC

mCP

4J3

u_

t-l01

+J•H

o13

.cSZ

rlO

tn§

E•4-1

Li•H

VCP

H4-1

x:_>

L|3

.3_.

ai0)

3-.

_a(U

_

CPCU

ECU

UlN

1013

m3

¦LI_

cr-l

•rAUH

UlU

LI

0Li

3CU

CU¦rA

cSc

uUl

ffl4-1

CU£

3JQ

(/)LiW

LiU

SZCUs

•H

4J3

UlC

_•IH

[_01

Li01

01r-t

01•rA

tn_

Q.c

offl

vi3

CUin

Ulc

_

c0)

__o

(U0)

3ffl

fflOi

inm

Li•H

«a

10H

XJOJH

Oi_!

.

LiXI

¦H

0JE

•H

_.

c4-1

rH

CPM

•H

•r4CU

HÜ>

ffl•H

•r.

CCO

cc:

mLi

C!CU

CUui

¦aX

3c

Li01

Ol_

XIo

<UOi

CU«

0)•r4

0)4J

Sc§

4-1H

oij»;

TJm

£ffl

=fflcu

in

c•r.

CU«1TJC

OlTJ

tuLi

Li0)

:_DOl

aiFH

szOi

01rG3

•G10

01a

c(_

CU3

LiE-*

U4-J

_:h

¦H

Oi¦H

».ai

>~tTJ

o>CU

Li0)

OOi

Ulc

cJ<

o1/1

J=u

UXI

jaOl

-I

c•H

CULi

3U-l

4J

X.OJ

LiLi

c¦P

fflLi

C

.

UCU

Litn

4->>

cuLi

fflHO

0Jc

ztn

3o

•H

Em

10¦H

rH

O3

0)CU

CU4-1

3ffl

LiUH

0)0)ja

60)

<*.C

ffltu

TJs

>CU

ffl4-1

CUtn

£w

uj0.

SO*1

>.ffl

:3«4H

3•r-l

4-1Ul

Liu

oUi

o:1/1

r-Ai

C01

Li3

1001

Ol4-1

cc

UlLi

x:tn

cLi

Iflrl

3CU

ÜlLi

Li0)

.

.

4->e

XOi

(UOl

tn

sz[_

tn

_;sz3

•r|Li

«0u

Nt_

jaCP

cL|

(UCU

4-14-1

•rACU

-H

CU4J0

_<:4->

CUH

Li3

x:tn

0)c

4-JLi

X!U

uo

10•rl

u01

a3

•rA•C

H•H

0)Oi

CPLi

•H

Mer

LiCU

><

TJ._

.H

cuCU

0)

_

_

0)ffl

uc:

c.EH

3¦H

<Ua

3m

LI

10t/1

3&

C•1

01to

£>

c.c

CU0)

cuc

CUc;

£c

_.

o>sz

4-J

.

c>

?J3

cu3

Ul0)

_.

+j

01_:

tnLi

tutn

01m

_;x:

CUc:

3iffl

4-JJSt

>3

£4-1

0)•H

3(0

uffl

u•H

4->Q)

fflo>

Cin

SU

p¦o

01rJ

-H

CL_

010J

J3rH

UIh

0)Li

TIX.

Li0>

I-IrH

•H

•H

4-JC

J-tui

in•r-l

CU3£

LiLi

c4-J

0)a>

•H

10Ih

LI

tnIh

cc

c0J

._¦in

01Li

4J

<UC

c'O

•

.

CUo

CUE

4J

fl)^

•*x;

cuUl

i-Hi-H

fflU

HCU

CU3

in4->

•H

L<rH

_1

01m

Ol10

in01

01•H

0JLI

_.

Lic:

CUCU

X.•H

<u2



-M

inx:

r-t0)

CPM

_l_]

sz_l

Ols

•H01

0Jtn

tn10

01c

TJ4J

LiCJ

xj3

_

_

Lix:

CLi

(M

Li-1

_

•

.

LiCU

iffl

0)^

0)ffl

inX

LiTJ

CU

_

o•HU

"_4->

-Q03

tnffl

<U0)o

se

"_SZ

tnin

cc

01-t]

aOi

Oi01

•rA3

01N

01LJ

x:H

MLi>

Ultn

?rH

ui3

E1-

£0)

4-JC.W

CULi

inM

Ul•H

01c

tnOi

Lic

ec

Li3

LiOl

10C

-U

SZu

CU13

3¦H

CUO

-H

Litn

nE

O3

Li•rH

fflCU

i-HCr»

0)3

\nQ)

3CU

x:tn

•rlrH

co

Oi3

3c

10O

OiQ

OJLi

u•H

Li4-J

_JCU

N*_

•H

34J

t33

Url

30

TJ4->

inXI

Mffl

4-1ffl

ffl4-1<

aiin

103

zc

XI01

Siin

3Li

XIO

•rlc

0)Li

fflc

CUTJ

M4J<

3Li

>4-J

CU(U

NC

+J

TJE.

0)N

0Ol

XI_1

10c

cc

Ns

U3

cXJ

iOC.

cuLi

Oi•

_•CU

fflfflO

£4-»

3(U£

.

HC

C_3

5.3

-H

IMS

r-l•rA

cEh

UH

•rl10

r-le

0)4-J

C3

4-1CU

*4-fC

-HH

CQ)

¦HN

in•H

uCU

rH

CUCU

CU»

<UrH

SZ•a

•.

r|_:

Eja

a01

0101

•o_01

301

XJX.

<Dc

T-\TJ

30)

TJUl

Ulo>

ecn

TJ•H

cnffl

sz+J

0)H

TJe

4-J•H

uOl

ja[_

3u

Li3

LI

LI

-LIs

Oi¦rl

cu

CT0)

cu01

cffl

TJE

VIQ)

CUU

¦HU

ffl£

0)tn

C!C

*r4X.

0)1/1

IhOi

rH

301

01tO

tnin

301

oinQ

3•H

c•H

Ull/l

_

¦rAo

S0)

fflN

CUrQ

0)

_

LtW

Ol•H

•HC

•H

4-1•H

0113

cOJ

Ul>

üLI

>101

3N

[_Li

imQ

inin

JtfTJ

sOJ

CTJ

Liffl

13rH

_|

_

cuCU

_JLi

>:CU

otn

Cn•H

•HXI

ÖlUH

ml>

_1LI

+J

+J

min

.J

_01

CU.SZffl

ffl(Js_

H0

_

tn__

0)C

¦HOw

>c

+JE

1/1tn

•*10

310

in01

tn01

Oi••

rH

cUl

CE

rHO

„-H

tnfc

ifflÜ

U•H

iD

0^¦H

CU>

Liin

3tn

Ih3

01Li

Ih-C

10SZ

tn

UH

c>

LiC

rH

H0)

4-1<u

r-iLt

•H

4-1•

¦H3

TJs

_a

X.m

TI£

CUjC

cu3

CUTJ

0)TJ

•H

10X

OJOl

Nrj

10o

Li0

orl

01Oi

c•H

CUCU

•-fc

X)4-1

fflfi

intu

Ul'ffl

+J

tn•H

C.TJ

-H

CX}

Cs

cja

+J

¦oc

•rl0J

+J>

_;01U

cuCU

Ol*->

4-10)

cuc

rH

*•r.

Li>HO

CU¦<-

S4->Ol

di4-J

3O»

S

_

_

(UTJ

c.TJ

•H

3r-A

1013

Oim

u_

Ol01U

rA

J<¦H

-LiSZ

_34->

•H

XZU)

TJ-Li

•H

X.4->

cin

CUffl

Liffl

uc.

fflC

fflXI

4-1c:

tu_u

tu0)

tuc

LJ

Q.10

tutn

*u

_T3

c.Ul

Lic

UtnC

_sc

ffl_4

OJin

m0)

fflx;

fflc

x:CU

Ol3

x:01

u10

01M

Ol•H

J3•H

01Li

•rA•rl

3J>

5501

J«M>

CUSE

_4

x:4JE

OJH

fflOJ

r-t4-J

>in

TJ_D

tnO

J.u

_c•^

fflu

f_t/1

_lJ3

rH

s01

UC

_äJ£

UH

XI-M

1IH

o<s

s_TJ

XI3

TJ

-32-

Fassung verwendet worden. Es enthält keine Fremdwörter und ausser demNamen der Titelheldin keine Eigennamen. Auf einmaliges Auftreten sindbeschränkt worden: 'Schneewittchen[s]', 'Königin', 'Spieglein', 'sie¬ben', 'Zwerg[e[n]]', 'Zwerglein'. Dermassen beschnitten enthält derText noch 13801 Lautübergänge verteilt auf 2707 Wörter. Sicher istdies eine schmale Basis, um daraus allgemein gültige gesicherte stati¬stische Angaben über die Lauthäufigkeit abzuleiten, immerhin sind aberbereits knapp zwei Drittel aller deutschen Lautverbindungen darin ent¬halten. Zur Überprüfung phonotakt'ischerRegeln in mehrsilbigen Wörternhat sich dieser Text jedenfalls als genügende Grundlage erwiesen. DieHauptarbeit bei solchen Auswertungen besteht nicht in der eigentlichenAuszählarbeit, welche ohnehin mithilfe eines Computerprogramms erle¬digt wird, sondern vielmehr in der Eingabe und Transkiption des Tex¬tes, welche absolut fehlerfrei sein muss und daher nicht automatischvorgenommen werden kann.

II1.3.3 PRÜFUNG UND AUSWERTUNG PHONOTAKTISCHER REGELN

Gemäss dem Ansatz aus Abschnitt 3.1 sind die phonotaktisehen d.h. diegegenseitige Berührung von Lauten betreffenden Regeln des Einsilblersanhand der Textauswertung daraufhin untersucht worden, ob und gegebe¬nenfalls inwieweit sie beim Übergang zum Mehrsilbler Gültigkeit behal¬ten. Es folgt eine Zusammenfassung der auf den Mehrsilbler anwendbarenRegeln. Die sich daraus ergebenden Einschränkungen für die Lautüber¬gänge sind in der Ausschliessungsregelmatrix Fig.3.2 mit dem entspre¬chenden Buchstaben markiert.

Muster fuer die nachstehenden Ausschliessungsregeln:

x.betrifft damit neu ausgeschlossene Übergänge #Regel

a.finaler Vokal 5Es kommen nur lange Vokale oder Diphtonge in wortfinaler Positionvor ({10} 6.1.3.1), zusätzlich ist der im Einsilbler generell nichtvorhandene Schwa-Laut möglich, ausgeschlossen sind also die nur kurzexistierenden Vokale [I], [_], [2], [8], [Q].

b.finaler Konsonant Ka 6Die Auslautverhärtung ({20} Nr.119) bewirkt die Entstimmlichung al¬ler Ka im Auslaut, sodass die Plosive [B],-[D], [G] und die Frikati-ve [V], [Z], [J] final nicht existieren.

c.finaler Konsonant Kc 1Wie aus dem Syntaxdiagramm ersichtlich ist Kc nur unmittelbar vor

einem Vokal möglich, also sicher nicht final. Da Kc nur einen Konso¬nanten umfasst, entfällt lediglich das finale [H].

d.Vokal -> Vokal 169Definitionsgemäss enthält jede Silbe genau einen Vokal oder Diph-tong, vom Einsilbler lässt sich also nichts weiter über Vokal -> Vo¬kal-Verbindungen ableiten, denn sie bilden (ausser innerhalb derDiphtonge selbstverständlich) immer Silbengrenzen. In zusammenge-

-33-

ECCCCCCCCCCCCCCCCCCCC

oj oj oi _t_i_tc_<_>_fi>_i_i

•¦-_ d d o _ _

Cü. .D. . .€HD. __

Ü.D.. ..D.uOüuTj

DDDDDDDDDDDDDD

DDDDDDDDDDDDDD

DDDDDDDDDDDDDD

Du D D -DDÜDDUOtJ .

HD .ÜT3 13 D . DD DDDU

D D D D D D

DDDDDDDDDDDD D

DDDDODDDDDDDDD

DDDDDDDDDDD DD

0) 0)

Ol Ol

Ol 0)

0) 01

Ol 0)

Ol Ol

0) 0)

Ol 0)

0) Ol

0) 0)

*_

DDDDDDDDDDDD

HHS>jCVlUinO_00<lDü.lDhO^ÜII.>l_NmXÜT2Z.JQ:r

-34-

setzten Wörtern (z.B. "seeufer" [ZE;<U;F6R], "frühauf" [FR7;<AUF]>und Präfixbildungen (z.B. "beachten" [B6<AXT6N], "geöffnet"[G6<8FN6T]) trennt der Glottalverschluss die Vokallaute voneinander

({03} S40). Bei Suffixen wird dagegen kein Glottalverschluss einge¬fügt, sodass es, allerdings selten, zu Vokal -> Vokal-Übergängenkommen kann. Suffixe beginnen aber mit einem der Vokale [6], [I],[2] oder einem Konsonanten ({03} S21) und können offenbar nur an

diejenigen unter den Vokalen angehängt werden, welche final möglichsind (cf. Punkt a) ausser an den Reduktionsvokal Schwa, sodass

letztlich nur noch die Paare in Frage kommen, welche mit [1], [7],[U], [E], [3], [0], [0], [A] beginnen und auf [6], [I], [2] enden

(z.B. "mähen" [M3;6N], "Vorsehung" [FO;RZE;29]). Da Diphtonge als

Übergänge zwischen zwei Vokalen synthetisiert werden sollen, müssen

sie ebenfalls zugelassen werden, womit 169 von insgesamt 196 Vokal-> Vokal-Übergängen entfallen.

e.Allophone von /X/ 34

Allgemein gültig bleibt die Wahl der stellungsbedingten Varianten

[x] und [C] des Phonems /X/ in Funktion des vorangehenden Lautes,nämlich als [X] nach den Vokalqualitäten [u], [2], [0], [Q], [A],als [C] nach allen anderen Lauten ({03} S76).

f.Vokal -> Konsonant Ka 15

Die beim Einsilbler stärkste Einschränkung, postvokalisch keinestimmhaften Ka ({10} 6.1.3.2), kann offensichtlich nicht in dieser

Allgemeinheit aufrechterhalten werden (z.B. "möve" [M0;V6], "dane¬ben" [DANE;B6N]). Wird sie allerdings darauf eingeschränkt, dass

keine stimmhaften Frikative [V], [z], [J] (Untermenge der stimmhaf¬ten Ka) auf kurze Vokale folgen ausgenommen auf den Schwa-Laut (Un¬termenge der Vokale), dann scheint ihre Gültigkeit auch auf mehrsil¬

bige Wörter ausdehnbar zu sein. Stimmhafte Plosive sind dagegen nachKurzvokalen belegt (z.B. "flügge" [FLYG6], "schmuddelig"[5M2D6LIK]).

g.Konsonant Ka oder Kb -> Vokal 33Im Einsilbler ist prävokalisch jeder Konsonant möglich ausser [9]({10} 6.1.3.2). Wiederum mit Ausnahme der Suffixbildungen (z.B. "be-

dingung" [B6DI929]) trifft dies auch im Mehrsilbler zu, womit 11

Lautverbindungen verschwinden. Weder bei Kohler noch im Duden findetsich allerdings ein Beispiel eines deutschen Einsilblers mit prävo-kalischem /X/. Folgerichtig fehlt dieses Phonem auch in Scholz' Li¬ste ({20} Nr.70) der (bezüglich des Vokals) linksstehenden Konsonan¬

ten. Im Mehrsilbler sind [X] und [C] nur in der Diminutivendung "-

chen" (z.B. "häuschen" [HQ7SC6N]) und in Suffixbildungen (z.B. "mil¬

chig" [MILCIK], "Versuchung" [F3RZU;X29]) prävokalisch möglich, in

Komposita interveniert wie bei den Vokal -> Vokal-Übergängen der

Glottalverschluss (z.B. "fachausschuss" [FAX<AUS52S], "kriechöl"[KR1;C<0;L]). Um auch Fremdwörter abzudecken, welche als einzigenoch Träger von Übergängen des Typs /X/ -> Vokal sein konnten, tref¬fen wir folgende Konvention: Prävokalisch in griechischen, hebräi¬

schen und arabischen Fremdwörtern wird "ch-" als [K] statt [C] oder

[X] gesprochen (z.B. "Chirurgie" [K1R2RG1;], "cheops" [KE;QPS]), in

französischen, italienischen, spanischen und englischen Wörtern istohnehin [5], [K] oder [T5] vorgesehen.

-35-

.¦.OHO(NOHooo(.a_'H(.o(.oHOHO'toc.c.,ioôHHino

Ol OO*.OCJO01O_IOOOO_)OOOOOOOOOOOOOOOOOOOOOCM CO

_._>tiCNrioNo_aiHinN_HHn(i)r>inoHOrtHnQH(OriiDa.ooi co r- HSrH<tm co co ¦. co co

-i .» ^ mnl^l_N'l^^tomrlHHn_tDHO-OHo.OHotNHOH._|nHoocnim r.HH -iinro ^

^T-iO'-ioooooooHoomHoc.O'.O'HorMOHoooHc.oHmocn

ONN._OOOK)ONOOOO_OOOÔHOnOHOOO_HO_inO

0000010-.OOOOC.- <oooooooooooooooooooooCM Ol

in ^_I_H(.^-lH(.or.olN(n^_o(0O'Ô'-|a'ô•^l.HO(._N[._aH rH rHCN

n inoionoNO.Hino.oNior.ot.oc.O'-iQsooi.HaNCHr.i.o

.oCD Ico a

P.nOMOOO_O(-O0OM^_Ol0OnOHOOO01NfMOHri(i)H(i)O

XUJ 2

raa uj

? _

O D-1 IL Za oou cc_• tu r_

OD 10uj 2 r-.-1 DM ZIL II

QCC ZO •. D —IL O O Ol

*tf IL OlV) CO 0)iü inM II UJ O<_) Q Z r-Z UJ OUJr-IÜ3 < Cl UJO D m HIU JOhCC < 2IL > r- r.

UJ U _lUJ Zz tn •- ujo o t- ccIii.<0. O r-.m 3 amQ UJ

IL U- r.

UJ oour- Zd or er tuJ UJ UJ 3O (D Q_ OW 2 2 UJCD D D tr<ZZIL

._H.OHHWNHOnH(JinrlC)HOHO_OHOHHHONNH(\^0•.«¦¦- CM ¦* H

_(.NC.._riHCO(\l^lD._^HOfiQHO'-iO(.OlIlHHO(.HHO(t)oro *¦ 1 CN in

*v

ocoooio_ioc_-.ôôtoo'._icMo*coir)^rH^fsjoco'-^ôoc_*.o¦H CO f. O CO CD CO N CO H rH CO inHCMCO^J-

r. CM CN -* ,-1

OOOOOOOOOOOOOOOON.NNNHIDO.OOOlDin.ONO.co h <* ¦

_ m to cn cn co h r- -h r-t m m -h •. aiC0 H H ^ r4

OOOOOOOOOOOOOOOCMf-COtOCMHcDCO^'COCOOOHrHr-iotDOCOH rH *J [M r-t

COOOOOOOOOOOOOOOHHHHinr.CM-Hr-t-ir.oOOHHO'.H-i

COOOOOOOOOOQOOOOHtOUl-ih-'-iHHrHr-ioiOOOHtOOlOCNCMCO rH

3 CO C

inooooooooooooooHcoHocM-.maiiNCDcoooco<tcDoooNinCO H CN H rH H

^HOHOCNOHrHHOÔHOnr4^C_CO^-tO_.-HtO^HtDO)COH|-^rHN H CN rH H

_oooooooooooo.OHNma)rtcoHiD...oo_Hir)OH<nnin «H CO H H H

HOOOOOOOOOOOOOO-HNlDNnn.NHCiHOO'iHNOMflPJ

COOOOOOOOOOOOHOOHHtDHCOCMinCMHrHrHOO'.r.OO^CDrO•H CO H

0<OOU.OCOOOCMrHO-.00)'*'*OHOOOOOCOOCJIHtDoincOlDOCNOCO CO H *|- «t (D CM CD CO ID CD -UDO) -< •- ¦. 0) UlCM CO Ul CO H f_ CO

¦<N>DCNUJC0OC_OO<tDÜ.lDHO_:O-->-0NU-X_'~)2Z0)_l0_I

-36-

h.Konsonant Kc -> Vokal 1Im Syntaxdiagramm des Einsilblers kann die Kategorie Kc, deren ein¬

ziger Vertreter [H] ist, nur vor Vokalen ausser dem Schwa-Laut auf¬

treten. Diese Eigenschaft bleibt offenbar auch im Mehrsilbler beste¬

hen, sodass die Verbindung [H6] entfällt.

i.Initialer Vokal 1Von allen Fällen, in denen ein orthographisches "e" als Schwa ausge¬

sprochen wird, bezieht sich kein einziger auf den Anfang eines Wor¬

tes ({03} S80). Da aber ausser "e" kein Buchstabe zu einem Schwa-Laut führen kann, bleibt [6] als Initiallaut ausgeschlossen.

j.Initialer Konsonant 3

Der Laut [9] tritt morphem- und damit auch wortinitial nicht auf

({10} 6.1.1.4.4). Als Folge der Konvention in Punkt g sind zusatz¬

lich initiale [C] und [X] ausgeschlossen.

k.Vokal -> [9] 6

Allgemein gültig scheint die Einschränkung zu bleiben, dass der Laut

[9] keine Langvokale vor sich duldet, womit die Paarungen der Vokal¬

qualitäten [1], [7], [U], [E], [0], [0] mit einem nachfolgendem [9]ausfallen.

1.Vokal -> Konsonant Kc 5Im Syntaxdiagramm des Einsilblers tritt [H] nur in initialer und zu¬

gleich pravokalischer Stellung auf. Im Mehrsilbler kann es daher nur

morpheminitial stehen, das heisst dem Leerlaut oder einem morphemfi¬nal möglichen Laut folgen. Wie vor den stimmhaften Ka in Punkt f

entfallen somit alle kurzen Vokale ausser Schwa, welches am Ende der

Präfixe "be-" und "ge-" steht, sodass sich 5 weitere Verbindungenerübrigen.

m.Schwa -> Konsonant 2

In der betonten Hauptsilbe mehrsilbiger Wörter tritt der Reduktions¬vokal Schwa ebensowenig auf wie im Einsilbler ({10} 6.1.2). In zu¬

sammengesetzten Wörtern (z.B. "liegestuhl" [L1;G65TU;L]) und Präfix¬

bildungen (z.B. "belagern" [B6LAG6RN]) folgt ihm immer die Morphem¬grenze, sodass die nach Punkt j morpheminitial ausgeschlossenen Kon¬

sonanten [X], [C] und [9] als Nachfolger nicht in Frage kommen. Die

Verbindungen [6X], [6C] und [69] wären demnach nur noch innerhalbunbetonter Nebensilben möglich. Allerdings konnte dafür kein einzi¬

ges Beispiele beigebracht werden, auch die Liste deutscher Suffixe

und Suffixfolgen ({03} S21) enthält keines. Es wird daher die Regelabgeleitet, dass auf den Schwa-Laut nur diejenigen Konsonanten fol¬

gen dürfen, welche morpheminitial verwendet werden können. Mit den

drei genannten Verbindungen entfallen zwei weitere mit den bisheri¬

gen Regeln noch nicht ausgeschlossene Lautübergänge.

n.Konsonant -> [9] 20

Sämtliche zwanzig Übergänge entfallen, weil der Laut [9] postkonso¬nantisch ausgeschlossen ist ({10} 6.1.3.9).

-37-

« o> <WS

O t/1oulu.-zoOOr a

z a uj

o s

00 cc uiWHIH £D

a_ coWS*. H_l D Dm z m

QQ_ Z OOSD -

ILOOOIIUr~ u. Ol >

(_ CN 0) OLU </) (DH II UJ O IL > H m

uj cj _i erUJ z OZWHIUILOQ \~ CCr er v) < ^

ao-H i

m 3 Q LOQ UJ OILlLHh

UJ O O CJ> Z r-

ih tr er uj ujh- UJ UJ 3 .</>< m a_ o-J 22 UJ QUJ D D er zer z z il <t

X 01OOOOOOOOOOOO--iHOOOOOOOO--iOOOOOO'HOO'-"O

Q- 0J(nrJrtrlrlH<J_r1OH(.S.(SHHrlrlrlÔOOÔOOOOHOÔ

_J ^rHrHHOrHrHHHOO^'H(-JCMO'H'HO'-'--<HO'-lO-HOOOO'-HOO'-IO

Ol OOHOOO'-'O'HOOOOHOOOOOOOOOOOOOOOOOOOOO

z iDHuiririHNH[MniHHHii)rj)oooHrHO'<oooôooaHo-iârHIIIHI II CM III I!

s [0rHrHrHO--iHr-irHOOO'-i-.CMOO-'OOO'-«OHOO-HOOO--<OO--tO

-> rHOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

U O-Hr-rHOOOO-HOHDOOO-HO'-iO'-iOOO-iOOOOOOOO'H'-tO

x: OOOOOHOOOOO-hh<,000000000000000 0 OOOOO

in ooHoo-<ooooooO'HrHrHO'Hoaoooooo--iooO'-<0'H'-io

N t0rHo--'0*HO--<OHO'-ioO'Hooooaooo'HOOO*-ioC'--oO'-'o

y-, 0-H^Ô_H01flHO^H_HrlO(I10HOHOOOOOOOOHH_HC

> COOOOOOO-HOOOOOO'-IOO'-IOOOHO'HO'-'OOOO'-'OO'-'C-H 1 I III I'

IL C0HrHoO(NO-HOO-HOHrHHHOrHOOOOO'-'O'-iOOOO'-tO'-''-iO

O CDHHOO'HOH-HOOHOHHrHO'-IOOOHOHOOOOOO'-IOOHOI III IIIII II >

z£ c0rHrHO'-irHrHrHHOO'-<--i'--'-*OOOOOOOOOOOO'-iO'-<^,-iO'-'O

Q CO'-IO'HOOO--IOOO--IO'H'-IOOOOOOOOOOOOOOO'-IO'H-HOCM I IIII

'

H r^CMCM-H^HrHrHrHrHOHHCNCM-HOHOCMOHO_10CNCMCNO--'CDO'-'-0

m NrHOHOHO-.HOO'-iOt0-ioO'-<OOO'-iO--HOOO'HO'-'OOOrHO

a ,HrHo~i*-i'-iO'-<-<oO'HH.Hoooaoooooaomooo— oo-h-ho

CD oÔÔ.HO-H^ÔOOÔ-H_)COCO-H(SHOCO^^'--'-tOCNr---i'.CMO

< OlOOOOOOODOOOOQOHriNfjuilrtrtairi.HOO^BNO-ttl.

O HOOOOOOOOOOOOOOOHrHrHHHCNrHrHrHOOOO--<^0"-t-H^

O rHOOOOOOOOOOOOOOOHHOrHOHrHr-ifOHOOOOOOHHrH

co rHooooooooooaooooo-.O'-ioaoooooooooO'.oo

O 0O00000000000000HrH0.i00000CN0OO0O00-.rH

CO l-OOOOOOOOOOOOOO-HHrHrHrHHHrHrHHrHOOHrHHO'^'^CNUJ CMOOOOOOOOOOOOOOOHrHrHrHrHHrHOHrHOOHHrHO^HH

CM rHOOOOOOOOOOOOOOOH-HHrHrHH-HrHO'HOO'HrHHO'H'-,'H

3 OOOOOOOOOOOOONOO'HO-iO'-0'HCMrHrHOOO*-'HOrHHrH

> oOOOOOOOOOOOOOOOOHO'-tOHO'-tO'HOOOOOO'HOHIIIII II

r- HOOOOOOOOOOOHOOOOHOOOHOOOOOOOHrHOHrHrH

M CDOOOOOOOOOOOOOOHrHHrHrHrHHHrHCMOOOOHCNO'HHrH

«h cOOOOOOOOOOOOOÔ-iO-»NOOHCOHiDOOOO'HÔCMHrH

^ hmi_>3Cmijjcoomoa<cDQ.__r-Q_:oiL>i-ONinxu-)2zoi-Jcrx

-38-

o.Konsonant Kc -> Konsonant 18Ebenso sind alle Verbindungen von [H] mit nachstehenden Konsonantenunmöglich, da offenbar im Mehrsilbler wie im Syntaxdiagramm des Ein-silblers Kc nur prävokalisch auftritt.

p.Konsonant Ka -> Konsonant Ka 78Im Einsilbler sind Übergänge zwischen Ka nur dann möglich, wenn bei¬de Ka stimmlos sind ({10} 6.1.3.3), was für den Mehrsilbler offen¬sichtlich nicht aufrechterhalten werden kann, da hier zusätzlichstimmlos -> stimmhaft Verbindungen auftreten (z.B. "abbauen"[APBAU6N], "ausdauer" [AUSDAU6R]). Für die umgekehrte Lockerung derEinschränkung, wonach der erste Ka stimmhaft sein dürfte, konnte je¬doch kein Beispiel beigebracht werden, sodass 78 noch nicht erfasstePaarungen gestrichen werden dürfen.

q.Konsonant Ka -> Konsonant Kb 11Bis auf die Ausnahme [VR] (z.B. "wrack" [VRAK]) sind stimmhafte fri-kative Ka vor Kb nicht möglich ({10} 6.1.3.7). Die noch seltenerePaarung [VL] im Namen "Vladimir" wird als fremdsprachlich verworfen.

r.Konsonant -> Konsonant Kc 6Wie bereits unter Punkt 1 erwähnt, darf ein Kc nur vor dem Leerlautoder einem final möglichen Lauten stehen, womit nochmals 6 Übergängeausgeschlossen werden können.

s./X/ -> /X/ 2Im Einsilbler muss bei Lautverbindungen zweier stimmloser Ka minde¬stens einer apikal sein, mit Ausnahme des Übergangs [PF] ({10}6.1.3.4). Im Mehrsilbler hat diese Regel praktisch keine Gültigkeitmehr, da durchaus zwei nicht apikale Ka aufeinanderfolgen können(z.B. "aufkommen" [AUFKQM6N], "abwaschen" [APVA56N]). Ausgeschlossenbleibt jedoch offenbar die Paarung zweier Phoneme /X/ (stimmlos,nicht apikal, nicht plosiv, nicht labial), wenn man von Konstruktio¬nen wie "bächchen" oder "mönchchen" absieht, welche im Sprachge¬brauch indessen durch "bächlein" resp. "mönchlein" ersetzt werden.Mit [XX], [XC], [CX] und [CC] entfallen zwei zusätzliche Verbindun¬gen.

t.Leerlaut -> Leerlaut 0Bereits in Abschnitt 3.1 berücksichtigter Trivialfall.

Durch keine der erwähnten Regeln ausgeschlossen und damit in der deut¬schen Sprache grundsätzlich möglich bleiben 808 Lautubergänge. Im un¬tersuchten Text vorhanden sind davon 481. Um diese Anzahl belegterLautverbindungen weiter anzuheben, ist eine Liste von naturlichendeutschen Wörtern mit ausgesuchten Lautverbindungen angelegt worden,welche im Text noch fehlten. Damit konnten total 767 Lautübergängenachgewiesen werden. Welche dies sind geht aus der ExistenzmatrixFig.3.3 hervor. Die Anzahl in der deutschen Sprache realisierter Laut¬übergänge liegt also zwischen diesen beiden Schranken von 767 und 808,vermutlich jedoch wesentlich näher am unteren Wert, da es rechtschwierig ist Beispiele für weitere Verbindungen zu finden.

CULi

x,i

i=

1C

lTJ

Cin

11

1Ul

eC

SZUJ

11

f-

3U

4-1Ql

4-1U

•rAU

dO

OJ3U

¦U

301

0u

UH

r|O

SQ

£r.

30>

£01

0J3

>*JN

3x:

nT)

HJ3

10UJ

S*=)

tn

rflin

Q)>

X10

uC

o(0

SZ_

£_.

3e

l/l•a

COl

_rl

rl01

c.o

-e

..

fl>nj

cu01

IZ01r_

01Eh

Olui

Cr-A

0Ul

uit/1

4-Jrd

£4J£

x.tr¬

HH

•rA-ulZ

UJ

QUi

01r-A

Er-l

UJ

a>CU

—(

euu

ITIX

tnOl

IO-rH

inOJ

ui

tD(0

UlUl

4-1tjl

TJCU

w.

_;

_

mXI^

01fll

•X.

CUH

rH0)

¦H£

LiCt-

in£

U£

EhCZ

J£Tl

(*•10

HH

01C

_

3TI

(U3

CU(0

-H

Ql01

OlOi

OlN

uiE

10C

01Ul

Lity-

3£

rH

_H

rH

=c

tri5

CH

<*»Ol

C¦HS

Osz

XJ-1

4-1H

rH

CUtJ1

fl>c

MOl

unO

<sz

•rlo

01H

in<-t

4-1CU

SZO

UJ

¦10Ol

Oi3

l/l_S

UlOJ

o4H

•rH-r|

OlCU

HX.

t7»in

rdS

-X.

Ol>

rH

HOU

3Ul

•r|J<

aiUl

UJ

XICU

U0>

CUTJ

£'—¦

utH

I-IOX

SZ:3

IH(0

OirHC

UlOl<

4-»rö

OSLi

3J

301

inhh

u+-I

fl)Ui

cUl

3Ol

V)Ql

§c

QJTJ

•-

tnXI

'-IC

-A

l/lTl

10tO

13b.

XJDQ

CUC_

*->£

OUa

OJ_i

01in

QOi

UJ

01§

ND-

CUH

3inH

tuA-l

B3

inO

Ui10

AA

4-JLi

_.

0)rH

OJHH

3fö

-H

_CO

Tl•

01c

Uiu

UXZ

rdCU

_£u

S£

röH

c10

Ol_

Ol0)

flc

-uiXJ

OJ01

cuu

intJ

Utn

0)rH

3rj

•H

io.

tn3

rH

13Ih

TJ3

TJ-H

Ei£

OH

cux:

4-i>

QTJ

tnt-l

r-lAJ

01(U

3CU

"O4-1

£(J

-r.

•—'

tn0J

0JrA

t-l01

3TJ

TIin

S4-J

r-A__

X.Li

etu

C.

-Ol

*H

E-H

ui

tDUl

e3

6-<

£coO

Oi_

TI01C#CH

0)tn

_]

UJ01

3OJ

4->fd

rdOi

Oic

01._

cue

0)cd

cN

Cn0)

0c

01rH

•=*_

01O

HUl

01N

10Ul

¦H

ox:

4-1o

4J

-HH

3N

ID01

.Ol

<u

10TI

OUi

CTJ

-u

*-*xz

_

4J

TJLi

-U

c_._

c3

TJC

_10o

4J

tnrd

3C_

X.X,

4J

U•rA

01-rlO

1(0Ul

:(0u

[_sz

•rl£

_

_

0)£

U)U

U^-H

010)

OlE

Oitux

rC01

uUJ

rdi

.

£cu

VirA

£>

Iul

OlU

USZ

•H

Crh

tn0.

£4->

£<L>

_

tn

Utn¦—¦

-rlOJ

CC

Ulu

U|E

cJtf

£0)

rH

CULi

0-3

01ojy

nxi

01Ol

-H

-H

>0•rl

•H

Mrd

_.

rH

£4-1

O£

£<

X!UHZ

d=13

Ih+J

x:oj

10UH

(0(d

CUf.

_E(U

(fl•

i—i

10Ifl

Uia

a.a

014-1

rH

<4-|tn

4-J£

.-.

CO_

C**

sn

S01

10ui

X.Q

mCU

¦H

£CU

3£

x._i

•Ol

01•

UJN

rr,•rH

Ul3

Ox:

a.qj

rA£

CUH

CUN

oSZ

A-lf>C

OrA

OlN

c3

0)cu

U4-i

_aTJ

cux:

>¦—

zu

•rH•

0J-IH

UlCO

3XI

aio

UJH

rH

£Q>

_3CJ

cu_J

in01

oiE

e3

•rl3

3c

rH

Ein

roUJ

t/1_;

inCU<

3in

x:c

_1

rAj:

3N

s0)

N4-J

uQ)

£rH

U01_H

UJ

10._

cn

cui

_

1104-1

£4-1

W3

rH

4-1CU

61Ul

¦H

C_01

UJ3

•io

01HJ

UiLi

<UJ«

in

-h

CUCU

3Li

H-H

UH

Ol-rl

t-lUt

Oioi

x:OJ

_

X.3

_)QJ

TJS

rdrd

0!UJ3

X01

tnE

01fl)

HTJ

rlu

£01

.?3

3:

s_¦J

3=I_

10HO

•H

rH

CTl

_.

cOl

Ul£

>£

»>

_ix:

tn(0

i-Htn

+J10

iH¦IH

01¦rA

Li0)

LiCU

£Li

Ulin

int->

czaj

¦HC

s0)

UlXJ

Li3

'Sdi

CrN

£cu

rej£

HC

(0-rl

•-H

Et|H

_>Ol

eoj

CUH

TJC

QJ_<_

TJ£

£O

TJ

.

(.M

Olsz

-H

310

1XJ

££

3(U

X.£

TJ(_

01-u

inOl

Liu

<Q)

Ntu

a.•¦H

-Ü4-i

.

Hli

lit_

XiOJu

in*

fl)*

Ulsz

z<_01

tP£

¦-I£

tn£

wXZ

*M

(Uo

OIh

•H10

Ol

OQC

HHHU

uUl

>OJ

<ULi

r-A:_J

¦-¦

8.

*M

in

A-l0)

Tl01

3ui

a>3

10c

VILi

H-J0)

4->Li

>;ht

3UH

_sai

•U

Nrl

TJ10

UJo

mO

0)N

0)X.

0)ul

Ih_l

m3

Ol_l

l-lIM

OlUl

.y3

_JCQ

££

U4-1

3fl>

Cr.

öl¦.

¦Hin

3H

OiUl

<—t

TJLiin

SZrn

4J

dl„

r—>

XSZ

_l

-H

-M

tDUl

_Ol

UlOi

01£

(U£

CJ_

CpOJ

IrtJu

C3

HH

(0oi

rac

OlTJ

Li0)

Ho

HH

CO

C«1E

«Ji¦rA

01110

OlS

_>-U

j_

CTl

3a

c:Q)

4-1ai

cuCU

CdÄ

(U?

_Ul

tOin

•oa:

cr-A

0)c

HOin

t(0oj

LiCZ

¦H

Ö"<0»

TJiQ

öiO

ci

SM

-H<

ro

c3

SZ01

Oi-

inOi

Olsz

cin

TJa>

Tl¦—¦U

HHE

_SZ

toUl

H-rA

(04J

N£

eu

tuqj

szO

rH

01rQ

UCZ

yy

Dl_10J

uuh

010J

J*£

H4-J

¦rA3

i_

_XIOK

I-H¦rJ

01Ol

HH

XJXJ

rlUl

XJUJ£

CUQ)

Q)cd

_-.

NUH

fc.:_

Uli—i

I-HQ

OlTl

XJ¦—¦

:3Ul

Ul13

rH

_]3

UlH

rQe

x»Ul

OiII

<_II

(1II

_:II

zll

oII

XII

l_II

I-HII

uIIII

55II

UII

t".II

UH

UII

5IIII

HII

t/1II

COl

CUJ

_ä1

TlTJ

11

*J1

01SZ

WSZ

UC

CC

u•-A

Uu

ulV

-0O

10>*

33

fll(0<

tuUl

rH

CH

HJ

UJ

szs

13O

01C

UlC

ct-l

szE

tnoi

UH

01-3

czu

rH

U•H

r-lrH

Ol10

UJ

..

Dlo

tn01

E-h

(0tu

cr-l

CC!

UH

3TJ

10E

•H

01r-l

OJrl

CUUH

TJH

fl)fll

cHEU«

ujin

uii-j

ujc

-1O

OlX

3TJ

x;Ul

o!_

rH

11)10

Cu

u•

Olic

TJUl

OH

01u

fl)-ui

OiC

riin

uh

SZUl

3•a

cc

C•H

SrHC

U3

¦a0

0101

Ul(0

'rlU

H(0

duj

¦ac

fll01

UJ

ujfll

o>_

coi

_oi

x:u

OiC

XJt6

0101

-H

CUJU

Oico

Ul3

HJ

rH

(0Ul

•rlC

01•rA

¦H

Ol3

rH

OJA

tnrH

(0rH

.

UJ

HN

t-i10

SO

UUJ

OJ_;

uj

ux:

ee

3E

HXJ

cu

01¦uC

3UJ

3>

310

Ul¦rl

C01

UlUl

(0it.

dd

oic

(0c:

CU

fllOl

fll01

3O3

Olx:

oi-uj

Oltu

0i._

0JSZ

t-ltu

cc

¦r|¦rl

•rACu

•in

CUl

:|fl01

SZ-H

tuuj

UlrH

CUl

•H

Olu

szu

aai

iiitu

UJ

uin

uu

10c

sz¦rl

OlrH

¦rtm

01dl

COl

r>.c

oixj

fllt-l

ux;

czC

OlUJC

0JJ<

:3Tl

CZfll

10r-A

fl)UJ

Ultu

ujOi

ujcg>

TJ01

TJUJ

UiTJ

H-rl

33

N111

OlIh

OlTJ

(0u

01u

UlC

CXJ

>01

_;C

-Jo

Ulsz

3•rH

~H

.S

Oi(0

flla

01Oi

Ul•H

HJ

Cc

TJtn

u-C

3UJ

UH

Ul0)

fllc

oHJC

rla,

tu0J

rH

Uc

3-

!_x;

flj01

IhTl

3rH

fljrH

01o

TJO

C(0

OOi

OlC

rH

uH

UiC

_!0J

x:>

rlN

fllH

01c

01Ui

CS

Ctu

eSZ

DlTJ

*dlO

UlO

013

UUJ

OJUJ

SZDl

SZUl

:(0tu

UlN

inH

Oic

uia

>am_

•rAt-l

Ul_.

cHl

:0-H

•rlrJ

tuA-l

tD3

UK0

TJ3D

UJQ

.Ol

•HXm

EX

OlC

X0)

-rlTJ

10z

Ul3

CUJ

0JC

OlTJ

UJ

TJ01

(_01

UH

-rHtui

Ehtu

_§ui

EHXI

01H

x:fli

ue

cX

¦3Oi

UM

OC

3Ol

tntu

uUJ

COi

Dl•rA

-H

UH

uu

§I-H

3UO

fl>Ol

r-lDl

(0»fl

Cfll

J10

Ol>

CQH.UH^

301

UJ

rH

iL.rJ

UJ

XJsz

u01

0hU

EDI

¦OOi

3H

•u

3Ol

uo

TJ_«u

UlH3

drA

Ol3

CTJ

rH

(J-H

crH

3•

¦rHU

3OJ

UlX3

flltu

tuoj

u•Sf

TJOJ

rH

UXJ

UU

-rAJJ

d•

OlE

01fll

3SZ

•rl¦H

TJrA

110S

4Jc

UJ

UUJ

tuX3

du

cn

10U

(0C

Heac

3U

fllOl

OlM

QH

t/13

013

Ul01

NUl

uj

TJTJ

kumulierteHaeufigkeit

in%

vs.

AnzahlLautuebergaenge

nachfallender

Haeufigkeitgeordnet

i'ijjt!'•i;

80i!li

üüi'

lli

¦

ii''i

¦(\;

:':'.IUI

:¦¦

80

ys

¦':.

IiiIii!ni

ijj'.'l

i:

40

Uliih!I.i

t

¦

Ih! Ijlii

20

¦ffff

23

4S

67

8910

23

.

56

TB9100

23

45

67

891000

Fig.3.5Verteilung

derLautübergänge

-41-

Ein für die Gewinnung von Diphonen geeigneter Korpus soll

-alle deutschen Lautübergänge umfassen,-lediglich aus natürlichen Wortern bestehen, da die Aussprache von

künstlichen Wortern, Eigennamen und Fremdwörtern nicht immer verbind¬

lich festgelegt ist,-die jeweils interessierenden Übergänge in möglichst gleichartiger Um¬

gebung in bezug auf Lautnachbarn und Silbenstellung im Trägerwortenthalten,

-nicht von Annahmen ausgehen, die im gegenwärtigen Stadium noch einer

experimentellen Überprüfung bedürfen,-von einem einzigen Sprecher sauber und konsistent artikuliert werden,-möglichst wenig ausgeprägt betont werden.

III.4.2 RICHTLINIEN BEIM ZUSAMMENSTELLEN DES DIPHONKORPUS

Die nachfolgenden Kriterien zur Auslese der in den Diphonkorpus aufzu¬

nehmenden Worter bezwecken alle dasselbe, nämlich eine möglichst rei¬

bungslose Verkettung der aus dem Korpus zu gewinnenden Grundelemente

bei der späteren Synthese sicherzustellen. Dazu sind insbesondere zwei

Forderungen zu erfüllen:-Die bei der Verkettung ursprünglich nicht benachbarter Grundelementeentstehenden Diskontinuitäten in den Modellparameterverläufen sollen

so gering wie möglich ausfallen.-Die den zur Synthese verwendeten Grundelementen von ihrem ursprüngli¬chen Kontext her anhaftende prosodische Färbung soll ebenfalls mög¬lichst wenig ausgeprägt sein.

Dieser Forderungen wegen ist das von Moore {30} vorgeschlagene Vorge¬hen, das sich allerdings auf phonetische Testsatze und nicht Diphonli-sten bezieht, in diesem Zusammenhang nicht geeignet. Der Vorschlagsieht vor, mittels Computerunterstützung die einzelnen Elemente zu¬

nächst nach steigender Häufigkeit zu ordnen. Mithilfe dieser Liste

stellt im nächsten Schritt eine Person Worter zusammen, wobei sie ver¬

sucht möglichst weit vorne auf der Liste stehende, also seltene Ele¬

mente zu verwenden und jedes Element nur einmal zu benützen. Durch Um¬ordnen der Liste, wobei die nur schwer einzubauenden Elemente einen

besseren Platz am Anfang erhalten, und Wiederholung dieses Schrittesentsteht schliesslich eine äusserst kompakte Sammlung von Wörtern, die

sämtliche Grundelemente enthält. Allerdings treten sie ohne irgendeineRegelmässigkeit an jeder Stelle innerhalb der einzelnen Wörter auf,sodass sowohl von der lautlichen Umgebung als auch von der Betonungher grosse Unterschiede zwangsläufig auftreten müssen.

Lautliche Einbettung:Die lautliche Einbettung des jeweils interessierenden Diphons kann

nach zwei einander teilweise ausschliessenden Prinzipien erfolgen:-HaufigkeitsprinzipJeder Diphon soll von denjenigen Machbarlauten begleitet werden, dieihm in natürlichen Texten am häufigsten vorangehen resp. folgen. Da¬

mit wird die Diskontinuität beim Zusammentreffen mit den wahrschein¬lichsten Nachbargrundelementen mimmalisiert.

-UniformitatsprinzipAlle Diphone sollen möglichst immer von ein- und demselben Nachbar¬laut begleitet werden, wobei dieser einer artikulatorischen Neutral-

-42-

stellung entsprechen soll und keine weitreichenden Koartikulationsef-fekte auslösen darf. Mit diesem Kriterium wird eine über alle Grunde¬lementverbindungen minimale Nahtstellendiskontinuität angestrebt.

Da sich die meisten Laute mit einer ganzen Reihe anderer Laute kombi¬nieren lassen, von denen mit wenigen Ausnahmen keiner derart domi¬niert, dass er alle anderen zusammen an Häufigkeit übertrifft, fälltdie Entscheidung zugunsten des Uniformitätsprinzips. Allerdings mussdieses etwas abgeschwächt werden, wenn der gesamte Korpus wie verlangtausschliesslich aus natürlichen Wörtern aufgebaut werden soll. Ausphonotaktisehen Gründen müssen mehrere Vorzugsnachbarn zugelassen wer¬

den, die nicht nur möglichst neutral und untereinander ähnlich, son¬

dern auch noch weitgehend frei kombinierbar sind. Als Vorzugsnachbarnsind gewählt worden,unter den Vokalen:[6] Schwa, der Neutrallaut par excellence, seine

Artikulationsstellung entspricht der Ruhelage des

Sprechapparates.[8],[3] kurze Vokale, ähnliche Formantfrequenzen wie [6].[0;],[3;] lange Vokale, ähnliche Formantfrequenzen wie [6].und unter den Konsonanten:[L] Liquidlaut, Artikulationsstellung ähnlich [6],

recht frei kombinierbar.[_].[V],[J] stimmhafte Frikative.[S],[F],[5] stimmlose Frikative.[N],[M],[9] Nasallaute, bis auf die Nasalierung recht neutral

artikuliert, vor allem [N] sehr frei kombinierbar.Nicht in diese Liste aufgenommen worden sind insbesondere die Plosivewegen ihres koartikulatorischen Einflusses auf bestimmte Nachbarlaute(cf. V.5.2.1), und trotz seiner hohen Kombinierbarkeit [R], wegen derverschiedenen freien Varianten, die zum entsprechenden Phonem existie¬ren. Als ungünstig hat sich später lediglich die Einbettung eines Plo-sivlautes nach einem stimmlosen Frikativlaut (vorab [5]) herausge¬stellt, da letzterer offenbar abschwächend auf den ersteren wirkt. Einaus einer derartigen Umgebung hervorgegangener stimmloser Plosivdiphonbewirkt in anderem Kontext die Wahrnehmung des entsprechenden stimm¬haften Plosivlautes (cf. Aspirationseffekte in VIII.4.2).

Ort des Auftretens:Da prosodische Effekte nicht nur die Beziehungen zwischen den einzel¬nen Wörtern eines Satzes reflektieren, sondern auch innerhalb einesWortes die einzelnen Silben verschieden gewichten, sollen die Grunde¬lemente möglichst immer derselben Silbe entnommen werden. Ausser füreinige typisch wortinitiale resp. -finale Lautübergänge (wie etwa dieunbetonten Affixe "be-", "ge-", "ver-", "-er", "-en") trachten wir da¬nach das Diphon in betonten Mittelsilben vorwiegend dreisilbiger Wör¬ter auftreten zu lassen. In betonten Silben darum, weil der menschli¬che Hörer Aussprachefehler innerhalb betonter Silben leichter wahr¬nimmt und so den Sprecher sozusagen zwingt diese deutlicher und lang¬samer auszusprechen als unbetonte. In der Mittelsilbe darum, weil sieeinerseits kein ausgeprägtes Betonungsmuster trägt, wie etwa der Aus¬klang innerhalb der Endsilbe, andererseits weil sie am besten eine denobenerwähnten Richtlinien entsprechende lautliche Einbettung gestat¬tet.

-43-

III.4.3 AUFBAU DER DIE DIPHONELEMENTE ENTHALTENDEN WORTLISTEN

Der zusammengestellte Korpus enthält sämtliche belegten Lautübergänge.Für die meisten, speziell die häufigeren Diphone ist mehr als nur einTragerwort aufgeführt, um Ausweichmoglichkeiten offen zu halten, fallssich die eine oder andere Einbettung hätte als ungeeignet erweisensollen. Darüberhinaus sind einige Laute mehrfach aufgelistet worden,um die in Abschnitt 2.3 getroffenen Annahmen verifizieren zu können.Dies betrifft die Laute [A] und [3], die in jeweils zwei verschiedenenQuantitätsklassen existieren, wobei bei letzterem auch noch zwischenseiner Herkunft von orthographisch "e" und "ä" differenziert wordenist. Weiter sind für die drei Diphtonge sechs separate Listen erstelltworden, für den Fall, dass sie sich nicht als Vokal -> Vokal-Übergängehätten synthetisieren lassen und stattdessen als eigenständige Vokalehatten aufgefasst werden müssen. Schliesslich wurden noch eine Listefür Spezialfälle, d.h. grösstenteils fremdsprachige Laute und Lautver¬bindungen sowie eine Liste mit Einzellauten erstellt, sodass der in

langwieriger Kleinarbeit zusammengestellte Korpus 48 Listen mit insge¬samt ca. 2200 Wörtern umfasst, was bei der verlangten Sprechdisziplineiner Brutto-Abspieldauer von knapp 1.5 Stunden (!) entspricht. Dervollständige Korpus ist in der Literatur {04} enthalten.

II1.4.4 SPRECHER, AUFNAHMERAUM UND -APPARATUR

Der Diphonkorpus ist von einem professionellen Sprecher gesprochenworden. Kuwabara und Ohgushi {74} haben an japanischen Sprechern fest¬gestellt, dass professionelle Ansager im Vergleich zu Laien die Arti¬kulationsmöglichkeiten besser ausschöpfen. In der Sprache der Berufs¬sprecher konnten sie die für einen gegebenen Laut typischen Formant¬

frequenzen deutlich ausgeprägt erkennen, während in derjenigen derLaiensprecher die Zielwerte zwar angestrebt aber in aller Regel nichtvollständig erreicht wurden.

Unser Sprecher war angewiesen worden, sich an die erwähnte Aussprach¬norm zu halten, langsam und deutlich aber dennoch unverkrampft zu

sprechen, keine Endungen zu verschlucken und möglichst wenig zu beto¬nen. Seine Stimmgrundfrequenz variierte höchstens im Bereich von 67bis 125 Hz. Die Aufzeichnungen sind im reflexionsfreien Schallmessraumdes Instituts für Fernmeldetechnik der ETHZ durchgeführt worden. Diefolgenden für die Aufnahme benutzten Geräte sind derart plaziert wor¬

den, dass keine Fremdgeräusche (z.B. vom Tonbandantrieb) und Reflexio¬nen (z.B. von einer Tischplatte) in das Mikrophon gelangen konnten.

Mikrophon: Kondensatormikrophon Sennheiser 405mit Windschutz auf Federhalter montiert

Tonbandgerät: REVOX A77, 2 Spur, LRA02

Aufzeichnungsgeschwindigkeit 19 cm/sMischpult: Stellavox (lediglich als Vorverstärker)Bandmaterial: Agfa PEM 369, 1100 m

-44-

KAPITEL IV. OBJEKTIVE VERZERRUMGSMASSEllf************************************!.**

IV. 1 BEDEUTUNG OBJEKTIVER VERGLEICHSMETHODEN

Das Ziel dieses Kapitels besteht darin, im Hinblick auf die Gewinnungder Diphonelemente ein Instrument zur wahrnehmungsgerechten Beurtei¬lung der Ähnlichkeit resp. Verschiedenheit von Signalausschnitten zur

Verfügung zu stellen. Die in diesem Zusammenhang zu vergleichendenSchnittstellen zwischen den Lauten und quasistationären Phasen inner¬halb der Laute sind derart kurz (ca. 15 bis max. 200 ms), dass einesubjektive Beurteilung mit dem Gehör nicht möglich ist. Objektive Ver¬

gleichsmethoden sind primär für Zwecke der Bewertung und Optimierungder Güte von Sprachübertragungsverfahren entwickelt worden {33...35},um die recht umständlich durchzuführenden und nie exakt reproduzierba¬ren Hörversuche zu vermeiden. Obschon gewisse Begriffe aus der diesbe¬

züglichen Literatur in unserem Zusammenhang etwas deplaziert wirkenmögen (z.B. 'Verzerrungsmass'), wollen wir sie dennoch verwenden, wenn

dies durch dieselbe mathematische Definition gegeben erscheint.

«.

ParameterE> extraktlonQuuitiaierting

^ undCodierung

¦^ Speicherung

¦^ Speicherunf

\

Reaynthese Decodierung Uebertragungs-kanal

Stoerung

Fig.4.1 Anwendungen objektiver Vergleichsmethoden

-45-

Mögliche Anwendungen objektiver Methoden zum Messen der durch einen

bestimmten Verarbeitungsschritt hervorgerufenen Verfälschung des

Sprachsignals oder zum Vergleich verschiedener Signalausschnitte aufihre Ähnlichkeit hin sind (cf. Fig.4.1):a.Wahrnehmungsmässig fundierte Messung der Güte einer digitalen

Sprachübertragungsstrecke oder -aufZeichnungseinrichtung,b.Beurteilung der Veränderung eines Sprachsignals hervorgerufen durch

dessen Darstellung als Folge von Parametersätzen mittels eines Mo-

dellierungsansatzes.c.Minimalisierung von Verzerrungen bei der Quantisierung und Codierungder erwähnten Parametersätze. (Bei der Skalaren Quantisierung ge¬schieht dies implizit durch die Wahl geeigneter Quantisierungsfunk¬tionen, bei der Vektorcodierung explizit durch Abbildung auf denähnlichsten Mustervektor.)

d.Bewertung der Sprachverzerrungen aufgrund der Übertragung von Mo¬

dellparametern über gestörte Kanäle,

e.Vergleich von Sprachausschnitten mit gespeicherten Referenzmustern

zwecks Sprecherverifikation, -Identifikation oder Spracherkennung,f.Hilfestellung bei der Isolierung der Grundelemente für einen Sprach¬

synthetisator, hauptsächlich zum Auffinden quasistationarer Signal¬ausschnitte, zur Lautabgrenzung und zur Minimalisierung der sich aus

der Verkettung ursprunglich nicht benachbarter Sprachausschnitte er¬

gebenden Diskontinuitäten.

Infolge der unterschiedlichen Zielsetzungen und der vielen verschiede¬

nen Signaldarstellungsformen kann es keine universelle objektive Beur-

teilungsmethode geben. In den folgenden Abschnitten wird daher die

Auswahl eines für unsere Zwecke (Punkt f) geeigneten Verzerrungsmassesbegründet.

IV.2 DEFINITION VON QUALITÄTS- UND VERZERRUNGSMASSEN

Die meisten objektiven Beurteilungsverfahren schreiben ein Vorgehen in

zwei aufeinanderfolgenden Schritten vor:

l.Zwei Vergleichskandidaten, wie z.B. das verzerrte und unverzerrte

Signal, werden jeweils für einen Ausschnitt j miteinander vergli¬chen. Die auf diese Art lokal ermittelten Abweichungen werden quan¬titativ mithilfe eines noch näher zu bestimmenden Verzerrungsmasses

d(j) ausgedrückt.2.Diese Verzerrungsmasse werden sodann über die Gesamtheit des jeweilsinteressierenden Sprachmaterials gemittelt, um als integrale Grosse

ein Qualitätsmass q zu erhalten.

E w(j) d(j)j

(4.1)£ w(j>j

Die Wahl der Gewichtungsfaktoren w(j) legt dabei die Art der Berück¬

sichtigung der lokalen Abweichungen fest. Die Mittelung kann nämlich

entweder gleichförmig erfolgen (w(j)=l für alle j) oder aber indivi¬

duell gewichtet beispielsweise mit der jedem Ausschnitt innewohnen¬den Signalenergie, beruhend auf der Annahme, dass Fehler in energie-

-46-

reichen Sprachauschnitten stärker empfunden werden als solche inleisen Passagen. Andere Strategien sehen eine Klassifizierung dereinzelnen Ausschnitte in phonetische oder akustische Kategorien(z.B. still, periodisch und aperiodisch) und eine darauffolgende Ge¬wichtung entsprechend dem Unterscheidungsvermögen des menschlichenHörsinns für Laute der entsprechenden Kategorie vor {40}.

Wegen der ausschnittweisen Bestimmung der Verzerrungen werden derarti¬ge Methoden als framed bezeichnet. Demgegenüber liefert dasSignal/Rauschverhältnis, so wie es in der Nachrichtentechnik gewöhn¬lich verwendet wird, direkt in einem Schritt ein Qualitätsmass, indemder Quotient zwischen Signal- und Rauschenergie über einen langen Zei¬tausschnitt bestimmt wird, es gilt daher als unframed. Es ist dennochmöglich auf Signal/Rauschverhältnissen beruhende framed Qualitätsmassezu berechnen, als Verzerrungsmass dient dabei das über einen einzelnenAusschnitt (Frame) bestimmte Signal/Rauschverhältnis.

Für gewisse Aufgaben, wie in Punkt f und teilweise auch c und e er¬

wähnt, reichen die lokalen Verzerrungsmasse völlig aus, da ohnehin nureinzelne Frames miteinander verglichen werden. Leider können aber Ver¬zerrungsmasse nicht ohne weiteres auf ihre Wahrnehmungstreue hin über¬prüft werden, denn die zu ihrer Berechnung herangezogenen Ausschnitteentziehen sich wegen ihrer zu kurzen Dauer einer subjektiven Beurtei¬lung. Der Weg zu wahrnehmungstreuen Verzerrungsmassen führt alsozwangsläufig zur Beurteilung und Auswahl von Qualitätsmassen. Die Aus¬wahl eines wahrnehmungstreuen objektiven Qualitätsmasses kann nur er¬folgen, indem die Resultate mehrerer Verfahren, welche jeweils be¬schrieben sind durch das verwendete Verzerrungsmass und die Art derMittelung über alle Sprachausschnitte, den von einer grösseren Hörer¬gruppe in einem Test erarbeiteten Ergebnissen gegenübergestellt wer¬

den. Je besser die Übereinstimmung, desto wahrnehmungstreuer das Qua¬litätsmass. Derartige statistische Gegenüberstellungen müssen sichüber ein sehr umfangreiches Material (Art der Verzerrungen, Sprecher,Vokabular etc.) erstrecken, um repräsentative Aussagen liefern zu kön¬nen.

-47-

IV.3 ANFORDERUNGEN AN VERZERRUNGSMASSE

Wenn von zwei Sprachsignalen die Darstellungen s und s' gegeben sind,welche nicht notwendigerweise Zeitfunktionen sein müssen, können von

einem Verzerrungsmass verschiedene Eigenschaften verlangt werden

{31,32}:a.perzeptorisch konsistent

Das objektiv bestimmte Verzerrungsmass d(s,s') muss für alle s unds' möglichst eng korreliert sein mit den Resultaten eines subjekti¬ven Hörvergleichs zwischen s und s'.

b.positiv definit

d(s,s') > 0 (4.2)d(s,s') = 0 dann und nur dann, wenn s' = s

c. symmetrischd(s,s') = d(s',s) (4.3)

d.erfüllt die Dreiecksungleichungd(s,s') < d(s,s") + d(s",s') (4.4)

e.physikalisch interpretierbarIn mindestens einem Darstellungsbereich des Sprachsignals (Zeitbe¬reich, Frequenzbereich, Paramterraum etc.) soll das Verzerrungsmassd(s,s') sinnvoll gedeutet werden können.

f.berechenbarDas Verzerrungsmass d(s,s') soll mit vertretbarem Aufwand berechnetwerden können, unabhängig davon in welcher Darstellung die Signale s

und s' gerade vorliegen.

Je nachdem welche der drei Eigenschaften b, c und d erfüllt sind, wer¬

den Verzerrungsmasse wie folgt klassifiziert:

positiv Dreiecks¬definit symmetrisch ungleichung

Verzerrungsmasse 1 X XDistanzmasse 1 1 X

metrische Distanzmasse 1 1 1

Von den zur Sprachsynthese benötigten Verzerrungsmassen wird insbeson¬dere die Erfüllung der Eigenschaften a, b und f verlangt, wobei dieBerechenbarkeit auf die bei der Methode der linearen Pradiktion auf¬tretenden Darstellungsformen des Sprachsignals beschränkt bleibenkann. Für die Beurteilung der perzeptorisehen Konsistenz greifen wirauf die Resultate von Barnwells Untersuchungen zurück.

IV. 4 DIE VERSUCHE VON BARNWELL

Barnwell {36...41} hat in grossangelegten Versuchen objektive und sub¬

jektive Beurteilungen verschiedenster Verzerrungsarten einander gege¬nübergestellt und deren Korrelationen gemessen. Darüberhinaus hat er

für jedes der untersuchten Distanz- und Verzerrungsmasse die freienParameter optimiert um die jeweils bestmögliche Übereinstimmung zu er¬

zielen. Sein Vorgehen zeigt Fig.4.2 .

-48-

Zusammenstelleneiner SammlungunverzerrterSprachproben

AnwendungverschiedensterVerzerrungen

AnwendungobjektiverQualitaetsmasse

AnwendungsubjektiverQualitaetsmassein Hoertests

statistischeUntersuchungder Korrelation

Fig.4.2 Barnwells Versuche

Die folgende Tabelle fasst seine Resultate zusammen {42}.

Signal to noise ratio measures:

unframed SNRframed SNR

frequency variant framed SNR

maximum estimatedcorrelation coefficient

.24

.77

.93

spectral measures:

logarithmic spectral distance .60

frequency variant logarithmic spectral distance .72

frequency variant linear spectral distance .72

residual energy measures:

residual energy ratio distance .65

parametric measures:

feedforward coefficient distance .14

logarithmic feedforward coefficient distance .33

parcor distance .43

logarithmic parcor distance .32area ratio distance .32

log area ratio distance .66

tuC

Gl

d>«.

1u

1¦a

JBi

cUl

|1

11

-u

|OJ

1U

1l

Oi4-1

|1

•rA0)

QJG

_.

OJ•rA

a>u<

cU

c0>

01•r|

01c

UtSZ

c•rl

cDl

•Hc

ma>

diTJ

TJC.

Pu

in

Olc

d)D

D01

IhHJ

01_.

aiOJ

u3

TlrAU

3Ul

3r.

3XI

GG

_«;ffl

in>.

•H>

IflOl

szIH

Ulu

3>

•H01M

01Tl

0)P

gt/i

_

HJ

tuOl

10Ul

Olo

trc

Cul

UUl

UiN

ptn

MUi

_J4-J

OiU

IDUH

01u

Ul01

0101

UlDI

ctu

G4-1

1.vi

4-1Ui

U|ffl

IHDl

4-)c

DlUl

N01a

_TS

_HJ

10TS

3C

SZffl

•H

ffl0)

<u_.H

<_OlI

•H

pSa¬

01Ui

jaUl

UHC

01Ul

TSOl

01U

4-1e

GTJ

inN

u2

tiE

ids

>01

t301

•o01

J3Ol

01UH

¦dtTJ

min

Uitn

Uitn

Olin

O10

(0•H

Ul>

OJOi

cAA

103

Oi3

CAJ

•H

dlp

<DC

tnu

cTJ

CZOl

cs

3•rl

•aOJ

HJ

rH

1001

aa

TJ4-J

G«TJ>

•HOl

-

oc

HJ

_!OJ

c3

10Ol

UiOl

UirHo

COl

bZC.

OJ<D

M_.

•

.

>a:

UlVI

HJ

c_

UiHJ

OlUl

HJ

HJUH

OJOl

DlO

Pe

TJ0

QB

aiU

c01

UtUH

HJ

szOl

UlUl

OJc

•rHHJ

•rA•H

roU

>0)

OJto

u-G

jaX

0JX)

0J13

•H

uUt

•r|Ol

HJ

•rlUl

crA

Dl4J

U|0)

CPG

_a

_U

NH

EUl

•rlC

Ulc

1001

cUl

c•rA

fflffl

s•r.

¦CG

UH

UH

_in

c55

tutu

Ul3

szsz

UiXI

Ul3

01Ul

Ulo

UH

TSu

in0.

4-1O

_HJ

•H

tuX

3•rA

01u

Qt13

UlE

Oi01

Ul_:

3ffl

4-J&>

UltP

IhUl

j«:_

_Ul

101

AA

EUl

l/l01

10SZ

UlUt

1010

ffleU

J_G

fflg

COl

Olzz

erX

1T3

CUl

r-l3

EDl

33

TSc

szd)

NOi

uP

U|0)

P¦o

XIu

•rlOJ

uc

r-A10

Ol0J<

01Ul

C10

Ul01

u01

t-,G

_

_

•rAu»

OJCP

M10

t-lIH

Uls

D_

HJ

•rATS

Ui•H

UlUl

10TS

•H•rl

ffl01

XZ-O

T.

_

UlC

inai

_t1

Ult-lo

Ul>

OlC

UHc

SZOl

01HJ

Ui01

UH

4-1G

U4-1

CPdi

Olc

CaT3

dlO

HJ

Ulc

01HJ

tDsz

sUl

(UCP

mOl

Ul

_

.

roN

•oOJ

•rl10

c

_

_

•rH¦a

Olc

OlSZ

01rA

33

OlUl

o•H

4-J0>

•W

TJt.

•H_

Dl_

CC

cN

01

.

uc

«0sz

OlQ

UiCP

Pd)

tu.

l__

Ul_.

Or_

D_

Ul•rl

•H

szu

u10

Ult-l

szo

a.cn

OJOJ>

CrH

tuo

I-H>

uOl

Ul•rH

01W

u01

•rlUt

UlN

uc

d>in

_.

PTJ

tn•C

Otc?

QUl

C>

t3SZ

3DI

TlUl

HJo

HJUl

10•H

C.u

fflC

Ulin

Gu

stu

OiX)

01s

Uja

>u

u01

•rlHJQ

_.

¦H

_.3

Pffl

OUl

orA

010.

c<

r-At/1

10¦Ul

SZOl

HJOJ

OiUl

HJ

ulU

<u0

ca.

>_J

_i10

XZJ3

OD

110C

UlIh

3u

c10a

01j_

•Htn

a.>

<IH

uu

t_Ui

c•rl

OJ01

_:OS

Ul3

szUl

¦POi

10T3

in•H

VI.c

GG

Ut+J

inui

01_l

tO>

u3

J3Ul

cUl

0)Ul

(Utn

rH

u0)

dlDl

d)X

•H

t/1•H

uX

c•rl

10U

cHJ

10Oi

oin

4-1CP

innJ

•H

CP+J

HJ

TS01

.

10w

Ul01

_U

<_3

01C

Ui0)

•rlin

OJXJ

_3c.

-H

t-l=3

a._l

Irto

OlA-l

OJC

UtHJ

Ul

Ul

10tu

czHJ

£ro

Eit^

jsUi

_CCn

tuUl

•r|l/l

UlOl

ct-l

T301

1301

r-lUl

Ul•rA

TlUi

Dl10

rAV

rQc

U_i

Hc

3•rl

cXI

._

tDOJ

_

us

SZu

_

Gc

Cm

«0O

G3

IhDl

DOl

cO

Ulc

CHJ

10u

•H

dlO

in0)

13IH

tua

0Jtn

Uic

10sz

UlOl

01Oi

cUl

>SZ

sz3

10G

OJTJ

•H

4-)oi

4-1C

M•a

EHJ

o3

cUi

u_

•rl¦o

•r|3

Oiu

uUl

tu<D

4-1

_

rH

-GOl

0)Ul

OJN

zN

01HJ

Ul3

3l/l

cr*

•rA3

UlUl

.G

_

_

inffl

C4J

rH

USZ

3c

HJ

3Z£

tHm

CHJ

CHJ

c3

Utu

1001

10O

UP

4-1o

fflP

uDl

•rt10

XI01

_;C

utu

3Dl

rH

3•rl

E0J

Ulc

Ui_>

in

ffl0)

>0»

in

Ulm

oUl

«Ol

01ja

¦*SZ

rA

01Ui

Ui01

01ja

Ol•H

r-tLi

inUi

IDCT

Ui01

uOi

Uto

U01

Uta

c01

tu3

jaUJ

0Ul

_

TJ(_.

tn'S

OJu

_IH

cu.

o>N

c0J

C•rA

HJ

OJi•H

SZN

CTN

ErH

4-1e

(.•H

G+JU

3Ol

_Ul

cf_

Dsz

c01

Ulja

01ilfl

Uldl

C3

rA

KVG

ro0)

G•HG

D>N

r-A

CPOl

rlw

rH

uO

XIOl

0)10

c01

Ut01

100J

Tl£

s4-1

CP4-1

inP

jaSZ

tuc

01>

rH

tu>

rH

_Ol

>UH

3._

3C

(0e

_4

GG

rH

dtu

Dt_

aOJ

Ul01

01c

cc

HJUl

erc

3Ul

t-iP

MP

«_G

d>•rH

_ls•0

cVI

HJa

OiUl

>10

OJ01

•rA01

0101

01Ih

-o

«.U|

x:Ol

_.

CZai

•rl01

wUl

t/1c

01Ul

HHB

cc

•rlUi

Ol10

oa

5.Ol

OlUi

TJu

UlXI

01Ol

XE

3•rA

UlOl

Ul•rA

01TS

Hu

OSm

•rlUl

4->CP

CDUi

•r.

10£

10Ui

SZc

01¦a

HH

TSOJ

szOl

10D>

OlrA

HJ

dia>

_<:rö

>P

¦ou

CTai

uD

t_c

UiX)

us

Ul

Oi•rA

Uic

c10

in_.

CPd)

xz3-

4J

oUl

•atn

IhXI

301

Ulc

•rAOi

C•rA

u13

s10

•H

UlOJ

u¦H

UlL.

uts

tuhj

Ui_l

O3

rH

nj01

tuc

3DI

XIUH

UlTJ

inG

UlOJ

inHJ

3HJ

c01

XUi

Dl•H

crH

sz3

Ulm

:301

..

•

.

<uo

XI3

-M

inu

mUlu

N<

o.

szca

01•rl

Olu

OiUl

HJ

HJc

TJ£

_.

_P

_

d)111

•H•H

«tUl

su

s01

u10

0101

•H

c3

tuU|

G•r.

D_TJ

U|•H

Uls

tutn

c10

M01

HH

OlUl

UaE

c01

oOiTS

d)d)

rH£

•

Q)\

c<_>

>c

01>

30)

Ui3

"A>a

CZUl

r-A01

N•rA

EG

4J

J_U

G•H

rH

OJJ3

•H

c01

cC

<¦oa

NE

vi<*

SZo

•oC

HJ8

QJin

ph

a>TJ

ffls

tp4J

DlG

Ul01

0)m

HJ

01u

>OJ

10u

cG

OJ-HG

d)G

d)10

ts0)

«0•o

Ulin

Nsz

E¦a

•rAc

szU

•rl01

r-tP

4->XZ

_.

c.tp

CP£

rHu

¦Gc

c10

-H

uHJ

VIh

cIH

_

Ol_

_u

OiC

sz(0

CPV)

GU

J__•H

•H

Gd)

tu3

OD

sz>

0101

10•rA

OOl

OJtu

r-A•rH

OlDl

01•H

uP

PrH

0J0J

bQJ

t/1r.

CPIH

3tn

XIXI

_.

rH

m¦o

UlCZ

[_UH

cN

OlUl

-IHOZ

HJ£

Ul

TJN

ffltn

ui

a.[_Jii

cOlTS„

_:01

TlOi

_Ul

301Ui

Ol._

finO

c

nsN

01•rl

UtUH

HSUHOJ

Ol(1

(l_i

r-AUln

Dlti

•H•r|

UX

Ol110

llll

HJ

•H

t3rA

UlIhc

r-A01

fi

ode>ehe

T.UiOl

Oi

UHJ

IT.Ol

Olc

TS

_

3Olc

UlOl

(1Ifl

Ul>

Ols,J_u

cu

•rl01

01rA

HJTl

OiUl

•HOJ

TSfi

UJ10

(1.C

TlU

sz-1

4J

11ifl

Olm

c•H

rA

«0

_

Dl•Q

UlID

N11

CUl

N10

tl.C

HJ

01Ul

013

•rl•rl

rrUu

01IA

oUH

•H

XiTl

HJ

tDC

103

_.C

MP

-50-

IV.6 OPTIMIERUNG DER ANALYSEBEDINGUNGEN

Bei der LPC-Codierung sind etliche die Analyse bestimmenden Grossenfrei wählbar. Um deren Einflüsse auf die Qualität der resynthetisier-ten Sprache systematisch zu erfassen und für die Analyse des Diphon¬korpus die günstigsten und dem gegebenen Sprecher am besten angepas-sten Werte dafür auswählen zu können, sind mithilfe des auf der logarea ratio Distanz beruhenden Qualitätsmasses mit frameweiser Gewich¬tung proportional zur Signalamplitude eine ganze Anzahl Sprachprobenbewertet worden, die sich in ihren Analysebedingungen unterscheiden.Leider fielen diese Versuche insofern nicht besonders ertragreich aus,als sie im wesentlichen nur die bereits vorhandenen Erfahrungswertebestätigten {05}. Der Verarbeitung des Korpus wurden schliesslich fol¬

gende Analysebedingungen zugrunde gelegt.0_0

Abtastfrequenz: 10 kHzSignalbandbreite: 40...4700 HzAuflösung des A/D Wandlers: 14 bitPrädiktionsfilter: moving average MA

Ordnung: 12

Analyseverfahren: AutokorrelationsmethodePreemphasiskoeffizient: -0.9Fensterfunktion: HammingLange der Analyseframes: 22 ms

Versetzung der Analyseframes: 15 ms

Pitchdetektionsverfahren: PDWUST {07}Länge der Pitchdetektionsframes: 32 ms

Grundperiodensuchintervall: 8...15 ms

Zwischen die Digitalisierung und die LPC-Analyse ist noch ein zusätz¬licher Schritt geschaltet worden, mit dem Ziel alle irrelevanten Pau¬sen in den Aufnahmen zu entfernen, um den Speicherbedarf und die Re¬chenzeit für die nachfolgenden Verarbeitungsprozesse zu verringern. Eshat sich herausgestellt, dass Pausenlängen von 120 ms oder mehr aufeben diesen Wert gekürzt werden können, ohne dass sinn- oder beto-

nungsentstellende Veränderungen wahrgenommen werden. Die Pausen sindaufgrund der Signalleistung und Nulldurchgangshäufigkeit automatischdetektiert und eliminiert worden. Bedingt durch den Einzelwortcharak¬ter des Diphonkorpus, konnte sein Speicherumfang dadurch bereits um

etwa die Hälfte gesenkt werden.

IV.7 EINFLUSS VON STIMMGRUNDFREQUENZ UND FRAMEPOSITION

Die Modellfilterkoeffizienten werden im Prinzip nur von der spektralenEnveloppe des gemessenen Signals bestimmt, sie streuen jedoch in Ab¬

hängigkeit von Art und Frequenz der Anregung und von der relativen La¬

ge des Analyseframes zu den Anregungsimpulsen. Diese Streuungen über¬

tragen sich naturgemass auf daraus berechnete Distanzmasse. Eine wei¬tere Versuchsreihe diente dazu, für die log area ratio Distanz dasAusmass dieser als zufällig zu betrachtenden Störeffekte abzuschätzenund für die spätere Arbeit signifikante und irrelevante Abweichungenunterscheiden zu lernen. Das Vorgehen ist in Fig.4.3 festgehalten:

-51-

Auswahl einesModellkoeffi-zientensatzea

£

1EinsetzenverschiedenerGrundfrequenzeninkl. aperiodisch

Resynthesemit mehrfacherWiederholung

Analysemit geringerFrameverschiebung

graphischeDarstellungder paarweisenDistanzen

Fig.4.3 Bestimmung der Einflüsse von Stimmgrundfrequenz undFrameposition

Als Analysebedingungen sind diejenigen von Abschnitt 6 verwendet wor¬

den, lediglich die Analyseframeversetzung ist auf 1 ms reduziert wor¬

den, um den Einfluss der relativen Lage zu den Anregungsimpulsen mitgenügender Auflösung erfassen zu können. Verglichen worden sind achtverschiedene Anregungen:

periodisch, Periode 6.8 ms

periodisch, Periode 8.2 ms = höchste Grundfrequenzperiodisch, Periode 10 ms des Korpussprechersperiodisch. Periode 12 ms

periodisch, Periode 15 ms = tiefste Grundfrequenzperiodisch, Periode 18 ms des KorpusSprechersperiodisch, Periode 22 ms

aperiodisch

-52-

Die Resultate dieses Versuchs sind in den Figuren 4.4 bis 4.11 gra¬phisch dargestellt. Dabei zeigt die linke Seite jeweils das periodi¬sche (sechs Frameverschiebungen a 15 ms), respektive im Falle der ape¬riodischen Anregung das stationäre (zehn Frameverschiebungen a 15 ms)Zeitsignal, welches aus einer Resynthese mit Modellparametern aus ei¬

nem Laut [A] entstanden ist. Auf der rechten Seite geben horizontaleBalken mit ihrer Länge die log area ratio Distanz zwischen dem Resul¬tat der Analyse eines Ausschnitts des resynthetisierten Signals unddem Vergleichsparametersatz wieder. Die Zeitachse verläuft dabei nach

unten, und zwischen zwei benachbarten Distanzbalken liegt entsprechendder Verschiebung von einem Analyseframe zum nächsten ein Zeitintervallvon 1 ms (insgesamt 60 resp. 200 mal).

Erwartungsgemass nimmt mit abnehmender Stimmgrundfrequenz der Einflussder Frameposition zu (Fig.4.4...4.10). Für den vom Sprecher des Di¬

phonkorpus bestrichenen Bereich übersteigt der Maximalausschlag nie

den Wert von 0.4. Bei aperiodischer Anregung bewegt sich die log area

ratio Distanz in einem Bereich von 0.3 bis 1.4. Dies rührt wohl daher,dass die 220 Abtastwerte eines Frames einen zu kurzen Ausschnitt einer

Zufallsfolge darstellen, als dass sie in jedem Fall ein annähernd fla¬ches Leistungsdichtespektrum aufweisen könnten. (In den Simulationenist für die Erzeugung gleichverteilter Zufallszahlen der Zufallsgene¬rator URAN {09} verwendet worden, welcher mit einem Kongruenzverfahrenund einem Schieberegister arbeitet.) Bei Lauten mit vollständiger odermit bedeutendem Anteil aperiodischer Anregung muss also mit einer we¬

sentlich stärkeren Streuung der Modellkoeffizienten und der Distanzen

gerechnet werden, als für solche vorwiegend periodischer Natur.

Im Verlaufe der weiteren Arbeit haben sich Erfahrungswerte für die logarea ratio Distanz herausgebildet. Als Faustregel muss die Schwellezwischen unbedeutenden und wahrnehmbaren Unterschieden knapp unter demWert eins angesiedelt werden, während der Wert zwei bereits ganz er¬

hebliche Abweichungen anzeigt.

-53-

synthetisches Signal

yvA--' yv"— - >\!%-_--—iy\,.>..—-\f%__,—I yv_.- - Iyv_—- ¦ yv^--—'y. "¦--

- ly.».—'yv"-—-\f\<-.. ly, ... ly

frameweise Distanz zur Referenz

J| ll . 3| .

:3B

: 68

t J ms

Fig.4.4 Anregung mit einer Periode von 6.8 ms.


yv»- ¦—' yV"- ¦

'y."- 'y\ .-

-—'¦/.*• V3^-—lyv»-—^V.,__ 1 y\, _ - .—1\/v*~-—ly1,»-—


J| 1| _| 3| 4|

38

: 68

11 ms

Fig.4.5 Anregung mit einer Periode von 8.2 ms.

-54-

synthetisches Signal frameweise Distanz zur Referenz -»¦

0| l| 2| 3| 4|

yv- lyv*-Iy\-¦¦

yv^- ¦ lyv-"lyv^

y.*-- ly\...-(yv^

:68

tl ms

Fig.4.6 Anregung mit einer Periode von 10 ms.

synthetisches Signal frameweise Distanz zur Referenz -

0| l| 2| 3| 4|

yv*- ^\fV1

Ar<A -

-Iyv~W lyv

5 |\v

= 68

t< ms


-55-

aynthe tische 9 Signal

r-*X_-__.

frameweise Distanz zur Referenz ¦

0| l| 2| 3| 4|

r-20

i.A. ¦¦

.-..-¦.

,-..-.

=. 68

t ? ms



i,./V/>-.

n/W»-

frameweise Distanz zur Referenz ¦

0| l| 2| 3| 4|

: 18

.28

i/A»" ¦¦

.38

S

Au-»-.

=T48

.58

—60

t ? ms


-56-


/V*


0| 1| 2| 3| 4|

r38

r38

=.68

t\ ms



i

.V_J_V^W'A/.>^

vMM^^îÂiW^

W\li/W^f0i^•J\j[fiw*î\jW


0| l| 2| 3| 4|

148

Fig.4.11 aperiodische Anregung.

-57-

KAPITEL V. LAUTBESCHREIBUNG MITTELS ZENTROIDEN************************************************

V.l ZIELSETZUNG

Das Hauptziel dieses Teilschritts besteht darin, die notwendigenKenntnisse über die Lauteigenschaften zu liefern, welche notwendigsind, um die Isolation der einzelnen Lautubergange von willkürlichenEntscheidungen möglichst zu befreien und auf eine systematische Grund¬lage zu stellen. Für konkrete Probleme der Analyse oder Synthese desSprachsignals bietet die von Linguisten wie Jakobson, Halle, Fant undChomsky entwickelte Theorie der Distinctive Features {06,08}, welchejedes Phonem als Bündel von Merkmalen wie scharf/mild, ge¬spannt/schlaff, konsonantisch/nicht konsonantisch, kompakt/diffus usw.

beschreibt, keine ausreichende Handhabe, da die verwendeten Eigen¬schaften lediglich über subjektive Eindrucke mit der physikalischenRealität des Sprachignals verknüpft sind. Vorrangiges Ziel ist es da¬her signalbezogene Merkmale zu finden, welche zur Charakterisierungund Abgrenzung der einzelnen Laute untereinander dienen können. Dazu

sind insbesondere notwendig:-Eine auf LPC-Parametern beruhende von Zufalls- und kontextbedingtenEinflüssen unabhängige Beschreibung sämtlicher deutscher Laute.-Kenntnisse über die für den jeweiligen Laut typische Gestalt der

spektralen Enveloppe, resp. seiner typischen Werte für die Modellfil¬terkoeffizienten.

-Kenntnisse über die jeweils lautspezifischen Verläufe und Werte der

Anregungsamplitude, Anregungsart und gegebenenfalls Stimmgrundfre¬quenz sowie der Lautdauer.-Eine Überprüfung der IPA-Lautschrift hinsichtlich ihrer Übereinstim¬mung mit den Eigenschaften des Sprachsignals.-Ein Instrument zum quantitativen Vergleich einzelner Signalausschnit¬te, wie es in Form eines Distanzmasses in Kapitel IV. vorgestelltworden ist.

Wenngleich die gewonnenen Resultate die herkömmliche Phonetik, welcheauf artikulatorischen und auditiven Kriterien beruht, vielerorts er¬

gänzen, indem sie einen bisher vernachlässigten Bezug zum Sprachsignalherstellen, aber manchmal auch in Frage stellen, beispielsweise beider Abgrenzung der Lautqualitäten (cf. Abschnitt 7), sind sie nichtals Ersatz dafür gedacht. Die Beschränkung auf eine einzige Spracheund einen einzigen Sprecher sowie der im Hinblick auf die Sprachsyn¬these speicherokonomisch bedingte Zwang, nicht mehr Laute zu unter¬scheiden als unbedingt notwendig, wären für die Erarbeitung einer all¬gemein gültigen Signalphonetik keinesfalls zulässig gewesen. Verfahrenzur sprach- und sprecherunabhanigen Lautbeschreibung auf der Grundlagenormalisierter Formantfrequenzen sind von Ferrari {55} untersucht wor¬

den, allerdings lediglich für einige Vokale.

-58-

V.2 ZENTROIDBESTIMMUNG

Von den der LPC-Analyse entstammenden Grössen, beschreiben p Stück das

Synthesefilter, beispielsweise in Form der Reflexionskoeffizienten,und damit indirekt die spektrale Enveloppe des Signals, die übrigendas Anregungssignal. Der aus den ersten p Komponenten gebildete Vektorbewegt sich beim Sprechen in Funktion der Zeit im entsprechenden Para¬meterraum. Diese Bewegung kann durch eine Trajektorie beschrieben wer¬

den, deren Verlauf von der vorliegenden Lautfolge und vom Sprecher be¬stimmt wird, aber auch zufallsbedingten Schwankungen unterworfen ist,da es im Bereich des menschlichen Sprechens keine perfekte Reprodu¬zierbarkeit gibt (der Einfluss von Grundfrequenz und relativer Lagedes Anregungsimpulses zum Analyseframe auf die LPC-Parameter ist in

IV.7 untersucht worden). Für verschiedene Realisierungen eines gegebe¬nen Lautes verdichten sich diese Trajektorien jedoch in einer für ihncharakteristischen Zone des Raumes, ohne sich exakt zu schneiden, wo¬

bei ihre Herkunfts- und Zielrichtungen von den jeweils benachbartenLauten abhängen. Diese Verdichtungszone soll für jeden Laut oder gege¬benenfalls jedes Allophon durch ein Zentroid beschrieben werden, das

folgendermassen definiert wird:

Der Zentroidvektor ist derjenige Vektor, dessen mittleres Ab¬

standsquadrat von seiner Spitze zu dem jeweils nächstgelegenenPunkt jeder Trajektorie minimal ist.

Als Distanzmass wird dabei die log area ratio Distanz verwendet, diein IV.5 ihrer guten Wahrnehmungstreue und anderer Eigenschaften wegenfür diese Arbeit ausgewählt worden ist. Da zu einem gegebenen Satz von

Punkten der Schwerpunkt das mittlere Abstandsquadrat minimalisiert,muss im log area ratio Raum von jeder vorhandenen Trajektorie derjeni¬ge Punkt gefunden werden, deren gemeinsamer Schwerpunkt das kleinstemittlere Abstandsquadrat aufweist. Im Falle der frameweisen d.h. zeit¬diskreten LPC-Analyse liegen die Trajektorien nicht als kontinuierli¬che Funktionen, sondern nur als zeitlich äquidistante Stützstellenvor. Damit ergibt sich zur Berechnung des gesuchten Zentroidvektors ~gzaus den log area ratio Vektoren g"t(j) der Trajektorien 1 bis T folgen¬de Vorschrift:

Tg = 1/T £ g (j) je {1 J } (5.1)z t=l t t

wobei die Stützstellen j auf den einzelnen Trajektorien derart gewähltwerden, dass

T_ _

'

21/T £ ( d (g (j), g ) ) = minimal (5.2)

t=l lar t z

Die Quadratwurzel des Ausdrucks (5.2) bezeichnet die RMS-Distanz einesZentroids von den jeweils nächstliegenden Stützstellen aller Trajekto¬rien. Sie kann als Mass für die Ausdehnung der Verdichtungszone desgegebenen Lautes und damit der Streuungen in seiner Realisation ver¬

wendet werden. Um auch für die verbleibenden LPC-Parameter typische

-59-

Werte für alle Laute zu erhalten, werden sie aus den ParameterSätzenderselben nächstliegenden Stützstellen gemittelt. Für die Restfehler-und die nur zu Darstellungszwecken mitgeführte Signalamplitude werdendas geometrische Mittel, für die Stimmgrundperiode das arithmetischeMittel verwendet, wobei letzteres nur dann zum Tragen kommt, wenn dieMehrheit der Frames periodisch ist, andernfalls wird das Zentroid als

aperiodisch festgelegt.

An dieser Stelle sei noch festgehalten, dass wir mit der Einteilung instimmhaft/-los die gebräuchliche phonologische Klassifikation meinen,während sich periodisch/aperiodisch auf die vom automatischen Pitchde-

tektionsalgorithmus {07} dem jeweiligen Signalabschnitt zugeordneteArt der Anregung bezieht und damit ein signalbezogenes Kriterium dar¬stellt. Man beachte aber, dass Signalausschnitte aus gesprochenerSprache nie exakt im mathematischen Sinne periodisch sind, sondernmeist sowohl periodische als auch aperiodische Anteile enthalten. Als

Grundlage für die Zentroidberechnung ist jeweils eine der in KapitelIII. erwähnten Diphonlisten verwendet worden, welche jeden Laut insämtlichen in der deutschen Sprache möglichen lautlichen Umgebungenenthalten. Das praktische Vorgehen für die Berechnung der Zentroidezeigt Fig.5.1 .

Von der ganzen im Verlauf eines Trägerwortes beschrittenen Trajektoriedes Modellfilterkoeffizientenvektors, wird zur Zentroidbestimmung nur

derjenige Teil ausgewertet, der sich von einer vorgegebenen Realisa¬tion des untersuchten Lautes nicht zu weit entfernt und keinen zu

schnellen zeitlichen Veränderungen unterworfen ist. Einen Anhaltspunktfür die zeitliche Ausdehnung eines Lautes liefert daher die Mittelungder Längen Jt aller ausgewerteten Trajektorienabschnitte aus (5.1).Die Lautdauer Jm wird so in Vielfachen der Analyseframeverschiebungausgedrückt.

T

J = 1/T £ J (5.3)m t=l t

V.3 ZENTROIDDARSTELLUNG

Aus den Reflexionskoeffizienten kj eines LPC-Modells können die area

Koeffizienten Aj mit folgender einfacher Rekursion berechnet werden:

1 + ki

A = A i = p, p-1, ..., 1 (5.4)i-1 i 1 - k

In Ermangelung einer absoluten Bezugsgrösse wird üblicherweise Apgleich eins gesetzt. Die area Koeffizienten entsprechen den Quer¬schnittsflächen eines aus kreiszylindrischen Segmenten zusammengesetztgedachten akustischen Resonators, der dasselbe Frequenzverhalten auf¬weist wie das LPC-Synthesefllter M(z). Gray und Markel {16} haben ge¬zeigt, dass, eine geeignete Preemphasis des Signals vor der Analyse

-60-

Auditive und visuelleAuswahl eines typischenFrames innerhalb einerRealisierung desfraglichen Lautes

AutomatischesFinden allerquasistationaeren Framesmit kleiner Distanzzum gewaehlten Frameergibt Trajektorien

Auditive und visuelleVerifikationderTrajektorien, Eliminationirrtuemlich gefundener

AutomatischeiterativeBerechnung des Zentroidsmit minimalemmittleremAbstandsquadrat

Fig.5.1 Zentroidberechnung

vorausgesetzt, die Querschnittsflächen dieses künstlichen Vokaltraktesdiejenige des natürlichen gut approximieren. Allerdings bestehen fürdie Schätzbarkeit der Stellung des Vokaltraktes aus dem Sprachsignalnach dieser Methode zwei Einschränkungen:-Die Anregung des Vokaltraktes beim Menschen muss am glottisseitigenEnde erfolgen, wie es bei der LPC-Modellierung vorausgesetzt wird.Dies trifft bei allen periodischen Lauten zu, da hier die Stimmlippenselber durch ihr Vibrieren die Luftsäule im Vokaltrakt in Schwingungversetzen. Die bei aperiodischen Lauten die Anregung liefernde Strö¬mungsturbulenz entsteht dagegen an der engsten Stelle des Vokaltrak¬tes, die je nach seiner Stellung zwischen Lippen und Zähnen genausowie zwischen den Stimmlippen liegen kann. Ist die Voraussetzung derglottisseitigen Anregung verletzt, existiert keine Ähnlichkeit zwi¬schen dem aus den LPC-Parametern berechneten und dem natürlichen Vo¬kaltrakt, der erstere wird vielmehr so bestimmt, wie wenn eine Quelleweissen Rauschens an der Stelle der Stimmlippen sasse.

-61-

-Der Nasenraum darf an der Klangformung nicht beteiligt sein. Andern¬falls wird der kombinierte Effekt von Mund- und Nasenraum durch denkünstlichen Vokaltrakt nachgebildet.

Bei der Beschreibung der einzelnen Laute in Abschnitt 5 ist für jedesZentroid die Modellübertragungsfunktion in einfach logarithmischerDarstellung (Frequenz linear 0...5 kHz, Verstärkung logarithmisch überdrei Dekaden) wiedergegeben. Darüber wurde der Längsschnitt durch denkünstlichen Vokaltrakt gezeichnet, an dessen linke Seite die Stimmlip-pen zu liegen kämen, während sein rechtes Ende der Mundöffnung ent¬

spricht. Über die Längsabmessung der einzelnen Segmente kann nur aus¬

gesagt werden, dass sie die Strecke zwischen Glottis und Mundöffnunggleichmässig aufteilen. In vertikaler Richtung aufgetragen sind die

Quadratwurzeln der area Koeffizienten, d.h. Grössen proportional zum

Radius des Resonators. Die numerischen Werte der Zentroidparametersind in Anhang C aufgeführt.

V.4 AUDITIVE UNTERSUCHUNGSMETHODEN

V.4.1 DESTRUKTIONSVERSUCHE

Für die Mehrheit der Laute lassen sich in der beschriebenen Art undWeise Zentroide berechnen, welche tatsächlich die charakteristischenEigenschaften ihrer quasistationären Phasen wiedergeben. Daneben exi¬stieren aber einige weitere Laute, die nicht oder mindestens nicht nur

mit einer zeitlich unveränderlichen spektralen Enveloppe beschriebenwerden können, weil sie sich auch durch ihr dynamisches Verhalten

und/oder bestimmte Eigenarten in der Anregung des Vokaltraktes aus¬

zeichnen. Um auch in diesen Fällen die lautunterscheidenden Eigen¬schaften erkennen zu können, sind sogenannte Destruktionsversuche ein¬

gesetzt worden. Dabei wird jeweils versucht die Wahrnehmung des be¬treffenden Lautes, eingebettet in ein gesprochenes Trägerwort, durch

gezielte Manipulationen an einem oder mehreren Modellparametern undanschliessende Resynthese zum Verschwinden zu bringen. Gelingt dies,wird die veränderte Grösse als charakteristisch für den vorliegendenLaut erkannt. Im Gegensatz zu älteren Destruktionsverfahren {17}, las¬sen sich in Verbindung mit der LPC-Modellierung selektiv die einzelnenden Sprechvorgang bestimmenden Grössen beeinflussen. Die Lautstärke,die Art der Anregung, bei periodischer Anregung die Stimmgrundfrequenzund über den Längsschnitt des Vokaltraktes die Positionen der einzel¬nen Sprechorgane können ja bekanntlich unabhängig voneinander verän¬dert werden.

-62-

V.4 .2 KONSTRUKTIONSVERSUCHE

Um zu überprüfen, dass die berechneten Zentroide die wesentlichen Ei¬genschaften der Laute, aus denen sie konstruiert worden sind und diesie vertreten sollen, auch wirklich enthalten, respektive, dass die inden Destruktionsversuchen gefundenen Eigenschaften tatsächlich überdie Lautwahrnehmung entscheiden, sind bei Bedarf Konstruktionsversuchedurchgeführt worden. Dazu sind aus dem jeweils vorliegenden Zentroidund mit den entsprechenden Verläufen der übrigen Parameter Hörprobensynthetisiert, abgehört und auf die korrekte Wahrnehmung des fragli¬chen Lautes hin überprüft worden. Ausser diesen laufend durchgeführtenVersuchen sind nach Abschluss sämtlicher Lautcharakterisierungen ausallen errechneten Zentroiden Hörproben mit jeweils vier verschiedenenLängen (entsprechend 3, 5, 8 und 12 Frameverschiebungen) synthetisiertworden. Damit konnte der Einfluss der Lautdauer auf die Wahrnehmungder Lautqualität, dessen Existenz im Falle einiger Vokallaute bereitsvon Grossmann {18} und aus eigenen Vorversuchen {01} bekannt war, sy¬stematisch für sämtliche Laute untersucht werden. Während die die Mo¬dellübertragungsfunktion des Zentroids beschreibenden Reflexionskoef¬fizienten jeweils über die ganze Probe konstant gehalten wurden, hates sich manchmal als nötig erwiesen, die übrigen Parameter zu variie¬ren. Werden z.B. Frikativlaute mit einem harten übergangslosen Einsatzerzeugt, wird ein vorangestellter Plosivlaut wahrgenommen, der mit ei¬nem weicheren Anregungsamplitudenanstieg nicht in Erscheinung tritt.Die Resultate dieses abschliessenden Konstruktionsversuchs sind in derTabelle in Abschnitt 6.2 festgehalten.

V.5 LAUTBESCHREIBUNGEN

V.5.1 VOKALE

Mit der Zentroidberechnung für die Vokallaute wurde speziell auch dasZiel angestrebt, zu überprüfen, ob die in der IPA-Lautschrift unter¬schiedenen Vokalqualitäten mit der Wirklichkeit des Sprachsignalsübereinstimmen. So differenziert die IPA nicht zwischen verschiedenen[3]-Lauten, ob diese nun von orthographisch "e" ("die welle" [V3L6])oder von "ä" ("die wälle" [V3L6]) stammen. Selbst der lange [3]-Laut,der übrigens ausschliesslich von orthographisch "ä" ("wählen"[V3;L6N]) herrührt, wird als lediglich in seiner Dauer, nicht aber inseiner Qualität verschieden vom Kurzlaut bezeichnet. Um diese Hypothe¬se zu überprüfen, ist für jede der erwähnten Varianten ein separatesZentroid berechnet worden. Dasselbe gilt für den Gegensatz zwischen!kurzem ("kalt" [KALT]) und langem ("kahl" [KA.L]) [A]-Laut. Ebenfallsals ein und diesselbe Lautqualität transkribiert wird der Schwa-Laut,unabhängig davon ob er in einem Präfix ("das gefühl" [G6F7;L]) oder ineiner Endung auftritt ("die frage" [FRA;G6]). Auch hier haben wir zweiZentroide berechnet.

Da die meisten Vokale durch die Zentroide genügend genau charakteri¬siert werden, werden im folgenden Kommentare zu einzelnen Lauten nurdort angebracht, wo spezielle Beobachtungen gemacht worden sind.

-63-

V.5.1.1 [1;] wie in "biene" [B1;N6]Zentroid <CE.l] . RMS-Distanz 0.62

dB Amplitudengang60 —

40

20

0I 0 | 1 kHz | 2 | 3

Fig.5.2 Zentroid <CE.l]

Lautdauer 13.0

Radius

— 6

— 4

4 5

V.5.1.2 [I] wie in "kiste" [KIST6]Zentroid <CE.I] RMS-Distanz 0.72


40 -

20 —

Lautdauer 4.7

Radius

— 6

— 4

— 2

0I 0 | 1 kHz | 2

Fig.5.3 Zentroid <CE.I]

I 4 5|— 0

-64-

V.5.1.3 [7;] wie in "früh" [FR7.1Zentroid <CE.7] RMS-Distanz 0.58


40

20—

0—

I 0 I 1 kHz | 2 | 3

Fig.5.4 Zentroid <CE.7]

Lautdauer 10.4

Radius

- 6

— 2

- 04 5

V.5.1.4 [Y] wie in "tücke" [TYK6]Zentroid <CE.Y] RMS-Distanz 0.72


40

20 —

Lautdauer 5.0

Radius

- 6

— 4

- 2

I 0 | 1 kHz | 2

Fig.5.5 Zentroid <CE.Y]

— 04 5

-65-

V.5.1.5 [U;] wie in "glut" [GLU;T]Ähnlich aber weniger deutlich wie bei [0;] wurde folgende Eigenartfestgestellt. Gegen die Lautränder hin weist das Modellspektrum einen

tiefen aber ausgeprägten zweiten Formanten auf (periphere Form), in

der Mitte tritt dagegen meist ein Modellspektrum mit sehr schwachem

zweitem Formanten auf (zentrale Form). Manchmal ist gar ein mehrfacherWechsel zwischen den beiden Formen zu beobachten, speziell bei langemfinalem [U;]. Für beide Formen existieren lokale Minima des mittleren

Abstandsquadrates, daher sind auch zwei separate Zentroide berechnet

worden.Für die zentrale Form:Zentroid <CE.U] RMS-Distanz 0.58 Lautdauer 11.3

dB60 -

40 —

20—

Amplitudengang Radius

— 6

— 4

— 2

0| 0 | 1 kHz | 2

Fig.5.6 Zentroid <CE.U]

5 I0

-66-

Für die periphere Form:Zentroid <CE.UP RMS-Distanz 0.60

dB Amplitudengang60 -

00 | 1 kHz | 2 I 3

Fig.5.7 Zentroid <CE.UP

Lautdauer 11.3

Radius

40

- 4

20-

— 2

4 5 |— 0

V.5.1.6 [2] wie in "schuld" [52LT]Zentroid <CE.2] RMS-Distanz 0.82


40 -

20 —

| 0 | 1 kHz | 2


Lautdauer 4.9

Radius

- 6

I 4 5

— 4

— 2

0

-67-

V.5.1.7 [E;3 wie in "see" [ZE;]Zentroid <CE.E] . RMS-Distanz 0.57


40 -

20 —

Lautdauer 12.4

Radius

— 6

— 4

— 2

00 I 1 kHz | 2

Fig.5.9 Zentroid <CE.E]

4 5 |

V.5.1.8 [3] wie in "welle" [V3L6]Ausschliesslich aus orthographisch "e"Zentroid <CE.3E RMS-Distanz 0.72


40 —

20-

Lautdauer 5.4

Radius

- 4

— 2

| 0 | 1 kHz | 2

Fig.5.10 Zentroid <CE.3E

— 04 5

-68-

V.5.1.9 [3] wie in "wälle" [V3L6]Ausschliesslich aus orthographisch "ä"zentroid <CE.3A RMS-Distanz 0.63


40

20 -

Lautdauer 6.0

Radius

- 6

- 4

| 0 | 1 kHz | 2 | 3

Fig.5.11 Zentroid <CE.3A

V.5.1.10 [3;] wie in "wählen" [V3.L6N]Zentroid <CE.3L RMS-Distanz 0.57

4 5

60

40 -

20 —

dB Amplitudengang

0| 0 | 1 kHz | 2

Fig.5.12 Zentroid <CE.3L

Lautdauer 13.0

Radius

— 6

- 4

- 2

4 5

-- 0

-69-

V.5.1.11 [0;] wie in "getöse" [G6T0;Z6]Zentroid <CE.O] RMS-Distanz 0.59


40

20

0 —

Lautdauer 14.0

Radius

0 | 1 kHz | 2 I 3 | 4


¦- 0

V.5.1.12 [8] wie in "plötzlich" [PL8TSLIC]Zentroid <CE.8l RMS-Distanz 0.73 Lautdauer 5.3

dB Amplitudengang60

10

20—

| 0 I 1 kHz | 2


Radius

— 6

-— 0

-70-

V.S.1.13 [0;] wie in "boot" [B0;T]Wie bei [U;] weisen die Trajektorien in der Lautmitte mehrheitlich einoder mehrere Frames auf, deren zweiter Formant nur stark abgeschwächterscheint (zentrale Form), während in etwa einem Viertel der Fälle derzweite Formant durchgehend ausgeprägt erhalten bleibt (periphereForm). Eine Gesetzmässigkeit für diese Erscheinung konnte nicht gefun¬den werden. Wiederum sind zwei getrennte Zentroide berechnet worden.Für die zentrale Form:Zentroid <CE.O] RMS-Distanz 0.73 Lautdauer 13.6


40 -

Radius

20

0—

— 4

0 I 1 kHz | 2 | 3 | 4 5 |


— 0

-71-

Für die periphere Form:Zentroid <CE.OP RMS-Distanz 0.69


40 -

00 I 1 kHz | 2 I 3

Fig.5.16 Zentroid <CE.0P

Lautdauer 13.4

Radius

— 6

— 4

20— 2

I 4 5 |—- 0

V.5.1.14 [Q] wie in "rock" [RQK]Zentroid <CE.Q] RMS-Distanz 0.77


40 -

20

00 | 1 kHz | 2

Fig.5.17 Zentroid <CE.Q]

13

Lautdauer 5.6

Radius

— 6

— 4

I 4 5 |

-72-

V.5.1.15 [A] wie in "kalt" [KALT]Zentroid <CE.AK RMS-Distanz 0.68 Lautdauer 5.3


Radius

40 —

20

0| 0 | 1 kHz | 2 | 3

Fig.5.18 Zentroid <CE.AK

— 04 5

V.5.1.16 [A;] wie in "kahl" [KA;L]Zentroid <CE.AL RMS-Distanz 0.44

60dB Amplitudengang

20 —

Lautdauer 14.6

Radius

— 2

00 I 1 kHz I 2

Fig.5.19 Zentroid -CE.AL

13 4 5

-73-

V.5.1.17 [6] wie in "frage" [FRA.G6]Ausschliesslich aus Finalsilben.Zentroid <CE.6] RMS-Distanz 0.80


40

20

Lautdauer 5.6

Radius

— 6

— 4

— 2

0—

| 0 | 1 kHz I 2 | 3


V.5.1.18 [6] wie in "gefühl" [G6F7;L]Ausschliesslich aus Präfixen:Zentroid <CE.6P RMS-Distanz 0.73

dB Amplitudengang60

4 5

Lautdauer 4.7

Radius

40 —

20—

0| 0 |1 kHz | 2

Fig.5.21 Zentroid <CE.6P

— 6

— 4

— 2

I 4 5 |— 0

-74-

V.5.2 KONSONANTEN

Im Gegensatz zu den Vokalen enthalten nicht alle Konsonanten eine mehroder weniger stationäre Mitte, insbesondere kann daher für die Plosiv-laute kein Zentroid berechnet werden. Da sie aber andererseits für dieDiphonsynthese mit der in II.2.5 vorgeschlagenen Modifikation nichtTräger einer Schnittstelle zu sein brauchen, ist auch darauf verzich¬tet worden, sie hier anderweitig zu charakterisieren. Wortinitialestimmhafte Plosivlaute sind von Blumstein und Stevens {56} auf ihrecharakteristischen Eigenschaften hin untersucht worden. Die auf dieenglische Sprache bezogene Studie gelangt zum Ergebnis, dass der grobespektrale Verlauf unmittelbar nach dem Signaleinsatz (10...20 ms) alsprimäres lautunterscheidendes Merkmal dient. Für [D] ergab sich dabeieine diffus steigende, für [B] eine diffus fallende bis flache Enve-loppe und bei [G] schliesslich dominierten die mittleren Spektralan¬teile. Die Frikativlaute weisen allgemein weniger ausgeprägte spektra¬le Leistungskonzentrationen auf, die wir aus Analogiegründen auch hierFormanten nennen wollen, als die Vokale. Auch sind die Streuungen zwi¬schen aufeinanderfolgenden Modellübertragungsfunktionen teilweise be¬deutend grösser. Dennoch hat Glave {19} anhand der Laute [C] und [X]nachgewiesen, dass die Lage der Formanten auch für diese Klasse vonKonsonanten ein wichtiges lautunterscheidendes Merkmal bildet.

V.5.2.1 [F] wie in "falten" [FALT6N]Wie bei den übrigen stimmlosen Frikativen konnte eine starke koartiku-latorisch bedingte Abhängigkeit der Lautdauer vom Vorgängerlaut beo¬bachtet werden. Gross ist sie nach Vokalen (12...15), extrem kurz da¬gegen nach homorganen Plosivlauten (3 4).Zentroid <CE.F] RMS-Distanz 0.57 Lautdauer 9.1


40 —

Radius

20

— 4

- 2

I 0 ! 1 kHz | 2 | 3 | 4 5 |

Fig.5.22 Zentroid <CE.F]-

¦- 0

-75-

V.5.2.2 [V] wie in "wanne" [VAN6]Das errechnete Zentroid weist eine recht grosse RMS-Distanz auf. DerVersuch die Trajektorien in Gruppen zu unterteilen, und für jede davonein separates Zentroid mit womöglich geringerer Streuung zu berechnen,brachte keine entscheidende Verbesserung. Da beim zweiten stimmhaftenFrikativlaut [Z] ähnliche Schwierigkeiten aufgetaucht sind, und sichbeide dadurch auszeichnen, dass sich in gesprochener Sprache ihre An¬

regung sowohl aus einer periodischen als auch aus einer aperiodischenKomponente zusammensetzt, sind wir zu folgender Erklärung gelangt. Jenach der im Einzelfall gerade vorliegenden Leistungsaufteilung zwi¬schen den beiden Anregungsquellen streuen die Modellkoeffizienten auf¬grund der in Abschnitt 3 erwähnten Eigenschaften der LPC-Analysestark, ohne dass mehrere Allophone in Form unterschiedlicher Formant¬

frequenzen oder Artikulationsstellungen tatsächlich vorliegen. Gemässdem automatischen Pitchdetektionsalgorithmus, welcher in bezug auf dieArt der Anregung einen binaren Entscheid treffen muss, kann der nurvor Vokalen und selten vor dem ebenfalls periodischen [R] auftretendeLaut (cf. III.3.3) folgendermassen charakterisiert werden. [V] enthältin seiner zweiten Hälfte stets den Stimmeinsatz, falls der Vorgänger¬laut aperiodisch ist, andernfalls bleibt es durchgehend periodisch. Eswird immer von einem kräftigen Anstieg der Anregungsamplitude beglei¬tet. Destruktionsversuche haben ergeben, dass die beschriebenen Ver¬läufe von Anregungsart und -amplitude zwar die Wahrnehmung von [V]enorm unterstützen, allein aber nicht ausreichen, um es etwa gegen [H]abzugrenzen. Die Modellübertragungsfunktion ist eindeutig distinktiv,wobei eine zeitliche Verlängerung der typischen [V]-Phase eine schein¬bar stärkere Betonung der [V]-Wahrnehmung entstehen lässt.Zentroid <CE.V] RMS-Distanz 0.97 Lautdauer 5.1

dB Amplitudengang Radius60 — —

_

— 6

40

— 4

20 - x_

„

4| 0 | 1 kHz | 2

Fig.5.23 Zentroid <CE.V]

— 0

-76-

V.5.2.3 [S] wie in "nass" [HAS]cf. Abschnitt 5.2.1Das Modellspektrum ist von demjenigen des Lautes [F] nur oberhalb vonetwa 3.5 kHz (!) wesentlich verschieden.Zentroid <CE.S] RMS-Distanz 0.67 Lautdauer 11.0

60

40 —

20 —

dB Amplitudengang Radius

- 6

— 4

- 2

o —

I 0 | 1 kHz | 2 | 3

Fig.5.24 Zentroid <CE.Sj

I 4

— 0

-77-

V.5.2.4 [Z] wie in "nase" [NA;Z6]Obschon wie [V] allgemein als stimmhafter Frikativlaut bezeichnet wird[Z] vom automatischen Pitchdetektionsalgorithmus bis auf wenige Framesvor dem zwangsläufig folgenden Vokal (cf. III.3.3) als aperiodischklassifiziert, es enthält den Stimmeinsatz also stets in seinem letz¬ten Abschnitt. Im Gegensatz zu [V] ändert auch ein periodischer Vor¬gängerlaut nichts daran, dass [Z] über weite Teile aperiodisch bleibt.Interessanterweise gelangt nur Wüthrich in seiner Arbeit {57}, in derer die deutschen Konsonanten anhand auditiv-phonetischer Kriterien

klassifiziert, zu einer solchen unterschiedlichen Beurteilung von [V]und [Z] hinsichtlich ihrer Geräuschanteile, indem er ersteren zur Ka¬

tegorie 'halb Klang, halb Geräusch' zählt, letzteren dagegen mit denstimmlosen Frikativen unter 'Geräusch' einordnet. Der Laut [z] wirdimmer von einem kräftigen Anstieg der Anregungsamplitude begleitet.Auch hier kommt der Modellübertragungsfunktion lautspezifische Bedeu¬tung zu, wenngleich für eine klare Wahrnehmung als [Z] die geschilder¬ten Verläufe von Anregungsart und -amplitude ebenfalls massgebendsind. Folgt [z] auf einen stimmlosen Frikativlaut, wird der Stimmein-satz hinausgezögert und [Z] eher als [S] artikuliert. Es handelt sichbei dieser Erscheinung um einen typischen Koartikulationseffekt, indem

gewisse Eigenschaften des einen Lautes von denjenigen seiner Nachbarnbeeinflusst werden, im vorliegenden Falle im Sinne einer Anpassung.Zentroid <CE.Z] RMS-Distanz 0.79 Lautdauer 7.6

dB60 -

Amplitudengang Radius

- 6

40 -

20-

0—

| 0 I 1 kHz | 2

Fig.5.25 Zentroid <CE.Z]

I 4

— 4

— 2

— 0

-78-

V.5.2.5 [5] wie in "schlag" [5LAK]cf. Abschnitt 5.2.1Zentroid <CE.5] RMS-Distanz 0.64


40 -

20

Lautdauer 10.4

Radius

— 4

- 2

0| 0 | 1 kHz | 2


-- 04 5

-79-

V.5.2.6 [X] wie in "flach" [FLAX]cf. Abschnitt 5.2.1Der automatische Pitchdetektionsalgorithmus schwankt innerhalb von [X]Lauten zwischen periodisch und aperiodisch hin und her, wobei im pe¬riodischen Fall die gefundene Grundfrequenz wilden Variationen unter¬

worfen ist. Konstruktionsversuche haben ergeben, dass eine durchgehen¬de Synthese mit aperiodischer Anregung dem [X] wesentlich besser ge¬

recht wird, als mit periodischer. Werden ungefähr entsprechend der au¬

tomatischen Detektion ein Drittel bis die Hälfte aller Frames perio¬disch, der Rest aperiodisch synthetisiert, ergibt sich eine leichte

Zunahme der für das [X] typischen Rauhheit.

Zentroid <CE.X] RMS-Distanz 0.76 Lautdauer 11.0


40 -

Radius

20

- 6

— 4

— 2

| 0 | 1 kHz | 2

Fig.5.27 Zentroid <CE.X]

0

|3 I 4

-80-

V.5.2.7 [C] wie in "mönch" [M8NC]cf. Abschnitt 5.2.1Zentroid <CE.C] RMS-Distanz 0.65


40 —

20

Lautdauer 11.4

Radius

- 6

— 4

— 2

I 0 | 1 kHz | 2

Fig.5.28 Zentroid <CE.C]

5 I— 0

1c

C_

Oi1_

.-Ulli

i10

c•rt

aidl

cIh

U-.

ui

C10

dXI

jyc

J_TI

•o3

dl10

r-

-rl<

nj10

oO

Hdl

cN

>c

cm:

>cn

Cdi

OiC

UlHJ

'HJ0

aix:

HJ

0101

Chj

uid

Uiin

dIh

CQo

tu•rA

Iho

dl•H

3dl

lOC

o0

iHA-l

Oi•rl

•1—1d

10hj

SZO

>>

3in

HJ

inXI

HJ

J_

3dl

HZN

tuUHC<

J_

U10

OirO

Lj3

<*3

•oin

hj

rH

c.

3„

HJ

10Ui

UiXIü

>TJ

dlHJ

d10

XIc

dlHJ

•rl.C

-I

CTJ

dlXI

dl•rl

Ul

_3

HJ3

tn

-H

dlSZ

OlTJ

c•

Q.10

3r~

in2(0

dlrA

u¦H

oUH

TJz<

OiN

_.

-0HJ

Xutn

*:U

C«rl

C•H

in

HJ

•rlUH

DlHJ^

fflUi

3Oi

-U

'S*

.rAtn

110C

X!_

HJ

fc.d

-1

dlUi

_

BS—

eT-A

10_

•H

UX

Ct/1

-H

hjd

01tn

C._

Jf01

13dl

Cdl

3o

3^-i3

ID0

rH

-H

UH

EDl

SZDl

sz10

l|H>

sE

dl1COUO

DaT3

HJN

c»0

10110

OlO

dlul

CHJ

rH

HJu

_c

cSZ

CX

Ulli

-H

Ui3

¦tDtD

01Ol

•Hsz

V0>

LIrHW

dldl

10SZ

ui"O

HJV

cu

OlUl

10TJ

rj

HJC

co

dlzz

Ih-H

CUi

HJ

C-n

10tn

C•_

T!T3

SZU

--I

ÜJe

dl0)

tur-A

0Ih

roO

hj

x;•H

drH

>dl

34J

TJUi

x;C

SHJ

¦03

dlto

ddi

din

uO

Hin

UH

IhIh

TJdl

rH

IflOl

Odl

-H

¦rAHJ

•H

c01

dl3

rH

3S

110H

01Ol

¦MUl

dl•H

HJHJ

(0JC

MM

HJ

TJN

r~

JH•c

XIx:

SZ•H

JfH

dJHJ

j_Ui

0Jm

eu

dl•r|

oO

-W>

dd

•H

XIo

HJ

OJtn

Li10

a.>

u,di

3s

0)TI

•H

ind>

Ei

10_

_3[_

NTJ

SOl

dlTI

Uld

dlrH

Nro

dJ=

-«rl

3tn

dlE

SZ-A

CZd

J£10

Ur-

•H

T>¦o

10Oi

TIO

HOVI

dltu

OHJ

HJ

f-lU

uHJ

C¦H

>d

SZrH

>Ul

¦H

*dl

dl•H

dl3

DIin

u10

XJ•rA

CUf-l

o.•H

sHJ

Ol_3

OlHH

Ul>

Q10s

•H

[_dl

¦rA0J

Ifl.H

•H

10bo

Cl-i

dlUl

UtS

-H

OiXIX

l_a

0)rA

HJ

NrH

cdl

>dl

O1

_

SZrA3

XIOl

TJ<

Uld

-rl-H

Ulem

u10

udl

cdl

dld

dO

rH

cin

•rH

inXI

3M

•rix:

did

Ul10

01-H

IH

Li•rH

•odl

TJU

rH

UlO

dl•_

HJO

dl2c

dlHJ

uim

oix:

insz

Sg~

Ol3

T>I-H

c¦rA

J£a,

dl-

C¦H

310

Ul-_¦

OHJ

•H

3o

c«0

IHHJ

HJ

dldl>

HJ

UlTJ

10HJ

COi

Ol•H

eUl

dd

-h

dil-J

P.03

10Uta>

rH

tuc

¦ho

du.

dTJ

ioje

0Ql

rH

odi

x;oi

hj

Hd

Ol_1

>TI

E(0X

atJ

di3

U_

cc

10_.

rH

UlUl

Ul•*V

.m

Udl

dlin

Ot-l

UID

rA

AJOi

03.•o

J=dl

x:>

Oi>

•rA01

ddl

Hd

UH

r—•TJ

uj•o

di•H

cE

3Ol

SZDl

O3o

•H

inhj

OlHJ3

C10

-h

roui

>«t

rHo

tntn

Ulx:

10Oi

dldl

TJUl

T3Ui

UiHO

r-lu

_;dl

TJSZ

HJ

dlHJ

Ed

r-A_

•H

_u

3E—.

UiUi

dIH

d01

dlCD

3_

B3

3ID

Or-j

01dl

tudl

dlO

rH

_l

tjt_

«1N

in-j>

•—•tj

x:HJ

rH

IM

_ä

-82-

V.5.2.9 [M] wie in "mahl" [MA;L]Es hat sich herausgestellt, dass die Nasallaute untereinander sowohlvisuell anhand der Modellübertragungsfunktion als auch mithilfe der

log area ratio Distanz nur schwer auseinanderzuhalten sind. Ob eineallfällige Erweiterung des Sprachproduktionsmodells zum Pol-Nullstel¬len Modell {51} diesbezüglich eine Verbesserung bringt, ist nicht un¬

tersucht worden.Zentroid <CE.M] RMS-Distanz 0.77 Lautdauer 7.3


Radius

40

20 —

0

- 4

— 2

I 0 | 1 kHz | 2

Fig.5.30 Zentroid <CE.M]

14 5 |

-83-

V.5.2.10 [N] wie in "nicht" [NICT]cf. Abschnitt 5.2.9Zentroid <CE.N] RMS-Distanz 0.74

dB Amplitudengang60

40 -

20—

0-

,0 | 1 kHz I 2 13

Fig.5.31 Zentroid <CE.N]

V.5.2.11 [9] wie in "zwang" [TSVA9]cf. Abschnitt 5.2.9Zentroid <CE.9] RMS-Distanz 0.68

dB Amplitudengang60

40 -

20—

0—

0 | 1 kHz I 2

Fig.5.32 Zentroid <CE.9

Lautdauer 6.3

Radius

- 6

I 4 5|

— 4

— 2

— 0

Lautdauer 7.9

Radius

- 6

— 4

— 2

4 5

— 0

-84-

V.5.2.12 [L] wie in "lack" [LAK]Das berechnete Zentroid weist eine relativ grosse RMS-Distanz auf. Zu¬dem erwies sich die Abgrenzung zum Vokal Schwa zunächst als schwierig,da die Modellübertragungsfunktionen beider Laute einander stark äh¬neln. Der zweite, dritte und vierte Formant stimmen praktisch uberein.Destruktionsversuche haben gezeigt, dass die Verschiebung des erstenFormanten von ca. 300 Hz bei [L] zu ca. 400 Hz bei [6] distinktivwirkt. Dies gilt auf keinen Fall für den ebenfalls beobachteten Unter¬schied in der Anregungsamplitude, die beim Schwa im Mittel um gut 8 dBhöher liegt. Merkwürdigerweise erwies sich auch das log area ratio Di-stanzmass als unempfindlich gegenüber solchen Unterschieden, wie siezwischen [L] einerseits und Lauten wie [6], [Y], [8], [0], [I] und [7]andererseits auftreten (cf. Abschnitt 6.1). Die errechneten Zentroid-distanzen bleiben nämlich weit hinter denjenigen Werten zurück, dieder subjektive Vergleich erwarten lässt.Zentroid <CE.L] RMS-Distanz 1.13 Lautdauer 5.8

dB Amplitudengang Radius60 -

_

40

20

I 0 | 1 kHz | 2 | 3 | 4 5 |

Fig.5.33 Zentroid <CE.L]

V.5.2.13 [R] wie in "rot" [RO;T]Dieser Laut erwies sich als der problematischste überhaupt. Bereitsbei einer reinen LPC-Analyse und darauffolgender Resynthese leidetseine Wiedergabequalltat wesentlich stärker, als diejenige andererLaute, wobei eine versuchte Verkürzung von Länge und Verschiebung desAnalyseframes auf 10 resp. 5 ms keine Verbesserung brachte. Der Laut[R] konnte im Sprachsignal jeweils anhand folgender Merkmale erkanntund lokalisiert werden:

-83-

V.5.2.10 [H] wie in "nicht" [NICT]cf. Abschnitt 5.2.9Zentroid <CE.M] RMS-Distanz 0.74


40 -

20—

0 -

0 | 1 kHz I 2 I 3

Fig.5.31 Zentroid <CE.N]

Lautdauer 6.3

Radius

— 6

— 4

4 o

0

V.5.2.11 [9] wie in "zwang" [TSVA9]cf. Abschnitt 5.2.9Zentroid <CE.9] RMS-Distanz 0.68


Lautdauer 7.9

Radius

40 -

20 —

4 5| 0 I 1 kHz I 2

Fig.5.32 Zentroid <CE.9

— 6

— 4

— 0

-84-

V.5.2.12 [L] wie in "lack" [LAK]Das berechnete Zentroid weist eine relativ grosse RMS-Distanz auf. Zu¬dem erwies sich die Abgrenzung zum Vokal Schwa zunächst als schwierig,da die Modellübertragungsfunktionen beider Laute einander stark äh¬neln. Der zweite, dritte und vierte Formant stimmen praktisch uberein.Destruktionsversuche haben gezeigt, dass die Verschiebung des erstenFormanten von ca. 300 Hz bei [L] zu ca. 400 Hz bei [6] distinktivwirkt. Dies gilt auf keinen Fall für den ebenfalls beobachteten Unter¬schied in der Anregungsamplitude, die beim Schwa im Mittel um gut 8 dBhöher liegt. Merkwürdigerweise erwies sich auch das log area ratio Di-

stanzmass als unempfindlich gegenüber solchen Unterschieden, wie siezwischen [L] einerseits und Lauten wie [6], [Y], [8], [0], [I] und [7]andererseits auftreten (cf. Abschnitt 6.1). Die errechneten Zentroid-distanzen bleiben namlich weit hinter denjenigen Werten zurück, dieder subjektive Vergleich erwarten lässt.Zentroid <CE.L] RMS-Distanz 1.13 Lautdauer 5.8

dB Amplitudengang Radius60 - _

40

20—

0 —

0 | 1 kHz | 2 | 3 | 4 5 |

Fig.5.33 Zentroid <CE.L]

V.5.2.13 [R] wie in "rot" [R0;T]Dieser Laut erwies sich als der problematischste überhaupt. Bereitsbei einer reinen LPC-Analyse und darauffolgender Resynthese leidetseine Wiedergabequalität wesentlich stärker, als diejenige andererLaute, wobei eine versuchte Verkürzung von Länge und Verschiebung desAnalyseframes auf 10 resp. 5 ms keine Verbesserung brachte. Der Laut[R] konnte im Sprachsignal jeweils anhand folgender Merkmale erkanntund lokalisiert werden:

-85-

-Der Maximalausschlag des Zeitsignals innerhalb der einzelnen Grundpe¬rioden pendelt seinerseits mit etwa 45 ms Zykluszeit zwischen einemMaximalwert und beinahe Null.

-[R] ist durchgehend periodisch. Die Grundperiode nimmt gegenüber ei¬ner periodischen Umgebung leicht zu, vor allem aber pendelt sie sel¬ber ebenfalls mit einer Zykluszeit von ca. 45 ms.

-Gegenüber vokalischer Umgebung nehmen Signal- und Anregungsamplitudestark ab und schwanken im selben Zyklus wie die Stimmgrundfrequenz.

-[R] zeichnet sich kaum durch eine einzelne spezifische Modellübertra¬gungsfunktion aus. Typisch ist dagegen, dass einzelne Frames völligvon ihren Nachbarn abweichen. Entsprechend kommt dem berechneten Zen¬troid geringere Bedeutung zu, als bei den meisten übrigen Lauten.

Die Figuren 5.34 und 5.35 zeigen diese Erscheinungen am Beispiel desWortes "bohren", der Laut [R] erstreckt sich etwa vom Frame 1900 biszum Frame 1908.

ZeitsignalAnregungsamplitudeSignalamplitudeGrundperiodenlaenge

M^^llU^*".

/VA^-M/v—^VA

y»i^W^"^

f* T^tf*~*to*

TT"Y90 00 10 20

I frames 1896 bis 1909 I I frames 1880 bis 1929 I

Fig.5.34 Zeitsignal eines [R] Fig.5.35 Zugehörige Verläufe von

Anregungs- und Signalamplitudesowie Grundperiode

-86-

Destruktionsversuche haben ergeben, dass ein Ausgleich der erwähntenVerläufe von Grundfrequenz und Amplitude nicht ausreicht, um die Wahr¬nehmung als [R] auch nur zu schwächen. Werden die von der Umgebungstark abweichenden Frames jeweils durch die ParameterSätze ihrer Vor¬

gänger ersetzt, verblasst der [R] Eindruck ein wenig. Erst ein Ersatzaller Frames durch ein und denselben Parametersatz, lässt es etwa zu

einem [4] entarten. Die Untersuchung und Manipulation der Veränderun¬gen des künstlichen Vokaltraktes in Funktion der Zeit brachteschliesslich einige Fortschritte in der Charakterisierung von [R],wenngleich die gefundenen Resultate noch nicht umfassend sind. Es wur¬

de festgestellt, dass der Querschnitt des Vokaltraktes gegen seinmundseitiges Ende hin sich zyklisch verengt und erweitert, und zwar

derart, dass seine geringste Öffnung mit dem kleinsten Wert der Sig¬nalamplitude zusammenfällt.

Radius des akustischen Resonators

I frames 1898 bis 1903 I I frames 1904 bis 1909 I

Fig.5.36 Zugehörige Vokaltraktlängsschnitte

-87-

Ein Konstruktionsversuch, bei welchem die Vokaltraktsegmente 0 bis 4

auf die eben beschriebene Weise gesteuert worden sind, vermochte ein

Signal zu erzeugen, das als [R] empfunden wird, wenn es auch immer

noch nicht genügend rollt. Die Vermutung liegt nahe, dass die für den

[R] Laut charakteristischen durch ein Vibrieren der Zungenspitze ver¬

ursachten Modulationen von Vokaltrakt, Stimmgrundfrequenz und Amplitu¬de infolge der LPC-Modellierung nur ungenügend wiedergegeben werden.

Krämer {52}, der die verschiedenen Allophone des Phonems /R/ anhand

von Sonagrammen untersucht hat, stellt eine durch wiederholte Ver¬

schlussbildung des Vokaltraktes bedingte zyklische Signaldämpfung und

Schwankungen insbesondere der Formantfrequenzen drei und vier fest,wobei der Verschluss durch Bewegungen der Zungenspitze oder des Hals¬

zäpfchens entstehen könne (als freie allophonische Varianten). Er be¬

zeichnet die Wiederholungsfrequenz dieser Phänomene als Intermissions-

frequenz und gibt dafür in guter Übereinstimmung mit den vorliegendenBeobachtungen einen Wert von maximal 30 Hz an, wobei mit beträchtli¬

chen sprecherabhängigen Variationen zu rechnen sei. Ebenfalls interes¬

sant ist seine Feststellung, dass das vokalische /R/-Allophon [4] aus¬

ser im Fehlen eben der Intermissionseffekte mit den bisher besproche¬nen konsonantischen Allophonen in jeder Beziehung übereinstimmt, und

daher als phonetischer Grundgehalt aller /R/-Allophone betrachtet wer¬

den könne.

Zentroid <CE.R] RMS-Distanz 1.07 Lautdauer 5.3

dB Amplitudengang Radius60 - —

— 6

40 -

20

| 0 | 1 kHz I 2 | 3 | 4 5 |

Fig.5.37 Zentroid <CE.R]

-88-

V.5.2.14 [H] wie in "huhn" [HU;N]Es ist eine grosse Streuung der Lautrealisationen beobachtet worden,die wahrscheinlich wieder wie in Abschnitt 5.2.2 auf unterschiedlicheAufteilungen zwischen den zwei Anregungsarten zurückzufuhren ist. Im

Gegensatz zur Situation bei [V] konnten die Realisationen zwei Gruppenzugeordnet werden, und überdies eine koartikulatorisch bedingte Ge¬setzmässigkeit für das Auftreten der einen oder anderen Form gefundenwerden. Die erste Kategorie (unvoiced Form) tritt offenbar immer dann

auf, wenn [H] auf einen aperiodischen Laut folgt, wozu auch der Leer¬laut zu zählen ist, und enthält selber den Stimmeinsatz, welcher durchden stets nachfolgenden Vokal (cf. III.3.3) bedingt ist. Die zweiteKategorie (voiced Form) erscheint dann, wenn bereits der Vorgängerlautperiodisch ist, und wird vom Pitchdetektionsalgorithmus als durchge¬hend periodisch erfasst. Sie wird von einer wesentlich schwächeren Zu¬nahme der Anregungsamplitude begleitet als die unvoiced Form. Die Mo¬dellübertragungsfunktion hat sich in Destruktionsversuchen als wesent¬lich herausgestellt. Über Manipulationen der Grundfrequenz und Anre¬

gungsamplitude kann die Wahrnehmung als [H] nicht unterdrückt werden.Ein Austauschen der beiden Formen untereinander führt zu keiner miss¬verständlichen Wahrnehmung, wenn die Anregungsamplitude einigermassenangepasst wird. Offenbar können sie als stellungsbedingte Allophonedesselben Phonems interpretiert werden, die sich vor allem im Zeit¬punkt ihres Stimmeinsatzes unterscheiden (cf. (53)). Für beide Formenist ein separates Zentroid berechnet worden.Für die unvoiced Form:Zentroid <CE.HU RMS-Distanz 0.98 Lautdauer 3.9


Radius

40 —

20 —

— 6

— 4

o—

| 0 | 1 kHz | 2

Fig.5.38 Zentroid <CE.HU

I 4

-89-

Für die voiced Form:Zentroid <CE.HV RMS-Distanz 1.02


Lautdauer 4.7

Radius

40 -

20

— 4

— 2

0I 0 | 1 kHz | 2

Fig.5.39 Zentroid <CE.HV

I 4 5

— 0

V.6 GEGENÜBERSTELLUNG ALLER LAUTE

V.6.1 OBJEKTIVER ZENTROIDVERGLEICH

In der Tabelle von Fig.5.40 sind die mit dem log area ratio Distanz-mass berechneten paarweisen Abstände aller 35 Zentroide festgehalten.

0

120

146

011

54

017

1517

14

LOG

AREARATI0(2)

CENTROIODISTANCE

TABLE

DISTANCESARE

ROUNDED.

LIMITED

TO

9.9

ANDMULTIPLIED

BY

10

CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCrrr

EE

EE

EE

EE

EE

EE

EE

EE

EE

EE

EE

E£

II

E1

EI

EI

IE

I5lllnD?n?i!?S!?°°*Ä66FVSZ5icJMN9LRHH

33333P3DEAL333P3KL3P333J333333333UV

<CE.13

0<CE.I3

20

0<CE.73

20

150

<CE.Y3

26

1214

0<CE.U3

49

46

4139

0<CE.UP

50

46

4139

30

<CE.23

42

34

3226

24

23

0¦CCE.E3

20

616

1649

49

38

<CE.3E

22

1214

1438

39

29

<CE.3A

25

14

1816

38

38

29

<CE.3L

24

1116

1340

40

30

<CE.03

25

14

13538

38

27

<CE.83

24

1514

1033

33

22

19

1113

1212

0<CE.03

49

45

4138

99

2148

37

36

38

37

32

0<CE.OP

514642

38

15

1418

49

39

38

40

37

33

10

0<CE.O]

4130

28

2127

26

13

33

24

24

2422

18

2424

0<CE.AK

3223

2420

30

30

22

26

1616

17

2112

28

3114

0<CE.AL

36

27

27

22

3131

22

30

21

2121

24

1529

3113

40

<CE.6]

25

1316

1234

36

23

17

10

1211

15

734

35

1911

150

<CE.6P

20

911

840

40

28

1210

12

10

9839

39

24

1822

90

<CE.F3

34

29

37

29

48

48

37

3128

24

26

3127

43

45

33

27

29

27

28

0<CE.V3

27

25

26

22

32

33

2529

24

25

2522

1930

33

26

22

26

1921

29

0•CCE.SJ

43

37

48

40

64

64

50

3940

39

38

43

41

59

60

46

4142

39

39

1740

0<CE.Z3

3428

3831

55

5642

32

33

34

3234

32

52

54

40

34

37

30

3125

2525

0<CE.53

4539

4841

5657

47

40

36

35

3543

38

52

5442

35

36

38

39

144220

34

0<CE.XD

3534

38

33

44

4534

38

32

32

3234

29

39

42

34

28

29

29

3119

24

2727

28

0<CE.C3

48

39

4840

5657

46

40

37

35

35

42

38

52

54

40

35

36

38

39

14

4220

35

11

310

<CE.J3

184

1415

4949

37

815

18

1515

1848

49

33

27

3118

1131

27

3829

4135

410

<CE.M3

23

24

1923

3132

27

30

23

25

24

22

18

31

3428

23

27

2121

38

2050

40

50

33

5128

05rr"on

1111

112B

3S36

32

32

25

27

2B

2B

23

3A

37

3A

27

3l24

25

3»

23

5141

50

3152

30

110

VH'F,11

?!2l

2?

3?3B

33

3124

26

27

29

23

36

A0

3A

2i

30

2A2S

3B

25

49

4148

31

5131

137

05ÜI'»?i

?1S"

39

39

26

20

i61B

1713

1237

38

23

1B20

101230

1940

29

42

29

42

17

1822

22

0<CE.R3

28

2123

1732

32

19

25

18

17

18

1913

28

29

1915

19

1317

25

1438

29

38

24

37

24

20

22

22

14

0

Jrc-Üü11V

2B

22

35

35

27

26

1B17

1B2A

t632«

23

1A""

2»«

2131

30

2i5l

27

27111111

23

170

<CE.HV

32

26

28

25

29

30

25

29

2119

2126

18

2730

23

1621

1822

26

1741

32

36

28

36

30

24l?III4

1315

0

Fia.5.40

TABELLE

DER

PAARUEISEN

ZENTROIDDISTANZEN

-91-

V.6.2 AUDITIVER VERGLEICH

Die Ergebnisse der Lautbeschreibungen und der abschliessenden Kon¬

struktionsversuche sind auf der folgenden Seite im Sinne einer grobenÜbersicht tabellarisch zusammengestellt.0 0

Legende für die einzelnen Spalten:

Laut : Lautqualität und -quantität gemäss IPA-Lautsystem

Kat : phonologische KategorieV : VokalP : PlosivlautF : FrikativlautH : HalbvokalN : Nasallaut } KonsonantL : LaterallautR : VibrantA : Aspirationslaut

Stirn : Stimmhaftigkeit gemäss phonologischer Klassifikationh : stimmhaft1 : stimmlos

Zen Zentroidbezeichnung, Suffix zu <CE.

Voic : Art der Anregung gemäss Pitchdetektion und Hörprobenv : periodischu : aperiodischu->v : Stimmeinsatz innerhalb des Lautes(u)->v : Stimmeinsatz falls nicht bereits vorher periodisch

Merk : Primäre distinktive Merkmale für die Lautqualitätausser der Anregungsart

r : Modellfiltercharakteristikg : Amplitudenverlaufd : Lautdauero : Modulation von Modellfiltercharakteristik,

Amplitude und Grundfrequenz

## : plausibelste Wahrnehmung im Konstruktionsversuch03 : mit 3 Frames entsprechend 45 ms Dauer05 : mit 5 Frames entsprechend 75 ms Dauer08 : mit 8 Frames entsprechend 120 ms Dauer12 : mit 12 Frames entsprechend 180 ms Dauer

? : unidentifizierbarer Laut

Beo : Beobachtungen zur Lautqualität im Hörvergleich

Ol

mi

COI

.—i

uu

¦—1

3<nm

oOl

dl<D

dldl

10-H

-H

•H

ss

s3

.*

'-twrôtnâf-txirnmnocoooo-rtirtjioi

olOoo

•»

**

*~<

wp*otJt>p-»«Hfnr<")fnf-oot3t3r-»rtj«i;ioio

liiiii

6L,>^/l^]LnXU,-)

X55

cr\jm

p«

p«

tu>UiNli-)>«;U'^

S55CT>

JiO

p-.o-.

HhjMSDNHnnniHiONfM^flKiioio

ii

tI

ii

04>üiN(V'XUh

2*55d

jio

r-

o-

t^>iSEDCMMmmro>iCOMO]^*ie(<\ovo

Ifc

l/lLT)X

(JU

Oj

Hr-^

<^-

«-«Säct»

Cl

Oli

NJ(

SI

¦HI

4J

Il/l

I

4->I

(0I

*:i

3I

tft

>>>>>>>>>>>>>>>>>>>>

fs.(v.

^.

^.

r.

ts.p'a3Da33>

>>>

r—1<—tl

lt-ii

1{L,

iii—.

[q«(

.J.—,,

irnOji

1\£J

.—.

CLiHwr-tMö^3(NWmnmoooooO'<'a:iou>

x:.c

x:.c

x:x:.c.c:.C£:.cx:.c

x:x:

x:x:

î

x,rH

x:-i

x:-t

x:r-<

x:.-i

>>

p>

II

II

I|

.—.r-i,—.r—.r—,.—,,—,^-,

r-,nr-i

II

1I

II

b>rtNinXUr5

X55

Ol

£x:

x:.c

x:x:

>>>>>

>>>>>>>>

>>>>

CU&iOjCUCUCL

fcfarJL.fcifofclijlirscasa

—I

l-lr-

>*^»

CMWroronOtOO

O<

OiKD

D.tOHD«Ü

fc>UlNiflXUh

£|zot

J05

<

JCÜ

X

-93-

V.7 DISKUSSION

Die bisherigen Abschnitte dieses Kapitels haben sich auf eine Be¬

schreibung der Lauteigenschaften und deren Erfassungsmethoden be¬schränkt. Im folgenden sollen nun einige Schlussfolgerungen aus diesen

Ergebnissen gezogen werden, die sich jedoch nicht alle unmittelbar aufdas gesteckte Ziel der Sprachsynthese beziehen.

-Die grösste Zentroiddistanz von 6.4 ergibt sich zwischen den Lauten

[U;] und [S]. In der Tat bilden sie auch in artikulatorischer und au¬

ditiver Hinsicht einen sehr starken Gegensatz.

-Die innerhalb der beiden Langvokale [U;] und [0;] festgestellten Un¬terschiede zwischen einer peripheren Form mit ausgebildetem zweitemFormanten und einer zentralen Form, bei der dieser zurücktritt, sind

nur visueller Art. Perzeptorisch sind die zwei Formen nicht auseinan¬derzuhalten. Die Zentroiddistanzen sind in beiden Fällen gering,wenngleich man von der Wahrnehmung her speziell bei [0;] noch kleine¬re Werte dafür erwarten müsste.

-Die minimalen Abweichungen der für die verschiedenen Varianten von

[3] (kurz aus "e" und "ä", sowie lang aus "ä") berechneten Zentroidesowie die ebenfalls minimalen perzeptorischen Unterschiede zeigen,dass es sich tatsächlich um diesselbe Lautqualität handelt, wie diesim IPA-Transkriptionssystem festgelegt ist und für die Untersuchungenüber Lauthäufigkeiten und Lautverbindungen in Kapitel III. vorausge¬setzt worden war.

-Auch der kurze und der lange [A] Laut dürfen aufgrund ihrer geringenDistanz ohne weiteres als nur in ihrer Dauer voneinander verschiedenbetrachtet werden. Beide Zentroide werden eindeutig als [A] wahrge¬nommen, wobei dasjenige aus dem Langvokal ein bisschen klarer er¬

scheint.

-Der Schwa-Laut wird dagegen leicht verschieden artikuliert, je nach¬dem ob er in Präfixen oder in Endungen erscheint, wobei das aus den

Endungen stammende Zentroid sich besser gegen die übrigen Vokallaute

abzugrenzen vermag. Die Auswirkungen dieses Phänomens auf die Synthe¬se werden in VII.2 beschrieben.

-Im Gegensatz zu den beiden bereits erwähnten Vokalpaaren, bei deneneine zeitliche Streckung respektive Raffung einzig die empfundeneLautquantität verändert, wie dies auch in den geringen Zentroidab-ständen zum Ausdruck kommt, nämlich

[3] <-> [3;] Distanz 0.4 (zwischen den beiden "ä"-Formen)[A] <-> [A;] Distanz 0.6

existieren genau drei andere Paare, bei denen die Lautdauer die emp¬fundene Lautqualität derart stark beeinflusst, dass die jeweiligenPartnerlaute durch Änderung lediglich ihrer zeitlichen Ausdehnung in¬einander übergeführt werden können. Zwei davon weisen in der Tat sehr

geringe Zentroidabstände auf. Dies obschon in der phonetischen Lite¬ratur {03,10} dafür jeweils unterschiedliche Artikulationsstellungenund Formantfrequenzen angegeben werden, welche ganz ohne Berücksich¬tigung der zeitlichen Ausdehnung alle Lautqualitäten voneinander un-

1£

ii

Ii

idl

uu

Li1

dlC

1c

x;1

LiS

<DrH

0>•H

Li10

Udl

Oldl

U•H

dlLi

<uu

d>d)

STJ

fÖc

Lidl

4-»IÜ

TJ4-»

TIdl

TJr-t

dlNo

J23

••

C-*:

o'O

>—1

10tn

>•H

CX!

njc

M(1)

ox;

x:3

o.c

cL4

dlc

4J

OlrH

LiTJ

dlc

<ocj>>

ELdl

m-4-»

HLi

dlOl

4J

dlc

3di

d)P

TJP

3Li

d)TJ

crH

Cr3

dl3

dl•r4

c•H

LiTJ

1erp

u~>in

nj3

N03

10X!

x:dl

•odl

•H

NoOOoooooooooooo

Qi-pc

mii

0»¦

i-H(0

JtfN

10J

UTI

c4-»

oIjXMom

in

CNoooo

in

00m

^<

vovo

u•H

3-3

S-^CM

TJO

TJC

3N

•H

dlC

Lio

CV]m

cjm

CJ

-*

rnmmm

**

ro

in

ix»\o

ü-,e

LiLi

1—1

0)>

Lidl

(0-M

dl3

34J

tufO

LiC

P•»n

x:Li

dldl

T3C

0in

4J

4J

Cc

TJd)

d)TJ

J3(1)

OLi

U0)

0)•a

•H

Cdl

tnu

•H

odl

rH

<dV)

XI>—':3

H3

rHCQ

dl4IHH

CH

OiCE

c3N

4-»LipQ>

rH•TJ

0)0)

cc

x;oj

dldl

Cdl

•3

inN

CX!

P4-1

Utn

t-ip

2"

yp

4->4-J

4J

<os

cXI

OlOl

dl13

Mx:

•H

3XI

>>

CM

:<TJP

Li«M

X!(/]

Cdl

dl•H

cc

TJ«4-1

0)u

OrH

Unj

i—i

tn

H<U

10U

Ac

dll-iXJ

dl10

•H

dlx:

•Hs

NV)

MH

V)TJ

EC

C3

4J

dlOl

HU

--ITJ

dlin

Olu

T3(

ii

11

++

t+

1+

++

acß

d)Li

3-

x:l-i

uUl

dlXI

4JC

dlX!

.*LiC

3144

0•H

i1

++

oIMH

J-lTJ

ON

Cu

a>l/l

•00

nu

x:O

cdl

U10

3x:

>Olo

d>w

c[b

<DV)

TJc

Cc

yoiu

m*H

r-\•H

10dl

33

dlTJ

tnd>U

r-tdl

dlu

^DP

Lid>

in

C0>

Htr»

Nt-i

N-tC

uXI

10Li

•r4c

c0)

ind>

LiP

-H

•H

Cd)

oaii

dlTJ

dld)

-Qin

13in

d)M

0)l-i

eu

dlOl

a1/1

4-1e

inCO

4J

I-IT3

Oln!p

§¦H

LiLi

d>P

f0•H

-*

Liu

•H

Cc

•w

dlC

cx:

x:0>

<üXI

HC

a>di

Cn1A

3dl

»3

oU

10v

orH

1i

ii

11o

++oooo

++

p0>

(0d,

0)CDP

iH

x:3

\XI

UM

Olx:

in4J

3e

oid

x:*H

4-1tj

ed>

C(0

TJQj

•H

SU>

LirHu

N+

uCL

TJC

LiDi

Liin

—4

10Li

x:c

oB

Li4J

U-H

0)d)

1/1X)

V0

Ul3

0)dl

•H

dlO

^0)

3TJ

Cd)3

0)QJ

(1)H

XI•H

10XI

LiC

TJc

T-*M

TIIn

j_is

«JCL

CP

fO4->

dlLiG

CdiC

3TJ

Cp

cN

ctji

Jx;

cCH

inLi

Ai

TIdl

dl(0

.H

0H

•H

c0)

0)X3X

c•—<

LiO

d)0)

3dl

Ac\

•HTJ

TJC^K

10m

dlT3

4_)u

(TJ0

OM

MH

•H

3C

in0)

j:¦o

Oiuo2

1/1-H

o4J

cto

Ox:0)

N•—«Hm

c:10

CC

s^

dl3

dlLi

dlc

x;in

31

i+

+•

ti

i+

+•H

<£>Li

-^

.»

<uU

H(0

10>

+S

4->«a:

Cdl

i-H•H

uLi

Ihtn

CM

LiP

TJo

CL,^H

•r4dl

0)c;

V)d)

cJ3

Xld)

VOm

oo

l—-C

c•H

1(0

c>

dlc

dlU>

orH

(1)(U

(TJ0)

3dl

^c

x;.-1

dlc

XIdl

4J

rH

CX

f00J

0J3

mh

ea»

0)d)

tn

"9Oo

«-tx:

o>s

x.c

¦ö\

+di

uLi

x:c

•H10

Ol4J

Oidl

cU

0)P

udl

dlc

+V

4Jo

dlU

dldlH

c10

LiTJ

C4-1

c(U

NN

NH

CJ>0)

fTJX!

o>•HV

c«

CH

+JU

•rH4J

dll-i

++

++

1+

++

++

ii

iV)

c:tn

GC

C«n

Cu

Udi

1/1Ol

104-1

rH

Cdl

Lim>

Lio

0)•H

rH

C!P

rHO

^h

(d^:

d>

0JfÖ

fü>h

«—•

a.tn

o>Ol

cE

•1—1

Li4J

ig10

HS

U•H

-Q13

>s

oPP

+jw

x:om

•Hc

c3

uOl

TJB

iu

0)[Li

Win

inw

pH

Lic

dl3

.-fo

4->Di

dlLi

CLi

3rH

•H

•H

•H

0)0)w

cO

di-M

C~t

[14X!

NO

•H

&3

dlN

CCT»

i—|c

4-ti-l

4-tQQQ

r-tP

0)4-1

c1-4C

d)dl

dlDl.

dlC

N•H

dlc

+i+

I+

1+

+i

+1

+i

+t

md)P

0:rd

•H>P

C^H

L|m

x:10

o10

dl4Jc

4-1•H

dl>

N0]

Tab<j_>

(U0)

0)u

^H

•Ha

T3</l

dl1^

TJLi

C4J

C

armamrH

-H

<MrH

VI3

4-tu

1/1t/1

4-»dl

dlM

CA

dli—1

i

1rH

0)XIPÄ

10ui

3c

VIx:

u4->

dlo

dlC

X!3

inC

fflrH

fl)3

0O

3•^m

c<

0Li

dlLi

x:wi3

cin

•-IV

er£

d>viWOO

CnH

tâ>

+J

•H

0>•H

dlT~i

H-HU

uin

odi

5\

\•\

\\

\\

\4->

denTJ

U>-H

Oldl

4J

.-)ul

dldl

•H

XILi

cu

Ct.LiP

A1A1

CO»

(0(0

•Hx;

101/1

di§

4-1c

dlb

o¦H

tn

r^

>*Ö

CMW

romo

00oo<<

0J-

d>3

d>c

1P

(0*

LiP

0)x:

d)Liu

u•rH3

dlXI(0

6Li

indl

3dl

c3X)di

Oi1011

Cx:

^v\.^^\\\\\

-^\.\\w

\•H

cd)N

S(0

4_t•HV

VV

NQ>3

TJu

4Jc

f-tJ<

HTI

CM

OlrH\

dl(I)

IH

>-letirvor f

er—.

+J durLaudete zeitArti Lage

dlc

CC.

»x:

diifelsuchhsermanttelt

11

1t

\1

t1111

I1

rev:ersie-i

ni

ni

x:1

1

ab 441zeichniauf diiuu

r-

'S•*

inc

c•H

CU

Oldi

Mu

Li+V

0)<D

Ed>O

>idi

dldi

dl01

-H

ro3

dl3o

+•r4

oP

m.*

i—im

eOv

sin

4-1CJN>

inU.

VB

*QT3

-95-

Bei zeitlicher Raffung geht das Vokalphonem mit den Eigenschaf¬ten <+ lang, x vorn, y gerundet, z hoch> in dasjenige mit den

Eigenschaften <- lang, x vorn, y gerundet, z hoch> über und

entsprechend umgekehrt bei zeitlicher Dehnung.

Allerdings kann gestützt auf die Zentroiddistanztabelle von Abschnitt

6.1 derselbe Zusammenhang ohne heuristische Klasseneinteilungen und

vorsichtiger in Bezug auf die zwischen [2] und [0;] beobachtete laut¬

liche Verschiebung so formuliert werden:

Bei zeitlicher Raffung geht ein Langvokal in denjenigen Kurzvo¬

kal über, dessen Zentroid am nächsten beim eigenen Zentroidliegt und viceversa, wobei nur geringfügige Distanzen eine pro¬blemlose Umwandlung erwarten lassen. (Als geringfügig geltenunter den vorliegenden Analysebedingungen log area ratio Di¬

stanzen unter eins.)

-Unter Ausnutzung der festgestellten gegenseitigen Beeinflussung von

Quantität und Qualität bei den drei Lautpaaren [I] und [E;], [Y] und

[0;] sowie [2] und [0;] wäre es grundsätzlich möglich, für die

Sprachsynthese lediglich die jeweils zum Langvokal gehörenden Grunde¬lemente abzuspeichern und die eingesparten Kurzvokale durch Reduktion

der Lautdauer davon abzuleiten. Von dieser Möglichkeit haben wir

nicht Gebrauch gemacht, weil Lang- und Kurzvokal sich phonotaktischjeweils unterschiedlich verhalten (cf. III.3.3), was zur Folge hat,dass nicht alle in Verbindung mit dem Kurzvokal notwendigen Diphon-elemente auch entsprechend mit dem Langvokal existieren.

-Die Distanztabelle Fig.5.40 bestätigt die in Abschnitt 5.2.8 gemachteFeststellung, dass der Konsonant [J] nicht aufgrund seines Zentroids

allein von den Vokalen [I] resp. [E;j unterschieden werden kann, denn

dazu sind die Abstände zu gering. Erst der Verlauf der Anregungsam-plitude bewirkt eine Differenzierung.

-Die folgende Beobachtung ist nicht als endgültiges Resultat zu ver¬

stehen, sondern vielmehr als Anregung für weitere Untersuchungen über

die umstrittenen Beziehungen zwischen den Begriffen Silbe, Silbenträ¬

ger, Vokal und Konsonant untereinander sowie zu den Eigenschaften der

entsprechenden Signalausschnitte. Die in Abschnitt 5.2.12 beschriebe¬

ne ausgeprägte spektrale Ähnlichkeit zwischen dem Konsonanten [L] unddem Vokal [6] scheint zu bestätigen, dass die Einteilung in Vokale

und Konsonanten sich vor allem auf phonologische und allenfalls auch

artikulatorisch-phonetische Kriterien stützt ({10} 4.9), die jedochauf der Ebene des Sprachsignals keine Entsprechung finden. Dagegengibt es offenbar signalbezogene und damit möglicherweise sprachüber¬greifende Anhaltspunkte dafür, welche Laute als Silbenträger über¬

haupt in Frage kommen und welche nicht. In der deutschen Standard¬

sprache treten silbisch alle Vokale und Diphtonge sowie die folgendenKonsonantlaute auf:

[M] z.B. in "keinem" [KA1NM][N] z.B. in "hinten" [HINTN][L] z.B. in "löffel" [L8FL]

-96-

Ihnen allen ist gemeinsam, dass sie in ihrer Mitte eine quasistatio¬näre Phase aufweisen, keinen Rauschanteil besitzen und daher alsdurchgehend periodisch detektiert werden, und nicht auf den Amplitu¬denverlauf als distinktives Merkmal angewiesen sind, wie der Tabellein Abschnitt 6.2 entnommen werden kann. Das vokalische /R/-Allophon[4] haben wir in III.2.2 aus ökonomischen Gründen (leider) von unse¬ren Untersuchungen ausgeschlossen. Infolge seines vokalähnlichen Cha¬rakters dürfte es aber die erwähnten Bedingungen ebenfalls erfüllen.

[4] z.B. in "geier" [GA14]Von den untersuchten Lauten genügen zusätzlich noch [9] und [R] die¬sen Bedingungen. Tatsächlich existiert nach Duden {03} im Serbokroa¬tischen silbisch [R], beispielsweise im Namen für Triest "trst"[TRST], und im Tschechischen silbisch [M], [L] und [R]. Silbisch [9]schliesslich tritt zwar nicht in der deutschen Standardausspracheauf, wohl aber in der Umgangslautung {03}. Wortfinales silbisches [N]kann sich bei nachlässiger Aussprache bezüglich des Artikulationsor¬tes dem voranstehenden Konsonantlaut anpassen und so nach [K], [G]oder [X] zu silbisch [9] werden.

[9] z.B. in "tagen" [TA;G9]Das Mengendiagramm in Fig.5.41 zeigt die Beziehungen zwischen denVertretern der Kategorien Vokal resp. Konsonant und ihrem Auftretenals Silbenträger, am Beispiel der deutschen Standardsprache.

F V SP B T

M N 9

H

unsilbische Laute

Z 5 X C JDKG

L R 4

Konsonanten

Vokaleund Diphtonge

1; I 7; Y U;E; 3 3; 0; 8

„». 0: Q A: Asilbisch 0; Q A;auftretende 6

LauteM N

Q7A1 AU

Fig.5.41 Vokale, Konsonanten und Silbentragerin der deutschen Standardsprache

-97-

-Wie sich herausgestellt hat, gehört bei insgesamt vier Lauten nämlich

[V], [Z], [J].und [H] eine ausgeprägte Amplitudenzunahme zu den di¬stinktiven Merkmalen. Wir werden sie daher bisweilen unter dem Be¬

griff 'Anstiegslaute' zusammenfassen. Interessanterweise zeigt eine

Gegenüberstellung mit den Resultaten der phonotaktisehen Untersuchungin Kapitel III., welche in Fig.3.2 zusammengefasst sind, dass sie al¬le vier in ihren Kombinationsmoglichkeiten mit benachbarten Lautenexakt denselben Restriktionen unterworfen sind (bis auf die selteneAusnahme von [VR] in "wrack" und "wringen"). Die charakteristische

Amplitudenzunahme ist es offenbar auch, die Berührungen untereinanderund das Auftreten in wortfinaler Position ausschliesst, indem sie we¬

der zweimal nacheinander noch unmittelbar vor einer Pause realisiertwerden kann.

-Im Interesse einer möglichst naturgetreuen Wiedergabe von gemischtresp. transient angeregten Lauten wäre es wünschenswert mit einem

Synthesemodell zu arbeiten, welches mit beiden Anregungssignalen zu¬

gleich gespiesen werden kann, wobei die Einspeisung der aperiodischenAnregungskomponente an der physiologisch korrekten Stelle innerhalbdes Vokaltraktes erfolgen müsste. Ebenso könnte die Sicherheit von

Lauterkennungsverfahren auf der Basis der LPC-Modellierung und des

Parametervergleichs mittels Distanzmassen gesteigert werden, wenn ein

Analyseverfahren gefunden würde, dessen Modellfilterkoeffizientennicht in Abhängigkeit der gerade vorliegenden Aufteilung zwischen denbeiden Anregungsarten streuen und damit die Verdichtungszonen dieserLaute verwischen. Zum gegenwärtigen Zeitpunkt sehen wir jedoch keinenbrauchbaren Ansatz zur Lösung des Analyseproblems, welche leider auchdie Voraussetzung für eine erfolgreiche Synthese mit gemischter Anre¬

gung bildet. Holm {58} berichtet allerdings über eine nur synthese-seitig vorgenommene Erweiterung der LPC-Modellierung, bei der mithil-fe der Reynoldschen Zahl für jedes Segment des kunstlichen Vokaltrak¬

tes bestimmt wird, ob die Strömung dort laminar oder turbulent er¬

folgt, und bei der im zweiten Fall eine entsprechende Rauschkomponen¬te hinzugefügt wird.

-98-

KAPITEL VI. GEWINNUNG DER DI PHONELEMENTE******************************************

VI.l PROBLEMSTELLUNG

Den in Kapitel II. erwähnten Verkettungsverfahren ist gemeinsam, dassder eigentliche Syntheseprozess durch zeitliches Aneinanderfügen ir¬

gendwie gearteter Grundelemente in einer vom umzusetzenden Text dik¬tierten Ordnung erfolgt. Die dabei zwangsläufig entstehenden Nahtstel¬len sollen unhörbar bleiben, obschon die zu verkettenden Einheiten imSprachmaterial, dem sie entnommen worden sind, in aller Regel nichtbenachbart waren, und ihnen von ihrem ursprunglichen Kontext her un¬

terschiedliche prosodische Färbungen anhaften. Konkret soll das syn¬thetische Sprachsignal in unmittelbarer Nähe vor und nach den Naht¬stellen die folgenden nach fallendem Gewicht geordneten Bedingungenerfüllen:a.Die Signalwerte und auch die Schnittpositionen innerhalb allfälligerGrundperioden müssen übereinstimmen, um nicht den Eindruck eines

diskontinuierlichen Zeitsignals zu erwecken (von einer Stetigkeits¬bedingung im mathematischen Sinne kann hier nicht gesprochen werden,da das Abtastsignal nie, das Signal nach dem Rekonstruktionsfllterimmer stetig ist).

b.Die Formantstrukturen beidseits der Nahtstellen müssen einander ent¬sprechen.

c.Die beiden Stimmgrundfrequenzen und damit auch die Lage ihrer Harmo¬nischen sollen übereinstimmen, wenn periodische Anregung vorliegt.

d.Die Signalamplituden vor und nach der Nahtstelle müssen vergleichbargross sein.

Eine allfällige Verletzung der Kontinuitätsbedingung a hätte schwereKnackstörungen zur Folge, sie wird aber glücklicherweise bei Verwen¬dung eines Modellierungsverfahrens wie der LPC-Methode ohne weiteresDazutun erfüllt.

Diskontinuitäten in der Formantstruktur beeinträchtigen die Lautver-standlichkeit und führen häufig auch zur Wahrnehmung vermeintlicherzusatzlicher Laute (speziell [L]) im synthetischen Sprachsignal. Wirhaben uns zum Ziel gesetzt, die Forderung nach spektraler Kontinuitätohne irgendwelche aus der Luft gegriffene Interpolationsoperationen imSyntheseprozess zu erfüllen. Vielmehr wollen wir mit der von uns ent¬wickelten und in Abschnitt 3 beschriebenen Methode die Bedingung b be¬reits bei der Extraktion der Diphone aus dem Tragermaterial möglichstumfassend berücksichtigen.

Ganz krasse Diskrepanzen ausgeschlossen haben Missachtungen der Bedin¬gungen c und d keinen Einfluss auf die Lautverständlichkeit, sondernbeeinträchtigen lediglich die Wahrnehmung von Wort- und Satzbetonung.Obschon sich diese Arbeit nicht mit prosodischen Erscheinungen be-fasst, werden in Abschnitt 4 die Ergebnisse eines kleinen Vorversuchszur Egalisierung der Stimmgrundfrequenz an den Diphonnahtstellen be¬schrieben. Die Kontinuität der Signal- resp. Anregungsamplitude hatsich als sehr unkritisch herausgestellt und wird durch die getroffenenVorkehrungen bei der Aufnahme des Korpus in genügendem Masse gewähr-

11

11

G1

t1

<H1

11

dl1

11

di

i1

Tli

1TJ

4J

11

Ul|

l|

1c

d)C

cic

c1

d)P

HP

dlP

a>C

dlOl

dlLi

ind>

dl-1

dlH

-H

,~-C

din

dld

Lidl

Lidl

LiX

dC

Li•H

•H

0)Li

•H

didJ

rH

in>

rHrHH

T-i

d)TJ

stn

dl-H

COOl

4-»Ol

dldl

dldlp

TJdl

rdLi

dlTl

dlu

oo

0)in

rH

Q)•p

¦H

d)0)

Erd

0)C

c4J

dld

did

tnxl

a?xl

inird

dXi

Li>

x:x:

TJrd

>c

Lid)

CUj

TJLiN

Cd>

Hu

Xid

3Tl

10x;

3Li

tnrH

Ulp<

dldl

HUl

UlCL

CLc

Cc

Mdl

Oc

oc

Pa>

x)d>

UlO

3T-i

d4-4

TJ6

10rH

Hdl

•H

OlTJ

dldl

Lillro

¦H

•H

00>

d)p

V)S

0X!

3-

X.Li

d>PQ

Li•H

¦H

3d

¦H

rfl»4

l/lH

rH

LiUl

34-»

3TJQ

Qinp

OiÄ

Lifd

Lix;

av

mr—.

0)in

(dOi

dl^H

dldl

Oi>.

dl«;

rH

•H

dl3

dlN

N4J

Liß

cdl

dlx;

dlCL

•¦HOi

CTCM

CL01

5d)

•J<

x:4J

Oid

uiXi

dl—.£

dlXi

XITl<

d4Ja.

dlC

Liu

cifd

aTJ

CLP

•H

Q-H

-H

roLi

ininc

Cdl

4-14l5

UlO

ax;

Li3

du

Nd)

Lic

diLi

•H

d)d)

d)Ö>

TI-HM

TSLi

du

HTJ

d•

-h

a>>

4J

Hu

ui0

diUl

pPp

XId)

•H

Li0>

E5

rdG

TJXI

gG

Litn

dlOl

10s

ucm

x;OlO

uirH

t£•T-i

LiH

•H

3•H

13TJ

dltrö

MTJ

P5

Q)O

33

dlx:

3>

4J

•4-1dl

4J

di•—>

No

•di

dlc

H<*

dl3

4-1di

CP

Pc

d>d»

OP

grH

LiTJ

TJu

10in

dOl

-H

Tl3

CrH

XiHO

dl3

jaU

roJ£

dl3

X3•H

o3

Ein

adl

CU-1

Li•H

4J

dl•H

4J

dlc

ud

indi

rduc

¦HN

•dl

J<S

x:^Q

rdV

E•H

rd3

Q)§

d)Li

d)d)

Odl

in¦H

Tldl

dX

dldl

dlLi

LiLi

LirH

X)Tl

doi

didl

ou

rJ

•H

PO

Lix:

d)-

LiH

ox:

x:>w

LiT-i

die

Lidi

x:Xi

3U

3d)

d>P

dlro

4J

OlH

•H

Li4J

*H

¦H

rdP

PP

TJCTNX

UU

Ltdl

raXI

Hdl

Eu

Vx:

4-1>

HJ<

3d

-Lig

rH

3Li

3^HcP

cp

«4-1P

LiC

cc

crd

dltn

3di

XIc

LiB>

•H

4->(0M

N0>

dlH

grH

O5

Oid)

dld)

x;3

ind)

d>>»

d)(0

GCLTJP

in4J

tr<;

rH

rH

rHH

»4-13P

«Ha

dTJ

dH

(0*:

3•H

TJXI

urd

•H

LiN

inEX

OviG

GLi

in•H

•H

dldl

TJLi

dlLi

Liin

4h

in

4Jdi

LiXi

4J

1W

Lird

LiC

•H

rH

inx;

x:d>

Ul3

Edd>

a>dl

tnLi

dd

TJd

13Li

dl4JX!

Hdl

4J

dlU

Ul

T-idl

TJrd

E-<<ü

did)

inXJ

fdE

u-h

c:Li

>o>M

dlO

•H

dioM

>u>

l/lUP

cd

3ui

drH

TJd

x:P

sin

c<

3•H

mtu

oTJ

d)G

Gdl

gUl

Lih

dl3

4-1rH

dlrd

Cc

diUl

hrrj

3Li

dic

•H

tr'x;Li

TJ>

a-<j

O)0)

vi

rde

didl

4-iLi

inHflC

LiC

0)Oi

u•H

C3

dlTJ

co>

Lio>

dlx:

Uc

CLG

3d)

OiG

dio>

•-4TJ

UlX

4-1O

Li¦H

01dl

3TJ

Odl

NLi

rdLi

TJd

dlo

TJbd

cTJ

Edi

•H

dlVI

3TJ

eG

dlx:

Md

io•w

dl3

4-14-1

XiN

-r-lin

Li•H

dlrH

did

3<4J

>rd

d>d)

•H

•-fin

LiC

C!m

3ihP

odl

4->3

Li§>

Ul

rH

Udl

IM

Oiro

XI3

LiU-4

OiP

x;x;

TJOi

rdLiU

dld>

LiG

<Mc

>in

inj4-»

dXi

dl10

TJ3

d>jq

144ro

d13

Oi•H

c;C

d)•H

uU

t3x;

d)x;p

rdx:

o>-*

in

dl4J

3X

13di

d>d

U.*

14-1Li

nc

d>Li

OiOl

»LILi

0)3

>s

rd•H

VIN

CLTJ

Lid)

ft)cu

ULi

tnGC

•r4N

dlOl

-HOHO

dH

•H

4JO

4J

Hd

d3

OiLi

i*-t•H

Ol

Liin

0»in

d)tj>

TJ1Hp

o4J3

d¦o

HTJ

>rH

-H

•H

Sfd

diLiM

dtn

O3<

dO

:3P

*ß

d)CLP

rdX)

OiP

TJP

uU

a>d>

dlH

Cc

-4O

LiU

Oi3

dlE

OT-i

ni¦H

«4-4•T-iP

Lt•H

ctn

•HTJ

sd)

Hd)

clN

Oipp

>4~4

dix:

•r4dl

Li4JO

4-1VI

Hc

3rH

34J

3Ii4

3CLTJ

oQ)

C•HC

Ol"8J<*H

MM

m4J

•H

Qjs

H3

4-is

dd

MHX

diLi

dlJX

Litn

<Li

3x:

LiN

0)o>

cXI

os

3Li

x:nj

x:c

^H

-r4S

UJ

•H

dlLi

3fd

indl'S

¦H

TJda

dld

dlrd

cCL

diP

OiLi

dl0)

HU

Li<

d).3

Liu

O(0Q

dOi

Li-

dlfds

inOl

in3

Li4-1

dldl

XIdi

•H

cC

ind

dlLi

Op

x;O

dtTJ

MHP

mt£

Lidi

dLi

XiUl

dl-4-1

rH

E«0S

4J

<4-ldl

dOi

HO

TJLiQ

dlQ)

d)3

XIdl

.*u

>TJ

Gd>

xLi

(0Li

d10

dlU

LiXi

LiLt

Lil

CH

UlX>

o>•H

TJC

x:x:

TJIH

Lio

•H

Erd

o-H

OOiou

CLdl

CLdl

•H

rH

tn171

dlU

'Odi

diinHU

dlS

4J3

E14-1

Li3

rdC

udl

•H

mu

crd

oi>

GX!

l/l•H

TJdl

dl•a

io3

>>

OiCL

4-»:r0

dl3

c:3

IM

d)o

MH

•H

'Sdl

Li

TJP

cc

3u

TJTJ

¦Hdl

HLi

4-1CJ

HC

UlJ

gdl

4-1dl

inj<D

N

CLrd

XI'fd

TJ>

SHW

d)UZ

rH

C3

30)

dl<w

Hd

sUl

dd

Uld

tj»d

LiN

HUl

uC!

rH

>in

fdLi

55II

3rH

rdL>

TJTJ

4-13

ul(0

3Li

rH

dlXi

33

--\Li

dM

4J

Hdl

dd

didl

diin

diOi

TJdlP

Oiw

II(0

LirH

go)

x;cl

dlnJ

OiN

dl-H

TJU

du:p

d>dl

rodl

in

inXI

3di

01L.

XI3

Co

Oi3

>Li

•H

iX11

30)

OP

CLi

r-\4J

4J

Liin

o•H

Uldl

¦H

LiN

OiTJdl

uiro

d4J

OiCL

rdin

0c

Nc

x;c

XtlGNP

>in

rrjd)

¦h

g•H

x;H

OUl

Ul

dlXi

Xid

¦H

Lija

ro4-1

rd•H

mx:

•H

•Hp

<Dtu

ßd)

dl<

IId>

inLi

XIrd

dldl

udi

dl>

3Xi

UU

diCL

dl4J

Tltn

Edl

TJ>P

cc;

CQp

diJC

sGl,

IIP

d)P

CTfö

LiO

tuOi

XI3

4-»M

d10

du

roui

OirB

dl>

d•H

Oi4J

drd

diM

Mdi

cmIt

•H-HP

GQ

d>g

Li10

ind

didl

u)Li

-H

•H•H

dlH

»Li

Ol4J

diC

rH

Litn

d>C

uOi

LitxJ

IIdt

TJ-H

3"8S

33

10in

Lidl

LiLi

4J

CLUl

jar-i

ind

dlJX

oid

dlc

•H

30)

UJ3

•H

cP

dird

£3

>II

XIC

rH

LiN

-1

dlin

3dl

TJdl

Lidl

dUl

:QrH

rdui

oOi

ddi

TlH

E4J

LiC

rH

LiLi

pp

3C

IILi

d)X!

Hd>

MO

jain

S4-1

•H

dlTJ

dl-

N•H

Cdi

>•H

(04-1

dlLi

oX!

fdQ)

l£TJ

vivi

WII-*

x:id

Ul-

UlTJ

Cd

Ul

0»TJLi

TJOl

4J

dld

fdP

EpS

CTJ

x;UJ

IIÖ>

l/lP

u*#

•-hu

cTJ

doi

e•H

10dl

inro

•H

¦H

d>dl

dLi

HE

in¦P

X3Li

Li3

dldl

Cu

Mtl

C-H

Litn

l£)r-H

rdd)

cdi

ddi

4-»Ol

Xidl

Lidl

UlHH

X!•H

od

HrH

Lifd

uO

iO?HP

d)•H

(XII

d)O

Li3

H'—'CO¦"'S

Tl3

TJd

SU

CUH

Liin

rH

133

>Xi

XH

XiXi

d>•H

C3

cP

l/lp

LiW

IILi

MH

dld>

x;rH

3Li

r-i

Li3

3ro

HTl

inrH

•HX!

uro

dlU

u>

•p

CPP

dl•H

•H

x:p

XII

d)Li

TJma

d)WJ

Cr4m

Ndl

0Oi

NLi

dlLi

0>rd

x;u

inX

3Ul

3in

O»di

•H

inx;

d>E

ifd-H

l/lII

XI0)

rdCL

os

md

Sd

34-»

¦Ha

di4-1

TJ4J

Cin

ddi

dl•H

röC

d0)

diC

uJS

CP

sdi

IH

II:3

ULi

CLin

>0

•H

¦Hin

d-

l/lUl

rrj•H

•HO

didl

Oid

-r-i-U

O=J

ppN

3-H

x:d>

3N

CQII

LiG

Ö>d)

trO

rH

Lix;

-4-1d

>,3

4-1d

ETJ

Lis

•HOl

TJUl

d>ro

C¦H

Cdi

cl£

ux:

fdII

IH

d)G

rH

f0m

inO

dldi

dlXI

Cdl

rH

Cd)

4J

Ul3

>4JS

dlP

C0>

LitH

u_3

d)CM

IIP

3¦h

in

01c

rH

r-lTJ

4->4-4

Ej.H

dldl

4->dl

rdO»

TJJX

Oi10

HOlo

LiJA

Hx:

dl«3

rH

•H

'SP

IIG

O-d»

rH>

o>H

rH

ddc

UlEs

XiLi

Xi-H

HC

x:>rd

Lid

dd

Li4J

rH

4-1Xi

rdS

Ou

LiP

Cdl

Lic

ctH

IIG

0)dl

3d)

GH

d>ItJ

Odi

oLi

O3

U4-1

udia

dlSä•H

33

0dl

roO

3ni

LiCD

x;rH

3x:

rds--H

d)•H

dl>

IIW

grH

tn4-j

Kl»

3<tJ

>Li

10Id

dN

UlUl

UlUl

Ul4J

314-1

Li>C

rH

"4-1rO

14-1P

Oiu

d)rd

•H

cO»

TJV)

E

-100-

VI.3 DIPHONEXTRAKTION ANHAND VON ZENTROIDDATEN

Mit dem Abstandsmass aus Kapitel IV. sowie den Zentroidparametern undLautcharakterisierungen gemäss Kapitel V. liegt nun das Instrumenta¬rium für eine systematische Diphonextraktion aus dem Sprachkorpus, derseinerseits in Kapitel III. beschrieben worden ist, bereit. Im Gegen¬satz zu den erwähnten Verfahren beruht unsere Methode nicht nur aufden zeitlichen Änderungen von Sprachparametern, sondern berücksichtigtin hohem Masse auch lautspezifische Eigenschaften.

VI.3.1 KOSTENFUNKTION

Die Festlegung der Schnittstellen, das heisst des Beginns und des En¬des jeden Elementes, erfolgt durch MimmalisierunghypothetischerSchnittkosten. Für jedes Frame innerhalb des Ausschnitts, der alsSpender für das gesuchte Diphonelement überhaupt in Frage kommt, wer¬

den zwei Kosten berechnet, nämlich je einmal bezogen auf die beiden am

Übergang beteiligten Laute. Die Festlegung der Kostenfunktion ist na¬türlich etwas willkürlich, sie soll aber auf alle Fälle der Abweichungdes vorliegenden Koeffizientensatzes vom entsprechenden Zentroid undder Stationaritat des Signals an der jeweiligen Stelle Rechnung tra¬gen. Die folgende Kostenfunktion hat sich bewährt:

2 2_

_

c (j) = w d (g(j), g ) +

z lar z

(6.1)2 2

+ w ( d (g(j), g(j-D) + d (g(j), g(j+l)) )s lar lar

mit den Gewichtungsfaktoren w=0.7 w = 0.15z s

In der Regel wird nun als erstes Frame des gesuchten Diphons dasjenigegewählt, dessen Kosten bezogen auf den Anfangslaut minimal sind, undentsprechend jenes als letztes, das sie in Bezug auf den Endlaut mini-malisiert. Stehen mehrere Exemplare desselben Lautübergangs als mögli¬che Spender für das gesuchte Diphonelement zur Auswahl, können sieebenfalls anhand der Schnittkosten untereinander verglichen und dasbeste davon ausgesucht werden.

VI.3.2 SCHNITTSTELLENFESTLEGUNG

Mithilfe der Kostenfunktion (6.1) allein können leider nicht alle Fäl¬le genügend genau abgedeckt werden. Um spezielle Gegebenheiten be¬stimmter Laute zu berücksichtigen, sind gewisse Erweiterungen desSchneidekriteriums und einige Ausnahmeregelungen notwendig. Es folgtdaher eine Zusammenstellung der Vorschriften zur Diphonextraktion, wiesie tatsächlich angewendet worden sind.

-101-

-im Leerlaut vor dem Wortanfang, resp. nach dem Wortende [\]:Der gesuchte Diphon beginnt mit dem letzten Leerframe, resp. endetmit dem ersten Leerframe. Die Detektion der Leerframes kann bei einer

qualitativ hochwertigen Aufnahme mit nur geringem Hintergrundrauschenund Nachhall ohne weiteres aufgrund der Signalamplituden in den ein¬zelnen Analyseframes vorgenommen werden.

-in Plosivlauten [P],[T],[K],[B],[D],[G]:Die Schnittstelle wird an den Beginn der präplosiven Pause nämlichzwischen das erste und das zweite Leerframe gelegt. Die Pause wirdalso demjenigen Diphon zugeschlagen, welcher bereits den Explosions¬vorgang enthalt (cf. II.2.5). Dadurch wird auf einfache Weise berück¬

sichtigt, dass ihre Dauer bei stimmlosen Plosivlauten im allgemeinengrösser als bei stimmhaften ausfällt.

-in Langvokalen [1;],[7;],[U;],[E;],[3;],[0;],[0;],[A;]:Langvokale weisen im allgemeinen einen sich über mehrere Frames er¬

streckenden Abschnitt etwa gleichbleibend geringer Kosten auf, wel¬cher ihrer quasistationaren Zone entspricht. Die Schnittstelle wirdan den Anfang dieses Abschnittes gelegt, falls das Diphon auf dem

Langvokal endet, resp. an dessen Ende, wenn es damit beginnt. DieMittelzone ist damit nie Bestandteil eines Diphonelementes, sie wirdbei Bedarf erst während des Syntheseprozesses wieder eingefügt (cf.VII.2). Dieses Vorgehen erlaubt es, für eine gegebene Vokalqualitaetmit denselben Diphonelementen sowohl Lang- wie Kurzvokale zu erzeu¬

gen.

-in stimmlosen Frikativlauten [F],[S],[5],[x],[C]:Die Schnittstelle wird bei tiefen Kosten möglichst gegen Ende desLautes angesetzt, ein grosser Abschnitt des Frikativlautes wird so

dem Vorgängerdiphon zugeordnet. Damit kann der ausgeprägten Abhängig¬keit der Dauer der Frikativlaute vom voranstehenden Laut infolge re¬

gressiver Koartikulation Rechnung getragen werden (cf. V.5.2.1).

-in den sog. Anstiegslauten [V],[Z],[j],[H]:Geschnitten wird beim Minimum der Signal- oder Anregungsamplitude inder ersten Hälfte des Lautes. Die Kosten werden aufgrund in KapitelV. beschriebenen Eigenschaften dieser Laute nur am Rande berücksich¬tigt.

-im Vibranten [R]:Die Schnittstelle wird in die letzte, das heisst häufig die zweiteInternussion gelegt (cf. V.5.2.13).

-in allen übrigen Lauten:Die Schnittstelle fällt in das Kostenminimum, wobei allenfalls nochKorrekturen in Richtung der Lautmitte angebracht werden können.

Wie bereits in II.2.5 vorgesehen ist die Schnittstelle für Plosivlautein Ermangelung einer zentralen quasistationären Phase in die präplosi-ve Pause verlegt worden. Als Folge davon entarten die sechs Diphonedes Typs Leerlaut -> Plosivlaut zu leeren Signalausschnitten und kön¬nen damit weggelassen werden. Eine weitere Einsparungsmöglichkeit er¬

gibt sich daraus, dass die 162 Diphone des Typs Laut -> Plosivlaut al-

-102-

le in der praplosiven Pause enden, unabhängig davon welches der Plo¬sivlaut im einzelnen ist. Unter der Voraussetzung, dass nicht der Ok-klusions- sondern primär der Explosionsvorgang die Wahrnehmung derPlosive bestimmt, lassen sich jeweils sechs Diphone zu einem einzigender Art Laut -> praplosive Pause zusammenfassen, sodass 135 Stück ein¬

gespart werden können.

VI.3.3 PRAKTISCHES VORGEHEN UND BEISPIELE

Als Sprachmaterial für die Extraktion der Diphonelemente dienten diespeziell dafür zusammengestellten und in III.4 beschriebenen Wortlis¬ten. Das praktische Vorgehen zeigt Fig.6.1 .

GrobpositionierungimTraegermaterial anhandder frueher bestimmtenTrajektorien oder fallsnicht vorhanden manuell

Automatische Auswertungder Schnittkosten fuerjedes Frame bezueglichder beteiligten Zentroideergibt ersten Vorschlag

Interaktive Beurteilung,allfaellige Korrektur undBeruecksichtigung derAusnahmeregeln. Eingabedefinitiver Schnittstellen

Automatisches Kopierendes geprueften Segmentesaus dem Traegermaterialin die Diphonsammlung.Nachtrag im Verzeichnis

Fig.6.1 Diphonextraktion

-103-

Bei der zur Zentroidberechnung durchgeführten Ermittlung der Trajekto-rien (cf. V.2), sind bereits viele Laute innerhalb ihrer jeweiligenTrägerwörter lokalisiert worden. Von diesen Informationen ist wo immer

möglich zum schnelleren Auffinden eines gegebenen Lautubergangs Ge¬

brauch gemacht worden. Es kann nicht Aufgabe dieses Berichtes sein,die Extraktion sämtlicher 626 Diphonelemente im einzelnen zu beschrei¬

ben, es folgen daher stellvertretend drei Beispiele.

In den Figuren sind jeweils dargestellt:-Ein Ausschnitt von 360 ms Länge entsprechend 24 Analyseframeverschie¬bungen aus dem Zeltsignal des Trägerwortes mit dem gesuchten Lautu-

bergang.-Die Modellübertragungsfunktionen der zugehörigen Analyseframes in

pseudoräumlicher Darstellung (Auf der Abszisse aufgetragen die Fre¬

quenz, auf der Ordinate in positiver Richtung die Verstärkung, in ne¬

gativer Richtung die Framenummer und damit die Zeit).-Der Output des Extraktionshilfeprogrammes mit folgenden Angaben zu

jedem Analyseframe.FRAME: FramenummerIPTCH: Pitchperiode in Anzahl Abastperioden, 0 falls aperiodischGAIN: mittlere Amplitude des Anregungssignals über ein Frame

C0STS1: Wert der Kostenfunktion bezogen auf das erste Zentroidin Balkendarstellung. Auflosung 0.1, begrenzt auf 2.5

C0STS2: Wert der Kostenfunktion bezogen auf das zweite Zentroidin Balkendarstellung. Auflösung 0.1, begrenzt auf 2.5

-104-

VI.3.3.1 Übergang [E2] aus 'Vorsehung" [F0;RZE;29]Der in den Fig.6.2 und 6.3 wiedergegebene Ausschnitt beginnt im Laut[z] und endet auf [9]. Einmal mehr wird deutlich, wie die einzelnenLaute in gesprochener Sprache ineinanderfliessen, und wie künstlichdazwischen gezogene scharfe Grenzen ausfallen müssten. Klar sichtbarist dagegen die quasistationare Phase des Langvokals [E;], die etwavon Frame 396 bis 401 reicht. Ebenso erkennt man den Kurzvokal [2],der in den Frames 407 und 408 seine deutlichste Ausprägung findet, be¬vor er ab Frame 410 zum nachfolgenden Nasallaut [9] übergeht. Dies al¬les findet seinen Ausdruck in den berechneten Schnittkosten von

Fig.6.4, aufgrund derer das Extraktionshilfeprogramm für den Lautüber¬gang [E2] die Frames 398 bis 408 vorschlägt. Allerdings muss in Würdi¬gung der in Abschnitt 3.2 getroffenen Schnittstellenkonventionen derBeginn des Diphons ans Ende des Langlautes zurückverlegt werden, so¬

dass schliesslich die Frames 401 bis 408 das Diphonelement [E2] abge¬ben.

Zeitsignal Uebertragungsfunktionen

weiAai LAA/s>A "r\AA'^ ftÂ*"

h^JV-A*

""tjA/^Vlr«rj^tv \A^"\/A^JW

|A^MVîJVvaVvsAAîVW\/WVV|JVW\w^M^

rV^Y»«-«0—y

Tf^tf

v-

I frames 390 bis 413 I I 0 kHz

Fig.6.2 Zeitsignal Fig.6.3 Modellubertragungsfunktionen

-105-

ISOLO PROTOCOLL MESSAGE FOR F0IRZEI2?PARAMETER FILE! <09.23FSTFRM - 3B8 LSTFRM - 415NO LIST FILE SPECIFIED

OUTPUT: GR

FRAME LOC IPTCH<CE.E] CEN 97<CE.2] CEN

388389390391392393394395394397398399400401402403404

40540«407408409410411412413414415

GAIN757.

93 502.0 350.0 300.

959496

969594

979796959495949393

356.343.385.

97 572.95 750.

921.752.766.

95 736.96 754.

852.811.916.

94 879.94 813.95 455.96 552.

473.410.411.343.259.170.140.99.77.

SEGMENT FOUND GOES FROMCOSTS FOR FIRST CUTCOSTS FOR SECONP CUT

C0STS1

************************* ************************************************** ************************************************** ************************************************** ************************************************** ********************************************* ************************************* ************************************* ********************************** ******************************** ******************************* ******************************* ******************************** ********************************* ************************************ *************************************** ******************************************* ********************************************** **************************************** ************************************* ********************************* ******************************* *********************************** *************************************** ******************************************* *********************************************** ********************************************** ************************************************ ***********************

FRAME 39B TO 408 AND CONTAINS 11 FRAMES.63.64

Fig.6.4 Schnittkosten für Diphon [E2]

-106-

VI.3.3.2 Übergang [MF] aus "umfallen" [2MFAL6N]Der in den Fig.6.5 und 6.6 dargestellte Ausschnitt umfasst die Laute[2] bis [A]. Anhand des Zeitsignals lässt sich der Frikativlaut [F]etwa auf die Frames 3206 bis 3214 festlegen, während man andererseitsin den Modellübertragungsfunktionen zwischen Frame 3196 und 3203 denNasallaut [M] wiedererkennt. Allerdings wäre es recht schwierig, sichallein aufgrund dieser Beobachtungen genauer auf die Schnittstellen

festlegen zu müssen. Das Computerprogramm hilft da weiter, indem es

anzeigt, dass die Frames 3201 resp. 3210 zu minimalen Schnittkostenfuhren. Wieder aus Rücksicht auf die getroffenen Vereinbarungen muss

die zweite Schnittstelle etwas nachverlegt werden, ob auf Frame 3211oder 3212 ist jedoch eine Ermessensfrage.

Zeitsignal Uebertragungsfunktionen

mm/^M^v/^

^YYYVYuVV-°<r^-V*- V0-^~

^/^/V^î

#a-#*~H^•v"

I frames 3194 bis 3217 I I 0 kHz 5 I

Fig.6.5 Zeitsignal Fig.6.6 Modellübertragungsfunktionen

-107-

ISOLO PROTOCOLL MESSAGE FOR 2MFAL6NPARAMETER FILE: <27.F]FSTFRM ¦ 3190 LSTFRM - 3219NO LIST FILE SPECIFIED

OUTPUT: GR

FRAME LOC IPTCH GAIN<CE.M3 CEN 106 222.<CE.F3 CEN 0 231.

3190 140 67.3191 100 236.

3192 97 402.3193 96 489.

3194 95 323.3195 99 160.3196 97 142.3197 92 238.3198 90 270.3199 89 318.3200 89 309.3201 88 252.3202 89 230.3203 91 185.3204 95 110.3205 120 59.3206 0 274.3207 0 219.3208 0 148.3209 0 109.3210 0 89.3211 0 91.3212 0 107.3213 0 319.3214 84 134.3215 95 562.3216 95 1090.3217 96 1438.3218 98 1145.

3219 98 1084.

C0STS1

***********************************************************************************************************************************************

****************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************

SEGMENT FOUND GOES FROMCOSTS FOR FIRST CUTCOSTS FOR SECOND CUT

********************FRAME 3201 TO 3210 AND CONTAINS 10 FRAMES.81.81

*********************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************

Fig.6.7 Schnittkosten für Diphon [MF]

-108-

VI.3.3.3 Übergang [06] aus "böen" [B0;6N]In Fig.6.8 ist oben links gerade noch das Ende des Plosivlautes [B] zu

erkennen, unten rechts beginnt der Nasallaut [N]. Die Laute [0;] und

[6] sind im dazwischenliegenden Ausschnitt nur schwer zu lokalisieren.

Die Modellübertragungsfunktionen zeigen ebenfalls nur geringfügigeVerschiebungen der Formantfrequenzen im Sinne einer zunehmend gleich-massigeren Verteilung an. Ein Vergleich mit den Zentroiddarstellungenin V.5.1 zeigt, dass darin tatsächlich der Unterschied zwischen [0;]und [6] liegt. Infolge der geringen log area ratio Distanz von 1.5

zwischen den zugehörigen Zentroiden, ergeben auch die Schnittkosten¬

verläufe keine so ausgeprägte Trennung mehr, wie in den vorangegange¬nen Beispielen. Dennoch lässt sich die quasistationäre Phase des Lang¬vokals [0;] etwa in den Frames 786 bis 795 ausmachen, bevor eine kon¬

tinuierliche Verschiebung in Richtung [6] einsetzt, welche im Frame

803 ihre deutlichste Ausprägung findet. Der automatisch erarbeitete

Vorschlag lautet entsprechend und kann unverändert zur Abspeicherungder Frames 795 bis 803 für das Diphonelement [06] herangezogen werden.

Zeitsignal

•^ Kr-sJIA' »«|M*». /lAr-lft-W U^-J^^v^Wv^/wvAv-Jv\i ^M-v

Vf*f

rWÂi/Wv^^'ilV^"tNWî^-WM wJ\jW JVWt,

5=- ¦f-t-iI frames 784 bis 807

Uebertragungsfunktionen

kHz 5 I

Fig.6.8 Zeitsignal Fig.6.9 Modellübertragungsfunktionen

-109-

IS0L0 PROTOCOLL MESSAGE FORPARAMETER FILE! <20.63FSTFRM - 780 LSTFRMNO LIST FILE SPECIFIED

OUTPUT: GR

FRAME<CE.03<CE.6J CEN

780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814BIS

LOC IPTCHCEN 110

GAIN628.

95 1041.0 18.

13.14.

301.305.658.724.839.

703.625.697.556.553.589,519.543.421.571.750.728.808.953.892.

00

124119115114112

112111110111111112110109108107107107108108108107 1093.104 1085.108 748.105103103103102101101101101

102

328.331.345.272.230.198.112.128.82.

85.

C0STS1

***************************************************************************************************************************************************************************************************************************************************

*******************************************************************************************************************************************************************************************************************************************************************

SEGMENT FOUND GOES FROM FRAMECOSTS FOR FIRST CUT .40COSTS FOR SECOND CUT .40

****************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************

795 TO 803 AND CONTAINS 9 FRAMES

Fig.6.10 Schnittkosten für Diphon [06]

-110-

VI.3.4 VOLLSTÄNDIGE SAMMLUNG EXTRAHIERTER DIPHONELEMENTE

Mit Unterstützung durch entsprechende Computerprogramme sind auf derGrundlage der beschriebenen Kriterien alle zur Synthese deutscher

Standardsprache erforderlichen Diphonelemente aus dem Sprachmaterialdes Korpus extrahiert worden. Trotz aller Hilfsmittel und der nur äus¬serst wenigen infolge von Fehlentscheiden notwendig gewordenen Wieder¬

holungen des Extraktionsschrittes an einzelnen Diphonelementen, nahmdiese Teilaufgabe etliche Monate langwieriger Kleinarbeit in Anspruch.Aneinandergereiht entspricht die Gesamtheit aller Diphonelemente einem

Sprachausschnitt von 88 Sekunden Länge. Im Vergleich mit der Aufnahme-dauer des ursprünglichen Korpus von knapp 1.5 Stunden wird der Gradder Konzentration sichtbar.0 0

VI. 4 EGALISIERUNG DER STIMMGRUNDFREQUENZ

Werden beliebige Grundelemente ohne weitere Massnahmen zu neuen Nach¬richten verkettet, so ergeben sich unzusammenhängende Verläufe der

Stimmgrundfrequenz, da die einzelnen Grundelemente von ihren ursprüng¬lichen Trägerwörtern her abweichende Werte dafür aufweisen. Bei einer

späteren automatischen Erzeugung von Wort- und Satzbetonung wurdensich diese unwillkürlich überlagerten Schwankungen sicher negativ be¬merkbar machen. Eine radikale Lösung besteht darin, nur gerade die Art

der Anregung in den einzelnen Koeffizientensätzen der Grundelemente zu

verwenden, und für periodisch anzuregende Passagen den Stimmgrundfre-quenzverlauf anhand von Regeln von Grund auf neu zu konstruieren. Un¬betonte Sprache wird damit als absolut monoton im Sinne einer konstan¬ten Grundfrequenz aufgefasst. Die Stimmgrundfrequenz ist jedoch keinerein suprasegmentale Grösse, an ihr lassen sich durchaus auch segmen¬tale d.h. lautabhängige Einflüsse beobachten, welche unter dem BegriffMikrointonation zusammengefasst werden (Stimmeinsatz und -ausklang,Intermissionseffekte (cf. IV.5.2.13), usw.). Das hier beschriebene Ex¬

periment ist ein Versuch, die mit den Diphonelementen abgespeichertenGrundfrequenzen auszugleichen, sodass an deren Nahtstellen keine ab¬rupten Änderungen mehr entstehen, und dennoch ihre lautabhangigen Wer¬

te und Verläufe so weit als möglich beizubehalten. Die Egalisierungist jeweils gemäss einer der Vorschriften (6.2) bis (6.5) durchgeführtworden, wobei Koeffizientensätze mit aperiodischer Anregung unverän¬dert belassen worden sind. Der Index a bezeichnet das zum Anfang des

Diphons gehörende Zentroid, z entsprechend das zum Ende gehörende Zen¬troid und e die egalisierten Grundfrequenzen. Keinen Index tragen die

Grundfrequenzen vor der Egalisierung. Die Diphone umfassen die Koeffi¬zientensatze 1 bis J. Mit F ist jeweils der Logarithmus der Stimm-

grundfrequenz gemeint.

-Ul¬

falls Anfangs- und Endframe sowie beide zugehörigen Zentroide periodi¬sche Anregung aufweisen:

i-i J-3F (j) = F(j) + (F - F(l)) + (F - F(J)) <6.2)e J-l a J-l z

j = 1, 2, ..., J

falls nur Anfangsframe und zugehöriges Zentroid periodische Anregungaufweisen:

F (j) = F(j) + F - F(l) j = 1, 2, ..., J (6.3)

e a

falls nur Endframe und zugehöriges Zentroid periodische Anregung auf¬

weisen:

F (j) = F(j) + F - F(J) j =1, 2, ..., J (6.4)

und in den übrigen Fällen:

F (j) = F(j) j = 1, 2, ..., J (6.5)e

Die Fig.6.11 bis 6.13 zeigen jeweils im gleichen Massstab die Verläufe

der über ein Frame gemittelten Anregungs- und Signalamplitude sowieder Stimmgrundperiode für einen Sprachausschnitt mit den Worten 'das

war so weiss wie Schnee, so rot wie Blut'. Die in der ersten Figur ab¬

gebildeten Verläufe sind durch Verkettung (cf. VII.) mit den unverän¬

derten Diphonelementen entstanden, wie sie aus dem Korpus extrahiertworden sind. Dem in der zweiten Figur dargestellten Grundperiodenver¬lauf liegt demgegenüber eine Verkettung egalisierter Diphonelementezugrunde. Nicht nur fehlen gegenüber Fig.6.11 die sprunghaften Ände¬

rungen der Stimmgrundfrequenz an den Nahtstellen, sondern es ist ganz

allgemein eine stärkere Häufung bei Werten in der Mitte des bestriche¬nen Frequenzbereichs zu beobachten. Fig.6.13 schliesslich zeigt das

Ergebnis einer Verkettung mit einer festen Grundperiode von HO Ab¬

tastwerten entsprechend 91 Hz für alle periodisch angeregten Aus¬

schnitte (Werte unterhalb der Abszisse bezeichnen aperiodische Anre¬

gung). Die meisten Hörer beschreiben den subjektiven Eindruck der

Stimme entsprechend Fig.6.11 als 'unsicher' bis 'weinerlich'. Die

Stimme zu Fig.6.12 wird durchaus im beabsichtigten Sinne als 'gefe¬stigter', 'angenehmer', 'langweiliger' aber auch als 'singend' beur¬teilt. Letzteres rührt möglicherweise davon her, dass der Grundfre¬

quenzverlauf nach seiner Egalisierung den Eindruck einer zusammenhan¬

genden Melodie zu vermitteln vermag, währenddem vorher die häufigenUnstetigkeiten eine derartige Wahrnehmung verunmöglicht hatten. Durch¬

weg als 'monoton' und 'computerhaft' wird das Signal nach Fig.6.13empfunden.0 0

-112-

AnregungsamplitudeSignalamplitudeGrundperiodenlaenge (in Anzahl Abtastperioden)

A^hAK^K

150

64U t,\ \ *L> ^\ K,

frames 286 bis 635

Fig.6.11 Verläufe von Anregungs- und Signalamplitude sowie

nicht egalisierter Grundperiode

-113-


AjU-^yiK-. L

150

64

a. Va ^K_ U -v-^ -Vw-^ U

frames 286 bis 635

Fig.6.12 Verläufe von Anregungs- und Signalamplitude sowie

egalisierter Grundperiode

-114-


A^MhriK

dLL-ixi150

64

frames 286 bis 635

Fig.6.13 Verläufe von Anregungs-konstantgesetzter Grundperiode

und Signalamplitude sowie

Ob es für die Sprachsynthese letztlich zweckmässiger ist von derartegalisierten Diphonen oder von solchen mit konstanter Stimmgrundfre¬quenz auszugehen oder ob allenfalls weitergehende Ausgleichsverfahrenzu entwickeln sind, wird sich erst in konkreten Arbeiten zur automati¬schen Betonungssteuerung zeigen.

-115-

KAPITEL VII. SYNTHESEPROZESS******************************

VII.l ÜBERSICHT

Der Syntheseprozess erfolgt ausgehend von der phonetischen Darstellungdes Textes vollautomatisch in drei aufeinanderfolgenden Schritten,welche zwecks Uberprüfbarkeit der Zwischenresultate und zwecks höchst¬

möglicher Flexibilität in drei separaten Programmen implementiert sind

(cf. Fig.7.1). Die resultierenden Abtastwerte werden anschliessend wie

in der PCM-Technik üblich über D/A-Wandler, Rekonstruktionsfilter und

Lautsprecher in hörbare Schallsignale zurückverwandelt.0 0

phonetische Zeichenkette

Diphonisierung

Kette der Diphon- undZentroidelemente

Verkettung

Folge vonLPC-Parametersaetzen

Resynthese

Folge von Abtastwerten

D/A-Wandlung,Filterung undHoerbarmachung

akustisches Sprachsignal

Fig.7.1 Syntheseprozess

-116-

VII.2 DIPHONISIERUNGSSCHRITT

Aufgabe dieses Schrittes ist es, phonetische Zeichenketten in die ent¬sprechenden Abfolgen von Lautubergängen umzuformen. Diese Umwandlungwird wortweise vorgenommen, das Umfeld ausserhalb des gerade vorlie¬genden Wortes bleibt also unberücksichtigt. Der Aufbau eines zur auto¬matischen Umsetzung geeigneten Wortes in phonetischer Schreibweiselasst sich in Backus-Naur Form wie folgt darstellen (BNF-Notation!):

WortSilbe

SilbenträgerVokal

DiphtongVokalqualität

LängensymbolKonsonant

GlottalverschlussAkzent

TrennsymbolEndSymbol

Silbe (Trennsymbol Silbe) Endsymbol[Akzent] [Glottalverschluss]{Konsonant} Silbentrager {Konsonant}Vokal|DiphtongVokalqualität [Längensymbol]Vokalqualität Vokalqualität

"I""Q"

"B""X"

7"|"Y"|"U"A"|"6"

"2"|"E"|"3"|"0"|"8"|

T"|"D"|"K"|"G"|"F"|"V"|"S"|"Z"C"|"J"|"M"|"N"|"9"|"L"|"R"|"H"

"f-|-.-I-I-I-?-Daraus ist sofort ersichtlich, dass nebst den Lautzeichen zusätzlichdie Symbole <;'"+-= innerhalb eines Wortes zulässig sind. Alle übri¬gen, das Leerzeichen miteingeschlossen, markieren eine Wortgrenze undverursachen damit eine getrennte Diphomsierung des vor- und nachste¬henden Textes. Sie selbst werden wie die Akzent- und Trennsymbole un¬

verändert in die Ausgangszeichenkette übertragen.

Es folgen zwei Beispiele zulässiger Wörter.

orthographisch:phonetisch :

"beatmung,"[B6-'<A;T-M29,]

"Schneeglöckchen."["5NE;-'GL8K-C6N.]

Im allgemeinen bestimmen zwei benachbarte Laute das dazwischenliegendeÜbergangselement, wobei selbstverständlich auch die Übergänge vom undzum Leerlaut am Wortanfang resp. am Wortende nicht vergessen werdendürfen. Diphtonge werden wie gewöhnliche Vokal -> Vokal-Übergänge be¬handelt (cf. III.2.3). Die Bezeichnungen der Diphonelemente setzensich jeweils aus den zwei beteiligten Lautzeichen zusammen.

orthographisehphonetischdiphonisiert

"fleisch."['FLA15.][' \F FL LA AI 15 5\

Die in II.2.5 begründete Vorverlegung der Schnittstelle von Plosivlau¬ten in die präplosive Pause und sich daraus ergebenden in VI.3.2 be¬schriebenen Emsparungsmoglichkeiten bedingen eine gesonderte Behand¬lung. Übergange der Art Laut -> Plosivlaut werden als Laut -> praplo-

-117-

sive Pause diphonisiert. Auch der Glottalverschluss wird durch Einfü¬gen eines Pausensegments realisiert.

orthographischphonetischdiphonisiert

"beachtet."[B6-'<AX-T6T.][B6P 6> -

' \A AX X> - T6 6> T\

Als Folge der in VI.3.2 getroffenen Konvention für die Schnittstellen¬festlegung bei Langvokalen liegen die Lautübergangselemente ohne die

jeweilige quasistationäre Phase von ca. 5 bis 12 Frames Länge vor. Sie

produzieren deshalb bei ihrer Verkettung ausschliesslich Kurzvokale.Bei der Synthese müssen aber immer dann Langvokale erzeugt werden,wenn dies von einem nachstehenden Längenzeichen verlangt wird. Eineeinfache und zweckmässige Lösung besteht darin, das Zentroid des ent¬

sprechenden Vokals zwischen die beiden Diphonelemente einzufügen undmehrmals zu wiederholen. Zur Zeit geschieht dies mit einer festen An¬zahl von acht Repetitionen. Im Rahmen einer zukünftigen Betonungs¬steuerung muss allerdings untersucht werden, inwieweit die Dauer von

Langvokalen von der Wort- und Satzbetonung abhängig ist und in Funk¬tion davon variiert werden könnte (cf. Beobachtungen von Chollet etal. in VI.2). Die Schreibweise für Zentroidelemente mit ihrem Repeti-tionsfaktor im diphonisierten Text geht aus dem folgenden Beispielhervor.


"flachstahl."["FLAX-'5TA;L.][" \F FL LA AX X5 -

'

5> TA "A*8 AL L\ .]

In ersten informellen Hörtests vermochte das synthetisch erzeugte Sig¬nal das Phonem /R/ dort überzeugend wiederzugeben, wo nach Duden ({03}S50) das vokalische /R/-Allophon [4] auftreten kann, blieb jedoch häu¬

fig ein bisschen undeutlich, wo das konsonantische Allophon [R] vorge¬schrieben ist. Der Diphonisierungsalgorithmus ist daher erweitert wor¬

den, um diesem Einfluss Rechnung zu tragen. Immer dort, wo das nach¬drücklicher artikulierte Allophon [R] erzeugt werden muss, wird einElement eingeschoben, welches aus drei Frames besteht und genau einenaus gesprochener Sprache extrahierten Intermissionsvorgang enthält

(cf. V.5.2.13).


"uhrwerk."["U;R-'V3RK.], nach {03} 2.Aufläge ["U;4-'V3RK.][" \U "U*8 UR RV -

' V3 3R """R R> K\ .]

Eine weitere Aufgabe, welche vom Diphonisierungsalgorithmus wahrgenom¬men wird, betrifft den Schwa-Laut innerhalb von Präfixen. Es waren

seinerzeit zwei separate Zentroide für [6] in Vorsilben und Endungenberechnet worden, welche sich als nur massig voneinander verschieden

herausgestellt hatten (cf. V.7). Der Extraktion von Schwa-Diphonen wa¬

ren daraufhin wegen ihrer weit vielfältigeren Lautverbindungsmöglich¬keiten ausschliesslich Endsilben zugrunde gelegt worden. Bei ersten

Syntheseversuchen, hat sich aber gezeigt, dass in den Vorsilben "be-"

-118-

und "ge-" statt [6] ein eher nach [8] klingender Laut wahrgenommenwird, sodass sich streng genommen eine Differenzierung von zwei stel¬

lungsbedingten Schwa-Allophonen aufdrängt. Um die damit verbundene Zu¬nahme an erforderlichen Grundelementen zu vermeiden, wird stattdessenein Kniff angewendet, welcher sich im praktischen Syntheseexperimentbewährt hat. Aus den beiden erwähnten Präfixen sind zwei zusätzliche

Diphone isoliert worden, welche zur Unterscheidung von den regulärend.h. Finalsilben entspringenden [B6] und [G6] Diphonen die Bezeichnun¬

gen [B6P] resp. [G6P] tragen. Im Diphomsierungsschritt wird nun jenach Stellung innerhalb des Wortes das passende Element gewählt und indie Diphonkette übertragen, wo ihm ein ganz gewöhnlicher mit Schwa be¬

ginnender Diphon folgt, wie am folgenden Beispiel sichtbar wird.


"getragen."[G6-'TRA;-G6N.][G6P 6> -

' TR ""AR RA AA*8 A> - G6 6N N\ .]

Als Folge der wortweisen Synthese endet jedes Wort mit einem Übergangzu einer Pause hin. In natürlicher Sprache treten Wortgrenzen jedochausser am Ende einer Intonationseinheit kaum als Pausen in Erschei¬

nung. Erwartungsgemäss klingt daher derart synthetisierte Sprachestark abgehackt, und die Finallaute wirken unnatürlich gedehnt. Einemarkante Verbesserung ist möglich, indem am Wortende die weit kürzeren

Übergänge eingesetzt werden, die vor einer präplosiven Pause auftre¬ten. Einzig vor Satzzeichen, welche das Ende einer Intonationseinheit

markieren, werden die gewöhnlichen Pausenübergänge beibehalten. EineAlternative bestünde darin, Wortgrenzen nicht gesondert zu behandeln,sondern auch dort den durch End- und Anfangslaut der beteiligten Wör¬ter gegebenen Lautübergang dafür einzusetzen. Allerdings setzte ein

solches Vorgehen eine weitergehende Prosodiesteuerung voraus, um dievom Hörer vorzunehmende Segmentation des Sprachsignals in einzelneWörter nicht irrezuführen. Zudem müssten die Lautverbindungseigen¬schaften an Wortgrenzen gesondert untersucht werden. Ebenfalls als

grober Ersatz für die fehlende Satzbetonungssteuerung ist etwas will¬kürlich bestimmt worden, dass ein Komma das Einfügen einer Pause von

fünf Frames Lange (75 ms) verursachen soll, die anderen Satzzeicheneiner solchen von zwanzig Frames Lange (300 ms), wobei Kumulieren

uneingeschränkt zugelassen ist. Das folgende Beispiel zeigt die Aus¬

wirkungen von Satzzeichen auf die produzierte Diphonkette.0 0

orthographisehphonetischdiphonisiert

"ohne fleiss, kein preis!"['0;-N6 'FLA1S, KA1N 'PRA1S!][' \0 "0*8 ON - N6 6> ' \F FL LA AI IS S\ , "\*KA AI IN N> ' PR ""R RA AI IS S\ ! "\*20]

-119-

VII.3 VERKETTUNGSSCHRITT

Dank des systematischen Verfahrens, welches zur Extraktion der Diphon¬elemente verwendet worden ist, kann ihre Verkettung auf äusserst sim¬

ple Art und Weise erfolgen. Diphone, Zentroide und das [R]-Intermis-sionselement werden einfach in der verlangten Abfolge aus dem gespei¬cherten Grundelementvorrat abgerufen und ihre Parametersätze aneinan¬

dergereiht. Eine zusätzliche Interpolation ist ausdrücklich nicht er¬

forderlich, weil die entstehenden Diskontinuitäten mit dem entwickel¬

ten Verfahren bereits bei der Gewinnung der Grundelemente klein gehal¬ten werden (cf. VI.3). Der Vorteil eines einfachen Synthesealgorith¬mus, den Verkettungsverfahren gegenüber Nachahmungsverfahren aufweisen

(cf. II.2.3), kommt so wirklich voll zum Tragen.

Allerdings muss der Verkettungsalgorithmus noch der Tatsache Rechnungtragen, dass praktisch alle Diphone betonten Mittelsilben in Einzel¬

wörtern entnommen worden sind (cf. III.4.2) und daher in anderen Posi¬

tionen als zu gedehnt empfunden würden. Die Dauer der einzelnen Frames

wird auf 75% ihres Nennwertes reduziert, ausser sie gehörten zu einer

mit dem einfachen oder doppelten Akzent markierten Silbe, in welchem

Fall sie nur auf 90% verkürzt resp. bei 100% belassen wird. Akzent-

und Trennsymbole in der Diphonkette werden falls vorhanden in diesem

Sinne ausgewertet, fehlen sie dagegen, kann ein fester Wert für die

relative Dauer sämtlicher Frames substituiert werden.

0_0

Wird vom Text ein nicht im Inventar vorhandenes Diphonelement ver¬

langt, so kann wegen dessen Vollständigkeit für die deutsche Sprachebeinahe mit Sicherheit auf einen Transkriptionsfehler oder ein Fremd¬

wort geschlossen werden. Methoden zur Synthese fehlender Lautüber¬

gangselemente sind daher nicht untersucht worden. Mögliche Ersatzstra¬

tegien bestünden indessen im Ausweichen auf einen verwandten Übergang,der zeitlichen Umkehr des inversen Diphonelementes oder in künstlicherInterpolation zwischen den beteiligten Zentroiden.

-120-

VII.4 RESYNTHESESCHRITT

Der Resyntheseschritt, d.h. die Umwandlung der LPC-Koeffizienten inSignalabtastwerte, stellt lediglich eine Implementation des in II.2.3vorgestellten Synthesemodells dar. Bis auf die zusätzlich notwendigeBerücksichtigung des variablen Framedauerparameters kann dafür irgendeines der bei LPC-Vocodern üblichen Verfahren eingesetzt werden{15,16}. Wir haben das Allpol-Synthesefilter als Kreuzgliedstrukturmit zwei Multiplikationen pro Ordnung in Gleitkommaarithmetik auf un¬

serem HP-1000 Minicomputer implementiert, mit welchem übrigens auchalle anderen Berechnungen im Rahmen dieser Arbeit durchgeführt wordensind.

Die das Synthesemodell steuernden Parameter Stimmgrundfrequenz, Ver¬stärkung und Filterkoeffizienten werden jeweils pitchsynchron, d.h.unmittelbar vor dem Beginn jeder neuen Grundperiode, zwischen zweiaufeinanderfolgenden Parametersatzen interpoliert und aufdatiert, inaperiodischen Passagen wird diese Aktualisierung mit der zuletzt vor¬

angegangenen Grundperiodenlänge vorgenommen. Als Anregungssignal fürdie periodischen Passagen wird die von Wong entwickelte Anregungsfunk¬tion verwendet, welche gegenüber dem herkömmlichen Impulszug in Pha¬sengang und Einzelheiten des Amplitudengangs eher der naturlichen An¬regung durch die Glottis beim Menschen entspricht {24}. Bei Darbietungüber Kopfhörer ist eine geringfügige Verbesserung hinsichtlich des fürdie LPC-Methode typischen 'Buzz'-Geräusches zu beobachten.

0_O

Als Alternative zur off line Simulation auf dem Minicomputer steht eineigens dafür entwickeltes Ausgabegerät zur Verfügung, welches den Re¬syntheseschritt in Echtzeit durchführen kann. Damit ist es möglich,das produzierte Signal unmittelbar abzuhören, was den Syntheseprozessals Ganzes erheblich verkürzt. Das Gerät arbeitet mit einem Signalpro¬zessor vom Typ TMS 320 {25,26}. Über eine Interfaceschaltung wird es

vom Minicomputer direkt mit den LPC-Modellparameterfolgen versorgt{27}. Die Anregung geschieht in diesem Falle mit der herkömmlichen Im-

pulszugfunktion. Die Ordnung des Synthesefilters musste leider infolgeeiner programmiertechnischen Unzulänglichkeit im Signalprozessor aufelf statt zwölf beschränkt werden, was wegen der Orthogonalität derReflexionskoeffizienten durch einfaches Nullsetzen (resp. Weglassen)des letzten Koeffizienten erfolgt und sich nur unwesentlich auf die

Sprachqualität auswirkt.

-121-

KAPITEL VIII. VERSTANDLICHKEITSMESSUNGEN******************************************

VIII.1 ZIELSETZUNG

Die Güte eines synthetisch erzeugten Sprachsignals lässt sich nachverschiedenen Kriterien beurteilen, wie Verständlichkeit, Natürlich¬keit in Klang und Betonung, Sinnbezug der Betonung oder bei den Zuhö¬rern ausgelöste Anstrengung und Ermüdung. Diese und allfällige weitereTeilaspekte lassen sich nicht ungeachtet des vorgesehenen Einsatzge¬bietes und des Zielpublikums in einem einzigen pauschalen Urteil zu¬

sammenfassen, sondern bedingen vielmehr eine getrennte Bewertung dereinzelnen Kriterien. Ohne eine umfassende Steuerung der prosodischenParameter ist eine Erfassung der Natürlichkeit und des Sinnbezugs derBetonung, der Anstrengung und Ermüdung, ja sogar der Satzverständlich¬keit gegenstandslos oder zumindest fragwürdig. Wir müssen uns daher imfolgenden auf die Messung der Wortverständlichkeit beschränken. ZweiAbsichten werden damit verfolgt. In erster Linie soll die mit dem rea¬

lisierten Sprachsyntheseverfahren erreichte Qualität überprüft werden.In zweiter Linie sollen Hinweise dafür gefunden werden, wo weitereVerbesserungen ansetzen müssten, um den grösstmöglichen Nutzen zu zei¬

gen.

VIII.2 MESSVERFAHREN

Für die Wahl eines subjektiven Verfahrens zur Verständlichkeitsmessungist ausschlaggebend, dass mit dem synthetischen Sprachsignal immerMenschen angesprochen und über irgendeinen Sachverhalt informiert wer¬

den sollen. Es fehlen heute leider nach wie vor die notwendigen Kennt¬nisse über die Vorgänge des Hörens und Verstehens beim Menschen, dienotwendig wären um die Verständlichkeit eines Sprachsignals, welchesmit derart vielfältigen Verfremdungen behaftet ist wie ein vollsynthe¬tisch erzeugtes, mithilfe objektiver Methoden aus dem Signal selbstabzuleiten. Subjektive Sprachqualitätsmessmethoden sind zunächst ein¬mal zur Bewertung und Optimierung der Güte von Sprachübertragungsver-fahren entwickelt worden {70...72}, Verständlichkeitstests eignen sichjedoch ohne weiteres auch für synthetische Sprachsignale und sind be¬reits entsprechend eingesetzt worden {73}. Für ein gegebenes Sprach-übertragungs- oder Synthesesystem wird einer Hörergruppe eine grössereAnzahl von Testwörtern akustisch dargeboten und der Anteil davon rich¬tig verstandener Wörter ermittelt. In der Art des dabei verwendetenSprachmatenals unterscheiden sich Logatom- und Reimtests. Erstereverwenden als Testwörter einzelne Silben mit der LautstrukturKonsonant Vokal Konsonant , welche künstlich gebildet und daher imallgemeinen ohne Sinn in einer gegebenen Sprache sind. In letzterengelangen dagegen Wörter mit in der jeweiligen Sprache wohlbekanntemSinn zur Anwendung. Bei Test für die deutsche Sprache sind diesemeistens einsilbig und in BNF-Notation von der Lautstruktur[Konsonant] Konsonant Vokal|Diphtong Konsonant [Konsonant] .

-122-

Bei Reimtests mit geschlossener Auswahlmöglichkeit wird den Versuchs¬personen jeweils eine feste Anzahl möglicher Testwörter in schriftli¬cher Form zur Auswahl angeboten und eines davon als sog. Stimulus aku¬stisch präsentiert (multiple choice). Die Wörter einer solchen Ensem¬ble genannten Gruppe unterscheiden sich dabei nur in einem Konsonan¬ten, einer Konsonantverbindung oder im Vokalteil, daher auch der NameReimtest. (Minimalpaartests bilden eine Untermenge der Reimtests, diesich dadurch auszeichnet, dass alle Mitglieder eines Ensembles sichnur in einem einzigen Phonem unterscheiden.) Beispiel für ein Ensem¬ble:

orthographisch: "wisch" "fisch" "drisch" "tisch" "zisch" "misch"phonetisch : [VI5] [FI5] [DRI5] [TI5] [TSI5] [MI 5]

Gestützt auf die Erfahrungen von Kündig {70} und Sotschek {72} habenwir uns für die Durchführung eines Reimtests mit geschlossener Aus¬wahlmöglichkeit entschieden, weil-bereits mit Horergruppen von 10 bis 20 Personen zuverlässige und gutreproduzierbare Resultate erzielt werden können-Logatome keine verbindliche orthographische Schreibweise besitzen unddamit entweder Interpretationsfehler nach sich ziehen oder in phone¬tischer Notation charakterisiert werden müssen, was nur mit geschul¬ten Versuchspersonen möglich ist

-bei der Darbietung sinnleerer Logatome stets die Gefahr besteht, dassdiese mit ähnlich klingenden sinnvollen Wörtern assoziert und dadurchdie Ergebnisse verfälscht werden-ein multiple choice Verfahren die Versuchspersonen von belastendenNebentatigkeiten wie dem Niederschreiben der vermeintlich wahrgenom¬menen Testwörter befreit und leicht automatisch ausgewertet werdenkann. Die eingeschränkte Auswahlmoglichkeit wirkt im übrigen ähnlichwie die durch den Kontext gegebenen syntaktischen und semantischenBindungen in einer realen Spracherkennungssituation.

Das von Sotschek erarbeitete Testverfahren {72} ermöglicht die Erfas¬sung von Konsonant- sowie Vokalverwechslungen und beruht auf demselbenLautsystem, welches wir unserer Arbeit zugrundegelegt hatten(cf. III.2). Das Sprachmaterial ist phonetisch ausgewogen, d.h. seine

Lauthaufigkeiten entsprechen den Mittelwerten in deutscher Sprache,die ermittelten Verständlichkeitswerte sind daher repräsentativ fürdiejenigen bei der Synthese allgemeiner deutscher Texte. Dies gilt al¬lerdings nur mit einer Einschränkung. Der Schwa-Laut ist im Testmate¬rial namlich nicht vertreten, da er in einsilbigen Wörtern bekanntlichnicht existieren kann (cf. Fig.3.1). Das Sprachmaterial umfasst 100Ensembles zu je sechs Testwörter, 34 davon beziehen sich auf die ini¬tialen, 33 auf die finalen Konsonanten, die verbleibenden 33 auf dievokalischen Silbenträger (cf. Anhang D).0 0

t/it

11

11C

Ul1

1i

inui

11

1Ol

11

11

4-1t

cc

XIOl

14-»

C1a

1»

Ul1

c

OlOl

cUl

cOl

Uitn

4-»Ol

uiOl

rH

a>u

tn

>fd

t/lc

OlCn

uld)

4-»Cn

•H

XI0a

OlOl

Ol•H

XICn

3Ol

rH

uXI

Olro

cna

CnOl

CnXI

c•H

«4

uu

NUi

Ol4-1

3XI

UlUl

»4-4Ul

UiE

x;Ul

Ui0

UlXI

03

UlUl

cu

•H

N•H

8•H

L|TJ

tutn

cOH

a.ro

Xia>

Ul<4-l

M4->

os

Cnc

in

UlC

'OCn

rOM

x:0)

ctn

C4->

Q,•H

¦H

>•H

Bu

ccOl

4J

aiOl

Ul3

Ui"4-1

oUi

•HX

0Cn

COl

uU>£

•H

4-)•H

LiUl

J=Ol

uls

OUl

XIUl

x:14-1

•H

XI01

Ol3

mUi

OlUi

E•H

3ro

CuU

tna>£

a.ro

uCn

Old>

13Ol

u3

XIC

EH4-1

>10

OlC

4J

OlOlas

CnOlC

Uiw

tna>

e3

uro

OlUl

XIC

cn•H

XI•H

Liro

•HUl

UlXI

Olc

•H

Uloa

uLtH

0)3

Ul•H

Ol4-J

E3

¦4JQ

Ol13

cd>

sIO

IOU

s3

XIOl

Sl/l

tndl

a>

TJin

l-io

>o13

O>

U|o

CnOl

U|Li

UlCn

Ol¦H

OlI

OlOl

Cn4-1

OlOl

Oltn

•Ho

U|u

d)•H

cd)

01x;

cc

«4-1S

OlU-l

cXI

Olifd

•H

•H

cN

Cnc

•H

Cl/l

XI4-1c

J<Ol

rH

Ol•H

ITff

TJ3

ff>

4-J0

"4-14-J

c3

d»O

UiXI

4->Ol

rH

-H

CXI

UlOl

•H

>3

Uit/1

uUi

j«:XI

•H

HLi

Uivi

Ol-4-1s

Oltn

Ol4->

1443

rom

s•H

Olro

roc

c[14

4J

Ol3

V)Ol

C*J

rH

a>c

ffa>

c0

Uio

3X)

33

U|3

L.Ui

Ol3

•H

rH

U|x;

3B

•H

sin

VI<

rH

0)•H

4-Jm

OlX.

roUl<

COl

Cd)

0)4-1

J<N

Ui•H

cOl

uOl

314-1

tnOl

tnjtn

ffff

3o>

aUi

3•H

rH

Ol>

4-»Ol

OlOl

cOl

3Ul

CXI

N3

rO•H

U|tn

U-4.*:

cCa

•H

cui

roOl

Ss

•H

roCn

TJUl

XIOl

4-1tuH

OlTS

tn•H

Cro

XI3

Ol3

0)3

«TJ£

•H

.cUl

XIU4

CUl

C•H

4->C

Olc

4J

Ul3

XIc

34->

•H

4->Ol

UH

XIc

CN£

Ü-C

0•H

uOl

c+->

Olc

in

3Cnc

OlU

sui

•H

ro10

roOl

Ulro

a:Ol

Cn•H

'SOl

3Ol

(VV

Nxi

o4!

3XIC

•H

UlUlu

rHE

-H3

4J

Ul4J

Olx;S

c0

4J

cOl

Ex;

OlIB

•H

4->c

tnin

d>rd

3B

l/l13

VO

Ol•H

t/1Ul

•H

mc

UlrH

3l/l

c4J

XI•H

uc

Olx;

orH

+Jff

c*M

OlUi

U•H

34-1

c•

4J

Ol>—t

x:Ol

OlUi

UlCn

OlOl

Olc

4J

cnx;

rou

Ol3

uin

(0O

33

•H

OlUl

ulOl

4->IIB

Olrd

tnOl

8fd

u¦XH

3Olo

•HN

cCn

XI>

vic

UUi

rox;

Nin

Ult/1

4->nj

x:>

34-1

cQ,

4JV

4-1Ol

Ulc

CEo

CnC

Ol3

ctn

Olro

Ula

tnu

Ultu

LiXI

tnrH

14o

rH¦8

a,<

Ulul

cCn

CCn

x:•H

roc

x;o

C•H

¦8N

OlH

CnLi

VI4J

ro•H

U|a

<D3

u0)

XI01

l/lUi

3a

x:ff

ai3

•H

Ulo

EXI

OlUi

Oliro

Olc

OlE

d)Ul

roUi

OlOl

V)C

N•H

•r4fd

XI¦o

Ols

•H

•HXI

u3

4-»Ol

OlOl

•H

roUi

T!Ol

co

Cn-H

4Jc

•HUl3

4-J3

E-iaxi

x:Ä

•H

CTJ

4->rH

¦o•H

XJ+jc

UiIIB

Liu

N4-1

>-{C

OlXI

rH

rn

Uic

x;c

•HXI

oc

rom

0Ol

U0)

Nin

l/l•H

+J

u3

3c

4J

tuUi

c•H

ff>t

>C

ro•H

Ou

uu

Cn>

C.3

TSUi

Ul3

XI3

4->c

Cai

cOl

Oltn

tnXI

Ndl

x:Ol

Ol•H

XI10

Ol>

•HVI

•H

Olc

OlUi

OlOl

(/}c

rdd>

OJH

ai4->

4Jc

uls

XIu

312

cXH

4JT^

Olc

XIrd

XIai

roTI

4-10)

Li•H

inc

4J

§ec

uC

33

C3

•HUl

cu

cnH

UiCn

Cn4J

ffTJ

4JCc

d>c

oc

LiOl

uOl

0)rH

OlN

ffOl

roo

rH

rH

c•H

CCd

UlOl

irotn

cCn

CnCn

XI¦H

cUl

3V

u>

•H

(Dinc

a>*

c•H

XIC"

3Cn

CQ.X)

l/lro

OlUl

3Ol

Ul'S

Ul3

OlC

c110

cC

ro4->£

tnro

rH

ffU

oTJ

•H

rH

cc

EC

Ol3

ulUl

Ui»4-1

cnUi'S

Ol4J

roc

33

T-i3

•H

4JC

•rHU|

c3

0)a>X

in

Olcn

Ulo

3•H

3XI

NOl

Ol3

CN

IUIc

•H

OlCn

3x;

oN

Bc

<1)t/i

UVI

l/la

w0)

Ee>a

0)Ol

¦oX!

in4J

Ul4-»

Cn4->

Q.ro

Oo

OlXI

XI1-1

Ulu

CnVI

4J

x:u

t44•H

rH

IOt/i

¦XTl

•H

tnc

TJX)

ihS

•H

Lit/1

Ul3

•H

XI•H

Ulc

äXI

IIBC

XIro

CUl

•H

¦oin

3U-l

uUl

roN

o4-J

ex:

LiLi

3Ul

d>•H

JC,s

l/lrO

OlX!

•H

roXI

Ulc

c3

OlU)

3Ul

ro3

tuOl

Ctu

3C

VIrH

oai

301

roOl

UlQj

4J

Uc

UXI

vJo

XIo

OlOl

•H

4Ja

dlOl

rH

fdc

CnXI

roc

t/)d>

3TJ

2XI

otn

UIc

Olx:

diUl

c3

rH

VI4->

tnl/l

•otn

inc

CnISXI

uC

UUl

Ol«

TJa>

V)£

roOl

Ol>

x:C

•H

su

c;Ol

•H

t/1B

r*lc

4-1•H

tnvi

s•HC

0)C

roa>

inro

in[i.

cnw

Li•W

*J

LiO

3rj>

T-ic

Olu

•HOl

Ui•w

4-1Ol

Ul3

r^

Olc

Ol•H

inc

•H

OlU

4J<

•H

l/l•H

4J

4J

•H>

3T3

Lia>

inN

cf

cXI

3Ol

OlrH

diOl

OlOl

ror^S

Uiu

XIC

roOl

tn.J3

incC

Ul3

u3

rH

Ol*

0)>

fd-H

rotn

U4IC>

l/lXI>

OS<Sa

uUl

4-1Bc

VIUl

Olu

0)IB

Olet

in*H

QU

Ola.

LiOl

UlLi

roOl

Olro

co

x:Ui

UiOl

Ulc

3d>

XI3

XIOl

tutr»

•H

d>l/l

uic

fJJXI

UlOl

Ol:3

U4Cn

Olc

x:X

Xc

4J

cVI

vio

OlOl

XIOl

ulTJ

cx;

UlQ

c•H

Li•H

CL,

c4J

Ol>o

•H

Cn•H

<M

roUl

-H

Oloo

x:•H

OlM

0C.>

Uf•H

4-JM

LiUi

CnV

ux;

30)

01TJ

0)C

Olu

•HUl

XI•H

Oi3

XI4J

>>

14-1osa

Olc

uOl

UlOl

3Ol

•H

oUl

•H

ON

s>

Li3

TSOl

U)a>

crH

J3<M

<144

uu

rH

Qi•H

cXI

Ol>

34J

4JX

•H

SS4->

<uin

x:4-1

OlN

rO•H

OlrH

rH

uLiU

aa,

OJ>o

X)c

Ol4-1

in..

r-iOl

XI3

XXI

COl

i/3•rH

dlc

J34-1

«4HQ

4-»«0

VIfd

o.Ol

Cs

3c

Olc

U|a

c4-1

XI4JU

UlC

§Ol

UUl

Ol•H

OSVI

Ul3

*M

UlX.

l/l0)

UiUl

c»w

1•J

4J

ro¦ro

N3

Uiu

Olu

Ol4J

•H

•H

4J

OlUi

•H

01•H

3X

4J

Li•H

33

UUi

NOl

OlOl

rH

c¦8

roUl

•H3

T3•H

OlE

tn•H

XIXI

Ui3

'SrH

oUl

0)dl

•H

N1

rrjai

UiXI

4-1T-i

XIXI

tnx:

Xil/l

*-H

>in

Ulc

XIOl

30

ro4J

CL4dl

X}3

0)-C

SBD

3a>

l/lro

c-M

IIBtu

ffC

•H

4-1T-i

UiO

x:Ul

u.*

NJ£

in•H

J-J3

XH

fdXI

u4->

ulj<:

MTJ

U|ro

3•H

ro3

4-»4J

3Ul

OlO

Ol3

U3

OlOl

x;Ui

MrH

rH

Cny

'SLi

>iro

LiOl

4J

Olu

irorH

HBro

cd

tn>

VI3

XI•H

uOl

XIOl

Cn«

ed

3s

TSOl

Ul3

XIc

CN

UlOl

Ulfd

UiC

tao

0XI

4J

x;3

-HXI

4J

eX)

-4J¦**

0I3J

Li4-*

3d)

Tf4J

cOl

SOl

Ol4-1

OlOl

X.Ol

UiOl

>x:

rOai

x:o

OlX)

rH

13Ui

3e

•H

inQ

d)ff

LirH

c•HU

4-1rHc

MUl

X)**O

uCn

OlU4

roa

•H

uUl

ing

XIOl

os

'S0)

4-»flÖ

eOl

ai[14

Ui•Hc

uOl

Olin

XIUi

OlXI

Q3

3rO

roe

•H

Olin

cx;

mrH

14s

Cai

J*•H

!24-J

Ero

•Hco

CIO

QCn

VIC

VIXIc

x;C

»0Ol

3£

Olu

utu<

OlrH

Us:

srH

MrH

uOl

IH

OlrH

&c

.H

l/lOl

UlUla

c:Ol

4J

a.Ui

uXI

Uitn

in1-4

trff

4-JrH

¦H

u5

d>+J

Cn•H

Ul>

XIrH

»4-1•H

rH

cro

Cnxl

OlOl

crO

XIina

4J

roOl

4J

4J

i-tM

Cc

¦H

CDs

l/lUl

c•H

MU4

UiOl

cOl

cai

cOi

OlrH

Olvi

cc

4J

4JM

UiUl

3in

Ulin

Ul3

3M

co

0)3

33

aiUl

Oai

CLO

OlOl

Q,Olc

cOl

•H

o0

Ul•H

4->Ol

3•H

cc

OlOl

OlOl

UlC

Oiro

x;Ol

Ol>

M>

TJ4-»

ETf

tnOl

ti.c

tn

3TS

>Ul

4-14->

•H

CnN

HX

o2

Ul

XIN

in3

3~3

4-i3>

Cn•H

VI3

•H

XIQ

Me

ff:fd

0>4J

Olx:

U|0)

dlrH

4->XIC

•Hu

Ol>

Ulo

(Uu

N•H

>c

«H

CDE

•H

UirH

x;W

ß\

tnOl

XIo

in*H

Lii-4

XIc

a.0

fdß

Q)ro

iroTJ

Olff

34J

4~>•H

4-JC

Nin

UiLt

>rH

Lio

UlOl

4-JOJ

rH

dix;

OlXI

Li-H

4J

IfdS

u>

d)+J•H

4-1*Jw

rH

in«LI

C(U

3Ul

3c

3dl

0)X

N0)

Ul5!

Olro

Hin

x;TJ

01Ul

rH

fdu

ßß

4-1x;

Li•H

•H

•HX!

•HIB

rH

Q^rH

dis

c01

34J

TJLi

01.*

CO

rHß

ßLi

Ulx;

ruo>

ird•H

0)x;

uCn

-^TJ

4-1dl

4J

iro•H

oCn

x:ui

XIE

3rH

inC

U3

LiXI

3r-t

Ndl

+J

•H

cUla

rH

>Ul

4-»iro

OlOl

TJß

.cXI

UlC

4J

X!¦H

ßo)

orH

di01

VIN

:fd4-J

DiOl

xi4-1

Ula

OlJ-J

LiUl

•H

Olo

a>ino

dlß

Ol>

>Li

5in

*->•H

.*Ui

0)4J

dl•H

dlc

OlUi

0)

>s

•H

0)u

ca

TlTJ^

rH

•H•H

Ol0)

x:01

rH

Ols

OlH

ßLi

u4J

CnUl

IH

TJ1)

i3•H

4-1IO

E3

rH

ff«4-1

rH

•Hs

3C

¦H

Li-H

ff2

rH

a•

:34J

.ßQ

x;"4-1

Ul4-1

XI<*-*

x:U

EE

rOUi

Ol•H

UlU

•H

rH

•H

3roc

SH

H4->

HUl

x:in

13IB

3IH

.*L.

fdß

3TI

OlW

c4Js

01«*

XIx;

4J

v;3

XIUl

4-J4-»

UOl

Xa

w¦H

3Ul

Cin

in-HC

uUl

rH

ff<

fdOl

C•H

Olc

M4J

-H

Li4J

4->Ol

3U

4-JrH

d»d>

ß4-J

cnx:

cOl

WQ

<d*

dlLi

¦H

OlOl

-u

rH

Uix:

aiUl

ßO

4-J4->

XIOl

Ol10

ci-iff

0)*

x:tn

c'S-0

1t—t

H<

ßin

4-1O

U4Ol

2VI

•HUls

OlOl

CnBS

4-JUl

CQ\X

ßu

TJO

Ul>

rH

-H>

Ww

0)dl

LirH

Olin

oOl

OlO

>4-»

TJ0)

x:Ui

XIin

*H

•HX

s(X

Ul

rH

uOl

x:•H

xix:

wrH

LirH

UlXI

uS

Bu

d)ui<

01•H

M-*-H

1*#

Tf

¦H

ßC

ffCnC

OlrHcOl

>-HXI

HrH

d)4-1

in3

cnx;

4JC

rH

IH

ßrH

d)Li

Cnu

C¦H

:IBH

M¦H

:fdrH

d>•H

•H

OlOl

4-1>

>Ed

j^Xi

TJ4-1

BrH

rH

jevi

ffß

1iß

1u*

C1

1¦*>

Ol1

x;1

Olc

1»

1fcH

1XI

ß0)

d)-H0

OlOl

rorHa

in•H

•H

u4-J

CH

OlOl

cx:

c13

rHc

3rHÜ

d>•H

Cn4J

Olu

X!Olo

OlQ

TJUi

CnOl

OlOl

*H

rH

3N

rd4-J

4J

IH

rH

CVI

•H

r*

XITJ

>oUi

x:tH

VI

04->

Li4->

J<3

OlV

rH

OlXI

c0)

x:Xi

Ux;

•H

>Ol

•H4->

dlrH

ßro

o,3

XIc

CnOl

xix:£

IBVI

uOl

4J

4JUl

ßßS

3a

rOc

c3

Cc

OlO

30

ro3

•HOl

U44-»

di•H

tumo

OlIIB

ai3

OlXI

*H

Ol1-4

3Ol

-H

OlUl

N0)

Li-H

XIOl

4-14Jc

OlN

4-1C

-i

§E

a.N

x:XI

30)

dlß

Olt/i

Uitn

(0>

4J

UlC

BUi

4-1i/i

Cc

tnH

dlTJ

•H

Ui•Ho

U|a

H•H

roOl

IBtö

L4x:

•H

•H

OlU

4-J*H

OlX

x;Ol

3Ol

•H

3l/l

3OiJ<

cOl

Ols

cx;

Ol•H

LiTJ

•H

4-1ß

u3

4J>

ai.*

Uia

CnE

OlXI

OlOl

3Ul

0)C

•H

U%

XIC

COl

3c

cc

tnCn

tH

0o

Jü

¦8LiO

•H

ßOl

OlOl

OlUl

OlUi

OlOl

iroE

Ol¦H

3c

Xi13

ino

cUi

x:•H

dl4-1

4J

CnXX

rH

rH3

cCn

roOl

o*4-l

rH

tn•H

Olu

uXI

<H

tJm

•H

UiOl

rH

ro•H

13Li

Cn4J

•H

LiOl

04•H

Ol3

CnOl

OlCn

Olx:

jeOl

IH

roC

inß

00Ol

rH

rH

XIrö

H•H

jeUi

4-Ju

CnTJ

•H•H

XIO

ßß

Oiü

Cncn

OlNc

iOOl

tn

roOl

OlC

0)G

>0)

0)ff

Ulc

>oc

cXI

auX

x;SS

rH

Hx:

iro4J

TJ•Hß

8Ol

Edl

3Cn

10•H

OOl

UlrHo

u4-J

TJß

Litt*

UXi

cC

CtH

3rH

roH

•H

•H

OlOl>

•H

Ulß

fdO

3ß

Ui•H

33

NXI

OlUi

inu

4-J4-J

Cn•H

rHU

•H

ßs

ßin

-H

Oltu

OlN

roc

•H

a.IB

l/ll/l

NU|

OlUl

0rH

Li0)

•H

ax;

4J

Ul«0

XIt/1

-TJ

4-JOl

OlOl>

Ul4-J

OlOl

OUl

u•H

U4Ol

4-»rH

cOl

•Hax;

XIUl

ßrH

>4->

XIrou

tnt/1

OlXI

intH

Ol•

UlOl

•HE

V)U

cc

rHo

Old)

•H

ro4-J

HUl

>Ui

3x:

ro

Olx:

TJ•H

•HOl

fd*!>

4-J4-»

0>E

XIUla

cCd

cc

Olro

u¦

inu

Ul4-1

rH

x;XI

4->Li

Olui

•H

OlUl

u>

vicn

in•H

cOl

x;H

cLi

ß•HO

rH

ß3

Olc

4-1Ol

104-1

HH

rOrH

rO3u

3XI

Oldl

OlE

fd<0

4-1rH

Ol•H

VIo

cUlC

4-1[14

tH

4J

•Hü

cCn

4-1rH

Li•H

ffUi

Olx;

U|Ol

<JOl

U|tn

OlC

rH

3-H

fd0)

dlLi

ßOl

4Ju

cM

Ola

XI•rl

x;c

OlC

•H

4-1rH

o•H

Li0)

3-H

4J

viOl

roc

ul/l

4JH>

133

jer-i

•H

tTtut

4Jß

TJXI

N.*

•H

•H

CnrH

UiOl

3Cn

je&c

J*Ol

Xi3

¦HU

•H

0)13

4->Uis

4Jc

.*Ol

CnIB

Olu

CrHo

C4-J

OlOJ

ß4-»

d>•H

Ol3

XIC

•H

13m

0)c

Mro

ro3

3m

•H

Li•H

ß4->

UlcC

4J

4J

3C

4-1Oi

X!Ol

OlUl

iroTI

Ojrd

•H

4J

Ol4Jc

4-1c

NOl

Uld)

LiXI

XIroQ

Ol4J

Ulß

fddi

UlXI£

u•H

•H

4J

VIs4J5

2TJ

CXI

£rH

0)o

ÜOl

c•H

Ul•H

in•H

cC

Olc

4JOl

Olin

•H

in

JßIrt

tuB

inUi

4-J<*°

l/lro

SH

Olxi

aiXi

Olin

XI¦H

dlTJ

ßLi

uj<

3c

rH

rH

cc

c13

4Ju

Uiu

XIH

Ul4J

TJq

<t)•H

LirH

Ol•H

U|Ol

cro

OltH

H•H

Ol3

OlOl

3•H

xXI

rH

0)10

•H

OlcO

Olje

HOl

x;ro

tnXI

rOCn

in3

s3

Li13

TJ4-J

CQ1

TJ4J

Olrj\

•H

OlOl

cncn

uC

5u

Ultn

U

&t3

ßß

Li\

min

>x:

4-JC

Ctn

OlOl

roXI

Ol3

aiOl

*LIOl

ifdd>

Ol+

cOl

inc

u•H

33

-H

4J

Cn4-1

IIBx;



rorH

>Ol

4-J3

tntn

roOl

&4x:

OlH

34-1

Oltu

<ß

ß0>

LirH

jeCn

Cx;

4->0

Olro

Ui3

'Oc

•H

ro•H

Hcn

d)•H

.*Ol

O•H

CCn

0)u

•H

Nl/l

CS

Q.TStn

XI3

•H3

HOl

V)C

£4-J

«LIß

>Ul

4J3

CXI

UlOl

4JOl

Cro

<3

4-1c

OlOl

roXI

x:3

d)•H

U4-1

XIUiC

3Ol

XIOl

CCn

Ol•H

3cn

XIH

ux;

TJ0)

dl•H1

<dai

uC

4-1cn

IBo

¦H•H

er0)

4-1<

3o

^•rH

rH

>•H

XI-H

inXI

>Di

XIOl

J<rH

x;4J

x;in

•HTJ

JßTJ

"9VI

Ol'2

s3

Ui:3

¦H

Olx;

Olc

uX.

uOl

U4Ol

ßo

ßOl

Ul3

3ro

4->Ol

ctH

Uixi

ho

Cnrrj

•H

U•H

UlOl

3dl

•H

'S«fdo

x:Ol

XIai

cnCn

XIOl

cnOl

XI-H

CE

Ol•H

VIOl>

XIJß

rH

ß4J

fdTJ

roCn

C¦H

CnC

•H

4-JrH

IIBrH

Ui4-J

rOU

TJ3

inUl

NXI

cro

4-JOl

c•H

x;H

CXIX

rH

CLOl

•HOl

XIdi

ßLi

Olsu

«*Cn

Ul4-)

XI3

UOl

Olc

Oltn

•H

OlCn

U|Li

irdOl

diTJ

CIB

E•H

inc

UOl

c3

U»B

cC

•HXI

3•H

roa

4-»rH>

OlXI

3Ol

x:Cn

OlOl

4J

OlOl

>XI

X!Ul

inrd

4-i+-»

Cnc

Ol4-J

Uiro

XI¦H

inXI

Ct/1

cg

JJ

LiM

Mu

rOro

cC

Ul•Ha

IHC

uOl

UiU|

uUi

UiVI

Oliro

roß

Olo

OlOl

u4-J

•HOl

OlOl

irOUl

Ol3

H4-1

OlOl

OOl

Olro

•H

4J

4-1W>>

Ul3

XI4-1

t/1U

TJXI

i;3

&4e

33

m>

3c

XI.H

TJXI

Uli/l

-125-

wahre Verstaendlichkeit in % vs.

Anzahl absolvierter Testsitzungenmit Nummern der Stimuluslisten

100 liTf- 1"i- ¦ fi—

90

80

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2012345678912357924681

Fig.8.1 Lernkurve

initiale Konsonantenzentrale Vokale

finale Konsonanteninsgesamt

92.3% 6.4%97.4% 3.5%96.6% 4.1%95.4% 3.3%

Aus der Auswertung der Testsitzungen elf bis zwanzig, d.h. nach einer

Angewöhnungsphase von 1000 abgehörten Wörtern pro Versuchsperson ent¬sprechend einer Sprechdauer von ca. 11 Minuten, ergeben sich folgendeWerte.

initiale Konsonanten 94 2% 4.6%zentrale Vokale 98 1% 3.3%

finale Konsonanten 97 8% 3.1%insgesamt 96 7% 2.4%

Unter der Annahme die Verständlichkeitswerte seien normalverteilte Zu-fallsgrössen, lässt sich bei einer Konfidenzzahl von 0.95 für die Ge¬samtverständlichkeit ein Vertrauensintervall von 96.3% bis 97.1% be¬rechnen. Gemäss den Vergleichsangaben von Sotschek für die Störung derSprachwahrnehmung durch überlagertes weisses Rauschen {78}, entsprichtdiese Verständlichkeit einem Störabstand von ca. 13 dB bei breitrandi¬gem Nutz- und Störsignal und ca. 18 dB bei einer Bandbegrenzung beiderSignale auf 300 bis 3400 Hz.

-126-

VIII.4.2 LAUTVERWECHSLUNGEN

In Fig.8.2 und 8.3 sind in Form von Konfusionsmatrizen die in sämtli¬chen Verstandlichkeitstests erfolgten Lautverwechslungen zusammenge¬stellt. Allerdings soll nicht verschwiegen werden, dass Sotscheks

Sprachmaterial nicht im Hinblick auf eine derartige Auswertung zusam¬

mengestellt worden ist und darum bei weitem nicht alle denkbaren Ver¬

wechslungsmöglichkeiten auch tatsächlich zu überprüfen gestattet. Füreine exaktere diagnostische Beurteilung der Lautverwechslungen müssteein Minimalpaartest eigens zusammengestellt werden. Darauf ist des ho¬hen Aufwandes und der fehlenden Vergleichsdaten wegen verzichtet wor¬

den.

Unter den alles in allem nur zweitrangigen Vokalverwechslungen domi¬niert klar das Missverstehen der Quantität bei Lautpaaren mit identi¬

scher Qualität, wobei Kurzvokale etwas häufiger für Langvokale gehal¬ten werden als umgekehrt (cf. VII.2). Bemerkenswerterweise treten Ver¬

wechslungen innerhalb der in V.7 erwähnten Lautpaare, bei denen diezeitliche Ausdehnung bei praktisch unveränderten spektralen Eigen¬schaften über Lautqualität wie -quantität entscheidet, kaum in Er¬

scheinung. Qualitätsverwechslungen mit mehr als 1% Anteil betreffendie Konfusionen [Y] zu [8], [3] zu [E] und [AI] zu [3].

Bei den besonders wortinitial häufigen Konsonantverwechslungen fallen

[TS] zu [Z] und [M] zu [V] mit je ca. 11% Anteil auf, sowie [B] zu [V]mit gut 4%. Die meisten der übrigen Konfusionen von Bedeutung treten

innerhalb der nasalen und liquiden Konsonanten und noch häufiger zwi¬

schen Plosivlauten auf.

Das Missverstehen von [TS] als [Z] entspricht einer auch ausserhalb

der Verständlichkeitsmessungen gemachten Feststellung, wonach in syn¬thetisierten Affrikaten der Plosivteil leicht unterzugehen droht undzwar umso eher, je länger der Frikativteil dauert. Trotz der in VI.3.2

getroffenen Schnittstellenkonvention ergibt sich bei der Verkettungvon Plosiven mit Frikativen meist eine unnatürlich lange Frikativpha-se. Im erwähnten Beispiel, übrigens dem einzigen Affrikaten im Testma¬

terial, wird dadurch die Wahrnehmung des [T] in Frage gestellt und der

empfundene Frikativlaut als [z] bisweilen auch als [F] identifiziert,weil das naheliegendere [S] wortinitial gar nicht auftreten kann. Vom

signalphonetischen Standpunkt aus sollten demnach Plosiv -> Frikativ-

Verbindungen besser als eigenständige Laute aufgefasst werden.

Für die ausgeprägte Bevorzugung von [V] gegenüber den ebenfalls labia¬len Konsonanten [M] und [B] konnte keine signalbezogene Erklärung ge¬

funden werden. Es hat sich aber nachträglich herausgestellt, dass inden von Sotschek unverändert übernommenen und im Test eingesetzten En¬

sembles die ein [V] enthaltenden Testwörter stets vor denjenigen mit

[M] oder [B] aufgeführt sind, wenn eine derartige Opposition überhauptvorhanden ist. Bei grosser Unentschlossenheit entscheiden sich die

Versuchspersonen offenbar für das erste plausible Testwort und ver¬

nachlässigen die nachstehenden Mitglieder des präsentierten Ensembles.

Dieses Verhalten beeinträchtigt zwar kaum die Verständlichkeitsresul¬tate bringt aber grosse Asymmetrien in die Konfusionsmatrizen, welche

keine perzeptorische Begründung aufweisen. Für diagnostische Verstand-

-127-

X O » OlHK9>Ucc r> => or~ « f> O »-« oar i o« o

r- r- zZi-i ui o03 Q U _Jo UJ3cnci (- _j3 Id o « ••

U. r- O cnZ<I M ZQ3jü: oU _J O t-tCUL Ol

Ljüj « o u.

t- o 3 in« o ojn u aui <E z

oooooooooooooooo

oooooooooooonooo

oooooooooooooooni

OOOOOOOOOOOOOOOO1 I

ooooooooooooooooI I

oooooooooooooooo

000-0000000000000CM

OOOOOOOOOOOOOOOO1

OoOOOOODOOoOOOMOOI I o

l*]000000<40nOOOi-iOO

oooooooooooooooo

OOOOOCNOOOOOOoOOO

OOOOOOOOOOOOOOOO

OOOOOOOOOOOOOOOOI

•0000000^000000000I

oooooomoooooooooI

*>

RELATIVE

CONSONANTCONFUSION

MATRIX

FORFILEBRESIN

IN0/00

300TESTS

EVALUATEDUITH

ATOTAL

OF

114BERRORS.

FREOUENCIES

ARE

LIMITED

TO999,

AND

SETTO

-1

FOR

VALUESABOVE

0,BUT

BELOU

1!

JB

TD

KG

FV

SZ

5X

CJ

MN

9L

RHDR

TSST

XTCTNT

LT

RT

9KRN

p0

34

10

-10

06

-1

00

00

00

00

00

-10

00

00

00

00

00

B3

0-1

02

-16

440

50

00

00

00

01

60

00

00

00

00

0T

60

00

-1

0-1

10

-1

00

00

00

00

00

0-1

00

00

00

00

D16

6-1

00

e6

20

00

00

00

-1

00

00

0-1

00

00

00

00

K8

-1

49

00

10

00

00

00

00

00

00

00

-1

04

-14

-114

00

G0

-1

413

10

0-1

00

00

00

00

0-1

51

00

00

00

00

00

F0

-1

-1

00

-1

0-1

46

70

00

00

00

0-1

0-1

00

00

00

00

V0

01

00

01

00

-1

00

00

-1

00

0s

41

-10

00

00

00

0S

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

z0

00

00

-1

1-1

00

00

00

00

01

00

01

00

00

00

00

50

-1

00

00

10

01

01

00

00

00

00

0-1

00

00

00

00

X0

00

00

00

00

00

00

00

00

0-1

00

00

-10

00

00

0c

00

00

00

00

00

10

00

00

00

00

00

00

00

00

00

J0

00

00

00

00

00

00

00

00

00

00

00

00

00

00

0M

03

-10

00-1110

00

00

00

01

0-1

10

00

00

00

00

00

N-1

00

00

00

00

00

-10

039

06

431

-1

00

-10

00

00

00

90

00

00

00

00

00

00

01

40

00

00

00

00

00

01

0L

00

00

00

00

00

00

0-1

620

00

70

00

00

0-1

00

00

R0

-1

00

00

01

00

00

00

-1

00

00

-1

00

00

00

00

00

H0

-1

00

00

-1

00

16

00

00

00

00

-1

01

00

00

00

00

0DR

00

0-1

00

00

00

00

00

00

00

00

00

00

00

00

00

TS0

00

00

016

00119

00

00

00

00

00

00

00

00

00

00

ST

00

00

00

00

00

00

00

00

00

00

06

00

00

00

00

XT

00

00

00

00

00

00

00

00

00

00

00

00

00

04

00

CT

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

NT

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

LT

00

00

00

00

00

00

00

00

00

00

00

00

00

00

10

RT

00

00

00

00

00

00

00

00

00

-10

00

00

00

00

00

9K

00

00

00

00

00

00

00

0023

00

00

00

00

70

00

0RN

00

00

00

00

00

00

00

0-1

00

00

00

00

00

0-1

00

Fia.B.3

KONFUSIONSMATRIX

FUER

KONSONANTEN

UNDKONSONANTPAARE

-129-

lichkeitsmessungen muss also die Wortfolge auch bei der optischen Dar¬bietung der Ensembles randomisiert werden.

Die Verwechslungen innerhalb der nasalen und lateralen Konsonantenfinden ihre Erklärung in den beobachteten geringen gegenseitigen Zen-troiddistanzen von Fig.5.40 und dem Fehlen zusätzlicher distinktiverMerkmale (cf. auch V.5.2.9).

Dass Konfusionen unter den Plosivlauten so häufig sind, hängt zum ei¬nen mit der LPC-Modellierung zusammen, welche die Explosionsvorgange,deren zeitliche Ausdehnungen unter derjenigen eines Analyseframes lie¬

gen, nur ungenau wiederzugeben vermag. Zum anderen können sich stimm¬lose Plosivlaute in ihrem sog. Aspirationsgrad unterscheiden ([03]S55, {10} 4.0). Wird bei der Synthese ein behauchter Plosivlaut mit¬hilfe eines unbehauchten Diphons hergestellt, entsteht der Eindruckeines abgeschwächten Explosionsvorgangs, welcher zur irrtümlichenWahrnehmung eines stimmhaften Plosivlautes führen kann. Im umgekehrtenFall wird der Plosivlaut entsprechend meist als übersteigert artiku¬liert empfunden. Einmal mehr wäre es im Interesse der Verständlichkeitund Natürlichkeit angezeigt, zusätzliche Grundelemente einzuführen undfür jeden stimmlosen Plosivlaut zwischen mindestens zwei stellungsbe¬dingten Allophonen zu unterscheiden.

Zusätzlich zu dieser allgemeinen Feststellung lassen die beobachtetendiversen Verwechslungen des Lautes [K] etwa mit [T] oder [RT] sowievon [9K] mit [9] darauf schliessen, dass das wortfinale Diphonelement[K\] nicht überzeugend klingt. Die Verwechslungsgefahr kann voraus¬sichtlich reduziert werden, indem der gespeicherte Übergang durch einneu zu extrahierendes Exemplar ersetzt wird.

130-

KAPITEL IX. SCHLUSSFOLGERUNGEN********************************

IX.1 ERREICHTES ERGEBNIS

In der vorliegenden Arbeit konnte der Nachweis erbracht werden, dassdas gewählte Verfahren der Verkettung LPC-codierter Lautübergangsele¬mente eine sehr zweckmässige Lösung zur Sprachsynthese mit unbe¬schränktem Vokabular darstellt.

Anzahl und Identität der zur Synthese deutscher Standardsprache benö¬

tigten Lautubergangselemente konnten fundiert bestimmt und eine voll-standige Sammlung davon aufgebaut werden.

Die Laute der deutschen Standardsprache mit Ausnahme der Plosive sindhinsichtlich ihrer Signaleigenschaften anhand der Werte und Verläufevon LPC-Parametern charakterisiert worden. Diese aufgrund von Sprach¬proben eines professionellen Sprechers vorgenommenen Untersuchungenhaben es ermöglicht, mehrere mit der Übernahme des IPA-Transkriptions-systems implizit verbundene Voraussetzungen zu überprüfen.

Es ist ein neues systematisches und computerunterstütztes Extraktions¬verfahren entwickelt worden, welches die Gewinnung der Lautübergangs¬elemente aus ihren LPC-codierten Tragerwörtern anhand objektiver Kri¬terien ermöglicht, dadurch beschleunigt und zuverlässiger gestaltet.

Die Tauglichkeit des Synthese- wie des Extraktionsverfahrens sind am

Beispiel der deutschen Standardsprache verifiziert worden. Die durch¬geführten subjektiven Verständlichkeitsmessungen haben die hohe Ver¬

ständlichkeit des künstlich erzeugten Sprachsignals unter Beweis ge¬stellt.

Es besteht Grund zur Annahme, dass die erwähnten Verfahren für dieSynthese anderer Nicht-Tonsprachen gleichermassen geeignet sind. Ver¬suche mit deutschen Lautübergängen andere europäische Sprachen zu syn¬thetisieren, soweit dies mit den vorhandenen Elementen überhaupt mög¬lich ist, haben aber gezeigt, dass der Grundelementvorrat für jedeSprache neu gewonnen werden muss, ansonsten ein kräftiger Akzent der¬

jenigen Sprache durchklingt, welche die Grundelemente ursprünglich ge¬

spendet hatte. In der IPA-Notation mit demselben Symbol bezeichneteLaute stimmen in ihren Signaleigenschaften zwischen verschiedenen

Sprachen also nicht notwendigerweise überein.0 0

-131-

IX.2 ERWEITERUNGS- UND VERBESSERUNGSMOGLICHKEITEN

IX.2.1 VERBESSERUNG DER VERSTÄNDLICHKEIT UND NATÜRLICHKEIT

Die beiden Begriffe immer auseinanderzuhalten ist problematisch, daeine verbesserte Natürlichkeit auch der Verständlichkeit zugute kommt.Immerhin steht fest, dass beide Kriterien durch Fortschritte auf dreiEbenen weiter verbessert werden können.

Die erste davon betrifft die Modellierung. Auf die Probleme, welchesich aus der Verwendung der herkömmlichen LPC-Methode ergeben und all¬

fällige Erweiterungsmoglichkeiten haben wir bereits hingewiesen (Na¬sallaute: V.5.2.9, gemischt angeregte Frikativlaute: V.5.2.2 und V.7,Plosivlaute: VIII.4.2).

Auf einer anderen Ebene liegen die Koartikulationseffekte, denen durchdie Verkettung von Lautübergangselementen nur insoweit Rechnung getra¬gen werden kann, wie ein Sprachausschnitt von den ihm unmittelbar be¬nachbarten Lauten beeinflusst wird. Weiterreichende Einflüsse bleiben

dagegen unberücksichtigt. Lokale Abhilfe kann die Unterscheidung zu¬

sätzlicher stellungsbedingter allophomscher Varianten (Plosivlaute:

VIII.4.2, Schwa: VII.2) und das Zusammenfassen innig miteinander ver¬

flochtener Laute zu separaten Grundelementen bringen (Plosiv -> Frika-

tiv-Verbindungen: VIII.4.2). Beide Massnahmen wirken sich allerdingsungunstig auf den Aufwand zur Extraktion und Speicherung des Grundele¬mentvorrats aus und komplizieren zudem den Diphonisierungsprozess.

Die dritte Ebene schliesslich betrifft die Erzeugung einer zusammen¬

hängenden Betonung. In bezug auf Natürlichkeit und Verständlichkeitganzer Sätze und mehrsilbiger Wörter darf von ihr gegenwärtig die

grösste Verbesserung erwartet werden. Sie wurde aus dieser Arbeit aus¬

geklammert, ist jedoch Gegenstand eines weiterführenden Projektes in¬

nerhalb der Gruppe für Sprachverarbeitung.

IX.2.2 WEITERE AUTOMATISIERUNG DER GRUNDELEMENTGEWINNUNG

Es ist gegenwärtig noch eine offene Frage, welche der im morphologi¬schen Kasten Fig.2.9 zusammengestellten Sprachsyntheseverfahren sichschliesslich durchsetzen werden, oder ob sie gar von heute noch unbe¬kannten Konzepten verdrängt werden. Für die Synthese mit unbeschränk¬tem Vokabular werden auf längere Sicht das Artikulatorische Modell uAddie Synthese nach Regeln begünstigt. Zum einen ermöglichen immer exak¬tere Kenntnisse über die Vorgänge des Sprechens und Hörens beim Men¬schen eine naturgetreuere Nachbildung und damit eine bessere Sprach-qualitat. Zum anderen verbesseren sich mit der Verfugbarkelt lei¬

stungsfähiger Signalprozessoren die Möglichkeiten zur Realisierungdieser Verfahren auch unter eingeschränkten Raum-, Kosten- und Ener¬

gieverhältnissen. Entscheidend wird sich ebenfalls auswirken, welcheAnteile an Artikulationsmodellen und Syntheseregeln sprach- resp.Sprecherspezifisch sind und damit, wie aufwendig es ist, ein vorhande¬nes System auf eine andere Sprache oder eine neue Stimmcharakteristik

-132-

zu übertragen.

Der Vorteil von Verkettungsverfahren liegt im verhältnismässig einfa¬chen Synthesealgorithmus, ihr Nachteil in der trotz aller bisherigenAutomatisierungsanstrengungen immer noch recht aufwendigen Gewinnungdes erforderlichen Grundelementvorrats für eine gegebene Sprache oderStimme. Da zudem im Interesse der Sprachqualität die Anzahl Grunde¬lemente eher noch erweitert werden sollte, werden sich Verkettungsver¬fahren langfristig nur behaupten können, wenn es gelingt die Grundele¬mentgewinnung vom Zusammenstellen des Sprachkorpus bis zur Diphonex¬traktion weiter zu automatisieren. Einen möglichen Ansatzpunkt dazubieten die Arbeiten von Wagner (75). Er hat nämlich einen Algorithmusentwickelt, der mithilfe dynamischer Programmierung {69} die zeitlicheZuordnung zwischen dem Sprachsignal und dem zugehörigen von vornehe¬rein bekannten phonetischen Text vollzieht. Damit könnten die dieÜbergänge begrenzenden Laute innerhalb ihrer jeweiligen Tragerwörtermöglicherweise vollautomatisch identifiziert werden.

IX.2.3 REDUKTION DES SPEICHERBEDARFS

Sei nf die totale Anzahl von Koeffizientensatzen sämtlicher Grundele¬mente (Diphone, Zentroide und Intermissionselement) und bs die zur

Speicherung eines Koeffizientensatzes mit skalarer (d.h. für jedenKoeffizienten unabhängigen) Quantisierung verwendete Anzahl Bits, so

ergibt sich ein Speicherbedarf von:

B = n b (9.1)s f s

Bei der Vektorquantisierung werden die Modellfilterkoeffizienten dem¬gegenüber en bloc quantisiert. Zur Sprachübertragung müssen sowohlSender wie Empfanger über dieselbe Sammlung von Modellfilterkoeffi-zientenvektoren verfügen, welche 'Codebuch' genannt wird. Ein zu über¬mittelnder Vektor wird mithilfe eines objektiven Distanzmasses mit demCodebuch verglichen und an seiner statt nur die Codenummer des ähn¬lichsten Mustervektors übertragen, aufgrund derer der Empfänger denMustervektor abrufen kann. Eine gewisse Verzerrung entsteht durch denErsatz der ursprünglichen Modellfilterkoeffizienten durch diejenigendes gewählten Mustervektors aus dem Codebuch. Mit diesem Verfahrenwird eine beträchtliche Redundanzreduktion erzielt. Eine Beschreibungder Algorithmen und konkrete Resultate finden sich in Literatur {76}.

-133-

Für unsere Zwecke kann der Speicherbedarf reduziert werden, indem dieFilterkoeffizienten in ein Codebuch ausgelagert werden, welches weni¬ger Vektoren enthält als der Grundelementvorrat Koeffizientensätze.Die neuen Sätze umfassen also nur noch Verstärkung, Stimmgrundfrequenzund Codenummer. Sei br die Anzahl Bits für einen Satz Filterkoeff1-zienten und w die binäre Wortlänge der Codenummern (die Anzahl Eintra¬gungen im Codebuch wird zweckmassigerweise als ganzzahlige Zweierpo¬tenz gewählt), so folgt der gesamte Speicherbedarf zu:

2 b i (b -

f s

w) (9.2)

Für die numerische Beurteilung gehen wir von nachstehenden Erfahrungs¬werten für die skalare Quantisierung unter den in IV.6 festgehaltenenAnalysebedingungen aus.

Anzahl Bits für die Verstärkung 5Anzahl Bits für die Stimmgrundfrequenz 5Anzahl Bits für die Filterkoeffizienten 58

68 b = 58r

Die Gesamtzahl Koeffizientensätze nj beträgt 5886. Den Speicherbedarffür den Grundelementvorrat bei unterschiedlichen Quantisierungsbedin¬gungen zeigt die folgende Zusammenstellung:

skalar B = 400248 bit

vektor w = 10 bit B = 177112 bit



Gemäss unseren Erfahrungen aus der Sprachübertragung ist mit 512 Mu¬stervektoren entsprechend w = 9 die Verschlechterung der Sprachquali¬tät infolge der zusatzlichen Vektorquantisierung bei Verwendung einessog. 'füll search' Verfahrens unwesentlich. Der Speicherbedarf kanndamit um rund einen Faktor drei reduziert werden. Hinsichtlich desSpeicherumfangs rückt damit die Diphonsynthese in den Bereich, denSprachsynthetisatoren mit beschranktem Vokabular bereits für einenmittleren Meldungsumfang erfordern.

-134-

ANHANG******

ANHANG A. ABBILDUNG DES IPA-ALPHABETS AUF DEN COMPUTERZEICHENSATZ

Die IPA-Notation benützt mehrere Spezialsymbole, welche im Zeichensatzeines Computers und seiner Peripheriegeräte üblicherweise nicht ver¬

treten sind. Daher haben wir die für deutsche Standardsprache benötig¬ten IPA-Zeichen eineindeutig auf solche des ASCII-Alphabets abgebil¬det, was durch die Verwendung von Ziffern für einzelne Lautsymbolemöglich ist. Die Zuordnung ist nach dem Gesichtspunkt grosstmoglichergraphischer Ähnlichkeit vorgenommen worden. Im vorliegenden Berichtfinden ausschliesslich die dermassen transponierten Zeichen Verwen¬dung.

L a utzeichen:IPA ASCII Beispiel

[i] [1] Biene [B1;N6][i] [I] Kiste [KIST6][y] [7] früh [FR7;][y] [Y] Tücke [TYK6][u] [u] Glut [GLU;T][v] [2] Schuld [52LT][ej [E] See [ZE;][6] [3] schälen [53;L6N], hätte [H3T6W [0] Getöse [G6T0.Z6][oe] [8] plötzlich [PL8TSLIC][o] [0] Boot [B0;T][o] [Q] Rock [RQK][a] [A] Bahre [BA;R6], Katze [KATS6][3] [6] Hütte [HYT6], sog. Schwa-LautM [4] Ober [0;B4]M [W] in schweizdt.: kämpfe [KWMPF6[p] [P] Pass [PAS][b] [B] Blase [BLA;Z6][t] [T] Tasse [TAS6][d] [D] dann [DAN][k] [K] Katze [KATS6][g] [G] Galle [GAL6][f] [F] falten [FALT6N][v] [V] Wanne [VAN6][s] [S] Hass [HAS][z] [z] Nase [NA;Z6][/] [5] Schlag [5LAK][x] [X] flach [FLAX][c] [C] Mönch [M8NC][j] [J] jagen [JA;G6N]

-135-

IPA ASCII Beispiel

[m] [M] Mahl [MA;L][n] [N] nicht [NICT]fn] [9] Zwang [TSVA9][1] [L] Lack [LAK]fr] fR] rot [R0;T][h] fH] Huhn [HU;N]

sonstige Zeichen:IPA ASCII Bedeutung und Beispiel

['][:[-['

[¦'

[/[

[>] präplosives Pausensegment[\] gewöhnliches Pausensegment, Leerlaut[<] Glottalverschluss: geöffnet [G6<8FN6T][;] Längenzeichen: Bahn [BA;N] vs. Bann [BAN]f-j Silbentrennung: belasten [B6-LAS-T6N]['] Akzent auf folgender Silbe: Karaffe fKA'RAF6]["] Hauptakzent auf folgender Silbe:

Belastungszeuge [B6-"LAS-T29S-'TSQ7-G6][/] Sprechpause, doppelt für längere Pause

silbischer Konsonant: Löffel [L8FL]

-136-

ANHANG B. GLOSSAR PHONETISCHER UND LINGUISTISCHER BEGRIFFE

Alle aufgeführten Beispiele entstammen der deutschen Standardsprache,sie können nicht unbesehen in andere Sprachen übernommen werden!

AffrikatVerbindung eines Plosivlautes mit dem nachfolgenden homorganen Frika¬tivlaut.

Beispiel: [PF]

Allophonlautliche Realisation eines Phonems. Der dem jeweiligen Phonem zu¬

geordnete Laut kann dabei in einer gegebenen Sprache fest vorgeschrie¬ben, stellungsbedingt verschieden oder innerhalb einer Gruppe von Lau¬ten frei wählbar sein.

Beispiele: /L/ -> [L] immer/X/ -> [X] nach "a", "o", "u" /X/ -> [C] sonst

/R/ -> [R], [r] oder [«] als freie Varianten

apikalfasst die Laute mit Artikulationsorten von interdental bis retroflexzusammen.

Artikulationalle Stellungen und Bewegungen der Sprechorgane, welche zur Erzeugungeines gegebenen Lautes erforderlich sind, indem sie die Klangbildungund Klangformung im Vokaltrakt gezielt steuern.

ArtikulationsartArt und Weise der Luftströmung innerhalb des Vokaltraktes, wie frik¬tionslos, plosiv, frikativ, nasal, lateral, vibrant.

ArtikulationsortOrt der grössten Engebildung innerhalb des Vokaltraktes, reicht von

bilabial über labiodental, (inter)dental, alveolar, palatoalveolar,retroflex, palatal, velar, uvular, pharyngal bis glottal.

diakritischheissen diejenigen Zeichen einer Lautschrift, welche selber zwar kei¬nen Laut darstellen, aber eine bestimmte Modifikation an solchen aus¬drücken sollen. Sie treten entsprechend nur in Verbindung mit anderenZeichen auf.

Beispiel: [;] bedeutet länger ausgehaltene Aussprache des voranstehen¬den Lautes, spezifiziert also das Merkmal <+lang>.

DiphtongVerbindung zweier Vokallaute, welche einer gemeinsamen Silbe angehö¬ren. Phonologisch werden Diphtonge als ein einziges Phonem gewertet.Beispiel: [AI] in [KA1M]

dorsalfasst die Laute mit Artikulationsorten von palatal bis pharyngal zu¬

sammen.

-137-

FormantenBereiche hoher Leistungsdichte im Spektrum eines Sprachsignals.

Formantfrequenzendiejenigen Frequenzen, bei denen relative Maxima der spektralen Enve-

loppe auftreten. Die tiefsten zwei davon werden in der akustischenPhonetik üblicherweise zur Beschreibung der Vokallaute herangezogen.

Glottalverschlussvölliger Verschluss der Glottis. In der deutschen Sprache trennt erinsbesondere auf einem Vokal endende Präfixe von Stämmen, falls dieseebenfalls mit einem Vokal beginnen.Beispiel: [B6<AXT6N]

GlottisDie Öffnung zwischen den Stimmlippen.

Grammatikbefasst sich mit dem Aufbau einer Sprache, d.h. mit den Regeln, welchedie Beziehungen sprachlicher Objekte untereinander beschreiben undfestlegen. Die Gesamtheit aller Bildungsvorschriften einer Sprachewird ebenfalls als Grammatik bezeichnet.

homonymheissen Wörter mit identischer Schreibweise, aber unterschiedlicherAussprache und Bedeutung.Beispiel: "löschen" [L856N] oder [L0;SC6N]

homophonheissen Wörter mit identischer Aussprache, aber unterschiedlicherSchreibweise und Bedeutung.Beispiel: [H3MT] "hemd" oder "hemmt"

homorganheissen Laute mit demselben Artikulationsort.

Koartikulation

Veränderung der phonetischen Eigenschaften eines Lautes infolge derBeinflussung durch benachbarte Laute (cf. intersymbol interference).Es wird unterschieden zwischen regressiver, durch Vorgängerlaute be¬stimmter, und progressiver oder antizipatorischer, durch Nachfolgelau¬te verursachter, Koartikulation.

Konsonantenumfassen diejenigen Phoneme, resp. die zugehörigen Laute, welche in

Verbindung mit Vokalen jedoch nie für sich allein Wörter bilden kön¬nen.

Beispiele: /5/, /P/, /H/

labialfasst die Laute mit Artikulationsorten von bilabial bis labiodentalzusammen.

-138-

Lautkleinste artikulierbare Einheit, welche in einer oder mehreren Spra¬chen vielseitig kombinierbar auftritt, gewöhnlich nach artikulatori-schen und auditiven Kriterien untereinander abgegrenzt und eingeteilt.Dementsprechend existieren weite Lautschriften, welche nur eine mini¬

mal nötige Anzahl verschiedener Laute unterscheiden, und enge Um¬

schriften, welche innerhalb dieser Kategorien noch zwischen mehrerenLauten differenzieren. Lautzeichen werden zwischen eckige Klammern [ ]gesetzt.

Lautschrift siehe Laut

Minimalpaarein Paar von Wörtern, welche sich nur in einem einzigen Phonem vonei¬

nander unterscheiden, damit aber zwangsläufig auch zwei verschiedene

Bedeutungen besitzen.Beispiel: /RA1M/ und /LA1M/

Morphemkleinste bedeutungstragende sprachliche Einheit. Morpheme sind entwe¬der Wörter oder Teile von Wörtern (freie resp. gebundene Morpheme).Beispiele: "arbeit-en", "kind-er", "ge-lieb-te", "frei"

Phonemkleinste bedeutungsunterscheidende Einheit einer Sprache. Phoneme wer¬

den anhand von Wortpaaren bestimmt, welche sich nur in einem einzigenLaut voneinander unterscheiden. Je nachdem, ob der semantische Inhalt

und/oder die syntaktische Funktion verschieden sind oder nicht, han¬delt es sich dabei um Minimalpaare und damit auch um zwei verschiedene

Phoneme oder aber lediglich um allophonische Varianten zu einem einzi¬

gen Phonem. Phonemische Zeichen werden zwischen Schrägstriche / / ge¬setzt.

Beispiele: [RA1M],[LA1M] => /R/ und /L/ sind eigenständige Phoneme,denn sie allein bestimmen die unterschiedliche Bedeutung.[MILC],[MILX] => die Laute [C] und [X] gehören beide zum selben Phonem

/X/, weil die Bedeutung in beide Fällen diesselbe bleibt, es handeltsich nur um zwei beispielsweise dialektbedingte Varianten.

Phonetikmeist unterteilt in artikulatorische, akustische und auditive Phone¬tik. Alle befassen sich mit der Realisation von Lauten in gesprochenerSprache unter dem jeweiligen Gesichtspunkt.

Phonologieuntersucht die Laute einer Sprache unter dem Gesichtspunkt, wie diese

ihre Aufgabe Wörter zu unterscheiden erfüllen können. Sie beschäftigtsich mit der Erstellung des Phonemsystems (d.h. der Ermittlung der in

einer Sprache vorhandenen Phoneme mit ihren Allophonen samt Auftre¬

tensbedingungen), der Einteilung in Vokale und Konsonanten, der Phono-

taktik und den Regeln zur Beschreibung phonologischer Prozesse.

Phonotaktikbeschreibt Gesetzmässigkeiten in der Verbindung von Phonemen (oderauch Lauten) zu grösseren Einheiten wie Silben und Wörtern.

-139-

Pragmatikdie Lehre von den Beziehungen zwischen sprachlichen Objekten und ihren

Benutzern, vor allem der vom Sender damit verfolgten Absicht sowie der

beim Empfänger erzielten Wirkung.

Prosodievon altgriechisch: der Beigesang. Die Gesamtheit der akustischen Mit¬

tel zur Redegestaltung hinsichtlich Gliederung, Hervorhebung, Ausdruckvon Emotionen und Stellungnahme zum Gesagten. Sie manifestiert sich im

Signal vor allem in den Verläufen der Parameter Stimmgrundfrequenz,Lautstärke und Sprechgeschwindigkeit.

prosodischdie Prosodie betreffend.

Schwaunbetonter Laut, dessen Artikulationsstellung einigermassen der Ruhe¬

stellung des Vokaltraktes entspricht. Als [6] transkribiert.

Beispiel: [G6TR1;B6]

segmentalheisst eine Grosse, die von den einzelnen Lauten abhängig ist.

Semantikuntersucht die Bedeutung von sprachlichen Objekten.

semantischdie Bedeutung betreffend.

Silbeeiner der umstrittensten Begriffe der Sprachwissenschaften {10}. JedesWort besteht aus mindestens einer Silbe, jede Silbe enthält genau ei¬nen und sei es nur subjektiv besonders hervortretenden Laut als Sil¬

benträger. In der deutschen Standardaussprache sind dies meist, in der

Bühnenaussprache ausschliesslich Vokale {03}. Silbengrenzen fallenstets mit Wortgrenzen zusammen, im Deutschen jedoch häufig nicht mit

den Morphemgrenzen.Beispiele: "ar-bei-ten", "kin-der", "scha-den-freu-de"

silbischheissen diejenigen Laute, welche als Silbenträger fungieren. In derdeutschen Standardaussprache und Umgangssprache kommen dafür neben denVokalen auch bestimmte Konsonanten in Frage.Beispiele für silbische Konsonanten sind die Endlaute in: [HAT-N],[5YS-L]

Sonagrammgraphische Aufzeichnung der Kurzzeitspektren eines Signals. Auf derAbzisse wird die Zeit dargestellt, auf der Ordinate die Frequenz, die

Schwärzung des Papiers entspricht der Intensität.

StimmeinsatzAnschwingvorgang der Stimmlippen.

-140-

suprasegmentalheisst eine Grösse die nicht von den einzelnen Lauten abhängt, sondernvon der Wort- und Satzbetonung bestimmt wird.

synonymheissen Wörter mit gleicher Bedeutung, aber unterschiedlicher Ausspra¬che und Schreibweise.

Beispiel: "keilner" und "ober"

syntaktischden Satzbau betreffend.

SyntaxTeilgebiet der Grammatik, das sich mit den Regeln befasst, welche diein einer Sprache zulassigen Verbindungen von Wörtern zu Sätzen be¬schreiben und zwar hinsichtlich Form, Funktion und Struktur.

Tonspracheals Tonsprachen werden diejenigen Sprachen bezeichnet, bei denen diekleinsten bedeutungstragenden Einheiten nicht aufgrund der beteiligtenLaute allein bestimmt werden können, sondern auch die Berücksichtigungdes Tonfalls (Stimmgrundfrequenzverlauf) notwendig ist. Selbst einsil¬

bige Wörter weisen mehrere einzig durch den Tonfall voneinander zu un¬

terscheidende Bedeutungen auf. Zu den Tonsprachen gehören beispiels¬weise Chinesisch und Thailändisch.

TranskriptionUmsetzung eines orthographischen Textes oder gesprochener Sprache in

Lautschrift.

UvulaHalszäpfchen.

Variantenunterschiedliche Realisierungen eines Phonems, Morphems oder Wortes in

Abhängigkeit von Dialekt, Schicht, Gruppe, Situation und Sprecherresp. Autor jedoch unter Beibehaltung von Funktion und Bedeutung.Beispiele: [MILC] und [MILX], [BAU6R] und [BAU4]

VelumGaumensegel. Mit seiner Hilfe kann der Nasenraum an der Klangformungbeteiligt oder davon ausgeschlossen werden.

Vokaleumfassen diejenigen Phoneme, resp. die zugehörigen Laute, welche fürsich allein oder zusammen mit Konsonanten Wörter bilden können.

Beispiele: /A/, /0/

Vokaltraktder gesamte durch Bewegung der Sprechorgane in seiner Gestalt und da¬mit auch in seinen Klangformungseigenschaften veränderliche Raum zwi¬

schen den Stimmlippen und der Mundöffnung.

-141-

ANHANG C. ZENTROIDPARAMETER

CENTROID FOR [l;] COMPUTED FROM <03.l]GAIN = .36150E+03SIGAM= .33993E+04IPTCH= 94RCOF( 1)= -.200430 -.030601 -.684851RC0F( 6)= .448435 .360497 .452316RCOF(ll)= -.035854 .166545

-.352433.184633

-.274197-.104998

CENTROID FOR [i] COMPUTED FROM <04.IBGAIN = .96201E+03SIGAM= .44685E+04IPTCH= 95RCOF( 1)= -.051201 .323501 - .397759 -.161921 -.507236RCOF( 6)= .169790 -.088893 .444073 .442303 .201263RCOF(ll)= -.079364 .068235

CENTROID FOR [7;] COMPUTED FROM <06.7]GAIN = .33551E+03SIGAM= .40836E+04IPTCH= 94RCOF( 1)= -.563374 .290928 - .553963 -.168163 -.561517RCOF( 6)= .450745 -.009602 .414999 .362272 .320048RCOF(ll)= -.057448 -.130289

CENTROID FOR [Y] COMPUTED FROM <07.Y]GAIN = .10590E+04SIGAM= .56680E+04IPTCH= 95RCOF( 1)= -.348194RCOF( 6)= .171436

RCOF(ll)= -.043494

GAIN = .16706E+03SIGAM= .41209E+04IPTCH= 89RCOF( 1)= -.955173RCOF( 6)= -.087297RCOF(ll)= .067173

.310888 -.272261 .107759 -.556376-.106581 .287802 .311677 .509527-.022016

TED FROM <08.U] CENTRAL TYPE

.130400 .260083 .413574 .140630

.073364 -.119736 .089132 .193290

.160933

CENTROID FOR [U;] COMPUTED FROM <08.U]GAIN = .15765E+03SIGAM= .41544E+04IPTCH= 89RCOF( 1)= -.957608RCOF( 6)= -.152607RCOF(ll)= .078133

PERIPHERAL TYPE

227951 .261808 .407666 .097057100701 -.119855 .169142 .248360149301

-142-

CENTROID FOR [2] COMPUTED FROM <09.2]GAIN = .50221E+03SIGAM= .52915E+04IPTCH= 93RCOF( 1)= -.776786 .166970 .037019 .595413 -.241427

RCOF( 6)= -.136622 -.140679 .244637 .547698 .402365

RC0F(11)= .216504 -.110216

CENTROID FOR [E;] COMPUTED FROM <10 • E]GAIN = .75739E+03SIGAM= .38292E+04IPTCH= 97

RCOF( 1)= -.038509 .479439 .385944 -.263207 -.590797

RCOF( 6)= .203107 .009891 .533019 .390282 .090793

RCOF(ll)= -.056124 .020394

CENTROID FOR [3] COMPUTED FROM <11.3EGAIN = .14967E+04SIGAM= .56893E+04IPTCH= 96RC0F( 1)= -.388775

RCOFf 6)= .256016RC0F(11)= .071724

SHORT E TYPE

.428233 -.173015 -.041736 -.366491

.028416 .502667 .342303 .057186

.035257

CENTROID FOR [3] COMPUTED FROM <12.3AGAIN = .15130E+04SIGAM= .49669E+04IPTCH= 104RC0F( 1)= -.380445RCOF( 6)= .146474RCOF(ll)= .024901

GAIN = .12314E+04SIGAM= .41302E+04IPTCH= 110

RCOF( 1)= -.298907RC0F( 6)= .157699

RCOF(ll)= -.050927

SHORT A TYPE

.571240 -.127242 -.026336 -.280892-.084728 .476909 .269813 .016408-.030972

TED FROM <13.3L LONG Ä TYPE

.514554 -.138022 -.039848 -.375989

.073117 .505683 .296485 .124671

.023652

CENTROID FOR [0;] COMPUTED FROM <14.0]GAIN = .62788E+03SIGAM= .42942E+04IPTCH= HO

RCOF( 1)= -.456443RCOF( 6)= .183243

RCOF(ll)= -.126918

.325457 -.295564 -.030773 -.526211

.009280 .314440 .268869 .583116

.025319

-143-

CENTROID FOR [8] COMPUTED FROM <15.8]GAIN = .13186E+04SIGAM= .57850E+04IPTCH= 105RC0F( 1)= -.502968 .289297 -.196970RCOF( 6)= .306390 -.086958 .210177RCOF(ll)= -.124955 .027927

.172286

.363615.341032.245266

CENTROID FOR [0;] COMPUTED FROM <16.0]GAIN = .25080E+03SIGAM= .46472E+04IPTCH= 102RCOF( 1)= -.924454RCOF( 6)= -.248699RCOF(ll)= .041907

CENTRAL TYPE

.193580 .276911 .463542 .350355

.095466 -.176152 .179393 .298933

.096166

CENTROID FOR [0;] COMPUTED FROM <16.0] PERIPHERAL TYPEGAIN = .19617E+03SIGAM= 46489E+04IPTCH= 101RCOF( 1)= -.926605 .304083 .207316 .531562 .264150RCOF( 6)= -.393413 -.081370 -.254140 .455362 .472772

RCOF(ll)= .017875 -.085400

CENTROID FOR [Q] COMPUTED FROM <17.Q]GAIN = .11402E+04SIGAM= .69877E+04IPTCH= 100RCOF( 1)= -.698095RCOF( 6)= .104221RCOF(ll)= .022793

GAIN = .13178E+04SIGAM= .49196E+04IPTCH= 105RCOF( 1)= -.557392RCOF( 6)= .285304RCOF(ll)= -.058694

GAIN = .14634E+04SIGAM= .55804E+04IPTCH= 109RC0F( 1)= -.553265RCOF( 6)= .386649RCOF(ll)= -.077897

.356993 .232871 .578112 -.303936

.365178 .097001 .385525 .457370

.085667

D FROM <19 AK SHORT TYPE

.268370 .142907 .334786 -.081494

.364391 .279358 .288737 .053177

.037012

ED FROM <18.AL LONG TYPE

.243957 .207632 .516403 -.107102-.465621 .275886 .323838 .186081.042017

-144-

CENTROID FOR [6] COMPUTED FROM <20.6]GAIN = .10415E+04SIGAM= .47532E+04IPTCH= 95

FINAL TYPE

RCOF( 1)= -.405343 .197616 -.189894 .142785 -.329248

RCOF( 6)= .169473 -.270956 .306076 .421372 .123398RCOF(ll)= -.069605 -.042756

CENTROID FOR [6] COMPUTED FROM <20 6] PREFIX TYPEGAIN = .70502E+03SIGAM= .37371E+04IPTCH= 122RCOF( 1)= -.314896 .323667 -.326689 .042043 -.424716

RCOF( 6)= .278704 -.031444 .323892 .393923 .292802RCOF(ll)= -.200194 -.028196

CENTROID FOR [F] COMPUTED FROM <27.FGAIN = .23085E+03SIGAM= .26443E+03IPTCH= 0RCOF( 1)= .408695RCOF( 6)= .201251RCOF(ll)= .059860

CENTROID FOR [V] COMPUTED FROM <28.V]GAIN = .88127E+02SIGAM= .70438E+03IPTCH= 113RC0F( 1)= -.460622RCOF( 6)= -.136890RCOF(ll)= -.002679

CENTROID FOR [S] COMPUTED FROM <29.S]GAIN = .22935E+03SIGAM= .35445E+03IPTCH= 0RC0F( 1)= .849799RC0F( 6)= .162097RC0F(11)= .109831

.440445 .285225 .279788 .248715

.170401 -.001952 .100638 .212795

.037400

-.202226 -.223716 -.022842 -.126745

-.051005 -.207507 -.006120 .207117.060272

.334823 .207762 .345717 .235358

.160943 -.006124 .086045 .215799

.037636

CENTROID FOR [Z] COMPUTED FROM <30.Z]GAIN = .21181E+03SIGAM= .77840E+03IPTCH= 0RC0F( 1)= .620608RC0F( 6)= -.185208RC0F(11)= -.054514

-.303804 -.167754 .038112 -.228257-.176646 -.154678 .011295 .084968.012940

-145-

CENTROID FOR [5] COMPUTED FROM <31.5]GAIN = .75624E+03SIGAM= .14565E+04IPTCH= 0RCOF( 1)= .602566RCOF( 6)= .313240RC0F(11)= -.066109

.619308 .580894 .486774 .434501

.305114 .356856 .092664 .010757

.126200

CENTROID FOR [X] COMPUTED FROM <32.X]GAIN = .27656E+03SIGAM= .57473E+03IPTCH= 0RCOF( 1)= .132179 -.010476 -.210692 .570770 .564741RCOF( 6)= .166775 .147572 -.029136 -.004988 .235026RCOF(ll)= .055045 .036913

CENTROID FOR [C] COMPUTED FROM <33 • c]GAIN = .31071E+03SIGAM= .56333E+03IPTCH= 0RCOF( 1)= .625537 .699331 .650667 .475233 .172837RCOF( 6)= .177521 .084106 .116972 -.106249 .093644

RCOF(ll)= .015279 .083659

CENTROID FOR [J] COMPUTED FROM <34.j]GAIN = .40316E+03SIGAM= .24582E+04IPTCH= 113RC0F( 1)= .024710 .260617 -.482293 -.204193 -.579454RC0F( 6)= .162792 .097018 .483776 .383378 .251206RC0F(11)= -.165538 .048533

CENTROID FOR [M] COMPUTED FROM <35 M]GAIN = .22212E+03SIGAM= .31892E+04IPTCH= 106RCOF( 1)= -.754726 -.035564 -.577126 -.085603 -.043567RC0F( 6)= .450357 -.017344 .013792 .240754 .247442RC0F(11)= .070560 .116241

CENTROID FOR [N] COMPUTED FROM <36.N]GAIN = .21443E+03SIGAM= .31933E+04IPTCH= 102RCOF( 1)= -.721071RC0F( 6)= .304690RCOF(ll)= .135142

.025020 -.733381 -.039110 .268507

.027450 .218044 .176274 .059675

.094958

-146-

CENTROID FOR [9] COMPUTED FROM <37.9]GAIN = .22114E+03SIGAM=IPTCH=RCOF( 1)=RCOF( 6)=RCOF(ll)=

.29782E+04100

-.675546.444715.249337

.144894-.077349-.000998

-.733938 .010000.198555 .097992

.205135-.096708

CENTROID FOR [L] COMPUTED FROM <38 L] (REVISED)GAIN = .41015E+03SIGAM= .29541E+04IPTCH= 99RC0F( 1)= -.352167RCOF( 6)= .256072RCOF(ll)= .022856

.046126 -.471081 .107327 -.320030

.335038 .287376 .287804 .395607

.024825

CENTROID FOR [R] COMPUTED FROM <39.R] LOW SIGNIFICANCEGAIN = .38682E+03SIGAM= .19230E+04IPTCH= 109RCOF( 1)= -.454509RC0F( 6)= -.079023RC0F(11)= -.004600

316079 -.290921 .242537 -.047056142923 -.095691 .310555 .151635083611

CENTROID FOR [H] COMPUTED FROM <40.H] UNVOICED TYPEGAIN = .19283E+03SIGAM= .46189E+03IPTCH= 109RCOF( 1)= -.263211RCOF( 6)= .307128RC0F(11)= -.031451

GAIN = .30475E+03SIGAM= .16188E+04IPTCH= 114RCOF( 1)= -.555076RC0F( 6)= -.044266RCOF(ll>= -.203808

.312269 .230311 .241971 .113115

.102161 .106096 .221547 .044245

.131234

D FROM <40.H] VOICED TYPE

.384017 .052029 .063387 .052825

.147600 -.149796 .128531 -.197174

.028014

OlOl

4-1>

•Hm

ca

tuu

DirO

cu

3tu

l/lm

tntu

4->£

Ul2

IIm

CU

II4-1

tuO

IIE

L42

II•H

tua

iitu

Ulin

n05

Cin

ii3

WII

14£

IIa

Ctn

ii%4

•H

Hii

"||

IhW

IICM

•H

XII

r-

*X

IIU

IIUl

IH

||tu

JIIü

XiQ

IIdl

u2

IIxi

rH

¦<II

utu

HII

tn3

inii

4J

05II

Oh

UII

in4-1

>II

rH

IIb]

IIc

tuIH

||0

4-1D

II>

l/lII

tu05

IIOJ

3II

tnc

rH

1fr.

IIro

tu¦H

1II

TStu

12

II4-J

1W

II4-1

1H

II4J

inC

1tn

iil/l

3ro

1M

n•H

NC

1j

n0

1H

IIin

i05

IIC

roC

iO

IIdl

•Hc

0l

3II

¦a14

tuIC

1II

ctu

XI•

IIOl

4-Jro

U1

OII

turo

Xitu

1II

rH

r~i1

OII

0xi

-u

ro1

tt-fu

tu¦H

1rr)

•o4J

1Li

c¦H

1

Sils

Qitu

C1

4H

in3

¦H1

£,W

4-14->

C.C

CO

EC

wij

UrHuic:

wT3C

fiiHWOCtrOiinw

.Cc-HUÄtn3ux:4->a)aiô^£H3HUtH4JC!MEU'4-iwicccc;w)incu

HHO(l)Mld'H((lflHfl)3l0Ofl»fl0)iflC)ill3O3^lw3HIBHWllJfl)lfllJ

!^ä:J--h

EkgjuHHHLiKNJu

uh

D,uK

DuiJu

2;CÜ

uK-Hi-fCrii-in

x:C-h-CCUEMC

•H

HO

<UH

IG-H

fÖNÛNN-ÜHE*

min

+J

ijriwCLiiny'OCExiiHin'O

0)(UXIa'OHSHXIHÄCUE-U'WWC;

HQ)3nJ0Q)njaJa)a)fti3303JHfG3H

>cs

iH-r-iSH

uc»-)q;äsms

us*:

es<:

c;tp

Crw

4-ic

x;C

cCw

wc

ua>

-ha>

tua>

in<d

eH

Ec:ä2

sc

d-H-CCUE^C-t-"

¦H<DU£W3ll)£x;

U-HO

<UH

(0H

(G:f0

tnu

.-ht/i

ewwwfiExli-itn'OCDioiuiyfiß

<U.C.piyt4.H3.HU.Ha3£M.3U<MweGG£ininGU

H<U3rGO<VrG0)rG(U(G3OtiHiG3H(VHa)ra(UrG(G

tJ>N2CHCuaEbiOSJaD'a

£D4^J3t3

0>CLQ.HH

S

-h

uo

a>u

eu

c:

IG'H

(ÜHG

13CC"

CT>4J

;X;«4Hin-HC!

CC

Ifl+JÖ£

UW

Wfi

fiH

-IH«

w*u

•»"1

VJ

\J

W»-I

IU

r-i

IU

-IU-r-1

Xim

CTJ'CJCODLlDQjJ'Ö Q)

<D4J

0>UiH3HlL|H*JCUiEU,4-linx;CHlOWWlGU

•H0)PÄO<U<G<lIaJQ)iaDODHiG3Ua)MtHaja)îG

-OH

Ö>E

CnXIO'O

tJ>£H

Ü3Ä

TJÜ

CnO

wfa'ü'Ü'Ö.Q'Ü'Ü

rH

x:c

Utri

uC

inc

tuu

x:Ol

Xim

.Cin

in

ac

rH

x:u

fiC

4J

Ulc

.cti

Ctn

3u

Xix:

tuM

4-J•H

•Ho

tu•H

rtl•H

mirtl

•H

tu3

inin

¦o3

3tn

33

tn3

33

l-ih

tn(U

w3

GE

-C«-<

-OßO>tTnnyC£

OiiHSfinHUfiijEUiHiflCCCfiinwfiü

Hi5miXU)J3i:i3i/ij:

inxJ.äoQ>wi/ix:.c:i:£L<T3w

>-)ui

CU

mT3

CÖ»

M-H

3H£H

-OC

U<D0ÜliD(l)n)<lliD30gx:'wD'acD>o>

+->c

x:Eui-i.CGGeewtnGu

3h

muh

mh

:idm

aimm

Sl/l

HCi/l

inS

»u

viiS23

«4-|4-J

4-1m

:D^rHCin+J4JC:^:

.CP

-H

-H

-H

3H

HU

UtG0)O»<UlG(UnJ

CnrH

4->G

U-H

DIj

3.C

PP

-H

«H

-H

oa)iGtoa)y(flrtj<D(ua)

CM

suT3

X!«i

JÖh

tw

uim

•-HX)

i-l4->

in

IW

4-J¦H4-J-H

inh

Cntro

4-Jin

vimhc

Qj0)

3330)3X3

3H

HO

XIQ*

4Jll!(lllI|tj8)Uig0)IDl4:33

in^JiJS-MXltnSE

uu

inxz

3-H

rH

C4-J

cU

C14-1

ljrH

mX5

x:Xi

m3

Tlx;

mU

Xi•H

14-H

.COOOSS

tu13

«iiro

tU13

tu:3

OlU

Uls

3X\

l/la:

3DCX

t4TJ

IEtn

4-»G—ITJ--I

w.Q

.*OT3

W4JU-JT3

4-JG

0)H

HH

3(J

XJH

VIV)

OlCA

QJQ)4-J0)Q)iG>H:O

UnJa

ÔU0)3

Mi/iiflJöSiJCDuis

emh

ma:

"W

LirH

Q,rH

*J

U-lnjHii'OinwwC

inG

hnj

+j

j^h

chuh

wa

mij

in-w

iu

13a

xjrHrHGin4Jx:i^cnuGy-iMrHx:4-JUrH4-Jx;iG4-Ji-(inpCf>x;4JininoGCjj

03<UPlDtfÜ1(G30*Oa>33lOUa»a><Utl0

04-»tPt03IUtOOaitt)t3M30

mSS

SXJXJuiÄsxiôiQXi/icQjfciûimnijgHiSmSE

u*->w

jz

»W

4-J4-J

x:rH£

x:u

Oro

Ows

ss

IH•-*

CLajx:»w

uixix;

<ucth

ajg

ajtj

<-hm

igu

x;4-j

>3fGOf0f0raf0ia:oua)(GfGOfa4-jfaa)ia*M"-'

iiviasKSiM'oruiiiiHtH-

inm

h3

un)

i

XIS

4J

XIin

E

in

4-J«n

-üin

inaJ

GXi

P<ü

SHfG

OE«

-m

i/ix:

>*Ht-l

rH

<M

l-(rH

rH

•H

T3rOW4-»4-JG

MGMH

i-H-H

4->rH4-JC>-H4-JrHinQ4^H

4J

4J

-Chh

cW4-JI0X;

CnQ)G«wiHrHx:4-i

cnx:

0>XI

-H

+J

x;vi

hU

XI4-t

vim

ufGf0f0f0om(Ga)a)-HH<D(Du«Ha)(iia)aj4-iH3Hi-iou-HOO

msssmximxsffitâ'Ox:m

xi—»

<m

a;w

w-h

,qEHoamesdü

UlVIH£

jq0)

<um

x:

HH

"OTJ

w4->

Oiu

C'

xixjrHGui.MxiGaiaia!

U<D

H-H

-H

RJ0)

-HH

-H-H

ms

sscQxjwx;

sx:

:*;

rH

-H

4-1t7>

rH

mrH

x:<Ü

O)Ol

tH

IGU

-H

H-H

¦OX

IflJ3HW

rH

XI0)

WCHJTlHVlIllÜH

¦MGHOIrHaiHUX:

¦HH

4-JH

(0H

»H(0

UH

-H

-H

Mw

UlJ

fflEH

XIw

E£

05

jec

tnc

tt<•H

cc.

4-1Ois

IH)H

•H

ctu

crH

c14

t4c

x:•H

Uro£

tu3

ro•H

IV•H

UI3

-H

4-JrH

cs£

s3

05G

04«w

CJSCBCEi-tCOUCTJH

^xiafii-ic-HeidU'HCK'-ifi

orjroO-HOIfUroroOO/3

---

>ui

o;^

s-cj

inuimoä

tguijfvaisoo

21»U

OiJKITJj-

TlE

jeM

NIH

C•H

CH

1)M

4-Ji-:

x;c

riltu

m3s

•H

0)•H

4-J-j

05c

BB3

l-l O.I3

£>rHETJOii-iTJ-H

fiSUHlHÜlllllHB

»

r03rHOUrOOHröturorOO<U3.H

C505uh»jh

UlQ5rH

3TJ

-4

HlUl

tf)ü*

XiIE

tu4-J

rH

HU

-H

X.e

o>c

*j

roC

Hu

_Li

tual

3inO

0,3

sri

ec

klf.

aa:

4JNT34JN

surc

3utn.*x.QTjeeex:.*.*HNe4j-g4ri

.H4-JC4-itucux;4j.HCx;34-icu.HCx:cijuccx:rocrHCiH^

tuai3rö-HtD-Hr03rHOuroo-HfuairorooaM3HrouuaiaJ300

U2SES

3Li

EEÜb.

>ul

05rH3Q

_4

inUl

03tP

ffl£

rfl«O

Q.>

JiTJ£

4-Jx.

4Ju

jaXi

4J

.-..__

utu

Mro

tutu

3ro

-H«H

41

«1J3

Ult)

3

3E

XiW

\t/

^j

IU

-r-|w

¦¦-¥

iv

^^

LiCÜSE

305205

_a

UUO.H

x.C

^TJ

UC»Uli

4ihjjKkj:

rO4-1

HO

OO

EX43-4JfJl-l4-HCOltJMUlt,CJ^ra4-'-HUl/U

OuraO.rHaiairör0Ofil3.Hr0UkiQltl]3pO

>i4iB5J30rHuiuirootox:xiuiOcu3j<Qx:

Ul44u

Diui£

mui

HuiHQ.müOIOiui

ro<u

tu3

rgh

tu

N-H

4J

x,x:

ui4/^

2tn

x:x:uj»i4JU4-i

_ui.HUx;3i4OU.HOr0inc

r03rHOrjroO-H:rOrorOroOtU

tux.

x:4-j

eh

flä

uun

CCx:r0UHtnuui

3Hrflrjt4tuai300

4JjiH2EEE3acatiHfcuiiHJ3TjjtninrJ4ürxix:rx!uioi0i3^Q3:

cs

I«

VIIHH

IH

L)W

«4-1>.H

Ul.H

Ul«H

Ul0)

XI<MW

(00)<Ü3Ä-HQ)-HIO

UH

X,4->

x:s

»m

vv»

x:UX.3V1U1V1.HU

3rHOU(GOH0)<yiG

min^

<n

in£hw

-M

uivi

xiin

inu«wwux:

*Gv>

Hinüw

J00)3HiUUiHOJ

-•---»

4-irHt4ÄESSSOäÄOitn'w

inuJ

ST3--^viuilQOcax.a4V)OCU

i£S*.

TJX

ooo\Oi^f^M^^^r^coo»OrHNroûi>cr^cooiOrHoji^învDrôoo*o

io\o^^r^tî^r^r^r^r^r^cooocoooco<jococDoooooNOô\o>Ch^Cftô\C4ftO

-150-

ANHANG E. LITERATURVERZEICHNIS

{01} H. Kaeslin: Synthese deutscher Sprache nach Regeln: Wahl der

Grundbausteine, ihrer Darstellung und der suprasegmentalen Para¬meter. Aktenvermerk J-156 Nr.l der Abteilung für industrielle

Forschung an der ETHZ. 15.9.81

{02} H. Kaeslin: Untersuchung über die Häufigkeit von Lautübergängenin der deutschen Sprache. Aktenvermerk J-156 Nr.2 der Abteilungfür industrielle Forschung an der ETHZ. 30.6.81

{03} Duden: Aussprachewörterbuch, 2.Aufläge, Bibliographisches Insti¬

tut Mannheim, 1974.

{04} H. Kaeslin: Ein Diphonkorpus für die deutsche Hochlautung im Hin¬

blick auf elektronische Sprachsynthese. Aktenvermerk J-156 Nr.4

der Abteilung für industrielle Forschung an der ETHZ. 24.9.82

{05} H. Kaeslin: Objektive Verzerrungsmasse für die elektronische

Sprachsynthese. Aktenvermerk J-156 Nr.5 der Abteilung für indu¬

strielle Forschung an der ETHZ. 21.10.82

{06} R. Jakobson, M. Halle: Fundamentals of Language. Mouton & Co.,Den Haag, 1956. Auch als deutsche Übersetzung erschienen: R. Ja¬

kobson, M. Halle: Grundlagen der Sprache. Akademie Verlag, Ber¬

lin, 1960.

{07} M. Kammer, Y.S. Wu: LPC-Vocoder Projekt, Bericht über 3. und 4.

Quartal 1980. Aktenvermerk J-422 Nr.8 der Abteilung für indu¬

strielle Forschung an der ETHZ. 5.3.81

{08} N. Chomsky, M. Halle: The Sound Pattern of English. New York,1968.

{09} Hewlett Packard Company: Fortran 77 Reference Manual. Hewlett

Packard Data Systems Division, Cupertino, 1981.

{10} Klaus J. Kohler: Einführung in die Phonetik des Deutschen. Erich

Schmidt Verlag, Berlin, 1977.

{11} H. Dettweiler : An Approach to Demisyllable Speech Synthesis of

German Words. Proceedings of the International Conference on

Acoustics, Speech and Signal Processing, Atlanta 1981.

{12} D.W. Weinrich : Speech-Synthesis Chip borrows Human Intonation.

Electronics, Vol.53, April 10, 1980.

{13} C.H. Coker : A Model of Articulatory Dynamics and Control. Pro¬

ceedings of the IEEE, Vol.64, No.4, April 1976.

{14} John Makhoul: Linear Prediction, a Tutorial Review. Proceedingsof the IEEE, Vol.63, No.8, April 1975.

{15} L.R. Rabiner und R.W. Schafer: Digital Processing of Speech Sig¬nals. Prentice Hall Inc., Englewood Cliffs, 1978.

{16} Augustine H. Gray und John D. Markel: Linear Prediction of

Speech. Springer Verlag, New York, 1980.

{17} Gerold Ungeheuer: Systematische Signaldestruktion als Methode der

psychoakustischen Phonetic. Phonetica Nr.18, 1968.

{18} Eberhard Grossmann: Sprachsynthese im Zeitbereich mittels abges¬peicherter Einzellaut- und Übergangselemente. Dissertation, TH

Darmstadt, 1981.

{19} Rolf Dieter Glave: Zur akustischen Struktur stochastischer

Schallsignale am Beispiel der Sprachlaute [C] und [X]. IPK-For-

schungsberichte Band 50, Helmut Buske Verlag, Hamburg, 1974.

-151-

{20} Hans-Joachim Scholz: Untersuchungen zur Lautstruktur deutscher

Wörter. Fink Verlag, München, 1972.

{21} Hans Grassegger: Merkmalsredundanz und Sprachverständlichkeit.Helmut Buske Verlag, Hamburg, 1977.

{22} Helmut Meier: Deutsche Sprachstatistik. 2.Aufläge, Georg 01ms

Verlagsbuchhandlung, Hildesheim, 1967.

{23} Gebrüder Grimm: Schneewittchen. Nord-Süd Verlag, Mönchaltorf,1982.

{24} David Yee-Yan Wong: Evaluation and Improvements to the Qualityand Intelligibility of Linear Prediction Voice Coding. Disserta¬

tion. Signal Technology Inc., Santa Barbara, 1979.

{25} Marco Nai und Beat Pfister: LPC-Sprachsynthetisator mit dem TMS

320. Aktenvermerk G-913 Nr.l der Abteilung für industrielle For¬

schung an der ETHZ. 12.12.83

{26} Beat Pfister: Programm für den LPC-Sprachsynthetisator. Aktenver¬

merk G-913 Nr.3 der Abteilung für industrielle Forschung an der

ETHZ. 12.12.83

{27} Spycher und Saaner: Interface für LPC-Synthetisator. Diplomarbeitam Institut für Elektronik der ETHZ, WS 1983/84.

{28} Wolfgang Kästner: Automatische Phonemisierung orthographischerTexte im Deutschen. Helmut Buske Verlag, Hamburg, 1972.

{29} Dieter Gut und Rudolf Rentsch: Automatische Transkription deut¬

scher Texte. Diplomarbeit am Institut für Elektronik der ETHZ, WS

1982/83.{30} Edward F. Moore: Phonetic Test Sentences. IEEE Transactions on

Information Theory, Vol.26, No.5, Sept. 1980.

{31} A.H. Gray, J.D. Markel: Distance Measures for Speech Processing.

ASSP Vol.24, No.5, Oktober 1976.

{32} Robert M. Gray et al.: Distortion Measures for Speech Processing.ASSP Vol.28, NO.4, August 1980.

{33} R. E. Crochiere et al.: A Study of Objective Measures for SpeechWaveform Coders. Proceedings of the Zürich Seminar 1978.

{34} John Makhoul et al.: A Framework for the Objective Evaluation of

Vocoder Speech Quality. Proceedings of the ICASSP 1976.

{35} R. Viswanathan et al.: Towards perceptually consistent Measures

of Spectral Distance. Proceedings of the ICASSP 1976.

{36} T.P. Barnwell, A.M. Bush: Statistical Correlation between Objec¬tive and Subjective Measures for Speech Quality. Proceedings of

the ICASSP 1978.

{37} T.P. Barnwell: Objective Measures for Speech Quality Testing.Journal of the Acoustic Society of America. Vol.66, No.6, Decem-

ber 1979.

{38} T.P. Barnwell: Correlation Analysis of Subjective and ObjectiveMeasures for Speech Quality. Proceedings of the ICASSP 1980.

{39} T.P. Barnwell: A Comparison of parametrically different objectiveSpeech Quality Measures using Correlation with Subjective QualityResults. Proceedings of the ICASSP 1980.

{40} P. Breitkopf, T.P. Barnwell: Segmental Preclassification for lm-

proved Objective Speech Measures. Proceedings of the ICASSP 1981.

[41} T.P. Barnwell: Frequency Variant Spectral Distance Measures for

Speech Quality Testing.

-152-

{42} T.P. Barnwell, S.R. Quackenbush: An Analysis of objectively com-

putable Measures for Speech Quality Testing. Proceedings of theICASSP 1982.

{43} R. Viswanathan et al.: Objective Speech Quality Evaluation ofNarrowband LPC-Vocoders. Proceedings of the ICASSP 1978.

{44} J.L. Flanagan: Speech Analysis and Perception. Springer Verlag,Berlin 1972.

{45} E. Zwicker, R. Feldtkeller: Das Ohr als Nachrichtenempfänger. S.Hirzel Verlag, Stuttgart 1967.

{46} M.R. Schröder: Models of Hearing. Proceedings of the IEEE,Vol.63, No.9, September 1975.

{47} M.R. Schröder: Noise and Perception. Journal of the Acoustic So¬ciety of America, Vol.65, No.12, December 1979.

{48} J.N. Holmes: The Influence of Glottal Waveform on the Naturalnessof Speech from a Parallel Formant Synthesizer. IEEE Trans, on Au¬dio and Electroacoustics, Vol.21, No.3, June 1973.

{49} Christian de Sainte Marie d'Agneaux: Perzeptorisch begründeteVerzerrungsmasse für die digitale Sprachverarbeitung. Diplomar¬beit am Institut für Elektronik, SommerSemester 1982.

{50} K. Küpfmüller und 0. Wams: Sprachsynthese aus Lauten. Nachrich¬tentechnische Fachberichte Nr.3, Darmstadt, 1956.

[51} Dacfey Dzung: Autoregressive Moving-Average Models for Nonstatio-

nary Signals and Applications to Speech Waveforms. AGEN-Mittei-lungen Nr.33, Zürich, April 1982.

{52} Wolfgang Kramer: Akustisch-phonetische Untersuchungen zum vokali¬schen /R/-Allophon des Deutschen. Forum Phoneticum Band 20, Hel¬mut Buske Verlag, Hamburg, 1979. DA 63.

{53} Dieter Stock: Untersuchungen zur Stimmhaftigkeit hochdeutscherPhonemrealisationen. IPK-Forschungsberichte Band 28, Helmut Buske

Verlag, Hamburg, 1971. DA 40.{54} Rudolf Weiss: Relationship of Vowel Length and Quality in the

Perception of German Vowels. Linguistics No.123, 1974.{55} Sandra Ferrari Disner: Evaluation of Vowel Normalization Procedu-

res. Journal of the Acoustical Society of America, Vol.67, No.l,Jan.1980.

{56} Sheila E. Blumstein, Kenneth N. Stevens: Perceptual Invarianceand Onset Spectra for Stop Consonants in different Vowel Environ¬ments. Journal of the Acoustical Society of America, Vol.67,No.2, Feb.1980.

{57} Hans Wüthrich: Das Konsonantensystem der deutschen Hochsprache.Walter de Gruyter, Berlin, 1974.

{58} Sverre Holm: Automatic Generation of mixed Excitation in a linear

predictive Speech Synthesizer. Proceedings of the InternationalConference on Acoustics, Speech and Signal Processing, Atlanta,1981.

{59} Hans Werner Strube und Reiner Wilhelms: Synthesis of UnrestrictedGerman Speech from Interpolated Log-Area-Ratio Coded Transitions.Speech Communications Vol.l, No.2, 1982.

{60} Herbert E. Wolf: Ein Sprachsynthesesystem für unbegrenzten Wort¬schatz nach dem Formantvocoderprinzip (SAMT). Frequenz Nr.34,Heft 5, 1980.

-153-

{61} G. Chollet, J.F. Galliano, J.P. Lefevre und E. Viara: On the Ge¬

neration and Use of a Segment Dictionary for Speech Coding, Syn-thesis and Recognition. Proceedings of the ICASSP 1983.

{62} Francoise Emerard: Synthese par Diphones et Traitement de la Pro¬sodie. Dissertation, Universite de Grenoble, 1977.

{63} Michel Stella: Fabrication semi-automatique de Dictionnaires de

Diphones. Recherches Acoustiques Vol.7, Centre National d'Etudes

des Telecommunications, Lannion, 1983.

{64} Gian Antonio Mian, Carlo Offelli und Alberto Mioni: An Approachto the Synthesis of German and Italian. Alta Frequenza, No.l,Vol.L, 1981.

{65} Susan R. Hertz: From Text to Speech with SRS. Journal of theAcoustic Society of America. No.72, Vol.4, 1982.

{66} Votrax Company: Datenblatt zu SC-01 Speech Synthesizer. 1980.

{67} Klaus Sickert et al.: Automatische Spracheingabe und Sprachausga¬be. Verlag Markt und Technik, Haar, 1983.

{68} S.J. Young und F. Fallside: Speech Synthesis from Concept, a Me-

thod for Speech Output from Information Systems. Journal of theAcoustic Society of America. No.66, Vol.3, 1979.

{69} Hiroaki Sakoe und Seibi Chiba: Dynamic Programming Algorithm Op-timization for Spoken Word Recognition. ASSP Vol.26, No.l, Fe¬

bruar 1978.

{70} Albert Kündig: Subjektive Versuche zur Ermittlung der Sprachüber-tragungsqualität. Technische Mitteilungen PTT, Nr.51, Heft 6,Bern, 1973.

{71} Albert Kündig: Zur Beurteilung der Verzerrungen bei getasteterSprachübertragung. Dissertation, Nr.5281, ETH Zürich, 1974.

{72} J. Sotschek: Ein Reimtest für Verstandlichkeitsmessungen mitdeutscher Sprache als ein verbessertes Verfahren zur Bestimmungder Sprachübertragungsgüte. Der Fernmeldeingenieur, Nr.36, Heft

4/5, Bad Winsheim, 1982.{73} L.C.W. Pools und J.P. Olive: Intelligibility of Consonants in CVC

Utterances produced by Dyadic Rule Synthesis. Speech Communica-tion, Vol.2, No.l, May 1983.

{74} H. Kuwabara und K. Ohgushi: Acoustic Characteristics of Profes¬sional Male Announcers' Speech Sounds. Acustica, Vol.55, No.4,Juli 1984.

{75} Michael Wagner: Automatic Labelling of continous Speech with a

given Phonetic Transcription using Dynamic Programming Algo-rithms. Proceedings of the International Conference on Acoustics,Speech and Signal Processing, Atlanta 1981.

{76} Andres Buzo et al.: Speech Coding based upon Vector Quantization.ASSP Vol.28, No.5, October 1980.

{77} N.S. Jayant und Peter Noll: Digital Coding of Waveforms. PrenticeHall Inc., Englewood Cliffs, 1984.

{78} J. Sotschek: Messungen zur Sprachverständlichkeit bei additivwirkenden Störsignalen. Persönliche Mitteilung, 1985.

IB3\ >fUB|g/ J99~] e;i0g

utu

iE

•Oi

E•e

1•e

CLi

OlH

Li3

CC

3tu

tuC

4Jtu

0Ol

•

TJTJ

(0H

Ol3

.H

XIOi

Ho>

XiH

TJX

TJUl

tnrH

TJro

-h

inH

u4-1

HXi

roui

-H

3XS

rH

rH

Ul

rflIT

CdLi

uOl

G0

Ol4-j

ro£

HH

4-J3

O-H

-HE

rH

4-1171

CE

tutu

eLi

NM

>QS

XiXI

turo

rH

4J

0Ol

SOl

mo

u<

UlTJ

¦H

tuLi

UlS

TJN

Xl•

uiC

UlOJ

XI4-1

tnu

ro4-J

EOJ

uH

3x:

turo

oitu

tu0

eje

•H

Lije

-H

EXi

tua

aih

XTJ

XITJ

EXi

rou

OlrH

tje

cc

x:ro

utn

c01

Ol0

•tu

tuu

ex:

inLi

3TJ

OJLi

Crji

tuH

röU

OlOl

in

4-1Li

C4-J

4-1tu

ox)

t-im

h0>

4-1Ol

HtU

Ol0>J4

Url

i3m

XIH

etu

tjOi

rH

ruo

tu•n

uir-

oXt

0<<*

3o\

3ro

tu•H

XIOl

O-H

XItu

Li¦H

*L4Cd

tUE

•C

Q,rH

LiLi

roXi

rH

LiOl

3ro

H>i

3ro

OiLi

uLi

OlLi

H4J

4J

Ol4-J

etu

HO

:3*~.N

rH

UlLi

¦H

-H3

>S

>c:

HH

EJ-H

-H6

-Qiu

4jtj

4J

je3

intu

aiio

g-h

Li3

-HX

HLi

¦h

x:3

Q.-H

XIH

0u

4-1in

CLi

4J

Li-He

0)d|

Ul4->

Ol3

4J

4-1rHu

OlE

Cc

oic

x;ro

.*4J

exi

X:Li

rH

OlH

HLi

UE

Olu

LiOl

roro

Olt4

x:x:

tuh

erH

njOl

rH

Xi05

UlUl

LiU

TJU

TSB

Hpa

x.TJ

roOl

roO

roC

h0

4-JG

HTJ

O,Li

3x:

x:ui

ine

hin

OlTJ

Q,4J

UU

-h

e(0

Oi4J

LiC

Ctn

cOl

-H

-H

-H

roOl

¦h

jeOl

ro•H

Xitu

XIE

Liin

jetj

aiTJ

Olu

cro

tua

EUl

¦H

TH

14-40>

xitn

cx:

tsjam

0H

UlLi

Oe

3c

rj4JO

(^

ro-H

3>i

OlLi

¦H

rö3

¦H

3Ol

Ol£X

Q,X:

TJOi

rH

4J

OlOl

OlrH

H•H

inCU

-Li

-H

tUTS

XIrH

BW

QrH

Ol4_i

OlOl

TJ3

TJ3

rotUi

UlTJ

>XI

UXi

XiC

jeLi

3x:

X3U

OlC

Li3

OlU

U3

-H

tU(J

OlUl

roro

3-H

-H

tn4J

TJTJ

Uui

3Ol

3E

LiTI

LirH

4-Jje

•H

-HN

-H

tuih

ait*1

:3tu

Xiro

jeC

TJ01

5l/l

M4-1

ULi

H4-J

LiX.

Li3

xio\

c4J

3a

c•h

roU

:3N

•U

.H

-H

C-H

Ul.£

X.E

30)

44

Ul4-J

ro¦HS

OlLi

OrH

uiOl

inL.

4J

XI<v

tuTJ

in3

uiha

Ul4-J

(US

4J

CO

cLi

LirH

01in

3ÄH

•»

Or-

0)i3

0x:a

OlU

3TJ

LiE

Ih01

tn14-1

inrj

4-JC

Li3H£

C««U

rHUl

tnul

COl

:3>i

TJ»M

¦<huiflei

Ol4-J

OlXI

3N<

iL,ui

oie

-h

tu¦H

tnc

•Q4

L4rH

tUIU

rH

OlrH

4->O

Xiro

01**

r-iro

OTJ

Cd

--I3

EIH

3x:

CXi

¦H

LiU

4-JQ.

röU

4jax.

roui

O.Xi

-H

144IU

0Li

•4-4ul

UlrHU

rl

4J3

EU

Li3

LirO

i3<

ino,

rrj&,2

144SSd

roro

-h

e2a

eli

l/lOlu

Documents

Rights / License: Research Collection In Copyright - Non ... · INHALTSVERZEICHNIS Zusammenfassung 4 Abstract 5 Resume 6 Riassunto 7 I. EINLEITUNG 1.1 Anwendungen und Zielsetzungen