|
Achtung!!!
Die MSC175-Projektseite ist veraltert
und nicht mehr zu gebrauchen, als Ersatz ist Musiksynthesizer.de
zu verwenden!
Die Sprachsynthese
Die Erschaffung einer künstlichen
Stimme
Erst in den
dreißiger Jahren des letzten Jahrhunderts gelang es Homer Dudley,
auf elektronischem Wege eine synthetische Sprache zu erzeugen. Er nannte
sein Gerät Vocoder, was die Abkurzung des englischen Ausdrucks
"voice" und "coder" ist (Stimmcodierer).
Da für
die Bedienung und Benutzung eines solchen Geräte, das Wissen über
die Funktion und den Aufbau unverzichbar ist, werden im folgenden alle
wichtigen Details besprochen. Leider handelt es sich hierbei um physikalische/naturwissenschaftliche
Grundlagen. Diese sind jedoch umbedingt erforderlich .
Da es in diesem
Artikel um die Sprachsynthese geht, fangen wir mit der menschlichen
Stimme an.
Die Menschliche Stimme
Unter den verschiedenartigen
menschlichen Lauten gibt es zwei Hauptgruppen oder Stimmarten: stimmhafte
Laute wie a, e, i. o, u und stimmlose oder Zischlaute wie
f, sch, z. Bei den stimmhaften Lauten unterbrechen die Stirnmbändchen
im Kehlkopf periodisch den Luftstrom der Luftröhre und erzeugen
dabei dreieckförmige Schwingungen. Die Frequenz bestimmt
die musikalische Tonhöhe des stimmhaften Lautes. Die normalen Stimmlagen
bei Männer und Frauen umfassen den Bereich von etwa 90 Hz bis 400
Hz.
Die Schwingungen des Kehlkopfes
enthalten neben der Grundschwingung noch viele harmonische Oberschwingungen
bis über 4 kHz. Die Mund-, Nasen-und Rachenhohlräume stellen
ein Filter dar, das bestimmte Frequenzbereiche selektieren und den
typischen Spektralverlauf der einzelnen stimmhaften Laute formen.
Bei stimmlosen
Lauten schwingen die Stimmbänder nicht, sondern lassen den
Luftstrom ungehindert passieren. Die Zischlaute sind Windgeräusche,
die durch das Vorbeiströmen der Luft an Gaumen, Zunge, Zähnen
und Lippen entstehen. Ihnen entsprechen gefilterte Rauschspektren mit
ebenfalls typischen Hüllkurven für die einzelnen stimmlosen
Laute.
Die zweit Hauptfunktionsblöcke eines
Vocoders
Jeder Vocoder besteht aus einem Analyse- und einem
Syntheseteil.
Die Analyse :
Die Analyse ermittelt aus
dem eingespeisten Sprachsignal Steuersignale. Diese werden in einer
geeigneten Form übertragen und steuern im Syntheseteil eine elektronische
Nachbildung des menschlichen Sprechorgans, die eine künstliche
Sprache liefert.
Die Analyseseite besteht
normalerweise aus zwei Blöcken, der Spektralanalyse und der Stimmartanalyse.
Die Spektralanalyse
ermittelt den jeweiligen spektralen Kurvenverlauf der Sprechlaute. Sie
liefert eine grössere Anzahl von Steuersignalen, die Zuordnungen
für die Stellungen der Mund-, Nasen- und Rachenfilter darstellen.
Die Stimmartanalyse
stellt fest, ob die Stimmbänder schwingen oder ob sie den Luftstrom
ungehindert passieren lassen. Es wird also zwischen stimmhaft oder
stimmlos Laut unterschieden. Der Ausgang der Stimmartanalyse liefert
ein Ja/Nein-Signal für die Funktionsart des Kehlkopfes.
Bei einigen Vocodern gibt
es noch eine dritte Analyseeinheit. Sie sucht aus dem Sprachsignal die
Grundwelle heraus und liefert die Grundfrequenz des Stimmbändchensignals.
Die Synthese
Der Syntheseteil besteht
auch aus zwei einzelnen Funktionsblöcken, der Spektralsynthese
und dem Stimmgenerator.
Aus den Spektralwerten und
dem Stimmsignal erzeugt die Spektralsynthese und der Stimmgenerator
das synthetische Sprachsignal. Die Spektralsynthese und der Stimmgenerator
stellt somit eine Nachbildung der menschlich Stimmorgane dar.
Die Spektralsynthese
erhällt den jeweiligen spektralen Kurvenverlauf der Sprechlaute
als Steuersignale von der Analyseeinheit. Mit diesen Steuersignalen
werden Filter gesteuert, die die Zuordnungen für die Stellungen
der Mund-, Nasen- und Rachenfilter simulieren.
Die Stimmart bestimmt
die Art des Signals im Stimmgenerator. Das ist bei stimmlosen
Lauten ein Rauschen und bei stimmhaften Lauten eine Dreieckwelle
mit einem geeigneten Obertonspektrum.
Funktionsprinzip eines Vocoders
Die Analyse
Das vom Microfon kommende
Sprachsignal gelangt über einen Eingangsverstärker an einen
Satz von Bandfiltern, die sogenannte Filterbank. Jedes der Kanalfilter
analysiert einen kleinen Bereich des Sprachbandes. Die Zahl der
Filter von Vocodern reicht von etwa 10 bis hin zu 24. Mit der Anzahl
der Kanäle erhöht sich die Genauigkeit der Analyse und damit
die Wiedergabequalität aber auch der entsprechende Schaltungsaufwand.
Die Spektralanalyse
Das Sprachsignal wird also
in viele Bänder unterteilt, die dann jedes für sich analysiert
wird. Am Beispiel das "a" : Im Bereich von 500 Hz bis 1000
Hz sind viele kräftigen Formanten. Es werden also in allen Bändern,
die diesen Bereich umfassen ein Analysesignal gebildet. Dieses geschiet
durch eine Gleichrichtung und durch die Beseitigung der negativen
Halbwelle. Aus diesem Signal wird eine Hüllkurve gebildet,
die an den Ausgangsbuchsen der Syntheseeinheit zur Verfügung steht.
Die Syntheseamplituden und Hüllkurvenformen enthalten die Informationen,
die es ermöglichen die Sprache später zu synthetisieren. Je
mehr Bänder man hat, umso mehr Analysesignale hat man auch.
Die Stimmartanalyse
Für die bereits genannte
Stimmartanalyse gibt es mehrere Verfahren. Die meißten beruhen
auf einer Amplitudenauswertung des Sprachspektrums.
Die Stimmartanalysen nutzen
aus, dass sich die spektrale Verteilung bei den beiden Stimmarten deutlich
unterscheidet. Stimmhafte Laute haben im Frequenzbereich bis 1,5 kHz
immer deutlich höhere Pegel als im Bereich über 4 kHz, bei
stimmlosen Lauten ist es genau umgekehrt.Diese Schaltung funktioniert
sehr zuverlässig, wenn ein breitbandiges Sprachsignal anliegt,
was in dem vorliegenden Anwendungsfall leicht erfüllbar ist.Es
steht also ein Synthesesignal zu verfügung gestellt, daß
nur die zwei Zustände, stimmhafte und stimmlose Laute, dargestellt.
Die Synthese
Die Synthese ist die Umkehrung
der Analyse.
Die Spektralsynthese
Die Spektralsyntheseeinheit
besteht aus der selben Anzahl von Filtern mit den gleichen Frequenzen
wie in der Analyseeinheit. Jedes dieser Filter ist ein Verstärker
nachgeschaltet, der durch eine Steuerspannung in der Verstärkung
variabel ist. Wenn jetzt die Analysehüllkurven der Analysekanäle
die VCAs der Syntheseeinheit steuern, ist bereits die charakteristische
Amplitudenmodulation der Sprachgrundfrequenzgegeben gegeben. In einer
anschliessenden Additionsschaltung entsteht aus den Teilbändern
aller Kanäle das vollständige, synthetischen Sprachsignal.
Der Mensch versteht die synthetische Sprache gut, da die wichtigen Formanten
mit genügender Genauigkeit erhalten sind.
Die Stimmarterzeugung
Üblicheweise arbeitet
ein Vocoder immer mit einer dreieckförmige Schwingungen
Signal von etwa 90 Hz bis 400 Hz für die stimmhaften Laute.Der
interne Rauschgenerator dagegen eignet sich gut zur Erzeugung des stimmlosen
Ersatzsignals. Die automatische Umschaltung erfolgt durch das Analysesignal
der Stimmartanalyse.
Wer jetzt noch mehr Informationen
will, der sollte sich den dritten Teil durchlesen.
Hier wird auf den Nachbau eingangen : Teil
3
Achtung!!!
Die MSC175-Projektseite ist veraltert
und nicht mehr zu gebrauchen, als Ersatz ist Musiksynthesizer.de
zu verwenden!
ALLE INFORMATIONEN SIND NUR ZU LEHR-/LERNZWECKEN
ZU VERWENDEN! WARENZEICHNEN UND PATENTE GEHÖREN DEM JEWEILIGEM INHABER!
KEINE HAFTUNG FÜR FEHLERHAFTE ANGABEN UND DEREN AUSWIRKUNGEN!
Artikel, Layout & Fotos Copyright © 2001-2010 Dirk
Lindhof Disclaimer
/ Haftungsausschluss |