Історія синтезу мовлення

Говоряча машина Вольфганга фон Кемпелена

Перші спроби машинного породження людської мови були зроблені у другій половині 18 століття. зроблено. Ч. Г. Краценштейн, професор фізіології в Копенгагені, раніше в Галле та Петербурзі, зумів створити голосні з резонансними трубками, з'єднаними з трубками органу (1773). Приблизно в цей час Вольфганг фон Кемпелен вже розпочав експерименти, які змусили його побудувати розмовну машину. Фон Кемпелен був Інгенієм на службі Марії Терезії у Відні. Він народився в 1734 році в Пресбурзі, тодішній столиці Угорщини, і помер у Відні в 1804 році. Незважаючи на те, що він став більш відомим іншими діями, вивчення людської мови було головним його завданням, маючи на увазі і терапевтичне застосування. Його називають першим експериментальним фонетиком. У своїй книзі Механізм людської мови та опис мовної машини (1791) він також дуже детально описав свою мовну машину, щоб інші могли її відтворити та вдосконалити. Шість малюнків, зображених праворуч, взяті з цієї книги. (Клацніть, щоб побачити збільшене - і назад за допомогою відповідної кнопки вашого браузера.)

Машина фон Кемпелена була першою, за допомогою якої можна було виробляти не лише окремі звуки мови, а й слова та коротші речення. За словами Кемпелена, ви можете "придбати чудову майстерність гри протягом трьох тижнів, особливо якщо перейти на латинську, французьку або італійську мову, оскільки німецька мова набагато складніша" (через часті закриті склади та Пачка приголосних).

Машина складається з сильфона, керованого правим передпліччям, що імітує легені (верхній малюнок). Про 'вдихання' піклується противага. На двох малюнках нижче показано «вітряну скриню» з деякими важелями, якими можна керувати пальцями правої руки, а також гумові «рот» та «ніс» пристрою. Дві ніздрі повинні бути закриті, щоб не робити носа.

Потік повітря не тільки направляється в рот через очерет, але і через вузьку трубу, розташовану паралельно йому. Це дозволяє підвищити тиск повітря в ротовій порожнині, якщо отвір трубки для кріплення повністю закрито, щоб видавати беззвучні мовні звуки. Потім невеликий сильфон забезпечує додаткову затяжку повітря при відпуску замку.

Лівою рукою на резонансні властивості рота можна також впливати, прикриваючи його отвір різними способами. Це дозволяє достатньо моделювати деякі голосні та приголосні звуки. Тому це не імітація природної артикуляції, оскільки форма кріпильної трубки машини за своєю суттю незмінна. Деякі голосні і особливо приголосні [d t g k] не можна імітувати, але в кращому випадку можна імітувати. [L] отримують, поклавши великий палець у рот.

Функція голосових складок імітується очеретом із слонової кістки (лівий малюнок). Версія, описана в книзі, все ще говорила монотонно, але вже існувала можливість зміни ефективної довжини очерету і, отже, висоти голосу.

Два важелі, якими керує права рука, використовуються для створення фрикативів [s] і [], а також [z] і [] за допомогою окремих шиплячих труб (малюнок праворуч). Брязкання [R] генерується пристроєм, який опускає дріт на гойдається очерет (малюнок посередині).

Остання версія машини Kempelens збереглася до наших днів. Вона перебувала до 1906 р. В к. k. Музична консерваторія у Відні, а потім передана як фундація Німецькому музею (шедеврів природознавства і техніки) в Мюнхені, який був заснований лише трьома роками раніше. З тих пір вона експонується у відділі музичних інструментів. Цей пристрій відрізняється від варіанту, описаного в книзі, тим, що довжину похитування очерету можна змінювати за допомогою засувки, якою можна керувати з правої долоні. Потім це можна використати для спроби імітувати природний хід інтонації.

Говоряча машина Вольфганга фон Кемпелена, як це можна побачити в Дойчеському музеї в Мюнхені, а також побачити зверху, зі знятою кришкою коробки. Види механізму фонації

8 липня 1997 року я користувався привілеєм випробувати машину Кемпелена. Механізм їх налаштування все ще працював, а регулювання висоти тону все ще мало ефект. Голос був схожий на дитячий і досить гучний. Однак кілька важливих деталей пристрою вже не працювали.

Репліка машини, продемонстрована Уїтстоуном у Дубліні в 1835 році, відрізнялася від тієї, що описана в книзі Кемпелена, тим, що вона мала податливу насадку і важіль для придушення голосу, але їй бракувало механізму зміни висоти тону останньої версії Кемпелена.

У 19 ст Було побудовано ще кілька машин подібного типу, але фундаментальних нововведень у галузі синтезу мовлення фактично не зафіксовано за це століття. Варто згадати, однак, пристрій, представлений Джозефом Фабером у 1835 р., Який, у порівнянні з машиною Кемпелена, являв собою прогрес у тому, що він також мав язик і глотку, що змінює форму, а також був придатний для синтезу співу. Його сильфон приводився в рух ножною педаллю, а решта операцій виконувалась за допомогою клавіатури.

Джозеф Фабер "Евфонія", як це було показано в Лондоні в 1846 році. Машина видавала звичайні та шепотні мови та співи, включаючи гімн "Боже, збережи Королеву".

У 1937 р. Р. Р. Ріс (США) все ще будував пристрій, схожий на концепцію Кемпелена, але з фактично реалістичною формою подовжувальної трубки.

Механічна модель генерації мовлення, побудована Рісом (1937).

Хоча Кемпелен вже усвідомив, що це єдиний a Якщо ви хочете використовувати подовжувальну трубку, якщо ви хочете вести безперервну мову, пристрої з окремими резонаторами на один голосний кожен були побудовані для інших цілей навіть понад сто років потому. The Sirіnes a voyelles et rysonateurs buccaux від G.R.M. Мараж (Париж, 1900).

VODER Гомера Дадлі

Розвиток електротехніки на початку 20 століття дозволило виробляти звук мовлення електрично. Першим у своєму роді пристроєм, який викликав неабиякий ажіотаж, був розроблений Гомером Дадлі ДО, який був представлений публіці на Всесвітній виставці 1939 року в Нью-Йорку. Однак для того, щоб мати можливість успішно використовувати це, потрібен був дуже довгий період практики.

Функціональна схема VODER та презентація пристрою на Всесвітній виставці 1939 року.

Пристрої синтезу мовлення, що працюють вручну, такі як Kempelens та ДО Вони були в основному для розваг, але мали глибший досвід. Пристрій Кемпелена було створено паралельно з його дослідженням людського мовлення, і пристрій Дадлі виріс із ВОКОДЕР (Voice Coder), метою якого було зменшити пропускну здатність, необхідну при передачі голосу по телефону, щоб можна було здійснити більшу кількість міжміських дзвінків за даною телефонною лінією.

Відтворення зразків Френка Купера

Джерело світла створює промінь, який вражає обертовий диск радіально. На диску є 50 концентричних звукових доріжок, як у звуковому фільмі, через які відтворюється 50 часткових тонів з основною частотою 120 Гц. Світло, модульоване таким чином, проектується на спектрограму, коефіцієнт відбиття якої або, в іншому режимі роботи, передача світла відповідає рівню звуку часткових тонів, і надходить у фотоелемент, за допомогою якого коливання світла остаточно перетворюються на коливання звукового тиску. Спектрограма рухається повз промінь світла на роликах. Це дає звуковий сигнал, подібний до вихідного мовного сигналу, але в будь-якому випадку одноманітний. Замість правильних спектрограм можна використовувати «спектрограми», намальовані від руки білою фарбою. Експерименти зі сприйняттям сигналів, сформованих таким чином, породили низку нових висновків про перцептивну роль різних деталей у звукових спектрах.

Електричні моделі виробництва мовлення

У моделях, розроблених кількома дослідниками з 1950 року, сигнал від електрично змодельованого джерела звуку передається через фільтр. Сигналом джерела є або періодичний звук, як у озвучених мовних звуках, або апериодичний шум.

Фільтр імітує резонансні властивості голосового тракту. Можна розрізнити два типи. В одному випадку артикуляція моделюється за допомогою великої кількості електричних ланцюгів, з'єднаних послідовно, кожен представляє короткий відрізок подовжувальної трубки (наприклад, 5 мм), внаслідок чого площа її перерізу є визначальною (лінійний аналог, лінія електропередачі аналогова). З іншого, форманти, тобто резонанси кріпильної труби, імітуються безпосередньо колом кожен (синтез форманта, аналоговий термінал).

Гуннар Фант, з Kgl. Технічний університет у Стокгольмі, зі своїм ОВЕ, Формантовий синтезатор для голосних, в якому частотне положення двох найважливіших формантів можна змінювати вручну за допомогою направляючого пристрою.

За допомогою Параметричний штучний знімач Уолтером Лоуренсом (1953) також можна було отримати повноцінні приголосні.

Комп’ютеризований синтез мовлення

Також була використана очевидна ідея створення мови шляхом об'єднання збережених слів або коротших сегментів. Однак окремі мовленнєві звуки не можна просто успішно пов’язати зі словами та реченнями, оскільки акустичні властивості мовного звуку також визначаються відповідним звуковим середовищем. Це краще працює з так званими дифонами, які складаються з другої половини звуку мови та першої з наступних. Однак це призводить до великої кількості елементів, які доводиться зберігати. За допомогою таких методів взаємозв’язку можна досягти високого ступеня природності, не вимагаючи повного опису їх акустичної основи. Однак цим методам не вистачає гнучкості контрольованого правилами синтезу.

З урахуванням сучасного рівня техніки межа досяжної зрозумілості та природності синтетичної мови навряд чи задається факторами технічного характеру, а скоріше нашими обмеженими знаннями акустики та сприйняття мови. У дослідженнях для перевірки цих знань можна використовувати синтез мовлення. Зараз існують автоматизовані методи акустичного аналізу та повторного синтезу мовлення. Можна зробити певні втручання перед повторним синтезом, наприклад, спробувати змінити очевидний вік оратора. Успіх залежить від того, наскільки добре ви знаєте ключові фактори. Прислухайтеся до таких маніпуляцій і судіть самі, наскільки вони успішні: Маніпуляції у віці та статі оратора (шведські приклади).

Ось ще кілька вказівок на цю тему

Вольфганг фон Кемпелен в Інтернеті, наприклад, про свою віртуальну шахову машину. Ви можете знайти опис його книги в нарисі Славоміра Ондрейовича (словацька та англійська).
Наведені вище приклади синтезу з VODER, Pattern Playback та OVE - деякі з тих, що складені Деннісом Клаттом (1987). Більше демонстрацій.
Опис відтворення зразків та деякі експерименти, проведені з ним, доступні на Інтернет-сервері Haskins Labs. Там чітко виявляється зв'язок між фонацією, артикуляцією та акустичними властивостями звуків мови: Артикуляційний синтез.
Ви також можете випробувати кілька мережевих систем синтезу мовлення різного типу, керованих текстом. Вибір посилань можна знайти в режимі он-лайн синтезу.
Більше прикладів синтезу мовлення.
Інститут фонетики та лінгвістичної комунікації Мюнхенського університету має кілька текстів, готових до вивчення акустичної фонетики: Акустична фонетика (Х. Г. Тілльман і Ф. Шиль), читання сонограм (Кірстен Машелетт і Х. Г. Тілман) та вступ до синтезу мовлення ( Даніель Зборил).
Ви можете знайти більше посилань на цю тему на SOCRATES.

Література:

Вольфганг фон Кемпелен (1791) Механізм людської мови та опис мовної машини, Відень: Й.В. Degen, також виданий там французькою мовою, Le Mechanisme de la parole, suivi de la description d'une machine parlante. Факсимільне передрук німецької версії з вступом Герберта Е. Брекле та Вольфганга Вілдгрена було опубліковано Фромманн-Хольцбугом у Штутгарті в 1970 році. Є також нові переклади угорською та словацькою мовами.

Джеймс Л. Фланаган (1965) Аналіз мови: синтез та сприйняття, Берлін: Спрінгер.

Йенс-Пітер Кестер (1973) Історичний розвиток апарату синтезу для генерації статичних та голосних сигналів поряд з дослідженнями синтезу німецьких голосних (Дисертація), Гамбург: Х. Буске.

Денніс Х. Клатт (1987) Огляд перетворення тексту в мову для англійської мови, Журнал Акустичного товариства Америки, 82: 737-793.

Йоахім Гессінгер (1994) Очне вухо. Дослідження для вивчення мови у людей 1700-1850, Берлін, штат Нью-Йорк.: De Gruyter. Хартмут Траунмюллер | Кафедра фонетики | Інститут мовознавства | Стокгольмський університет | у серпні 1997 року.