Принципи, стан техніки, розпізнавання окремих слів залежно від мовця - спектр науки

Принципи, стан техніки, розпізнавання окремих слів залежно від мовця

Мовне спілкування - це дуже складний процес. Людина розуміє мовне висловлювання не тільки з того, що чує; скоріше, він використовує весь свій мовний досвід, а також свої попередні знання з предмета та партнера; Він також оцінює невербальні компоненти, такі як жести, міміка та емоційний тон голосу. Ця додаткова інформація може бути навіть важливішою за формулювання. Зрештою, природна мова характеризується високим ступенем надмірності (тобто того, що насправді є зайвим), так що словесних натяків або фрагментів мови часто буває достатньо для спілкування. Це пояснює, чому розмова можлива і в галасливих умовах.

Якби хтось хотів реалізувати цю феноменальну розпізнавальну роботу за допомогою технічної системи, це, зрештою, мало б мати знання, досвід та інтелект людини. Можна довго філософствувати про те, чи є це досяжною чи значущою метою. Для розробника системи розпізнавання мовлення, який завжди повинен враховувати технічні зусилля (і, отже, витрати), це, звичайно, не так; він повинен передусім бачити конкретне застосування. Це свідчить про те, що часто досить обмежених форм розпізнавання мови; дуже важливо знайти найбільш підходяще рішення для конкретного застосування.

Зв'язок з машинами за допомогою природної мови - замість звичної клавіатури та екрану, загальніше за допомогою перемикачів та пристроїв відображення - пропонує ряд переваг: користувачеві не потрібно вивчати будь-яку нову технологію, але він працює з найбільш звичною формою спілкування; він тримає очі та руки вільними для інших видів діяльності, не прив’язаний до певного місця і навіть може дистанційно керувати машиною по телефону. Голосовий ввід і вихід також можливі в темних, брудних і запилених кімнатах і, мабуть, єдиний спосіб зв'язку з машиною для людей з обмеженими можливостями, які не можуть користуватися клавіатурою. У зворотному напрямку розмовна машина на машині також досягає відволікаючого або неуважного користувача.

Що говорить проти використання цієї форми спілкування, так це те, що продуктивність та надійність все ще є незадовільними для деяких програм. Крім того, є слабкі сторони кожного мовного спілкування: перешкоди для сторонніх спостерігачів, небажані можливості слухати та перешкоджання фоновому шуму, що в даний час все ще є основною проблемою для систем розпізнавання мови.

Найважливіші програми можна знайти в таких полях:

- Введення чисел і списків слів: Якщо вам доводиться вводити довгі стовпці цифр або слів із шаблону, вам доведеться постійно змінювати погляд між шаблоном, клавіатурою та екраном, що дратує, втомлює та в довгостроковій перспективі спричиняє помилки. Негайне усне введення, не відводячи погляду, дозволяє уникнути цієї проблеми. Висновок мови через машину можна використовувати для коректури.

Навіть сьогодні деякі контролери якості у виробництві автомобілів передають свої звіти про дефекти безпосередньо через радіозв’язок на комп’ютер, що розпізнає голос, який не тільки веде журнал, але й передає відповідне повідомлення відповідальній стороні - можливо, виробничому комп’ютеру. Перевагою над пізнішим письмовим оцінюванням є оперативна реакція; це зменшує відхилення.

- Управління машинами та комп’ютерами. Система не тільки розпізнає введену команду, але і виконує її, запускаючи дію. Верстати з голосовим управлінням вже є на ринку. Є автомобілі, в яких сошники, склоочисники, радіо та телефони виконують голосові команди. Певні функції управління та корекції в персональних комп’ютерах також можуть запускатися за допомогою розпізнавачів мови. Існують інвалідні візки з голосовим управлінням для людей з важкими вадами моторики. Голосовий контроль ще не використовувався для функцій, що стосуються безпеки, оскільки питання відповідальності у випадку відмови системи ще не з'ясоване.

- Інформаційно-систематизовані системи. Користувач висловлює певні вимоги чи побажання, а система дає усну відповідь (див. Статтю Гельмута Мангольда на сторінці 97).

- Системи диктантів. Будь-який вільно розмовлений текст слід перетворити на письмовий. Ця програма вимагає найширшої форми розпізнавання мови (див. Статті Маркуса Шпіаса на сторінці 90 та Фолькера Штейнбіса на сторінці 94).

Методи розпізнавання мови зазвичай поділяють на три класи: розпізнавання окремих слів, ключових слів у текстовому тексті або безперервної мови. У згаданому порядку складність та зусилля різко зростають. Інший критерій - залежність мовця. Звичайні системи повинні бути адаптовані до відповідного динаміка перед тим, як їх фактично використовувати. Незалежності спікера можна досягти заздалегідь навчивши систему із якомога більшою кількістю спікерів. Зусилля для цього значні; проте надійність виявлення зазвичай знижується.

Розпізнавання окремих слів залежно від мовця показано більш докладно нижче. В даний час це найбільш широко застосовувана і технічно вдосконалена форма розпізнавання мови.

Процес, по суті, складається з двох етапів (рис. 1): попередньої обробки, яка витягує параметри, що мають значення для розпізнавання, з мовного сигналу, та класифікації, яка знаходить відповідне значення шляхом порівняння шаблонів між тестовим та еталонним шаблонами.

Попередня обробка

Перший етап включає обмеження частоти (фільтрування), нормалізацію гучності та аналогово-цифрове перетворення; остання необхідна для подальшої обробки (тепер виключно цифрової). Оцифрований таким чином мовний сигнал вже складається з дискретної послідовності чисел, кожна з яких описує звукову енергію в певний момент часу. Однак ці часи дискретизації настільки близькі, що зберігаються основні властивості спочатку безперервного сигналу; говориться про квазінеперервний сигнал.

Тепер обсяг даних, який є занадто великим у цій формі, тепер повинен бути зменшений, щоб інформація, звільнена від зайвого баласту, якомога точніше характеризувала відповідні властивості мовного сигналу. Серед численних можливостей цього кроку ми з метою ясності розглянемо вилучення параметрів із мовного спектра далі. Візьмемо як приклад слово діло, промовлене один раз коротко і один раз довго. У часовому сигналі (рис. 1а) плазивний t можна розпізнати за низькою енергією сигналу та нерегулярним ходом; остання вказує на високочастотні компоненти сигналу. Голосний а характеризується високою енергією сигналу і досить регулярним, періодичним ходом.

Ви також можете помітити, що говоріння повільно подовжує голосну, але не задуму. Отже, слово, вимовлене повільно, - це не просто уповільнена версія слова, вимовленого швидко, що має враховуватися при обробці.

Тепер звуковий сигнал розбивається на частоти; математично це відповідає перетворення Фур'є, застосованому до часових інтервалів приблизно від 20 до 30 мілісекунд. У частотному поданні (рис. 1b), як і раніше для голосних, є високі енергії, які зосереджені в діапазоні нижчих частот (близько 1000 Гц); такі енергетичні максимуми називаються формантами. На відміну від цього, діапазон частот для вибухових речовин дуже широкий і сягає приблизно 10 кілогерц. Майже немає енергії перед t у кінці слова; такі паузи характеризують фази нарощування тиску, які, як правило, необхідні для розмови про плотиви.

Часова шкала вже була огрублена до сітки інтервалів, згаданих перетворенням Фур'є. У більшості випадків скорочення даних здійснюється ще далі, комбінуючи численні значення на квазінеперервній шкалі частот, у середньому за 8-20 відносно широких смуг частот. Решта цифр, в свою чергу огрублені округленням, утворюють так званий вектор ознак: дуже шорстке зображення вихідного спектра, якого цілком достатньо для процесу розпізнавання (рис. 1 в).

Таким чином, мовний сигнал, наприклад, вимовлене слово, став часовою послідовністю векторів ознак. Мовленнєві паузи перед кожним словом і після них, які лише коштують непотрібного місця для зберігання, визначаються та усуваються за допомогою спеціального детектора пауз; Потім зберігається лише відповідне слово. На цьому попередня обробка закінчується.

Навчання та визнання

Для того, щоб пристосувати систему до конкретного динаміка, динамік вимовляє слово, яке перетворюється у послідовність векторів характеристик описаним чином, що з цього моменту формує еталонний шаблон. Значення вимовленого слова зазвичай передається системі за допомогою клавіатури. Значення та пов'язаний з ним мовний сигнал тепер зберігаються в пам'яті еталонного шаблону. Кілька опорних зразків для одного слова можна об'єднати в один за допомогою усереднення, яке компенсує випадкові відхилення в записі голосу. Ви поступаєте однаково з усіма словами, які система повинна вивчити.

Коли після закінчення фази навчання користувач вимовляє будь-яке з вивчених слів, система перетворює звуковий сигнал таким же чином у послідовність векторів ознак - тестовий шаблон. Він порівнює цей один за одним із усіма збереженими еталонними шаблонами, визначає той, який найбільш схожий на даний шаблон, і виводить його значення (рис. 1 праворуч).

Для цього порівняння обидва шаблони повинні бути виведені на загальну шкалу часу, оскільки ніхто не вимовляє одне і те ж слово двічі з абсолютно однаковою швидкістю. Просто стискати або розтягувати часову вісь було б безглуздо, оскільки - як уже зазначалося - зміна швидкості мови по-різному впливає на різні звуки. Так зване динамічне регулювання часу виявилося дуже ефективним методом: кожен невеликий проміжок часу розтягується або стискається таким чином, щоб відповідність між тестовим та еталонним зразками була якомога більшою (рис. 2). Отримана нелінійна функція адаптації називається функцією динамічного викривлення часу; слово деформація (накручувати) дуже чітко описує, як адаптаційна функція звивається через систему координат.

Завершальним етапом обробки є переналаштування. Оскільки голос динаміка змінюється з часом, тестові зразки, які були надійно розпізнані, використовуються для оновлення збережених опорних зразків, формуючи відповідно зважене середнє значення для обох. Як результат, система працює не тільки зі словами, що зберігаються на етапі навчання, але і з нещодавно вимовленими словами.

Подальші процедури

Два інших, дуже успішні методи працюють із досить непрямим порівнянням шаблонів замість прямого порівняння тестових та еталонних моделей, показаних тут.

В даний час визнання з так званими прихованими моделями Маркова є явним фаворитом. Вони повертаються до російського математика Андрея Андреєвича Марка (1856-1922). Ви працюєте з оцінками ймовірності, з якими за станом системи (наприклад, вектором ознак) слідує інший - або навіть той самий - (див. Зокрема статтю Маркуса Шпіаса на сторінці 90).

Другою з цих концепцій є нейронні мережі. Вони складаються з паралельної, мережевої структури примітивних перемикаючих елементів, які змодельовані на реальних нервових клітинах. Деякі параметри цих елементів можуть бути встановлені автоматично на етапі навчання таким чином, що певні вектори функцій, що знаходяться на вході, дають певний результат на виході (див. "Як нейронні мережі вчаться на досвіді" Джеффрі Е. Хінтон, Spectrum of Science, листопад 1992, стор. 134 ). Нейронні мережі дуже добре підходять для розпізнавання мови; вони особливо успішні, коли тестові зразки сфальсифіковані перешкодами (наприклад, навколишнім шумом).

Досі незрозуміло, яка з цих стратегій буде переважати в довгостроковій перспективі. Приховані моделі Маркова можуть легко обігнати нові типи нейронних мереж, оптимізованих для розпізнавання мови.

З метою подальшого поліпшення роботи розпізнавачів мови, окрім акустично-фонетичної інформації, що міститься у векторах ознак, оцінюються додаткові джерела інформації. Дуже важливим є знання, пов’язані із завданнями. У більшості додатків сфера застосування обмежена з точки зору змісту, так що дозволених слів є лише відносно мало. З цієї причини, наприклад, програма розпізнавання мови для управління машиною може легко виправити команду, яка була неправильно розпізнана як "машинний ліс", на дійсну команду "зупинка машини".

Прагматичні знання тісно пов’язані з цим: програма розпізнавання мови отримує інформацію про стан навколишнього середовища та реєструє фонетичне визнання як хибне, якщо це суперечить екологічним умовам. Якщо, наприклад, система розпізнавання для управління машиною знає (за повідомленням вимірювальних датчиків), що машина працює, вона визнає команду "увімкнути машину" безглуздою і замінить її на "зупинити машину" - або викличе запит.

Витвір мистецтва

Розпізнавачі окремих слів, залежні від мовця, для невеликого словникового запасу (до декількох сотень слів) тепер можна впровадити без проблем. Більшість доступних в даний час систем цього типу.

У деяких випадках пропонуються незалежні від динаміка розпізнавачі окремих слів до 50 слів; але багато хто все ще перебувають на стадії досліджень або розробок. Існує нагальна потреба у цих системах у телекомунікаційному секторі з постійно новими користувачами, у яких очевидно, що не можна кожного разу перед використанням просити проходження етапу навчання. Телефонні інформаційні системи є типовим додатком.

На першому плані розробки є кілька розпізнавачів, таких як система "Dictate-30K" від американської компанії Dragon Systems, яка базується на прихованих марковських моделях і має ємність до 30000 слів. Зазвичай цього достатньо для створення стандартних текстів, навіть якщо взяти до уваги, що слово зазвичай має різні форми флексії, і кожна форма зараховується як самостійне слово. Оскільки система адаптується до невідомих їй без фази навчання, вона має майже властивості незалежного від спікера розпізнавача. Апаратне забезпечення розміщується на карті, яку можна підключити до персонального комп’ютера. Основна програма - в офісі. Недоліком, безумовно, є те, що користувачеві доводиться робити паузи між кожними двома словами (оскільки це розпізнавач окремих слів), що вимагає нестабільної, неприродної мови.

Особливо цікавим завданням є розпізнавання ключових слів у вільній розмовній мові, так зване розпізнавання слів. Це формує перехід до безперервного розпізнавання мови, але аж ніяк не вимагає його обчислювальних зусиль. Він розкриває свої сильні сторони там, де важлива лише спеціальна інформація - наприклад, команди, запити, імена чи номери. Наприклад, користувач польотної інформаційної системи, що використовує розпізнавання слів, має значну свободу формулювати свою відповідь на питання, куди він хотів би літати; система зрозуміє це правильно, якщо лише правильно розпізнає слово "Гамбург" у розмовному тексті. Таким чином можна досягти високого рівня прийнятності користувачами.

Дивно, але таких систем лише декілька. Однією з причин може бути те, що виявлення слів особливо підходить для прослуховування голосових каналів (особливо телефонних ліній), тому розслідування підлягають конфіденційності.

Найзручніший, але на сьогоднішній день найскладніший спосіб розпізнавання безперервної мови. Проблеми виникають головним чином через те, що межі слів у потоці мови часто не впізнаються або взагалі не існують: "У понеділок" говорять як "понеділок". Це робить порівняння на основі слів неможливим, так що доводиться переходити на одиночні звуки.

У світі дуже мало систем, які можуть впоратися з цими проблемами; більшість з них все ще перебувають на стадії лабораторії або прототипу. На додаток до «Системи обробки мовлення 6000» від Philips (див. Статтю Фолькера Штейнбіс на сторінці 94), слід особливо відзначити систему «Сфінкс», про яку Кай-Фу Лі та його колеги з Університету Карнегі Меллона в Пітсбурзі. (Пенсільванія). По суті, він заснований на прихованих марковських моделях і не містить суттєво нових стратегій чи компонентів; Швидше за все, його висока продуктивність зумовлена тим, що найкращі з відомих алгоритмів розпізнавання були поєднані один з одним у складній формі. "Сфінкс" може розпізнавати безперервну мову зі словниковим запасом близько 1000 слів і точністю близько 95 відсотків. В даний час система все ще перебуває на стадії лабораторії.

Автоматичне розпізнавання мови, безсумнівно, є одним з найважливіших технічних нововведень у галузі спілкування людина-машина. Наявні системи все ще далекі від ефективності розпізнавання, яка була б порівнянна з людською, але вже може використовуватися для різноманітних завдань. Більшість технічних застосувань мають дуже обмежені вимоги до системи розпізнавання мови. Однак, як і раніше існує значна потреба у дослідженнях та діях у нетехнічній галузі: оптимальна конструкція діалогу людина-машина.

Бібліографія

- Обробка мовлення та передача мови. Від Клауса Феллбаума. Спрінгер, Гейдельберг, 1984.

- Автоматичне розпізнавання мови. Г.Руске. Ольденбург, Мюнхен, 1988 рік.

- Мовне спілкування людина-машина. За редакцією Гельмута Мангольда. Ольденбург, Мюнхен, 1992 рік.

- Розпізнавання та розуміння мови. Останні досягнення, тенденції та програми. За редакцією П. Лафаса та Р. де Морі. Спрінгер, Гейдельберг, 1992.

- Досягнення в обробці мовленнєвих сигналів. За редакцією Садаокі Фуруї та М. Мохана Сондхі. Марсель Деккер, Нью-Йорк/Базель/Гонконг 1992.