Основи розпізнавання мови в системі диктантів - спектр наук

Основи розпізнавання мовлення в системі диктантів

Система розпізнавання мовлення IBM Speech Server Series (ISSS) перетворює розмовний текст у письмовий текст у режимі реального часу та з надзвичайно високою точністю розпізнавання та відображає його на екрані (рис. 1). Він був розроблений протягом останніх кількох років у лабораторіях продуктів IBM у Бока-Ратоні (Флорида) та Відні, а також у наукових центрах у Римі, Парижі, Севільї, Херслі (Великобританія) та Гейдельберзі. Дослідницька група під керівництвом Фредеріка Єлінека, Роберта Мерсера та Лалит Бал у дослідницькій лабораторії Томаса Дж. Ватсона IBM в Йорктаун-Хайтс (Нью-Йорк) створила основні передумови для цього шляхом базових досліджень.

На даний момент використання ISSS вимагає так званого розважливого мовлення, тобто диктування з паузами (навіть майже коротшими, як завгодно) між словами. Це обмеження було збережено задля точності розпізнавання; це не потрібно з системних причин.

Розпізнавання мовного сигналу починається з попередньої обробки: Відповідно до обробки звуку в людському вусі система спочатку використовує перетворення Фур'є, щоб вирахувати, наскільки інтенсивно певні фіксовані частоти присутні в звуковому сигналі у відповідний момент часу - точніше: протягом трохи більшого попереднього інтервалу часу. Ця інформація збирається кожні соті секунди і передається на наступний етап обробки як так званий вектор ознак. Це виявилося корисним для узагальнення значень сусідніх моментів у часі та отримання інформації, яка є важливою для диференціації, за допомогою статистичного методу, так званого дискримінантного аналізу. Отримані таким чином уточнені вектори ознак вже містять важливу інформацію у стислій формі.

Якщо ми сформулюємо певний звук - наприклад, a -, виявлені за цей час вектори ознак будуть більше схожі один на одного, ніж вектор ознак для іншого звуку. Якщо уявити їх - як це звичайно для векторів - як точки у просторому просторі, вектори ознак або точки, що належать до певного звуку, утворюють хмару в цьому просторі. Їх точне положення та форма для кожного динаміка різні; це визначається на етапі підготовки системи до конкретного мовця.

З причин обчислювальної економіки хмари приблизно описуються за допомогою обчислювально особливо простих стандартних форм. Можна припустити, нібито хмари сферичні або еліптичні і що їх головні осі лежать паралельно осям системи координат (нормальні розподіли з діагональною матрицею коваріації). Хмара, яка значно відхиляється від стандартної форми, може бути апроксимована кількома стандартними хмарами.

Попередня обробка перетворює мовлення в часову послідовність векторів ознак; В абстрактному просторі точка як би стрибає з хмари на хмару. В принципі, програма розпізнавання мовлення повинна була б лише визначити правильну хмару в кожному конкретному випадку на основі векторів характеристик. Послідовність хмар, знайдена таким чином, безпосередньо призведе до фонетичної транскрипції мовного сигналу.

Однак на практиці ситуація набагато складніша. Як правило, після тренування у просторі векторів ознак значно більше хмар, ніж звуків. Тож у нашому просторі функцій немає чіткого присвоєння звуків (фонем) хмарам. Швидше, кожна фонема використовує точки з декількох хмар; їх порядок визначений лише приблизно, але не точна хронологічна послідовність. Отже, більшість мовців об’їжджають хмару для e в кінці одного яскраво вираженого w; протягом w, хмара u може короткочасно використовуватися між ними тощо. Адже хмари не в фокусі і перекривають одна одну.

Ланцюги Маркова

Однак проблема не вирішувана, як показує наша власна здатність розуміти мову. Для того, щоб математично формалізувати попередні знання людини і, таким чином, зробити їх доступними для комп'ютера, лінгвістичному висловлюванню (наприклад, слову) призначається так званий процес Маркова. Перш за все, це вказівка на ймовірності, з якими один стан (вектор ознак) з певного набору дозволених станів супроводжується іншим. Зазвичай це представлено так званим ланцюгом Маркова (рис. 2). Одна реалізація марковського процесу полягає в тому, що, починаючи з початкового стану, наступний стан визначається випадково відповідно до ймовірностей переходу, дійсного для початкового стану, з цього наступного стану тощо.

Ланцюги Маркова є стандартним засобом статистики для моделювання часових процесів. Що нового в застосуванні до розпізнавання мови, так це те, що стани є не векторами ознак, а хмарами - точніше: розподілом ймовірностей векторів ознак. Оскільки вектор ознак може належати декільком хмарам, нелегко зробити висновок про асоційовану послідовність станів (хмар) із спостережуваної послідовності векторів ознак (див. Рамку на сторінці 92); це залишається - спочатку - прихованим, саме тому термін приховані марківські моделі став звичним явищем. Те, що видається непотрібним ускладненням, настільки успішне, оскільки приховані моделі Маркова з їх вбудованим розмиттям можуть дуже добре відтворити природну неточність артикуляції.

На етапі навчання спікер повинен прочитати текст приблизно за три чверті години. На основі численних реалізацій кожного вимовленого звуку система обчислює оціночні значення для вірогідності перебування та переходу пов'язаного з цим процесу Маркова. При цьому оцінюються параметри хмар. У певному сенсі знання про те, як цей динамік використовується для вимови звуку, зберігаються в цих числах.

Для переважної більшості слів, які не з'явилися в навчальному тексті, але, тим не менше, їх слід розпізнати, пов'язаний з цим процес Маркова повинен бути побудований з наявних даних. За допомогою системи, заснованої на знаннях, яку писали Клаус Вотке та інші комп'ютерні лінгвісти з IBM у Гейдельберзі, послідовність фонем, що складають усну форму, може бути виведена з письмової форми слова; ланцюжок Маркова належить кожній фонемі, від об'єднання якої отримується ланцюжок Маркова для всього слова.

Якщо зараз система розпізнає правильний звук у контексті висловлювання під час роботи, вона повинна вирішити, яка з великої кількості мислимих ланцюжків Маркова має найбільшу ймовірність генерувати поточне спостереження (послідовність векторних ознак). Тут використовується метод, запропонований американським інженером зв’язку Ендрю Дж. Вітербі в 1967 році в абсолютно іншому контексті (див. Рамку на сторінці 92). Тільки завдяки цим принципам та їх реалізації в дуже ефективних алгоритмах вдалося точно розрізнити фонеми людської мови в комп’ютері.

Оскільки система працює з ланцюгами Маркова не тільки для окремих фонем, але і для послідовностей фонем - особливо слів -, питання полягає не просто в тому, яка з кількох можливих фонем щойно промовлена, швидше за все, але яка, беручи до уваги вже почуті фрагменти слів є найбільш вірогідними.

У цьому сенсі його метод роботи нагадує сприйняття людей: ми не реєструємось неупереджено, а намагаємось вписати те, що сприймаємо, у вже частково заздалегідь задумані гіпотези. Завдяки цій реконструкційній роботі (для якої була придумана загальна фраза "аналіз через синтез") ми можемо виправити неповноту та коливання форми об'єктів.

Цю процедуру можна додатково узагальнити при розпізнаванні машинного мовлення, комбінуючи фонетичні моделі слів у великі структури даних, з яких найбільш вірогідна з великої кількості гіпотез слів може бути визначена за ранжуванням Вітербі.

Вишукані мовні моделі

Регулярні взаємозв'язки між вимовою та орфографією - передумова створення фонетичної моделі слів - набагато складніші в німецькій та англійській мовах, ніж, наприклад, в іспанській. Таким чином, описане на сьогодні представлення моделі було вдосконалено, що сприяє значному покращенню точності розпізнавання. Програма ISSS виконується у два етапи.

Досі описаний принцип полягав у тому, щоб розділити слова на фонеми, а потім сформулювати ланцюжок Маркова для кожної фонеми. Чи немає сенсу взагалі залишати фонему як рівень опису для розпізнавання мови? Хіба не буде достатньо просто простежити ланцюжок Маркова через хмари простору ознак для фонетичного подання слова? Це мало б ту перевагу, що можна дуже точно зрозуміти тонкощі вимови, такі як розмиття та скорочення.

Хоча ланцюжок Маркова для фонеми зазвичай має 7 станів (хмар) і 13 переходів, можна сформулювати досить довгі, проте дуже просто структуровані ланцюжки Маркова, які стосуються лише векторів ознак та їх послідовності: Існує перехід для кожного вузла до самого вузла, до наступного вузла та до наступного, крім одного, у тому випадку, якщо вектор ланцюга, що відповідає наступному вузлу, відсутній у ланцюжку даних. Модель слова, отримана таким чином, базується лише на безпосередньо спостережуваних акустичних явищах, тому отримала назву фенонічної базової форми, яку можна перекласти як "фенонна основна форма".

Однак у цій формі слово модель досі недоцільне. Оскільки кожне слово моделюється безпосередньо за допомогою векторів ознак, виводити гіпотези щодо його акустичної реалізації з письмової форми слова вже неможливо. Тож для кожного слова потрібно було б навчити окрему фенонічну модель. Це неекономічно і не підходить для практики.

Тут настає другий вирішальний крок, який відрізняє систему розпізнавання мовлення ISSS. Очевидно, що фенонна модель має сенс, якщо вона стосується найменших можливих фонетичних одиниць. Треба було б знайти спосіб вивести ці найменші фонетичні одиниці якомога точніше з письмової форми слова. До цього підходять фонетичні дерева рішень.

Ідея полягає в тому, щоб замінити традиційні, досить грубі правила вимови правилами, які емпірично отримані з великих даних. Вимова письмового листа - точніше: послідовність літер, що представляють фонему, наприклад sch - залежить від контексту; s вимовляється озвучується в Amsel і озвучується в Emsland. Тут також можна записати залежність від контексту.

Програма тепер структурує набір акустичних реалізацій фонеми (або будь-якої фонеми), розділивши загальний набір на дві підмножини, які є максимально однорідними (єдиними в собі) залежно від контексту. (Для того, щоб визначити, чи схожі дві послідовності векторів ознак, можна навіть ігнорувати їх послідовність для дуже коротких ділянок мовного сигналу - як показав досвід; достатньо порівняти їх частоти, що є набагато менш складним.) Критерії цього поділу повинні ніхто не вдає; вони автоматично обчислюються програмою. Враховуються контексти до п’яти фонем до та після описаної.

Кожна підмножина, у свою чергу, поділяється на дві максимально однорідні підмножини тощо. Застосовується статистичний критерій максимального збільшення інформації. Поділ триває доти, доки більше не буде значного виграшу інформації.

Загалом виходить ієрархічна (деревоподібна) структура, на кінцях якої (так звані листя) зібрано низку контекстів з майже однаковою вимовою для фонеми. Така статистично отримана вимова фонеми в англійському жаргоні називається leafeme, що можна перекласти як звук листя. Наприклад, озвученим s може бути звук листка або звук, який коротко виникає при змішуванні a та u.

В кінці цієї процедури кожне слово можна змоделювати як послідовність пелюсток. І тепер має сенс описувати листяні звуки за фенонною моделлю, тобто лише з урахуванням векторів ознак. Це зберегло екомонію фонетичної моделі слів, але досягло значного прогресу в тонкій настройці деталей вимови та контекстних варіантів фонем. Результат - надзвичайно задовільна якість розпізнавача мови в режимі реального часу.

Мовні моделі

За допомогою описаних дотепер способів розпізнавач мовлення отримує, точніше, число, яке вказує, наскільки ймовірним є даний мовний сигнал, якщо передбачається певне слово або послідовність слів. Назвемо це імовірністю синтезу. І навпаки, насправді ми хочемо знати, яка послідовність слів є найімовірнішою, якщо взяти мовний сигнал як поданий.

Для цього зворотного висновку від однієї умовної ймовірності до іншої слід використовувати теорему Байєса зі статистики, яка сходить до англійського математика Томаса Байєса (1702 - 1761) (порівняйте глави 1 і 5 моєї книги "Невизнане знання", Гейдельберг, 1993). Там сказано, що для даного мовного сигналу ймовірність послідовності слів пропорційна добутку синтезу та основній ймовірності послідовності слів. Наприклад, якщо ймовірність синтезу для слова "Кант" більша, ніж для слова "рука", але система розпізнавання мовлення використовується в медичній галузі, де руки згадуються набагато частіше, ніж філософи, то, тим не менш, слід зробити висновок "рука".

Але як ви знайдете - поза всіма акустичними міркуваннями - основну ймовірність слова чи фрази? Усі системи, що використовуються в даний час, використовують не підходи, орієнтовані на розуміння тексту, а статистичні мовні моделі. Вони записують зв’язки слів на основі спостережуваних послідовностей слів.

У нашому розпізнавачі мови ми використовуємо частотні спостереження за послідовностями з трьох слів (триграм) у великих колекціях текстів, таких як ті, що надаються замовниками. Те, що одного підрахунку недостатньо, стає очевидним, якщо врахувати, що можна мислити понад трильйон триграм з 20 000 слів. Навіть великі корпуси тексту рідко досягають такого розміру. Тому треба оцінити частоти ненаблюданих триграм, а також скорегувати спостережувані частоти, роблячи оцінки. Для цього ми використовуємо процеси, які спочатку походять з біостатистики.

Ми проводимо деякі дослідження в галузі мовних моделей. Тому ми намагаємося вдосконалити частотні моделі для триграм, включаючи частину мови. Це робить знання, наприклад, що послідовність статей - іменник набагато частіше, ніж реверс, доступна системі.

У німецькій мові в текстах є численні сполуки слів (наприклад, "суглобовий артроз"), які створюють зайве навантаження на словниковий запас, оскільки їх компоненти ("суглоб" та "артроз") зазвичай вже записані у словниковому запасі як окремі слова. В даний час ми розробляємо новий підхід для оцінки частот композиційних компонентів.

З іншого боку, видається корисним доповнити розгляд контексту фіксованої довжини, як і триграми, спостереженням за словами, що знаходяться далі. Зокрема, німецькою мовою дуже часто трапляються широкі залежності ("Він прибув лише пізно ввечері"). Тут видається перспективним з’ясувати відповідний контекст із подібними до правил статистичними структурами та сформулювати на них мовні моделі.

Тож є ще численні науково-дослідні завдання, що відповідають практиці. Тим не менше, вже варто подумати про використання розпізнавання мовлення на робочому місці.