Постійне розпізнавання мови жестів за великим словниковим запасом - Завантажити PDF безкоштовно
Постійне розпізнавання мови жестів за великим словниковим запасом Філіпп Дрюв, Мортеза Захеді, Девід Рибах, Томас Деселаерс, Герман Ней [email protected] Семінар на мові жестів 27 жовтня 2006 р. Кафедра комп'ютерних наук 6 RWTH, Ахенський університет, Німеччина П. Дрюв та ін.: Безперервно Розпізнавання мови жестів 1 Майстерня мови жестів 2006 27 жовтня 2006 р

Огляд 1 Вступ 2 Огляд системи 3 Моделювання слів 4 Результати 5 Висновок P. Dreuw et al.: Постійне розпізнавання мови жестів 2 Семінар з мови жестів 2006 27 жовтня 2006 р.
1 Вступ Схожість: розпізнавання мови/розпізнавання мови жестів тимчасова послідовність звуків мова жестів тимчасова послідовність знаків/жестів акустичний сигнал тимчасова послідовність акустичних векторів, (акустична реалізація звуків) зоровий сигнал тимчасова послідовність зорових векторів, (візуальна реалізація знаків) відмінності: граматика Паралельність використання та індексування кімнати жестової мови П. Дрюв та ін.: Безперервне розпізнавання мови жестів 3 Семінар мови жестів 2006 27 жовтня 2006 р.
Проблеми надійних систем розпізнавання Мова Ізольовані знаки Безперервні знаки Кількість динаміків 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 11111111 000000000 000000000 111111111 111111111 0000001100 11111111111 00000000 VAR проблеми різних видів руху VAR проблеми різних типів руху руху Швидкість Міжособистісні відмінності Стать Діалект Коартикуляція Тиша Що істотно відрізняється у розпізнаванні мови? Чого нам не вистачає? Дані: приблизно 400 годин мовлення проти 5 10,7% 8,7% 8,7% 26,2% Частота слів у навчанні P. Dreuw et al.: Постійне розпізнавання мови жестів 11 Майстерня мови жестів 2006 27 жовтня 2006 р.
Застосування: Відстеження голови Проблеми: 2.3 Відстеження рук часто перед обличчям Обертання голови, сильна міміка Фон: кольори шкіри, структура. Ідея: поєднати інформацію про колір шкіри та риси обличчя P. Dreuw et al.: Постійне розпізнавання мови жестів 12 Майстерня мови жестів 2006 27 жовтня 2006 р.
Приклади відстеження Відстеження голови та рук у базі даних RWTH-Boston-104 Відстеження голови у базі даних RWTH-Phoenix з моделлю корпусу P. Dreuw et al.: Постійне розпізнавання мови жестів 13 Семінар мови жестів 2006 27 жовтня 2006 р.
2.4 Використовувані функції Ручні функції (від відстеження): Позиція руки Рух руки Траєкторія руху utut 1 ut 2 Налаштування базової лінії: Особливості зображення на основі зовнішнього вигляду Зображення зменшені до 32 32 пікселів і служать хорошим базовим результатом для численних проблем розпізнавання зображень, успішних у розпізнаванні жестів використано P. Dreuw et al.: Постійне розпізнавання мови жестів 14 Майстерня мови жестів 2006 27 жовтня 2006 р
3 Моделювання слів Розпізнавання за великим словниковим запасом: Моделі цілих слів не корисні, недостатньо навчальних матеріалів. Потрібен більший обсяг пам'яті Вимовна лексика розпізнана xyz:: x: x: Спостереження 1: yz: x Спостереження 2: yxx: z: y: Спостереження 3 x, y, z: Етикетки субодиниць P. Dreuw et al.: Постійне розпізнавання мови жестів 15 Семінар жестової мови 2006 27 жовтня 2006 року
Проблеми з моделюванням слів: розпізнавання мови жестів: фонеми все ще чітко не визначені, лексика вимови недоступна. Фонеми виникають одночасно (багатопотокові). Значно більше фонем у розпізнаванні мови жестів, ніж фонеми при розпізнаванні мови. Підхід непросто передати для розпізнавання мови жестів Ізольовані знаки. Знаки, невідомі межі слів, контекстні ефекти при переході слів, пентез руху, тиша П. Дрюв та ін.: Постійне розпізнавання мови жестів 16 Майстерня мови жестів 2006 27 жовтня 2006 р.
4 Результати Базові результати та комбінація з характеристиками рук Приклади речень Характеристика коефіцієнт помилок масштабоване зображення 37,0 Трансформоване зображення PCA 27,5 + траєкторія руху рук 23,6 Windows 21,9 Комбінація моделей 17,9 ВСІ ХЛОПЧИКИ ДАЮТЬ ВЧИТЕЛЮ ЯБЛУКУ ВСІ ХЛОПЧИКИ ДАЮТЬ ВЧИТЕЛЮ ЯБЛУКУ ДЖОН НЕ ПОВИНЕН КУПИТИ ДОМ ДЖОН ФУТУРУ НЕ КУПИТИ ДІМ ЕНН ВИНОВА МЕРІ ЕНМ ВИНОВНА ДЖОН ПРОЧИТАЙТЕ КНИГУ ДЖОН МАЙБУТНЄ ЗАВЕРШИТИ ЧИТАТИ КНИГУ П. Дрю та ін.: Постійне розпізнавання мови жестів 17 Майстерня мови жестів 2006 27 жовтня 2006 р.
5 Висновок Результати були отримані в загальнодоступній базі даних Система не вимагає спеціального обладнання або рукавичок Розпізнавання мови жестів за допомогою сучасної системи розпізнавання мови Можливості зображень на основі зовнішнього вигляду також дають хороші результати в розпізнаванні мови жестів Багато принципів розпізнавання мови можна безпосередньо перенести на розпізнавання мови жестів, особливо важливо: контекстна інформація та мовні моделі P. Dreuw et al.: Постійне розпізнавання мови жестів 18 Майстерня мови жестів 2006 27 жовтня 2006 р
Перспективи Вивчіть подальші результати розпізнавання мовлення та зображень: Адаптація динаміка Додаткові функції для розпізнавання Моделювання слів Інтеграція просторової інформації від розпізнавання до перекладу Розпізнавання Іоанн IX Дайте людині IX Нове пальто Джон Дайте IX Нове пальто Інформація про кімнату Джон дає чоловікові пальто. П. Дрюв та ін.: Постійне розпізнавання мови жестів 19 Майстерня мови жестів 2006 27 жовтня 2006 р
Дякуємо за увагу Philippe Dreuw [email protected] http://www-i6.informatik.rwth-aachen.de/ П. Дрюв та ін.: Постійне розпізнавання мови жестів 20 Семінар з мов жестів 2006 27 жовтня 2006 р.
Додаток: Байєсівське правило прийняття рішень Відеовхід X T 1 Аналіз функцій x T 1 Глобальний < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Модель слова Модель інвентаризації Модель ŵ N 1 Визнана послідовність слів P. Dreuw et al.: Постійне розпізнавання мови жестів 21 Майстерня мови жестів 2006 27 жовтня 2006 р.
Додаток: власні грані Зображення X можна спроектувати на лицьовий простір за допомогою лінійного перетворення φ: φ (x) = VT (X µ), де V = [v 1. vm] - матриця перших m власних векторів, а μ - середнє обличчя, розраховане на наборі навчальних зображень. Проекція з простору обличчя на простір зображення має вигляд: φ 1 (X f) = V X f + µ, де X f - подання зображення в просторі обличчя φ (x). Відстань між зображенням та проекційною версією, що проектується вперед і назад, називається дистанцією в просторі обличчя. Його можна використовувати як міру обличчя. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw et al.: Постійне розпізнавання мови жестів 22 Майстерня мови жестів 2006 27 жовтня 2006 р.
Додаток: власні грані Приклад проектованих зображень та отриманої відстані: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 Ми використовуємо відстань між гранями як функцію оцінки для виявлення та відстеження heads: sf (ut 1, ut; X tt 1) = df (X t (ut)), де X t (ut) позначає прямокутний патч зображення X t з центром у положенні u t. П. Дрюв та ін.: Постійне розпізнавання мови жестів 23 Майстерня мови жестів 2006 27 жовтня 2006 р
Додаток: Акустична модель і мовна модель LM Scales мають однаковий вплив на правило рішення Байєса Експерименти з розпізнавання мови показали, що розпізнавання може бути значно покращено, якщо мовна модель має сильніший вплив, ніж акустична модель Вага α для мовної моделі та вага β для акустичної моделі: argmax w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = argmax w1 N β log p (wn 1) + log p (xt 1 wn 1) Фактор α β називається фактором мовної моделі. П. Дрюв та ін.: Постійне розпізнавання мови жестів 24 Майстерня мови жестів 2006 27 жовтня 2006 р
Додаток: Збентеженість LM Незрозумілість мовної моделі та тестового корпусу w N 1 визначається як: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Оскільки сум'яття є оберненою ймовірністю, це можна інтерпретувати як середню кількість можливих слів на кожній позиції в тексті. Логарифм незрозумілості дорівнює ентропії тексту, тобто надмірність слів у тестовому корпусі щодо цієї мовної моделі. ] 1 N log P P = 1 N N log p (w n h n) n = 1 P. Dreuw et al.: Постійне розпізнавання мови жестів 25 Майстерня мови жестів 2006 27 жовтня 2006 р.
Додаток: Характеристики траєкторії рук обчислюють загальні ознаки, що описують геометричні властивості оцінки траєкторії кисті матриці коваріації Σ t для позицій рук у певному часовому вікні 2 + 1 µ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut µ t) (ut µ t) T власні значення λ t, i та власні вектори vt, i матриці коваріації можуть бути використані як глобальні ознаки. П. Дрюв та ін.: Постійне розпізнавання мови жестів 26 Майстерня мови жестів 2006 27 жовтня 2006 р
Додаток: Характеристики траєкторії рук 40 60 80 100 120 0 положення рук у власних векторах vi 20 40 60 80 100 120 140 160 положення рук у власних векторах vi 140 60 80 20 40 60 80 100 60 положення рук у власних векторах vi 180 0 20 40 60 80 100 120 140 160 180 70 70 позиції рук ut Eigenvectors vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw et al.: Постійне розпізнавання мови жестів 27 Майстерня мови жестів 2006 27 жовтня 2006 р.
Додаток: Результати - інформація про контекст 40 розмір вікна = 5 розмір вікна = 3 розмір вікна = 7 35 WER [%] 30 25 20 50 100 150 200 250 300 розмір Поєднання за допомогою вікна, перетворених PCA-зображень P. Dreuw et al.: Постійне розпізнавання мови жестів 28 Майстерня мови жестів 2006 27 жовтня 2006 року
Додаток: Результати - Моделювання мови 80 70 60 нульграм уніграми триграма WER [%] 50 40 30 20 10 0 100 200 300 400 500 Результати шкали LM для різних мовних моделей та масштабних факторів П. Дрюв та ін.: Постійне розпізнавання мови жестів 29 Семінар з мов жестів 2006 27 жовтня 2006 рік