Розумні кімнати - спектр науки
Розумні номери
Іноді ви бажаєте, щоб будинок постійно знав, де знаходяться діти, і повідомляли вас, якщо вони робили щось небезпечне; або ж офіс міг би визначити, коли відбувається важлива зустріч, а не проводити дзвінки. А як щодо того, якби ваша машина усвідомила, що ви втомилися після тривалої подорожі, і спонукала вас вчасно зробити перерву?

Давно робляться спроби розробити комп’ютерні системи з такою продуктивністю. Незабаром машини могли взяти на себе деякі завдання нянь чи секретарів.
Чому ви давно не змогли цього зробити? Основну причину цього я бачу в тому, що комп’ютери глухі та сліпі: інформацію про світ можна отримати лише за допомогою клавіатури та миші. Навіть мікрофон і камера не допомагають, якщо дані, які вони надають, лише транспортуються або зберігаються, але не інтерпретуються з точки зору їх значення. Я вважаю, що машина повинна сприймати те, що робить користувач, у набагато ширшому сенсі, перш ніж це може бути для нього дійсно корисним. Більше того, він також повинен мати можливість розпізнати свою особу і мати можливість розкрити свої наміри - принаймні в тій обмеженій мірі, в якій може бути інша людина або навіть собака.
Щоб наблизитись до цієї мети, моя дослідницька група нещодавно розробила системи, що розпізнають обличчя, міміку та жести. Ми вже можемо використовувати його для створення середовищ, які поводяться у певних аспектах, таких як будинок, офіс чи машина, описані вище.
Ці інтелектуальні кімнати, як ми їх називаємо, оснащені камерами та мікрофонами, з даних яких мережа комп’ютерів виробляє оцінку того, що люди говорять і роблять у записаній зоні. Він може використовувати рухи тіла, говоріння та міміку, щоб давати системні вказівки, викликати мультимедійну інформацію або входити у віртуальні світи - без клавіатури та миші та без незграбних рукавичок та касок.
Основна ідея полягає в тому, що оскільки розумні кімнати знають щось про своїх мешканців - безпосередньо сприймаючи або з інших джерел - вони можуть розумно реагувати на їх дії.
У співпраці з Патті Мейс та я, аспіранти Тревор Даррелл та Брюс М.Бламбер побудували першу інтелектуальну кімнату в нашій медіалабораторії в Массачусетському технологічному інституті в Кембриджі в 1991 році. Незабаром це призвело до експерименту, в якому взяли участь кілька робочих груп. Зараз існує п’ять таких кімнат, усі зв’язані телефонними лініями: три в Бостоні, одна в Японії та одна у Великобританії. Подальші установки плануються в Парижі, Нью-Йорку та Далласі.
Кожен із цих номерів обладнаний декількома комп’ютерами. Жоден з цих пристроїв не є потужнішим за звичайний ПК; кожна розроблена і відповідає за конкретне завдання, наприклад, одне - для аналізу зображень, інше - для звуків і третє - за жестів. Якщо потрібно більше навичок, ми просто додаємо більше машин.
Незважаючи на відмінності, усі служби визнання базуються на одному статистичному принципі: максимізація правдоподібності (аналіз максимальної вірогідності). Комп’ютери порівнюють вхідні дані із збереженими моделями, обчислюють ступінь відповідності та, нарешті, визначають модель, яка найкраще відповідає даним.
Перш ніж інтелектуальна кімната зможе з’ясувати, що робить користувач, вона повинна знайти його. Для цього ми розробили систему під назвою Pfinder (для пошуку людини), яка реєструє та відстежує місцеперебування людини, поки вона рухається всередині кімнати.
У цьому випадку системі потрібна модель людського тіла для аналізу з максимальною ймовірністю: опис із якомога меншою кількісною величиною, яка, проте, є досить точною, щоб бути порівнянною з даними відеокамери. Наша модель складається з кількох простих, взаємопов'язаних геометричних структур, які ми називаємо краплями (буквально: краплями або грудками). Досить 7 крапель - як для рук, ніг, так і для голови, верхньої та нижньої частини тіла (малюнок 1). Крапля характеризується своїм кольором та геометричними розмірами для положення, орієнтації та форми. Крім того, є інформація про те, наскільки ця інформація є точною або надійною: Замість одного числа для координати положення або специфікації кольору існує розподіл навколо середнього значення (точніше: матриця коваріації).
Певною мірою в результаті виходить типова концепція, яку система створює для кімнати та людей у ній: пухкий з’єднаний манекен із правильним положенням та поставою, вставлений у фактурну модель фону кімнати. За допомогою цієї картинки Pfinder порівнює кожен новий запис відеокамери; Програма створює список, який показує, які растрові точки (пікселі) повинні належати до якої крапки відповідно до моделі, а які не повинні.
Це екстраполює минуле: якщо верхня частина тіла користувача рухалася на десяту секунду раніше вправо зі швидкістю один метр в секунду, Pfinder підозрює, що центр краплі, що моделює верхню частину тіла, буде на десяту частину метра далі праворуч на наступні десяті секунди. Ці прогнози модифікуються шляхом порівняння їх із типовими схемами руху, які система витягнула з спостереження за тисячами людей. Наприклад, екстраполяція включає досвід того, що верхня частина тіла може бути зігнута по відношенню до нижньої частини тіла, але не може бути зміщена, або що руки і ноги зазвичай рухаються значно швидше, ніж тулуб.
На наступному кроці програма порівнює зображення та зображення камери, віднімаючи колір і яскравість обох зображень піксель за пікселем та оцінюючи результат з точки зору твердження ймовірності. Наприклад, якщо різниця в яскравості для пікселя становить 10 відсотків, і в той же час функція розподілу пов'язаної краплі говорить, що така різниця трапляється лише в 1 відсотку випадків, то ймовірність належності цього пікселя цій крапці становить лише 1 із 100.
Потрібні подальші коригування. Якщо частина тіла користувача перебуває в тіні, існують відмінності в яскравості, які не мають нічого спільного із зазначеною ймовірністю. Тому Pfinder визначає тіні - визначаються як області, темніші за очікувані - і коригує значення кольорів пікселів до рівномірної яскравості.
Зміни в освітленні або розташуванні предметів у кімнаті також можуть спричинити неправильне їх призначення. Наприклад, якщо користувач бере книгу зі столу і кладе її на полицю, фон змінюється у двох місцях: старому та новому місці книги. Ось чому Pfinder постійно оновлює дані фону - тобто пікселів, які не займають краплі - шляхом усереднення між старим і новим значенням кольору.
Після всіх цих різноманітних обчислень та компенсацій Pfinder нарешті визначає крапку, до якої він найтісніше належить, для кожного пікселя нового зображення. Це, в свою чергу, отримує нові значення для даних BLOB-моделі та фону, а також для поточних швидкостей, які використовуються для екстраполяції наступного зображення. Таким чином, система завжди залишається в курсі завдяки невпинному взаємодії між поточним зображенням і уявним.
Хто і як?
Наступне завдання - визначити, хто в кімнаті і що вони говорять. Вже існує багато алгоритмів розпізнавання мови (Spektrum der Wissenschaft, березень 1994 р., Стор. 86). Практично всі ці системи працюють задовільно лише тоді, коли мікрофон знаходиться в безпосередній близькості від динаміка. Кімната, яка розуміє лише людину, яка стоїть у певній точці - а саме перед мікрофоном - не вважалася б особливо розумною; Мова також повинна бути впізнаваною, коли динамік вільно рухається в кімнаті і все ще чути шум.
Наше рішення цієї проблеми базується на тому, що Pfinder постійно знає позицію користувача. Ось чому час проходження звуку від його рота до кількох постійно встановлених мікрофонів може бути розрахований. Електронні схеми затримки гарантують, що всі звукові сигнали динаміка в системі поєднуються одночасно і, таким чином, складаються, а всі інші усереднюються. Так ви отримуєте сигнал достатньої якості; його порівнюють із відомими словами, а той, що відповідає максимальному збігу, вважається вимовленим.
Настільки ж важливим, як розуміння інструкції, часто є знання того, хто її дає. Найшвидший спосіб розпізнати людину - це, безумовно, її обличчя. Система спочатку потребує моделей усіх граней, які вона повинна ідентифікувати. Математичний метод з лінійної алгебри, аналіз власних векторів, дав щось на зразок штучних стандартних граней; ми називаємо їх власними обличчями. Будь-яке обличчя створюється шляхом множення кожного окремого обличчя на певний коефіцієнт, а потім адитивного накладання всіх їх; модель обличчя, необхідна для аналізу, є системою цих вагових коефіцієнтів.
Якщо камера інтелектуального приміщення тепер виявила людину, система ідентифікації ізолює обличчя, раніше розташоване Пфіндером, від навколишнього середовища та нормалізує його контраст. Потім програма обчислює, наскільки вона схожа на кожну власну поверхню, або те, що становить одне і те ж, які вагові коефіцієнти потрібно використовувати для її складання з власних поверхонь. Ці значення подібності призводять до моделі, яку порівнюють із збереженими моделями людей, яких уже знають. Наші інтелектуальні кімнати знайшли потрібну людину з тестових груп у кілька сотень людей із показником показника 99 відсотків.
Поверх цього. Наприклад, підручник повинен знати, чи цікаво студентам чи нудно. Тому наша інтелектуальна кімната аналізує свій вираз, як тільки вона знайшла і впізнала обличчя (рис. 2). Для цього спеціалізований комп’ютер порівнює рухи обличчя з каталогами рухів, типовими для певних емоцій (малюнки 3 та 4). Людина, яка посміхається, повертає куточки рота і піднімає певні частини лоба; якщо ви лише імітуєте посмішку, ви рухаєте лише ротом. Нашій системі вдалося правильно визначити вибрану міміку у невеликій групі досліджуваних до 98 відсотків.
Зрештою, щоб будинки, офіси та машини були справді корисними, вони повинні співвідносити елементарні уявлення про особистість людини, вираз обличчя та мову. Зрештою, один і той самий рух можна трактувати дуже по-різному, залежно від того, що задумав його ініціатор. Водій, який знімає ногу з акселератора, може захотіти зупинитися - або повернути. Однак є помітна різниця: якщо ви хочете повернути, ви берете індикатор і по-іншому кладете руки на кермо, щоб підготуватися до повороту. Тому комп’ютерна система повинна враховувати поєднання поточного та безпосередньо передуючих рухів.
Для цього ми прийняли принципи технології автоматичного розпізнавання мовлення: всередині такої системи слово моделюється послідовністю станів - фонемами (окремими звуками) або частинами фонем - з певними ймовірностями переходу з одного стану в інший: так званий ланцюг Маркова ( Спектр науки, березень 1994 р., Сторінка 90). Для розпізнавання вимовленого слова система намагається привести звуковий сигнал у гармонію з різними ланцюгами Маркова; врешті-решт вирішує на користь того, хто найкраще з ним працює.
Ми узагальнили цей підхід, щоб дозволити автоматам визначати свої наміри з рухів людини. Певні елементарні рухи замінюють фонеми. Наприклад, слід розрізнити, чи просто людина котиться з витягнутою рукою чи вказує на щось. Для демонстрації система має внутрішню модель, що складається з трьох станів: підняти руку, затримати нерухомо і швидко вийти. Однак для простого розгинання руки він очікує лише одного безперервного руху.
З розроблених дотепер систем для інтерпретації дій найпростіші з них дозволяють користувачеві впливати на віртуальне середовище за допомогою рухів тіла. Наприклад, ALIVE (Artifical Life Interaction Environment), спільними зусиллями групи Pattie Maes і моїх, перетворює опис користувача, наданий Pfinder, у відеомодель, яка заповнена всіма видами комп’ютерних форм життя Навколишнє середовище живе. Тварини-фантазії оцінюють інформацію про жести, мову та позицію користувача та реагують на неї (малюнок 1). Якщо він рухається так, ніби піднімає палицю і кидає її далеко, відеозображення в середовищі ЖИВО робить те саме - і Сайлас, віртуальна собака, біжить і забирає. Сайлас також може сидіти або перекидатися за командою.
Вихідні дані інтелектуальної кімнати також можна використовувати набагато більш безпосередньо. Наприклад, позицію користувача можна перенести у віртуальну диспетчерську; слово або рух руки, а потім виступають безпосередньо вказівками до комп'ютерної програми.
Це може бути відеогра в уявному тривимірному середовищі, яка працює без звичайних елементів управління, таких як джойстики. Якщо ворог підходить зліва в декорації, гравцеві - у реальній кімнаті - потрібно лише повернутися ліворуч, підняти руку віртуальним пістолетом і кричати "тріск" - і суперник скрипить.
Однак є і серйозні варіанти використання. Досить складна американська мова жестів (ASL) є гарним випробуванням можливостей нашої кімнати; тому ми побудували систему їх інтерпретації (рис. 6). Ми створили моделі окремих персонажів, комбінуючи численні записи відповідних рухів рук - проаналізовані Pfinder. Наразі система розпізнавала 40 слів ASL у реальному часі з точністю 99,2 відсотка. Завдяки постійній швидкості розпізнавання та збільшенню словникового запасу, має бути можливо створити систему розпізнавання мови для глухих та німих.
Не випадково я кілька разів згадував про автомобіль: більшість дорожньо-транспортних пригод спричинені помилками водія. Тому ми розробляємо інтелектуальну кабіну пілотів разом з Енді Лю, вченим із фундаментального дослідницького інституту компанії Nissan у Кембриджі (штат Массачусетс). Довгостроковою метою є транспортний засіб, який відстежує дії водія та надає корисну інформацію: про правильний маршрут і поводження з транспортним засобом до попереджень про небезпеку.
Розробка знову розпочалася з моделювання. З рухів рук та ніг численних водіїв на змодельованому курсі ми вивели поведінкові моделі для типових видів діяльності: уникнення перешкоди, слідування за іншим транспортним засобом, поворот, зупинка, старт та зміна смуги руху (рис. 5). Завдяки цьому система повинна класифікувати передбачувані дії водія-випробувача якомога швидше. На наш подив, показник удару склав 86 відсотків через півсекунди та 97 відсотків через дві секунди.
Принаймні в простих ситуаціях можна відстежувати рухи людини, ідентифікувати їх та інтерпретувати певні висловлювання та міміку - і все це в режимі реального часу за допомогою невеликих обчислювальних зусиль. Можливості наших систем можна поєднати різними способами. Ось так ми розробляємо окуляри, які люди впізнають і шепочуть свої імена на вухо власнику. Ми працюємо на телевізійних екранах, які реєструються, коли хтось дивиться. І ми плануємо розробити кредитну картку, яка знає її власника - і, отже, також знає, чи її вкрали.
Інші дослідницькі групи в нашій медіалабораторії працюють над облаштуванням інтелектуальних просторів глибшим розумінням людських вчинків та мотивів. З подальшим прогресом комп’ютерні системи будуть дедалі більше поводитися як автономні, уважні помічники.
Бібліографія
- Візуально керована графіка. А.Азарбаяджані, Т.Старнер, Б.Гововіц та А.Пентленд у: IEEE Transaction on Pattern Analysis and Machine Intelligence, том 15, випуск 6, сторінки 602 - 604, червень 1993 р.
- Система ALIVE: взаємодія всього тіла з автономними агентами. П. Мейс, Т. Даррелл, Б. Бламбург та А. Пентленд у: Праці з комп’ютерної анімації '95, 1995.
- Розпізнавання виразу обличчя за допомогою динамічної моделі та енергії руху. І. А. Есса та А. Пентленд у: Матеріали п’ятої міжнародної конференції з комп’ютерного зору. IEEE Computer Society Press, 1995.
- До розширених систем управління. А. Пентленд та А. Лю у: Матеріали симпозіуму з інтелектуальних транспортних засобів 95 року. Товариство промислової електроніки IEEE, вересень 1995 р.
- Американська мова жестів у режимі реального часу з відео за допомогою прихованих моделей Маркова. Т. Старнер та А. Пентленд у: Міжнародному симпозіумі з комп'ютерного зору, 1995. IEEE Computer Society Press, 1995.
- Pfinder: відстеження людського тіла в реальному часі. Крістофер Рен, Алі Азарбаєджані, Тревор Даррелл та Алекс П. Пентленд у: Проблеми інтеграції у великих комерційних системах доставки медіа. За редакцією А. Г. Тешера та В. М. Бове. SPIE, том 2615, 1996.
- Медіалабораторія Массачусетського технологічного інституту має численні статті та звіти у Всесвітній павутині за адресою http: // www-white. media.mit.edu/vismod.