Побачивши додаток AI Microsoft для сліпих, тепер також німецькою мовою - DER SPIEGEL

Розробник Microsoft Saqib Shaikh

сліпих

Фото: Ілейн Томпсон/AP

Смартфон читає рецепти, пише фотографії з відпусток і впізнає друзів на вечірках: два роки тому Microsoft випустила цифровий супутник для людей з вадами зору за допомогою програми iPhone "Seeing AI". З вівторка додаток доступний французькою, іспанською, голландською, японською та німецькою мовами на додаток до англійської версії.

В інтерв’ю SPIEGEL Сакіб Шайх, головний розробник програми в Microsoft, пояснює, які нові функції програми стали можливими завдяки штучному інтелекту (ШІ). Він розповідає про своє бачення цифрових супутників для людей із вадами зору та сліпих, а також про проблеми, з якими стикаються розробники, і чому вам потрібно терпіти щодо цієї технології.

Сакіб Шейх Як головний розробник у Microsoft, він відповідає за додаток "Seeing AI". Шейх втратив зір у віці семи років. У Microsoft він допоміг розробити пошукову систему Bing та голосового асистента Cortana. Шейх зараз передусім зацікавлений у тому, як штучний інтелект може полегшити життя людям із вадами зору.

ДЗЕРКАЛО: Пане Шайк, 15 років тому у вас вперше виникла ідея розробити цифровий супутник для людей із вадами зору. Штучний інтелект - це технологія, на яку ви чекали?

Шейх: Ми досягли величезних успіхів у дослідженнях зі штучним інтелектом. Але нам ще багато років далеко від комп’ютерів, які озираються навколо і розуміють все, що вони бачать. Я сам сліпий, тому люблю гуляти зі своєю дружиною та друзями. Потім ми обговорюємо те, що вони бачать по дорозі. Вони говорять мені, коли виявляють щось захоплююче, або я запитую, чи не можу я призначити звук. Я бажаю, щоб одного разу ШІ міг зробити саме це. Як особистий помічник.

ДЗЕРКАЛО: Скільки часу нам потрібно чекати, поки цифрові помічники замінять супутників?

Шейх: Дуже важко бачити майбутнє. Я можу лише шалено припускати. Не знаю, чи буде це ще два, три, чотири чи п’ять років. Так багато відбувається на місцях. Щороку спостерігається стільки прогресу, з одного боку, але з іншого боку ми також стикаємось із надзвичайно великими проблемами. Наприклад, ШІ все ще дуже важко розпізнати, що саме роблять люди у певній ситуації.

ДЗЕРКАЛО: У чому справді хороший ШІ?

Шейх: За останні кілька років комп’ютери надзвичайно швидко навчились перебирати чітко визначені завдання від людей. Зокрема, вони все краще і краще розпізнають зображення та мову. Штучний інтелект є найдосконалішим у цих сферах. Завдяки цій технології, наприклад, "Побачення ШІ" можна торкатися фотографій. Для цього користувач торкається дисплея свого смартфона, щоб з’ясувати, чи видно під його пальцем текст, обличчя чи інший предмет.

ДЗЕРКАЛО: Розпізнавання тексту ШІ працює досить добре. Але розпізнавання сцен все ще надзвичайно помилкове. Додаток плутає дитячі гірки з гідрантами, круглі вікна трактуються як знаки зупинки, а кам’яні лавки стають надгробками. Що такого складного в розпізнаванні об’єктів?

Шейх: Про штучний інтелект можна думати як про трирічну дитину. Ви показуєте йому безліч фотографій і говорите йому: "Це машина. Це дерево. Це собака". На початку дитина розпізнає лише те, що вже бачила. Потім воно починає описувати ці речі реченнями. Як і дитина, штучний інтелект з часом стає кращим. Вчені також працюють над тим, щоб методи навчання постійно вдосконалювались.

ДЗЕРКАЛО: Проводити сліпих та людей із вадами зору по всьому світу за допомогою програми є цілком відповідальним.

Шейх: Так. Але це дослідницький проект. Багато функцій досі є дуже експериментальними. Тим не менше, ми хочемо надати користувачам можливість якомога раніше брати участь у нещодавно розроблених технологіях Microsoft. Ми виграємо від того, що користувачі розповідають нам, що вони думають про функції. Ми розробляємо додаток разом із нашими клієнтами.

ДЗЕРКАЛО: Чи турбує користувачів те, що додаток постійно робить помилки?

Шейх: Для деяких це не повинно бути ідеально. Наприклад, користувач сказав мені, що хоче надіслати святкові фотографії своїй родині вдома. Навіть якщо додаток не розпізнавав все точно, він міг принаймні розрізнити фотографії та вибрати правильні зображення. Інший сказав мені, що він сканує територію, щоб перевірити, чи доступна фотографія для Facebook. Для нього було достатньо грубого опису програми. Інший сказав нам, що він використовує додаток для зйомок телевізора на футбольних іграх, щоб дізнатись результат. Коментатор дуже рідко згадував проміжний результат. Інші сканують банки з напоями, щоб відрізнити колу від дієтичної. Усі ці дрібниці роблять додаток корисним супутником.

ДЗЕРКАЛО: Такі компанії, як Google та Facebook, піднімають багато галасу щодо своїх досліджень ШІ, виграючи дуелі проти чемпіонів go та перемагаючи професійних гравців у покер. Що робить Microsoft у змаганні за перевагу ШІ?

Шейх: Ми бачимо великий потенціал в ШІ для покращення життя людей з вадами зору за допомогою програми "Побачення ШІ". Але наші колеги також розробляють інструменти для людей із на слухом, наприклад, для відображення субтитрів у реальному часі. Є також численні інші приклади, такі як "Погляд очей", за допомогою якого ви можете керувати ПК з Windows лише рухами очей.