Переоцінений ШІ, алгоритми насправді є кращими медичними працівниками

У минулому неодноразово виникало враження, що штучний інтелект може виявляти захворювання так само добре, як досвідчений лікар - якщо не краще. Такі заголовки, як "Google заявляє, що їх штучний інтелект може виявити рак легенів за рік до лікаря", безсумнівно, викликають великі сподівання. Зазвичай це передбачає оцінку файлів цифрових зображень за допомогою алгоритмів глибокого навчання або досвідченого медичного працівника, наприклад при діагностиці раку легенів або шкіри або при діагностиці різних стадій сліпоти. Мюра Нагендран з Імперського коледжу в Лондоні та його колеги сумніваються в “Британському медичному журналі”, чи насправді якість опублікованих досліджень є достатньою, щоб показати, що перевірені алгоритми відповідають рівню з лікарями.

Автори статті, до якої входять такі видатні діячі, як Ерік Тополь з Інституту дослідницьких перекладів Скріппса та Джон Іоаннідіс із Стенфордського університету, критикують, що більшість досліджень, які вони оцінювали, мають низьку наукову якість і непрозорі. Вони принципово не ставлять під сумнів потенціал штучного інтелекту і не хочуть уповільнювати його розвиток, але вимагають, щоб дослідження, які повинні довести діагностичну точність алгоритмів, проводились відповідно до високих наукових стандартів та єдиних правил. Дослідження з невеликою кількістю доказів ставлять під загрозу безпеку пацієнтів, стверджують автори.

Архітектура мереж глибокого навчання базується на нейронних мережах людського мозку. Для розпізнавання зображення використовуються переважно нейронні згорткові мережі, так звані згорткові нейронні мережі. Вони автоматично витягують шаблони із набору даних зображення, наприклад, на основі діагнозу легені або первинного раку. Без потреби користувачеві що-небудь робити, вони вивчають моделі, які, імовірно, асоціюються з раком легенів або шкіри. Потім мережі незалежно класифікують кожне нове зображення, пов'язуючи вивчені закономірності з навченим призначенням раку легенів або шкіри. Однак до теперішнього часу в основному не вдалося зрозуміти, як було прийнято відповідне рішення, оскільки мережі здійснюють свою класифікацію без зовнішнього впливу. Як результат, ніхто не знає, за якими шаблонами було прийнято рішення мережі, і чи буде досвідчений лікар діяти зовсім по-іншому, чи використовуватиме подібні схеми, як алгоритм глибокого навчання. Отже, нейронна згорткова мережа є чорною скринькою. Ви можете судити лише про рішення, а не про те, як воно відбулося.

Результати дослідження протверезіння

Зараз Нагендран та його колеги дослідили, наскільки висока якість досліджень, опублікованих за останні десять років, і наскільки обгрунтовані їхні висновки. Аналіз протверезив. Вчені виявили, що лише два високоякісних рандомізованих клінічних випробування були опубліковані між 2010 і 2019 роками, обидва - минулого року. Обидва вони були виготовлені в Китаї. В даний час триває вісім рандомізованих досліджень, включаючи одне в США. Тим не менше, 16 алгоритмів глибокого навчання для оцінки медичних даних зображень вже затверджені Американською адміністрацією з питань харчових продуктів та медикаментів.

Рандомізовані клінічні дослідження - найкращий спосіб порівняти два підходи. У двох рандомізованих дослідженнях, опублікованих на сьогоднішній день, досвідчені лікарі однієї дослідницької групи приймали власні рішення, в іншій дослідній групі їх підтримував алгоритм. З 81 нерандомізованих досліджень, які відповідали критеріям включення, лише дев'ять досліджень мали перспективний дизайн. У таких дослідженнях не формуються і не порівнюються групи, а дані з конкретного питання збираються та оцінюються з часом. Однак лише шість з цих проспективних досліджень проходили в повсякденних клінічних умовах і, отже, мали можливість щось сказати про діагностичну якість тестованих алгоритмів у звичайних умовах. 58 із 81 дослідження були дуже упередженими. Вони мали гірший дизайн дослідження або відхилялися від визнаних стандартів.

Перебільшені претензії

Тим не менше, загалом 61 дослідження дійшло висновку, що ефективність алгоритмів була порівнянна або навіть краща, ніж ефективність досвідчених лікарів. Лише в 31 дослідженні керівники досліджень були настільки самокритичними, що вони просили подальших досліджень, щоб підтвердити свої висновки під час узагальнення або обговорення їх результатів. Нагендран та його колеги також скаржаться, що в середньому в кожному дослідженні брали участь лише чотири досвідчені лікарі. З огляду на той факт, що навіть досвідчені лікарі мають різний рівень, група повинна бути більшою, щоб статистично підтвердити результат. У дуже небагатьох дослідженнях був можливий доступ до необроблених даних та коду. Це означає, що алгоритм не може бути перевірений іншими фахівцями.

Однак автори також самокритично ставляться до власного дослідження та вказують на його слабкі сторони. Наприклад, ви не можете виключити, що ви пропустили відповідні дослідження. Ви зосередилися на розпізнаванні зображень шляхом глибокого навчання. Ваше звинувачення в тому, що багато досліджень не мають необхідної якості, може відрізнятися в інших сферах, в яких штучний інтелект використовується в медицині. В результаті свого аналізу Нагендран та його колеги приходять до висновку, що багато попередніх тверджень є перебільшеними. Вони навіть розглядають це як потенційний ризик для здоров'я пацієнтів і застерігають від використання перебільшених рецептур, щоб зробити дослідження схильними до помилкових тлумачень і викликати невідповідний ажіотаж. Поля потребує високоякісної та прозорої доказової бази - все інше не служить пацієнту.