Майбутня оцифровка дошки від великих даних до розумних даних

Мюнхен 01.04.2020

Графічна технологія: від великих даних до інтелектуальних даних?

Якщо дані мають бути «розумними», їх слід підготувати відповідно. Попередня проблема: Дані дуже неоднорідні, часто неструктуровані та дрімають у різних місцях в окремих базах даних (силоси даних). Крім того, інформація, як правило, недоступна для пошуку або її дуже важко знайти.

дошки

Для того, щоб відновити приховані скарби та вивести з них гіпотези, дані повинні бути доступними, сумісними та доступними для пошуку - лише тоді «великі дані» можуть бути перетворені у «розумні дані» за допомогою сучасних ІТ-рішень. Саме над цим працює проект «Графи для боротьби з діабетом» Німецького центру досліджень діабету (DZD) у Мюнхені за допомогою графічної технології. Команда сподівається, що зв’язок та систематичний аналіз даних буде включати Гіпотези - персоналізована профілактика та терапія. Навіть з такою розпаленою темою, як інфекції Covid-19, технологія графіків може встановити зв’язки, які могли б залишитися прихованими без цього методу. В інтерв’ю доктор Олександр Яраш, як це працює.

Лікар. Олександр Яраш, Мюнхен

Лікар. Яраш, у світі існує дуже велика база даних про діабет. У чому проблема цього?
Є дані з різних дисциплін базових досліджень, експериментів на тваринах, епідеміологічних досліджень в університетах та клінічних досліджень в університетських лікарнях. Але дані, що генеруються таким чином, зазвичай реєструються у так званих силосах даних, тобто в таблицях Excel, текстових файлах або, в ідеалі, в базах даних. Тоді ці дані не пов'язані або лише дуже елементарно пов'язані. Ось чому важко встановити зв’язок між різними науковими проектами, котрі по-різному займаються діабетом.

І тут з’являється технологія графіків?
Я згоден. У базах даних графіків дані спочатку пов’язані як так звані вузли та ребра. Наприклад: я зберігаю ІМТ, зріст тощо на вузлі людини пацієнта. Якщо після цього на цьому пацієнті проводиться експеримент, в якому, наприклад, береться кров і вимірюється значення HbA1c, я створюю новий вузол "забір крові". На цьому я заощаджую кількість зразка крові, значення HbA1c, що зберігається в холодильнику XY тощо. Вузли "Людина" і "Забір крові" потім з'єднуються краєм. Тоді я можу безпосередньо побачити, наприклад, яке значення HbA1c має людина, який ІМТ у неї є і де зберігається зразок. Тепер я можу шукати подібності між людьми і таким чином висувати гіпотези про зв’язки. І чим більше даних я подаю в базу даних графіків, тим більше шансів знайти кореляції чи закономірності.

Як ви використовуєте цю технологію в DZD?
Наприклад, для нашого розташування, дисципліни та міжвидового запиту експериментів та зразків. Наш член правління DZD, професор Мартін Грабе де Анджеліс, бачив “каталог даних” у DZD. За допомогою цього можна порівняно просто визначити: де зберігаються дані? Мені взагалі дозволено працювати з вами з міркувань захисту даних? А скільки у мене зразків? Скажімо, я хочу зробити статистичну заяву про параметр в експерименті з мишами на 20 мишах. Однак їх недостатньо, щоб зробити статистично значущі твердження. У базі даних графіків ви могли бачити, що 5800 мишей з тим самим параметром були виміряні в іншому місці ДЗД - і тоді я можу об'єднати ці дані.

Чи не стає система все більш заплутаною, чим більше даних об’єднується?
Ні. Фокус у тому, що ми маємо інтерактивну поверхню, за допомогою якої лікарі та вчені, які не мають досвіду інформатики, можуть знаходити дорогу. Ви можете ковзати вузли та краї вперед-назад, розгортати їх, щоб побачити деталі та пов'язані вузли, складати їх, щоб побачити загальну картину. Таким чином, повністю нові аналізи даних можна проводити інтерактивно. Якщо кількість вузлів і ребер стає значно більшою, ви також можете надсилати запити до бази даних дуже простою мовою запитів.

Ви також можете використовувати графічну технологію для зв’язування даних досліджень на різних клінічних картинах?
Це наступний крок. Оскільки технологія може бути використана універсально і може бути легко розширена або модифікована. І обчислювальна потужність комп’ютерів зараз така велика, що можна обробляти величезні обсяги даних. На даний момент ми маємо пілот з іншими німецькими центрами досліджень охорони здоров’я з 1,8 мільярдами вузлів та 3,9 мільярда країв!

Про що цей пілотний проект?
Йдеться про можливі наслідки діабету. Наприклад, один - досить агресивний рак печінки. Тепер виникає запитання: чи є дані пацієнтів чи моделей на тваринах, які могли б запропонувати діабет на рак чи навпаки? Наприклад, генетичний дефект, фактор навколишнього середовища, певний спосіб життя? Можливості застосування графічної технології безмежні. Ось чому це буде відігравати дедалі важливішу роль у майбутньому.

Дякую за співбесіду, докторе Яраш!

Більше інформації

Детальніше про технологію графіків ви можете прочитати у звіті D.U.T 2020 на сторінці 160 у статті "Мережеві дані для майбутніх досліджень діабету" від Dr. Олександр Яраш, доктор Астрід Глейзер та професор д-р Мартін Грабе де Анджеліс.

Більше інформації про проект "Графіки для боротьби з діабетом", який був удостоєний 2-го місця на премії bytes4diabetes, ТУТ.