Що таке модель і навіщо вона нам потрібна DHd-Blog

Про міждисциплінарні непорозуміння на DHd 2020

Моделі - це математичні формули, які я можу використовувати для перевірки взаємозв’язків у своїх даних. З цією простою концепцією моделі я виріс як кількісний вчений-соціолог без особливих суперечок. До цього року DHd 2020, 7-а щорічна конференція Асоціації цифрових гуманітарних наук у німецькомовних країнах.

модель

Конференція розпочинається дводенними практичними заняттями, під час яких я відвідую семінар «Упередження в наборах даних та моделях машинного навчання». Ми перевіряємо нульові гіпотези за допомогою статистичних моделей та альтернативні гіпотези за допомогою моделювання в обчислювальних моделях. Моделі математично формалізовані і, отже, ідеально відповідають моєму власному поняттю моделі. Я залишаюся в зоні комфорту.

Під час перерви я вступаю в розмову з учасниками інших майстер-класів. Раптом такі фрази, як: "Ми моделюємо наші дані за допомогою TEI.", Або "Наша модель - це база даних neo4j".
«Стандарти анотацій та бази даних не є моделями», - думаю я собі, - «Де де обчислення?». І перш за все: "Де питання дослідження, на основі яких ми проводимо певні розрахунки, а інші залишаємо позаду?" Я трохи розгублений.

У вівторок ввечері я сиджу в Музеї Форуму Хайнца Ніксдорфа і слухаю провідну лекцію Джулії Фландр про створення моделей у цифровій гуманітарній науці. І раптом копійка падає. Чи може бути, що ми говоримо повз один одного? Що ми по-різному визначаємо “модель”? Для мене модель - це математична модель. Однак для Джулії Фландрії та багатьох інших членів DHd це, схоже, модель даних. Це означає стандарти попередньої обробки даних (наприклад, анотація) та представлення (база даних).

Хоча моє непорозуміння було вирішено, багато лекцій наступних днів змушують задуматись. У мене складається враження, що багато часу та ресурсів приділяється створенню моделей, але відповідь на питання досліджень щодо змісту відходить на другий план. Проте саме ті контекстуальні контексти цікавлять нас як науковців. Як літературні діячі співвідносяться між собою? Яке відношення має одна історична подія до іншої? Чому театральні вистави з часом змінюються? Чому в цьому творі композитор використовує один, а не інший мотив?
Наші дані та математичні моделі - це лише інструменти для відповіді на дослідницькі запитання, пов’язані зі змістом. Тому нашим дослідницьким питанням слід приділяти більше уваги при розробці моделей.

Я хотів би виділити три моменти, які потрапили мені в очі щодо управління моделлю на DHd 2020.
(1) Чому термін модель так рідко диференціюється? Я єдиний, кого бентежать різні визначення моделі, чи це для інших?
(2) Чому ми будуємо величезні моделі даних, на виконання яких потрібно багато часу? Тому нам доведеться довго чекати, перш ніж ми зможемо остаточно відповісти на наші дослідницькі запитання.
(3) Чому ми будуємо величезні моделі даних із твердженням, що вони можуть бути загальноприйнятними? Ми не знаємо, чи справді необхідні великі зусилля, щоб відповісти на наші дослідницькі запитання.

То що треба робити? Ось мій невеликий суб’єктивний, попередній список побажань.
(1) Ми повинні бути конкретними, коли ми використовуємо термін модель, і точно вказати, який тип моделі мається на увазі. Це полегшує спілкування в міждисциплінарній галузі, як ДТ.
(2) Ми повинні створити невеликі моделі даних, специфічні для додатків, перш ніж розпочати з величезними універсальними моделями даних. Початкові питання досліджень можна негайно вирішити за допомогою зменшеної версії моделі даних.
(3) Ми повинні розробляти дані та математичні моделі поступово та ітеративно, замість того, щоб будувати їх одним рухом (принцип водоспаду). Після кожної ітерації модель може бути використана для відповіді на конкретне питання дослідження. Залежно від того, наскільки це добре працює, модель постійно адаптується. Ось як ми заважаємо величезній, копітко створеній моделі бути марною для відповіді на питання дослідження.

Висновок:
По-перше, DH - це міждисциплінарна сфера, де циркулюють різні модельні терміни. Тому слід розрізняти дані та математичні моделі.
По-друге, ми вчені, тому що нас цікавлять контекстні стосунки. Якби ми зосереджувались на створенні моделей даних, ми б стали розробниками програмного забезпечення або менеджерами баз даних. Моделювання не є самоціллю; воно повинно бути засобом відповіді на наукові запитання.

Стипендіати на подорожі DHd 2020 - огляд та внески | Блог DHd 12 квітня 2020 р

[…] Ramona Roller (ETH Zurich) - @ramona_rollerЩо таке модель і навіщо вона нам потрібна? У: Блог DHd, 12 березня 2020 р., Https://dhd-blog.org/?p=13186. [...]

Фредеріке Нойбер 12 березня 2020 р

Дякую за цю прекрасну статтю на тему "моделі", до якої я відразу ж переходжу.

На мій погляд, моделі даних не обмежуються засобами попередньої обробки даних. Формування моделі може допомогти (міждисциплінарним) робочим групам створити загальне розуміння складних сфер. Я розумію саме моделювання як евристичний процес, в якому існуючі знання про об’єкт (наприклад, текст чи зображення) розширюються, ставляться під сумнів та загострюються. У цьому відношенні я бачу * моделювання як частину дослідження *, в якому збагачуються знання про об'єкт і розвиваються теорії. Крім того, моделі є основою даних, які в кінцевому підсумку можуть бути оцінені, а результати оцінки (серед іншого) виникають з точки зору попереднього моделювання.

Зокрема, моя точка зору на ваші моменти/побажання з точки зору моделювання:

(1) Так, нам слід конкретно визначити, яку модель ми маємо на увазі. Загальне розуміння може виникнути, наприклад, через концептуальну модель "модельного терміна". Так, це дуже мета зараз . але чому б і ні?!

(2) Моделі даних не повинні служити самоцілі, а повинні переслідувати певну мету та конкретно це намітити. У світі цифрових ресурсів моделі даних також повинні бути підключеними та багаторазовими, саме тому використання стандартів та вимога узагальнення має сенс. Якщо всі лише думають про себе під час моделювання, наша робота для кішки - якщо сказати недбало - у довгостроковій перспективі. Приклад: Завдяки розробці величезної моделі TEI кодовані тексти з різних проектів тепер можна об'єднувати або обмінюватись із відносно невеликими зусиллями. Багато текстових корпусів, які сьогодні проводять оцінки, яких ви прагнете, складаються з менших корпусів (те саме, на мою думку, стосується баз даних зображень тощо). Уявіть, що тут кожен використовував би свій власний формат/словниковий запас - як ви хочете це зробити коли-небудь наближатися до великих даних і задавати справді захоплюючі питання? На мій погляд, TEI також є гарним прикладом того, що знання про тексти були конкретизовані та викладені (я завжди кажу, що справжнє значення TEI - це думки про текст та визначення, за винятком кодуючого словника).

(3) Ітерація має сенс, і я також вважаю, що великі моделі даних слід створювати знизу вгору, а не зверху вниз.

Особисто я виявив, що аспект «моделювання» був недостатньо представлений на конференції DHd цього року. Це може бути тому, що зараз у нас є критична маса даних та інструментів, доступних для досліджень, і створення даних відходить на другий план. Тим не менше, я бачу аспект моделювання як важливу частину DH і як критичний процес, що вимагає науки (. який можуть мати також дослідники програмного забезпечення або менеджери баз даних). Особливо в проектах, в яких гуманітаристи та комп'ютеристи працюють разом, людина, що спеціалізується на ДМ, має знання про моделювання, щоб якнайкраще передати предметну область та питання дослідження та формалізувати його у правильному форматі чи словниковому запасі. Майже всі компанії в галузі цифрових гуманітарних наук, включаючи оцінку великої кількості тексту для відповіді на наукові запитання, стоять або падають за якістю бази даних, що в свою чергу є результатом її моделювання. Тому я часто пропускав критичний погляд на базу даних на багатьох лекціях з оцінки тексту.

Tessa Gengnagel 12 березня 2020 р

Дякуємо за цей звіт про досвід! Через обмеження в часі, я маю лише кілька коротких коментарів щодо цього (насправді вам слід продемонструвати тут кілька речень і прояснити кілька непорозумінь):

1. Як випливає з назви, цифрова гуманітарія зосереджується на гуманітарних та культурологічних дослідженнях. У соціальних науках вже існує великий розрив. Я кажу, що без будь-якого судження це просто так. Нерозуміння не лише закопане в самих цифрових гуманітарних науках, але і в різних спеціалізованих культурах, тобто в деяких дуже фундаментальних методологічних та гносеологічних, якщо не зовсім теоретичних, фундаментальних дискусіях. Ви не можете ні перекласти їх на цифрові гуманітарні науки, ні вирішити в них.

2. Дискусія на тему "моделі" та "моделювання" є давнім захопленням в DH, навіть якщо з теорії теоретичного рівня до цього не було жодного внеску з Уілларда Маккарті 2005 року. Цей термін часто не використовується в нюансах, це правда і це проблема. Але Нельсон Гудман вже зазначав у своїй праці "Мови мистецтва" (1968/1976): "Мало термінів використовується в популярному та науковому дискурсі більш безладно, ніж модель". Модель - це те, чим слід захоплюватися чи наслідувати, візерунок, приклад, тип, прототип, зразок, макет, математичний опис - майже що завгодно, від оголеної блондинки до квадратного рівняння, - і може мати до того, що воно моделює майже будь-яке відношення символізації ". - Це також не є специфічним явищем або проблемою, пов'язаною з DH. Ця відсутність визначення є досить пандемічною для багатьох суб'єктів і лише частково більш помітна в DH, оскільки або якщо між співрозмовниками немає спільної технічної бази, тобто з основних предметів, а також немає спільного закріплення в мові DH та - Наведено методологію.

3. Сказати, що з одного боку існують математичні моделі, а з іншого боку, існують моделі даних, не відповідає позначці і не описує ні наукового і загальноприйнятого розуміння, з одного боку, ні розуміння ДГ, яке слід відрізняти від нього, з іншого. На жаль, я не можу зараз вдаватися до цього детальніше, але я думаю, що цінно, що цей допис у блозі ще раз висвітлює проблему в науковій комунікації, і в цьому явно винен DH.