Грудень 2018 р. Дослідницький зошит у Національній бібліотеці Франції

В рамках проекту CORPUS, включеного в чотирирічний план досліджень Національної бібліотеки Франції на 2016-2019 роки, відбувся семінар-практикум під назвою «Penser, classer, modeliser. Приклад проекту Foucault Fiches de Lecture "відбувся вдень 13 листопада на сайті Франсуа-Міттерана. Організована в логіці обміну досвідом, її метою було на основі конкретного прикладу проекту "Лекції Фуко" провести роздуми над проблемами, пов'язаними з моделюванням та збагаченням даних, і, загальніше, про те, що цифрові інструменти можуть принести дослідницькій роботі на корпусі архівів.

Проект Foucault Fiches de Lecture (FFL) - це трирічний проект ANR, який спрямований на оцифрування, розміщення в Інтернеті, індексацію, опис та збагачення рукописних нотаток Мішеля Фуко з використанням платформи. Цифрова форма спільної роботи.

Плід партнерства між PSL та ENS Lyon, проект FFL, об'єднавши команди з різних дослідницьких лабораторій (ArchiNum, Triangle, CAPHÉS та ITEM), базується на тісній співпраці між дослідниками в галузі гуманітарних та соціальних наук та інженерами-дослідниками.

Після запуску оцифровки BnF карт читання (колекція NAF 28740, придбана відділом рукописів BnF у 2013 році), сьогодні, наприкінці першого року проекту, прототипна платформа, розроблена командою інженерів, пропонує дослідники декілька функціональних можливостей і відкриває нові перспективи досліджень. По-перше, це дозволяє ознайомитись з оцифрованими аркушами: в даний час близько 5700 з 14000, які слід оцифрувати в рамках проекту, та з 20 000 аркушів у колекції, що зберігається у BnF. Це також дає дослідникам можливість описувати та анотувати ці файли: кожен користувач може як створювати спільні метадані, так і записувати приватні анотації.

Прототип платформи для читання Фуко (FFL)

Заснована на семантичних веб-технологіях, платформа також дозволяє збагатити цю інформацію за допомогою системи змішування та вирівнювання з бібліографічними та біографічними даними data.bnf.fr. Крім того, вона надає розшифровку кожного запису. Ця автоматична транскрипція отримана за допомогою програмного забезпечення Transkribus, яке на основі технології штучного інтелекту після фази навчання за допомогою нейронних мереж дозволяє розпізнавати почерк, а також здійснювати пошук за ключовими словами. Незважаючи на необхідність ретельної покрокової роботи, команда бачила середній рівень успіху в розпізнаванні почерку 92%, коли практикувався. Нарешті, інженери-дослідники працюють над функцією картографування, щоб дозволити дослідникам графічно візуалізувати зв’язки між файлами та на основі цих зв’язків візуалізувати мережі концепцій та авторів. Таким чином, проект має на меті створити базу знань із джерел Фуко, а також термінологічне сховище лексики, яку використовував філософ.

Зразок транскрипції

Перехід від паперових до цифрових архівів передбачає новий спосіб їх розуміння для дослідників. Можливість встановлення гіпертекстових зв'язків між файлами та зовнішніми ресурсами, а також отримання візуалізацій даних складають основні переваги проекту, який, таким чином, має на меті запропонувати дослідникам відкриту робочу модель, але також теоретичний роздум про методи роботи Фуко та його архіви, його " бібліотека ".

Повторно використовувати наявні дані

Цей корпус карток для читання має гібридний статус: він більше, ніж текст, являє собою бібліографічну базу даних. За своєю суттєвістю картки, накопичені понад тридцять років, розташовані у коробках та папках відповідно до тематичного порядку. Систематично на цих файлах Фуко зазначає посилання та поняття атрибутів. У віртуальному вимірі платформи ці посилання на людей, документи та концепції, наскільки це можливо, узгоджуються з data.bnf.fr або вказують на загальний каталог BnF або на інші бібліотечні каталоги, коли посилання відсутнє на data.bnf.fr. На додаток до цих структурованих метаданих є анотації, створені дослідниками (наприклад, особисті коментарі або доповнення посиланнями) та повна транскрипція файлів.

Як тоді максимально використати ці різні типи даних (структуровані метадані, анотації та транскрипції)? Чи може це збагачення даних через data.bnf.fr бути завершене тією ж роботою з транскрипцій файлів, з повного тексту? ?

Індекси Cours au Collège de France (теми та люди) були об’єднані в один (індекс 10 курсів становить 200 сторінок), але вони описують лише частину роботи (1970-1984) і виявляються занадто спеціалізованими навколо теми курсів; Потім команда задається питанням про можливість створення тезауруса з концепцій або використання існуючого тезаурусу для опису концепцій, що використовуються Фуко, з метою контролю за створенням нових сутностей та покращення якості текстових даних.

Серед існуючих можливостей цікавим рішенням на перший погляд видається, на перший погляд, Рамо (Уніфікований енциклопедичний та алфавітний предметний довідник), як мова індексування предметів, що широко використовується у бібліотечному світі. На додаток до обміну між дослідниками та інженерами-дослідниками додається ще одна галузь знань: інформаційні науки. Дискусія між експертами з Рамо з BnF та дослідницькою групою визначила, що ця документальна мова не підходить для певної термінології, як у Фуко. Дійсно, категорії Фукоуля не охоплюють понять тезауруса. Концепції Рамо стосуються енциклопедичної та універсальної класифікації, на відміну від індексації читацьких карток, яка має на меті врахувати семантичне значення, яке залежить від використання та контексту використання термінів філософом. SKOS, дозволяючи опис типів відносин між категоріями і, отже, дозволяючи опис не тільки ієрархічних, а й асоціативних відносин, пропонується тоді як можливий вихідний каркас для формалізації відносин між поняттями.

Перегляньте дані

Окрім питання збагачення даних за допомогою тезауруса, в контексті проекту виникають інші питання щодо збагачення досвіду перегляду та пошуку.

Як дозволити навігацію в даних із графіків? Однією з перешкод, з якою стикається команда, є справді складність використання її як карти для доступу до вмісту. Здається, ця складність полягає точніше в тому, що або кількість даних занадто велика для використання (карта стає нерозбірливою), або подання ризикує стосуватися вже відомих елементів. То яка перевага візуалізації даних? Чи може це дати нові інтерпретації ?

Картографія, яку команда прагне побудувати, використовується для навігації картками, а не для представлення самих концепцій. На поточному етапі проекту це відображення використовується, щоб знати, що було введено, і побачити, який філософ або яке поняття є в якому файлі.

Приклад графіку проекту FFL

Змоделюйте дані

Завдання проекту полягає у об’єднанні різних досліджень щодо матеріалу, який складають картки, але без зведення їх до спільного знаменника: яка модель даних тоді для спільної роботи? Як поєднати особисту та колективну роботу? Як боротися з неоднорідністю корпусу та використанням досліджень? Тому модель, розроблена командою, була побудована навколо принципу анотації, іншими словами, "моделі, орієнтованої на анотацію". Він намагається узгодити неоднорідність того, що містять файли (представлені у формі анотацій), з однорідними елементами, такими як заголовки.

Метадані приєднуються до кожного елемента, що вводиться дослідником на платформі, або до кожної анотації: вихідна інформація (хто її ввів і коли), тип кожної введеної інформації та обсяг (яка частина корпусу охоплена). Деяка інформація є приватною та видимою лише для того, хто її ввів, або обмежений для групи людей.

Приклади читання аркушів Мішеля Фуко

У моделі кожна анотація є ресурсом з URI. Його вміст може бути літералом або суттю, що має сам URI. Крім того, мета-метадані (тип, категорія, наприклад, науковий або архівний аналіз або редакційна примітка, автор, дата, умови доступу).

Графік FFL

Збагачуйте неструктуровані дані

Учасники поділяють одне спостереження: налаштування інструментів призводить до того, що проекти розходяться. У прототипі проекту читання карток Фуко член команди здійснив локальний імпорт необхідних йому даних із data.bnf.fr. Щоб уникнути цього явища, Omeka дозволяє працювати з плагінами, які користувач може додати на свій веб-сайт. Наприклад, плагін, як пропонує LC, дає можливість інтегрувати сховища Бібліотеки Конгресу як допоміжний матеріал. Такий плагін був би корисним для data.bnf.fr. Член команди проекту пропонує заклик до спільноти розробити такі плагіни для Omeka або WordPress. Потім виникає питання обслуговування програмного забезпечення, розробленого в рамках дослідницьких проектів.

Мета цих розробок - мати добре сформовані файли TEI 1, не змушуючи дослідників вивчати TEI, що є досить технічною мовою. Якщо вони встигли це придбати, дослідники мають мало часу, щоб зберегти ці знання. Кожен дослідник-учасник проекту зможе самостійно анотувати свої файли тегами простим клацанням миші.

BnF перевірив розпізнавання названих сутностей за допомогою API Уотсона на десяти рукописних файлах для людей, дат, місць та організацій: близько 70% людей ідентифіковані та 40% місць. Кількості, дати та тривалість добре відомі. Алгоритм погано працює з організаціями. На відміну від цього, комерційні API дійсно не можуть розпізнати заголовки. Для покращення результатів можна надати Ватсону власний словник проекту.

Сприяти дослідженню завдяки взаємодоповнюваності цифрової платформи та видавничої роботи

Порядок читання карток у міру надходження на BnF не обов'язково значущий. Побудова інтертекстуальної мережі між файлами є важливим внеском, що став можливим завдяки цифровим технологіям. Це дозволяє не відкриття нового Фуко, а багатство його робочих архівів.

З матеріалів, що зберігаються у колекції Фуко BnF, тривають, зокрема, два видавничі проекти: публікація попередніх курсів і робіт у Колледжі Франції, у колекції "Високі етюди" видань Сеуля/Галлімара та повторних публікацій. видання Cours au Collège de France у кишеньковому виданні, у колекції “Points” в Éditions du Seuil.

На додаток до публікації певної кількості неопублікованих праць, зокрема, перша серія також пропонує рекламу матеріалу, який супроводжує рукописи цих курсів/робіт, а саме матеріалів з архівів. Цей матеріал, що включає аркуші для читання, є основним для редагування рукописів, для написання бібліографічних приміток та критичних приміток. Основне питання, яке виникає перед видавцем, полягає в тому, як знайти інформацію серед тисяч сторінок, з якими було проведено консультацію? Платформа, розроблена в рамках проекту FFL, дає відповідь на цю проблему. Коли філософ посилається в рукописі на неповне бібліографічне джерело, платформа дозволяє запустити пошук за автором, наприклад, і знайти картки читання, що стосуються цього джерела. На додаток до поліпшення розуміння бібліографічних даних, платформа допомагає редагуванню роботи, дозволяючи пошук за терміном, який надає інформацію про бібліографію та використання певного терміна.

З цієї точки зору, проект FFL, як правило, сприяє роздуму про сучасні архіви та те, як цифрові технології можуть змінити взаємозв'язок з архівними джерелами.

Ініціатива кодування тексту [↩]