Цифрові ресурси j

цифрові

j. Домашня сторінка berenike herrmann

цифрові ресурси

Herrmann, J.B. & Лауер, Г. КОЛІМО. Корпус літературного модернізму (бета) (“Корпус літературного модернізму”). (більше інформації нижче *)

Messerli, Th., Rothenhäusler, K., Rebora, S. & J.B. Геррманн. LoBo. Корпус LovelyBooks. Колекція оглядів цифрових книжок (+1 мільйон відгуків).

Herrmann, J.B., Gabay, S., і S. Rebora. Багатомовний швейцарський романний корпус 1850-1920, частина ELTeC (Акція COST «Дистанційне читання для європейської літературної історії», CA16204).

Herrmann, J.B. (2016). EAK. Розповідальне тіло. Корпус початкових розділів літературної фантастики. Кодування вручну для метафори.

Steen, G.J., Dorst, A.G., Herrmann, J.B., Kaal, A.A., and T. Krennmayr (2010). Корпус метафори VU Amsterdam. Оксфордські текстові архіви.

блоги та вікі

Herrmann, J.B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Корпус виразного та міжособистісного письма. (Корпус виразного та міжособистісного письма).

Herrmann, J.B. (Ред.) (2012). Обчислювальна література («Обчислювальна література»). Вікі для цифрового аналізу тексту. („Вікі з цифрового аналізу тексту“).

* колімо

Наразі корпус eXistdb “KOLIMO” переглядається для повторного запуску. Він був побудований в Університеті Геттінгена 2015-2017. Далі йде заархівований розділ "про" із колишнього веб-сайту https://kolimo.uni-goettingen.de/about.html .

Скорочення КОЛІМО

Виступає за “Корпус літературного модернізму”. Точніше, KOLIMO - це цифровий порівняльний корпус німецького наративного літературного модернізму. Ми створили корпус для власного аналізу стилів, але оскільки ми впевнені, що таким ресурсом слід ділитися з дослідницьким співтовариством, складання корпусу було проведено з огляду на публікацію. Однак, зауважте, що KOLIMO НЕ «корпусний інструмент». Веб-інтерфейс дозволяє дослідникам запускати запити, але не проводити належний аналіз. Ми готуємо варіант завантаження на веб-сайті.

Чому "бета"?

"Бета" означає, що ми ще не повністю там, але відчуваємо себе досить впевнено, щоб поділитися з вами тим, що маємо.

Що означає «цифровий порівняльний оповідний корпус німецького літературного модернізму»?

Ми розробили KOLIMO як такий з причини:

Отже, KOLIMO - це порівняльний оповідний корпус. З цієї причини нам потрібна не лише література, аніж модернізм, а лише розповідні тексти.

KOLIMO призначений для аналізу стилю

KOLIMO є основою поточного корпусно-стилістичного проекту Q-LIMO (кількісний та якісний аналіз літературного модернізму). Як такий, він задуманий врешті-решт представницьким корпусом сучасної німецької оповідної літератури. Він також покликаний послідовно збагачуватися за допомогою більшої кількості метаданих, а також багатошарових мовних та літературно-естетичних анотацій.

Наша мета у створенні KOLIMO - забезпечити кількісний та якісно-герменевтичний аналіз стилів німецьких наративних текстів захоплюючого періоду на рубежі 20-го століття - за такими змінними, як жанр наративу, автор та час. Наприклад, нас цікавить специфіка стилю Франца Кафки - які типи слів, фраз та естетичних фігур є показовими для його написання? Чи можемо ми простежити будь-який можливий вплив з боку нелітературних предметних дискурсів (таких як юридичний дискурс), інших письменників літератури (таких як сучасник Роберт Вальсер та, на століття раніше, Генріх фон Клейст), або навіть неканонічних літературних жанрів (таких як як пригодницька література)? Зверніть увагу, що KOLIMO містить KAREK, “довідковий корпус Кафки”. У нашому дослідницькому проекті, де модернізм є серцем KOLIMO, Кафка був серцем модернізму. Це не ціннісне судження, а одне, що викликає науковий інтерес: для того, щоб сказати щось про стиль Кафки, для порівняння нам потрібні більш сучасні автори, а також «старші». KOLIMO складається з існуючих цифрових джерел, але виходить за рамки.

KOLIMO - це складений ресурс

Основну частину наших текстів ми почерпнули з цифрових ресурсів, які є у вільному доступі. Можна сказати: якщо вони там, навіщо турбуватися? Ну: хоча існує декілька існуючих сховищ (наприклад, сховище TextGrid, німецький текстовий архів [DTA], Gutenberg-DE та Gutenberg.org), ми об’єднали їх, оскільки, як це, вони більше, ніж сума їх частин.

До KOLIMO, незважаючи на низку ініціатив, цифровий корпус німецького наративного літературного модернізму відсутній. Безумовно, той, який прагне бути репрезентативним, призначений для порівняльного аналізу (див. Вище), і який має послідовні та покращені вручну метадані. Більше того, KOLIMO постачається з першим набором мовних анотацій. KOLIMO - це унікальний ресурс. Ми раді зробити його загальнодоступним. Спочатку метадані походять з тих самих джерел, що і тексти, але ми багато працювали над їх вдосконаленням, наприклад, додаючи та перевіряючи GND до метадатума “автор”; заповнення пропусків для "року публікації" - а їх було багато - грубою, але практичною процедурою. KOLIMO зберігається у базі даних XML, eXist-db (програма eXist-db для джерел KOLIMO: запит та редагування метаданих). Кожен документ має стандартизований заголовок TEI, який містить усі види корисної інформації для кожного окремого тексту, включаючи метадані, а також вибрані маркери стилів.

Які маркери стилю я можу знайти в KOLIMO?

KOLIMO дозволяє запускати кількісні профілі використання мови. Це означає, по суті, "підрахунок матеріалів на мовній поверхні". Ми працюємо з основним припущенням, що „стиль” можна оцінювати за допомогою підрахунку частоти тих текстових особливостей, які легко розрізнити комп’ютер: символи, склади, слова, речення тощо, поєднуючи з такими показниками, як довжина слова, довжина речення, співвідношення типу-лексеми, списки найпоширеніших слів тощо. Рясні стилометричні дослідження показують, що цей прямолінійний підхід до стилю досить плідний. Звичайно, тут може розпочатися будь-який більш просунутий аналіз, включаючи кластерний аналіз подібності тексту на основі найпоширенішого підрахунку слів (наприклад, дельта) або показників ентропії лексичних варіацій. Будь-що йде, поки ми затримуємо дискретні енті, що складають тексти (символи, рядки тощо).

З огляду на це, ми також віримо в цінність лінгвістичних (та інших типів) анотацій: KOLIMO позначено як частину мови (POS), і ми провели аналіз читабельності (Flesh-Index, Wiener Sachtextformel). Значення читабельності зберігаються в заголовках TEI, а також основна описова статистика про кількість слів. З’являється більше типів анотацій (наприклад, ми працюємо над метафорою і експериментували з анотацією мови/подання думки).

Ми віримо у перевагу точності, наприклад, коли анотатори контролюють співпрацю, їх згода перевіряється мірами надійності між кодерами. Для прийому нових анотацій кількома анотаторами ми вибрали незалежний формат XML для нашої бази даних (eXist). Більше того, eXist дозволяє легко публікувати дані в Інтернеті та потужні запити (xQuery). Ми також експериментували з програмами анотацій для eXist.

Наше дослідження в цифровому стилі - це, по суті, відкритий дослідницький процес, при якому перевірка гіпотез супроводжується новими та критичними перспективами, що випливають з аналізів.

Інформація про ліцензію та атрибуцію

KOLIMO призначений лише для дослідницьких цілей. Ми зібрали KOLIMO як набір німецькомовних текстів, витягуючи текстові та метадані з ресурсів, зазначених у заголовку TEI (і нижче). Ми виправили деякі існуючі метадані та додали нові метадані для (деяких) авторів, (деяких) дат публікації та жанру, а також статистику стилів. Усі сховища, з яких ми отримали наші дані, містять тексти, термін дії авторських прав яких минув.

KOLIMO надається під ліцензією Creative Commons, відповідно до ліцензій вихідних сховищ. Тексти з TextGrid доступні за ліцензією атрибуції CC-BY (див. Цифрову бібліотеку textgrid). Однак документи Deutsches Textarchiv надаються за ліцензією CC BY-NC 3.0 (некомерційна, див. Creative Commons), що означає, що комерційне використання цих текстів заборонено (див. Умови використання dta). Документи Гутенберга-DE надаються таким чином, що ми розуміємо як ліцензію CC-BY-NC-SA (некомерційна, поділяємо однаково, див. Creative Commons), що означає, що комерційне використання цих текстів заборонено, а також реміксування, перетворення, або використовувати матеріал лише за умови використання тієї самої ліцензії, що й оригінал. При використанні корпусу, будь ласка, переконайтеся, що цитуєте джерела текстів, як того вимагають окремі висловлювання, і надайте команді KOLIMO, переліченій нижче, за компіляцію тексту, анотацію та роботу над метаданими.

Розділ "Гутенберг" було витягнуто з DVD-ROM Gutenberg-DE Edition 13 (випущено в листопаді 2013 року, див. Gutenberg-DE) і перетворено з HTML на XML і TXT; розділ “Deutsches Textarchiv” було витягнуто з “Довідкового корпусу нової високонімецької мови” (див. версію 8 липня 2015 р .; і “TextGrid” - з “Texts Korpus Version II” (див. цифрову бібліотеку textgrid).

Як цитувати бета-версію KOLIMO

Вказуючи на корпус у науковому спілкуванні, цитуйте:

Більше інформації про KOLIMO та його підкорпус, Kafka/reference corpus (KAREK), можна знайти тут: