УРАЛЬСЬКА МОВНА БАЗА ДАНИХ

suihkone /). Стаття складається з лекцій на Днях науки, організованих Хельсінським університетом 9 і 10 січня 1997 р., Та конгресі IFUSCO 1997 24 квітня 1997 р. Німецький переклад виконали пані Ірмелі Хелін та доктор Хельмут Дікман занепокоївся. Я хотів би висловити вам найтеплішу подяку. Я також хотів би подякувати проф. Ins Cornelssen за ваші коментарі до цієї статті.

база

Карта 1. Мовні області уральської мови 5

12 CONJ_a = mutta ADV_öni = nyt PRN-NEG_n'ekod_SG_NOM = ei kukaan V-NEG_oz_PRES_3SG-PL = ei V_tydav_NEG_SG = nahkyä. # Alakuloisia ajatuksia nytä. # Alakuloisia ajatuksia. матеріал в Erzänischen з морфологічним кодування (Джек Rueter 1994) 00080025 V_Uchost'_IND_PT1_SUBJ-3PL_FAB = WAIT N-P_Mat'an'_GEN-OBJ_IDF = (ім'я), ПРН-REL_kona_SG_NOM_AB1F = V_tus'_SUB_F_N_AB1 ВООЗ _GEN-OBJ_IDF = ЛІКЕР V_veshn'eme_INF-OBJ = ПОШУКАЙТЕ. # ЧЕКАЛИ МАТЬЮ, ЯКИЙ ПОШУКАЛИ МУЖСЬКИЙ ШИРОК. # 00080026 PRN-ЗА СІН SG3 NOM = SHE V_sas'_IND_PT1_GUB_SUB_PAD1_GUB_SUB_PAD1_SUB ATR IDF = ТОЙ, ЩО ПОПУСТИЙ N kedt 'PL NOM-COM IDF = РУКА. # ВОНА ПОВЕРНУЛАСЯ ПУСТО-РУЧНА. # 00080027 N kedt' PL NOM-COM IDF = HAND 00080027 NUM_Kavto_SG_NOM_IDF = ДВА N_kudoso_INE_IDF'N '_IND_PT1_SUBJ-1SG_FAB = BE, PRN-_mez'ejak_SG_NOM_IDF_PCL-INCL = НІЧЕ PCL-NEG1_a = НЕ V_maksit'_IND_PRS_SUBJ-3PL_FAB = НАДАТИ PR N-PER тонна 'SG2 GEN = ВИ N_kasol'ent'_SG_GEN-OBJ_DEF = БОБИ POP_kise_INE_IDF = ДЛЯ, N-P_Pakhom_SG_NOM = (ВИДАНО ІМ'Я). # Я БУВ ДВІ ДОМИ, ПАХОМ, АЛЕ ВИ НЕ ВИДАЛИ КВАСЛИНА.

Корпус Селкупіка з морфологічним та синтаксичним кодуванням та перекладом на німецьку мову (Ярмо Алатало, 1998) 13 Ітжа та Пюнегуссе. (A8) T: A8. iicjä Immrljantrsä urrkäsjprkkaqr. Ітя жив у своєї тітки. iicjä N SG NOM SBJ Immrljantrsä N SG KOM 3S LDM SAD urrkäsjprkkaqr V AOR 3DS FRE KNT VER T: A8. okkrr taaqrn iicjä mykka Immrljaqrntr: Ітя колись сказав тітці: okkrr P ATR taaqrn N SG LOK SAD iicjä N SG NOM SBJ mykka V AOR 3SS FRE VER imprljaqrntr N SG DAT 3S LDM SAD T: A8. "man kojalang qarrngtrlj aaqqrn poqlontr". "Я йду до затоки нахилу річки". man P SBJ kojalang V OPT 1SS VER qarrngtrlj P IP TRA ATR aaqqrn N SG GEN ATR poqlontr N SG DAT SAD Udmurtisch (Pirkko Suihkonen 1998b: 30-31, 48-49, тестове кодування) (1) Морфологічне кодування з перекладами основних форм слів Dzhog_ADV_MAN швидко, скоро ortts '+ я + z_v_-cont_-tra_ + fin_ind_past_sg3 пройти (відстань) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM золотий kuaro_a_scal_sg_nom, z_v_-cont_-tra_ + fin_ind_past_sg3 пройти (відстань) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM золотий kuaro_a_scal_sg_nom, z_v_a_scal_sg_nom з листям dyr_G_sg_nom + z_m_vhu-cont_sg_nom + dyr_G_SG_NOM + time_s_vhu часу + z_vhu-AN_CO -tra_ + fin_ind_past_pl3 наступати zhob_a_scal_sg_nom неприємний, неприємний siz'yl_n_ + count_-anim_sg_nom A_SCAL_SG_NOM ADV_TIME осінній nunal + jos_n_ + count_-anim_pl_nom день. У + ez_N_ + COUNT_-ANIM_SG_ACC небо, небо

Автоматичний аналіз спочатку дає форму слова в корпусі, потім перераховується тлумачення відповідної форми слова, тобто її значення. Інтерпретація містить основну форму слова та морфологічний аналіз форми слова. Усі значення відповідної форми слова разом утворюють когорту (Karlsson 1992: 3; Karlsson 1995: 46). В UHLCS використовується програма автоматичного аналізу фінської мови. Автоматичний аналіз фінської (Koskenniemi 1983) (кіт спав на стійках сходів і мріяв про літо) * kissa nukkui tallin portailla ja uneksi kesästä. (") (" ("kissa" N NOM SG)) (" ("nukkua" V МИНУЛИЙ ЗАКОН SG3)) (" ("talli" N GEN SG)) ("

"(" porras "N ADE PL)) (" "(" ja "COORD C)) (" "(" uneksia "V IMPV ACT SG2) (" uneksia "V PRES ACT NEG) (" uneksia "V PAST ACT SG3 ) ("uni" N TRA SG)) (" ("kesä" N ELA SG)) (") Якщо автоматичне кодування запрограмоване для аналізу мови, ця програма може бути використана для кодування подальших матеріалів Завдання кодування, як автоматичного, так і ручного, полягає у забезпеченні максимально достовірних знань про відповідну мову. Крім того, кодування повинно виконуватися настільки обережно, щоб жодна інформація в оригінальному тексті не втрачалася. Кодований матеріал також слід передавати іншому, з іншим Можуть бути впроваджені концепції або системи кодування, оброблені для типологічно різних мов. 5. Використання матеріалу для дослідницьких цілей Матеріал може бути використаний по-різному на практиці. Лінгвістичні дослідження, включаючи дослідження спеціальних областей у них, є важливим

16 мов та редагування матеріалу для словників та граматик. До цієї категорії належить удмуртський словник, який створено з матеріалу удмуртського текстового корпусу. Пізніше словник буде доступний на електронному сервері корпусів. У наступному прикладі слово удмурт стоїть першим, а потім перекладається англійською та фінською мовами. Електронні корпуси як матеріал для словників (Суйконен, Загуляєва та Троніна 1995: 17) UDMURT/UDMURTTI ENGLISH/ENGLANTI FINNISH/SUOMI ad'ami, N людина, людина; людина. хімінес; поганий; henkilö. addz '+ em, 1-й V PCPL

, 2. N 1. с. Аддзиний. 2. бачити. 1. кс. аддзиний. 2. Некемінен. addz'empoton, N хочу побачити. halu sewdä. addz'empot + on + tem, ADJ ks. аддземпотон; ненависний; огидний. ks. аддземпотон; віхаттава; vastenmielinen, inhottava. addz'empotostem = addz'empotostem. addz'em # pot + y + ny, V INF, щоб побачити. haluta sewdä. addz'is'k + is ', V PCPL

с. аддзіськіни. ks. аддз’іскіни. addz'is'k + on, N 1. видимість. 2. зустріч, зустріч. 3. привид. 1. Näky (väi) syys. 2. кохтаус; тапааміни. 3. aave. addz'is'k + on + tem, PCPL

с. аддзіськіни. ks. аддз’іскіни. addz '+ is'k + y + ny, V INF

уралілаістен холодний тієтопанккі оват оса Хельсінгін іліопістон> талтелла олеваа ері холодний тіетопанккія. 19 Програма kw-alg здійснює пошук присвійних суфіксів -ez та -yz 3-ї особи в sg . І пл. Удмурту як послідовність символів, які також можуть бути суфіксами для Вхідним файлом конкордації є морфологічно проаналізований розділ удмуртського текстового корпусу. Зразок матеріалу - це прокрутка тексту без перетворення великих літер та розділових знаків. kw-alg '\ + (ez hez yz)' цільовий файл 104: Anaj + ez kosem + ys 'gine kyti-oti tölatis'ky + ny 125: a, inzhen'er + ly dyshetskon s'ures + ez. 118: i + z t'ehn'its'eskoj l'it'eraturaj + ez. 48: 'ko + d + -a, myn + a + m thukaz'e berpum + yz Erkyn nunal + e kyl' + i + z. 69: Віктор Івановиць '+ len pits'i dyr + yz s'elo + ja + my ortts' + i + z. 91: Esh + jos + yz uram + yn kalg + o, Наступний приклад - уривок із усього матеріалу північно-лапійського корпусу. Як параметри програми узгодження, крім визначення вхідних та цільових файлів, цифри також надаються як ідентифікатори слова, послідовність символів між двома розділовими знаками та довжина контексту. KWIC 4 4 цільової файл sápmelas'vuo JA gávnnahii, SUS Lea skandinávalas 'ва IGI buoremus dovdomearka лей, SUS лей ritmalac'c'at NJO л ásaidahttojuvjuvot ЕАНЕТ NU, Авдін JA geavatkeavohtes eaje з datneju асю asvit NU, KGO з DAT te sámec'earddaid gaskkas nu, viimmát nuortasámiid stii lmmos 'sáhttá govviduvvot nu, váldá ovdan iez'as árbevi ápmelac'c'at leat jurddas'an, vuoinjnjat lattditat sivdnidant так vuovdit "sámegovaid", maidda ássi vuoinjnjaide vuo uduvve dán dihtui luonddu gierd n goit bázii s'addat dovddusin sámi dáiddac'eahppin, id álgovu oleamus dáiddahápaz, hp'judagahanda sanshadahahada sanshadahahada sanshajdahahada sanshajdahagada sanshajdahagada sanshajdahahada sanshajdahahada sanshajdahagada sanshajadahaaa sanshadahada sanshajdahada sanshajdahaagada sanshajada, журналіст Матті (1872-1929) lei vuos Інститут мовознавства при Гельсінкському університеті підтримує обладнання та гарантує, що використовувані програми є сучасними та оптимально застосовними. Інститут також викладає базові знання про операційну систему UNIX та використання електронних корпусів як дослідницького матеріалу. Лінгвістичні інститути Хельсінкського університету також пропонують такий під час семестрів