AntConc LinguTools
Поширені засоби анотації та аналізу корпусу в лінгвістиці

Що таке AntConc?
AntConc - це інструмент узгодження для письмових корпусів, за допомогою якого можна порівняно легко виконувати стандартні пошукові запити для комп'ютерного аналізу корпусів. Програмне забезпечення автоматично створює списки слів (частота слів) та статистичні дані, наприклад, про взаємозв'язок між "лексемою" та "типами", за допомогою яких, серед іншого, можна перевірити багатство словникового складу тексту. Інструмент підтримує поширений формат UTF-8 і дозволяє здійснювати пошукові запити з регулярними виразами. AntConc є частиною низки багатьох інших інструментів для аналізу текстів (наприклад, AntWordProfiler, AntGram, AntPConc або FireAnt).
Переваги:
- просте, інтуїтивно зрозуміле управління
- чіткі списки відповідності
- Перегляд сортування
- Можливі кластерні та n-грамові розрахунки
- Можливі оцінки за допомогою позначених POS та позначених текстом текстів
- Контрастивний аналіз
- доступний для ПК та Mac
- Відеоуроки та довідка
Недолік:
- ручна анотація/транскрипція неможлива
- відсутність аналізу тексту-зображення
- лише для корпорацій приблизно до 1,5 мільйонів жетонів
Початок роботи/сценарій використання:
Часто випадкові спостереження у повсякденному житті призводять до цікавого з лінгвістичного питання питання. Це можуть бути помітні формулювання, модні та заборонені слова, але також мовні сумнівні випадки. На прикладі порівняно нової категорії харчових продуктів суперпродуктів з сучасного дієтичного дискурсу, далі показано можливості мовного аналізу корпусу за допомогою AntConc.
Оцінка:
Якщо ви введете слово superfood у рядок пошуку, спочатку ви отримаєте всі звернення у поданні конкордантності. Великі та малі регістри враховуються лише в тому випадку, якщо встановлено прапорець "Регістр". Для того, щоб скласти перше враження про мовний текстовий текст, звернення також можна сортувати за допомогою кнопки «Сортувати» (знімок екрана 1). Якщо поруч із "Слова" немає галочки, пошуковий запит не враховує жодних меж слів, тому перераховані як форма множини, так і різні сполуки, такі як порошок суперпродуктів. Дискурсивні дебати з терміном суперпродукти (7) та тенденція щодо суперфудів (14) тепер вказуються в огляді відповідності. Різні продукти, такі як брокколі (8) або ягоди годжі (11), також, схоже, пов’язані з ключовим словом.
Знімок екрана 1: Центровані відповідності пошуковому терміну "суперпродукт"
Атрибути реального та екзотичного також вказують на ці дві сфери: по-перше, дискурсивно обговорене питання про те, що суперпродукти роблять в принципі, і, по-друге, про те, які продукти входять. Для систематичного переліку прикметникових атрибутів спочатку потрібно створити корпус, позначений відповідно до частин мови. Інструмент AntTag робить це можливим простим способом. Під час перетворення потрібно вибрати параметр мови «німецький» та варіант позначення «горизонтальний» (а не «вертикальний»). Позначений документ автоматично зберігається під оригінальним текстовим документом. Якщо тепер ви завантажуєте всі файли, позначені POS-мітками, створені таким чином, в AntConc, ви отримуєте огляд усіх атрибутів прикметників, які безпосередньо слідують за ключовим словом ліворуч, використовуючи пошуковий запит "ADJA superfood" (знімок екрана 2). Дискурс, який є помітним у лінгвістичному плані, - це посилання на оскаржувану тему, в якій публічно обговорюється, що є справжніми чи справжніми суперпродуктами. Також розглядається саме дискурсивне вдосконалення, наприклад, за допомогою доказів розкручених, нових та модних суперпродуктів. Модне слово, очевидно, описує різні продукти, що відповідають сучасним харчовим нормам.
Знімок екрана 2: Центрировані відповідності пошуковому терміну "суперпродукт" із корпусом із позначкою POS
Огляд частоти слів можна порівняно легко створити на вкладці «Список слів» (знімок екрана 3). Там першими змістовими словами є однина суперпродукт (37), форми їсти (34) та здорові (40). Як і слід було очікувати, є ряд високочастотних, менших слів від детермінативів до допоміжних дієслів у верхній частині, тоді як прийменники у та з знаходяться вгорі.
Знімок екрана 3: Список слів
Ще однією перспективою оцінки методу, керованого корпусом, є обчислення N грамів, яке можна проводити як із позначеним, так і без тегового корпусу. Поле введення залишається порожнім, прапорець потрібно встановити галочку "N-грам". Огляд біграм (знімок екрана 4) дає вказівку на ключовий англіцизм чистої їжі, а поширена комбінація слів також показує, що тексти мають тенденцію визначати, які типи суперпродуктів де і як споживаються (знімок екрана 5) . Якщо ви йдете шляхом введених фраз, ви можете знайти специфічне для дискурсу внесення прийменникових вкладок (знімок екрана 6), у якому відповідний іменник виражає те, що вважається суперпродуктом:
З семантичної точки зору суперпродукти являють собою збагачення. Цей харчовий-фізіологічний надлишок реалізується морфологічно за допомогою сполук (пудинг чіа) та синтаксично, серед іншого, у спільній конструкції. Ці конструкції використовуються для поєднання добре відомих страв та продуктів - за станом здоров’я - із здоровою їжею (салат з капустою, миски для смузі з насінням чіа).
Знімок екрана 4: Біграми
Знімок екрана 5: Докази фрази "там" у поданні конкордантності
Знімок екрана 6: Огляд біграми для прийменника "з"
Знімок екрана 7: Спільна поява пошукового терміна „суперпродукт” (розміщується) у середовищі з п’яти слів ліворуч та праворуч
Для оцінки згідно з "Collocates" потрібно вибрати вихідне слово або фразу, з якими інші слова співіснують у раніше вибраному середовищі (попередньо встановлене середовище, яке знаходиться п’ять слів зліва та праворуч від пошукового терміна). Для суперпродуктів є накопичення форми однини та множини sein (є і є) (знімок екрана 7), що свідчить про те, що англіцизм регулярно зустрічається у присудках, в яких робляться дефінітивні приписи, як у наступних предикативних конструкціях:
Докази цілющої сили суперпродуктів рідкісні. (Фокус онлайн 7.6.2018)
Овес - справжній «суперпродукт». (Spiegel в Інтернеті, 19 квітня 2018 р.)
Список ключових слів можна створити лише в тому випадку, якщо порівняльний корпус було попередньо завантажено до AntConc у розділі "Налаштування інструменту". Наприклад, для корпусу суперпродуктів існував би тематичний контраст із більш глобальними статтями про харчування, які, мабуть, демонструють менше метадискурсивних слідів, оскільки визначення менш суперечливі. Можна також припустити, що конструкцій визначення та присвоєння менше.
Висновок:
У цьому корпусно-лінгвістичному міні-дослідженні термін суперпродукт було визнано модним словом, вплив на здоров'я якого відповідає окремим продуктам та інгредієнтам, а наслідки для здоров’я (критично) обговорюються в дискурсі громадської преси.