Дистрибутивна семантика

Розподільна семантика Чи значення слова у вас у голові? Пітер Колб 9 грудня 2010 р

семантика

Огляд Функція Семантика (MS) Розподіл Семантики (DS) Метод Порівняння Порівняння MS DS

їздити на коні годувати коня інсульт кінь галопом кінь спить кінь їсть швидкий кінь старий кінь дикий кінь * форматувати коня * залізти коня * продути коня * кінь сперечається * кінь телят * коня годує * зворотно Кінь * лісовий кінь * кутовий кінь

Обмеження вибору моделі із семантичними ознаками: Кінь аргументує сон [+ жвавий] [- людина] SUBJ: [+ жвавий] SUBJ: [+ людина] кінь спить * кінь сперечається

Читання неоднозначності: кінь 1 [+ живий] [- людина] кінь 2 [-живий] сон SUBJ: [+ живий] аргументувати SUBJ: [+ людина] кінь спить конем 1

Кінь жеребець пферд [+ дорослий] [+ самець] жеребець кобила [+ дорослий] [+ самка] кобила лоша [-дорослий] лоша [-дорослий] [+ самка] кобилка [-дорослий] [+ самець] жеребець чорний [+ чорний ] чорний кінь сірий [+ білий] білий кінь [+ сірий] сірий кінь лисиця [+ червоно-коричневий] щавель

Методи пояснення слів: (1) Показати: Це кінь (2) Перекласти: Кінь означає "кінь" (3) Визначте: Білий кінь - це білий кінь

Методи пояснення слів: (1) Показати: Це кінь (2) Перекласти: Кінь означає "кінь" (3) Визначте: Білий кінь - це білий кінь Чи можна визначити весь словниковий запас? Слова, пояснені словами: небезпека кругових визначень

кругла = форма кола, що показує сферу Коло = рівномірно кругла, самостійна лінійна куля = повністю кругле тіло (Duden Deutsches Universal приблизно, 1996 р.)

Само собою зрозуміло, що семантичні ознаки - це абстрактні, теоретичні одиниці, що представляють складні, психічні структури. [] Терміни [] не повинні призводити до припущення, що самі характеристики знову є лексичними одиницями якоїсь природної мови. Усі семантичні структури [зрештою] можна простежити [] до ознак, що представляють основні диспозиції структури мислення та сприйняття людського організму. (Манфред Бірвіш, 1969)

Кінь [+ K027] [-S143] [+ B415] [+ R024].

Наслідки: значення складаються із семантичних ознак, вони є нелінгвістичними та вродженими. Значення окремих слів можна навести окремо Значення вживання та посилання (посилання)

Значення - це уявні уявлення: терміни, поняття, прототипові образи в голові

семантичний об’єктивізм: слова представляють те, що вже дано у сприйнятті чи в мисленні, тобто чи існує це незалежно від мови. Значення передує мовним знакам. Слова схожі на таблички з іменами, що додаються до значень (Вітгенштейн)

Проблеми: (1) практична реалізація: як мені простежити Zeitgeist назад до помітних або логічних будівельних блоків? Які вони взагалі? (2) багато категорій мають нечіткі стереотипи меж, необов’язково повинна бути характеристика, яка стосується всіх представників категорії, деякі представники категорії є більш репрезентативними, ніж інші природні категорії, не мають чітких меж (наприклад, дерево проти куща)

Огляд Функція Семантика (МС) Розподіл Семантики (ДС) Метод Порівняння Порівняння MS DS

їздити на коні годувати коня інсульт кінь галопом кінь спить кінь їсть швидкого коня старий кінь дикий кінь * форматування коня * залізо коня * удар коня * кінь сперечається * кінь телят * коня годує * зворотно Кінь * лісовий кінь * кутовий кінь

їздити на коні нагодувати коня кінь галопує кінь спить кінь їсть швидкий кінь старий кінь дикий кінь * форматування коня * залізо коня * видування коня * кінь сперечається * кінь телят * кінь годує * зворотно Росс * лісовий кінь * кутовий кінь

* їхати на курці годувати куркою інсульт курка * курка галопом курка спить курка їсть швидку курку стару курку дику курку * форматування курки * прасуємо курку * дуємо курку * курка сперечається * курча телята * курка годує * перевернута курка * лісиста курка * кутова курятина

* їхати по склянці * годувати склянку пестити склянку * склянка галопом * склянка спить * склянка їсть? швидке скло старе скло * дике скло * форматування склянки * залізо скло * видування склянки * скло стверджує * скло телята * скло годує * зворотне скло * деревне скло кутове скло

Гіпотеза розподілу (Harris 1968): Слова, що використовуються в подібних контекстах, мають подібне значення. Використання Значення Використання = розподіл у корпусі = сума всіх контекстів

Що означає контекст? загальновживані слова Що означає загальне? Відстань синтаксичного відношення

Розподіл визначають узгодженість:

Вікно ± 3 слова (зверніть увагу лише на змістові слова):

Вікно ± 3 слова (зверніть увагу лише на змістові слова):

Вікно ± 3 слова (зверніть увагу лише на змістові слова):

Вікно ± 3 слова (зверніть увагу лише на змістові слова):

Вікно ± 3 слова (зверніть увагу лише на змістові слова):

Список загальних слів з частотою: Профіль розміщення (= розподіл слова) перетворює абсолютні частоти зі статистичним показником значимості у значення значимості Верхова їзда 18,7 їзда 16,9 рись 15,2 вершник 14,5 верблюд 13,1 осел 13,0 їзда 12, 3 верхи 12,1 верхи 10,8 слон 10,8 мул 10,8 поводи 10,6

Список загальних слів з частотою: Колокаційний профіль (= розподіл слова), що перетворює абсолютні частоти зі статистичним показником значимості у значення значимості Верхова їзда 18,7 їзда 16,9 рись 15,2 вершник 14,5 верблюд 13,1 осел 13,0 їзда 12, 3 верхи 12,1 верхи 10,8 слон 10,8 мул 10,8 поводи 10,6. Росс вершник 14,4 кріплення 11,7 стійкий 9,9 поводи 9,7 фута 8,2 білий 7,9 вершник 7,6 охороняється 6,8 золотий 6,8 швидкий 6,7 стрибки 6,3 верблюд 6,2.

Список загальних слів з частотою: Профіль розміщення (= розподіл слова), що перетворює абсолютні частоти зі статистичним показником значимості у значення значимості Верхова їзда 18,7 їзда 16,9 рись 15,2 вершник 14,5 верблюд 13,1 осел 13,0 їзда 12, 3 верхи 12,1 верхи 10,8 слон 10,8 мул 10,8 поводи 10,6. Росс вершник 14,4 підйом 11,7 стійкий 9,9 поводи 9,7 фута 8,2 білий 7,9 вершник 7,6 охоронений 6,8 золотий 6,8 швидкий 6,7 стрибки 6,3 верблюд 6,2.

Порівняння всіх слів (стовпців таблиці) між собою: високі значення для слів, які використовувались у подібних контекстах для кожного слова Список найбільш подібних слів Кінь: Кінь Кінь Осел Тварина Вівця Собака Верблюде скло: Келихи для пляшок Кубок Ковток пивного скла.

сором'язливий: сором'язливий боїться нерішучий вагається тихо нервовий сумний переляканий скромний незграбний збуджений невпевнений ввічливий добродушний страх. Капіталізм: соціалізм комунізм демократія імперіалізм фашизм капіталістична ринкова економіка лібералізм сталінізм. крик: крик, виття, сміх, ридання, дзвінок, спів, рев, гавкіт, дощ, крик, стогін, кровотеча, крик, кашель, лайка, скажи, говори.

Огляд Функція Семантика (MS) Розподіл Семантики (DS) Метод Порівняння Порівняння MS DS

Обмеження вибору моделі з подібністю розподілу (Erk et al. 2010)

Прогнозування мозкової активності при обробці іменників (Mitchell et al. 2008) Активність мозку, виміряна за допомогою магнітно-резонансної томографії (МРТ) 25 дієслів: бачити чути слухати смак запах їсти дотик бігати рухатися говорити страх драйв знос.

60 іменників: селера кукурудзяного літака в корпусі загальне вживання 60 іменників з 25 дієсловами визначають значення значення, наприклад селера: їсти 0,84 смак 0,35 наповнювати 0,32 на основі цих значень та вивчених зразків активності з 25 дієслів Схеми діяльності іменників передбачають рівень успіху 77%

Розподіл пробілів слів різних мов Переклад колокацій (рядків таблиці), наскільки відомо: Кінь: верхова їзда рись рись вершник вершник верблюд верблюд кріплення новий стовпець у таблиці мови перекладу порівняння з усіма стовпцями мови перекладу найбільш схожа колонка = переклад

Експериментуйте німецькі англомовні простори слів з двомовного словника німецької та англійської Вікіпедії з 16 000 записів 800 тестових слів із відомим перекладом Іменники: 60% правильний (очікуваний переклад знайдено як найбільш подібне слово) Дієслова: 45% правильний Прикметники: 66% очікуваний переклад серед 20 найбільш подібних у іменниках: 87% Дієслова: 78% Прикметники: 93% випадків.

mean: значення 0,046 означає 0,034 означає 0,033 означає 0,032 дієслова 0,031 суфікса 0,030 похідного 0,030. Гарбуз: авокадо 0,084 капуста 0,081 кавун 0,080 кукурудза 0,078 гарбуз 0,077 полуниця 0,076 потрібно: необхідно 0,150 достатньо 0,073 достатньо 0,097 відповідно 0,080 потрібно 0,079. щорічно: щорічно 0,151 щорічно 0,135 щорічно 0,099 щомісяця 0,073 щотижня 0,060 чесно 0,058.

Моделі Vector Space є, мабуть, найуспішнішим підходом до семантики на сьогодні. (Turney & Pantel 2010)

Огляд Функція Семантика (MS) Розподіл Семантики (DS) Метод Порівняння Порівняння MS DS

Августинський образ мови (за Вітгенштейном ПУ 1) Слова мови називають об’єкти Кожне слово має значення, яке присвоюється цьому слову. Це об’єкт, для якого стоїть слово. Вивчення мови так, ніби дитина вже володіє мовою, ніби вона вже може запитати: Який предмет мають на увазі дорослі під словом «дерево»? як дорослий, який уже говорить мовою і приїжджає до чужої країни

дорослий вивчає мову: "синій" означає синій "дерево" означає радикальну інтерпретацію дерева (Д. Девідсон). ніби дитина приїхала в чужу країну і не розуміла мови країни; тобто: ніби у нього вже була мова, тільки не ця. (PU 32), але дитина не має мови перед мовою: "синій" означає X X = не слово, а щось позалінгвістичне, об'єкт, для якого слово стоїть

Рубен ван де Вайвер: Фонологія. Самі звуки не мають значення. У поєднанні вони утворюють слова, що мають значення. Тому звук мови повинен відрізнятися від інших звуків. Тільки тоді можна будувати словниковий запас. Структуралісти: різниця та опозиція У структурі все має сенс лише з цілого. Слова мови не виокремлюються як носії значення, але кожне має своє значення лише тому, що інші мають значення поряд. (Трір 1931, с. 643)

Самі знаки складаються лише з відмінностей, які не визначаються позитивно за своїм змістом, а негативно за їхніми стосунками до інших членів системи. Їх найбільш визначений знак - це те, що інші не є. (Сосюра 1916, стор. 139), що означає цілі відносно окремі слова, не можуть мати значення незалежно від інших значень, наданих у мові, значення = місце в мовній системі

четвертий метод визначення: структурна ідентифікація (Carnap 1961) кожне слово, яке можна чітко ідентифікувати шляхом вбудовування його в структуру простору слів, працює, незважаючи на циркулярність простору слів виникає внаслідок використання слів у текстах мова є самореференційною системою, слова не містять своєї функції через припис ззовні Сенс - це не щось сторонне або долінгвістичне, що прикріплюється до слів, а їхня придатність до використання в системі

Питання "Що насправді є словом?" є аналогом "Що таке шахова фігура?" (Вітгенштейн 1953, 108) Мова не містить ні ідей, ні звуків, які існували б раніше стосовно мовної системи, а лише концептуальні та фонетичні відмінності, які є результатом системи. (Сосюра 1916, с. 143)

Де сенс? Сенс у дискурсі. (Teubert 2005)

Література Bierwisch, Manfred: Структурна семантика. У Гофмана, Л. (вид.), Лінгвістика: Читач. Де Груйтер 1996. Карнап, Рудольф: Логічна структура світу. Фелікс Мейнер Верлаг, 1961. Ерк, Катрін, Падо, Себастьян і Падо, Ульріке: Гнучка, керована корпусом модель регулярних та зворотних вибіркових уподобань. Обчислювальна лінгвістика 2010. Гарріс, Зеліг: Математичні структури мови. Interscience Publishers 1968. Мітчелл, Том М. та ін.: Прогнозування активності мозку людини, пов’язаної зі значеннями іменників. Science, Vol. 320, 2008. Putnam, Hilary: Значення смислу. Клостерманн 1979-й де Соссюр, Фердинанд: Основні питання загальної лінгвістики. Де Груйтер 1967.

Література Теуберт, Вольфганг: Мій варіант корпусної лінгвістики. Міжнародний журнал корпусної лінгвістики 10: 1, 2005. Трір, Йост: Мовні поля. У Гофмана, Л. (вид.), Лінгвістика: Читач. De Gruyter 1996. Терні, Пітер і Пантел, Патрік: Від частоти до значення: Векторні космічні моделі семантики. Журнал досліджень штучного інтелекту, 37, 2010. Велмер, Альбрехт: Sprachphilosophie. Суркамп 2004. Вітгенштейн, Людвіг: Філософські дослідження. Робоче видання т. 1, Суркамп 1984.