Семантично перевірені сукупності ключових слів

2Серед різних методів, які можна розглянути для створення або ідентифікації цих спільнот, ми вирішили зосередитись на методах, заснованих на створенні сукупностей ключових слів. Загалом термін, присвячений групуванню ключових слів, - це термін «кластер». Поняття "кластер" відноситься як до вузлів мережі, так і до несучої структури цієї мережі. У нашому випадку процес агрегування, хоча і використовує прив’язки як ресурси, створює простий список. Ось чому ми віддали перевагу терміну сукупність. Сукупність визначається Баялі та Канні (1986) як сукупність вузлів, логічно пов'язаних у графі.

3 Для того, щоб визначити спільноти користувачів на основі інтересів, ми пропонуємо згрупувати ключові слова з інформаційного пошуку в сукупності з чіткою семантичною послідовністю. Під семантичною послідовністю ми розуміємо здатність групи слів якомога точніше охоплювати поле домену. Цей список слів може бути подібним до того, що в лексикології називається лексичним полем. Mel'Cuk та співавт. (1995) дають таке визначення лексичного поля: "Ми називаємо лексичне поле семантичного поля набором слів, основні лексики яких належать до цього семантичного поля".

4Використовуючи ключові слова, використані під час пошуку інформації новим користувачем, ми зможемо (1) ідентифікувати відповідні спільноти завдяки таким чином побудованим сукупностям, щоб (2) наблизити цього користувача до приєднаних користувачів до найближчі громади і, отже, (3) пропонують нові послуги на основі цих спільнот.

6 “Кластеризація” ключових слів була предметом багатьох досліджень в останні роки, як щодо класифікації (документів, запитів, веб-сайтів тощо), так і для інформаційних досліджень. Однак, як зазначали інші автори до нас (Shingo et al., 2006), вивчення ключових слів, що використовуються в контексті запитів користувачів Інтернету через "комерційні" пошукові системи (Google, Yahoo, Exalead ...), є складним, навіть майже неможливо, просто тому, що необхідні ресурси не розподіляються, оскільки вони представляють частину їх бізнесу (приклад: перепродаж ключових слів). Насправді існує мало публікацій, присвячених дослідженню або навіть експлуатації, які можна запропонувати ключові слова, що використовуються в пошукових системах в Інтернеті. Однак ми сформулюємо сучасний рівень роботи, який розглядав сукупність ключових слів. Спочатку ми обговоримо роботу над групуванням ключових слів з пошукових систем в Інтернеті. Згодом ми зосередимося на роботі, що стосується створення семантично однорідних сукупностей, що надихнули нашу роботу.

8 Інші роботи, такі як (Cui et al., 2002) та (Fonseca et al., 2004), намагаються створити кластери ключових слів, співвідносячи ключові слова, використані в пошуку, з тими, що висуваються за допомогою повернутих URL-адрес (URL, заголовок, ключові слова, цитовані на сторінці html тощо) та вибрані користувачем Інтернету. Цей метод має ті самі залежності від індексів пошукової системи, що і попередній. Крім того, цей метод також ставить проблему актуальності впорядкування результатів комерційними пошуковими системами Інтернету, порядок подання сильно впливає на вибір сайту, запропонованого користувачем.

9 Робота (Koutsoupias, 2000), зі свого боку, мала на меті створити методику збагачення запиту, пропонуючи користувачеві Інтернету додаткові ключові слова з частих запитів або із запитів, що повертають велику кількість веб-сайтів. Зараз ці послуги пропонуються стандартно деякими пошуковими системами (Yahoo, Google). Однак ці дуже практичні прийоми використовуються лише для створення груп з кількох слів, як правило, від трьох до п’яти.
Створення сукупностей семантично однорідних ключових слів видається більш доречним для пропонування нових послуг користувачам Інтернету, зокрема для визначення спільнот використання, ніж раніше представлені системи кластеризації. У нашому графічному зображенні елементи зв’язку будуть відповідати «спільному використанню» слів, самі слова є вузлами графіка. Реалізація графіків, що представляють ключові слова, проілюстрована, наприклад, на веб-сайті http://adlab.microsoft.com/Vnext/Entity-Association-Graph/Default.aspx (див. Рисунок 1).

семантично

10 Існує кілька методів групування об’єктів на графіках. Слід враховувати лише методи, що дозволяють покривати різні заповнювачі. За своєю природою слово повинно простежуватися в різних контекстах.

13 Спостереження за користувачами Інтернету, які шукають інформацію за допомогою пошукової системи (Belbèze and Soulé-Dupuy, 2007), дозволило нам визначити, що чим більше користувач мав глибоких знань з розглянутої теми, тим легше йому було знайти відсутні дані шукали. Тож досвідчений користувач може ввести слова пісні, щоб знайти повний текст. Ця базова навичка, яка є визначальною для доступу до інформації, є елементом, який можна швидко передавати через ефективний зв’язок між користувачами, отже, наша пропозиція щодо об’єднання ключових слів із пошукових систем, зокрема, для побудови динамічних спільнот користувачів.

14Використання Інтернету та пошукових систем зараз в основному відбувається анонімно. Єдина інформація, відома про користувача Інтернету під час його пошуку, крім його апаратного та програмного забезпечення, - це його розташування в мережі та ключові слова, що використовуються під час пошуку, а також вибрані посилання. Користувачі Інтернету неохоче докладають зусиль для автентифікації та самоопису. Зусилля щодо автентифікації приймаються ще гірше, оскільки вони, як правило, відповідають лише зарезервованому простору (лише для особистого користування). Час, витрачений на самоопис, теж не відповідає звичкам безпосередності таких популярних сервісів, як пошукові системи.

Отже, створення динамічних спільнот може бути використано для того, щоб дозволити користувачеві співпрацювати з іншими людьми, не вимагаючи автентифікації, опису себе чи навіть реєстрації в цих просторах. Фактом залишається той факт, що підпис або постійний елемент зв'язку, такий як адреса електронної пошти, дозволить системі працювати асинхронно.
У прикладі, представленому на малюнках 2 та 3, Джордж анонімно шукає веб-сайти, що використовують ключові слова B, E, G та H. Завдяки сукупності № 1, що містить ці слова, Жоржу можна запропонувати зв’язатись із користувачами з сфери інтересів, близькі до його власної. Він може або відкрити чат-кімнату, до якої будуть автоматично запрошені користувачі Інтернету, яких стосуються ключові слова сукупного № 1, або розпочати бесіду з миттєвими повідомленнями з користувачем "Анонім" або залишити повідомлення Енні (див. Малюнок 3).