Як генерація природних мов змінює SEO-гру - останні новини

Технології та методи створення вмісту, які я буду представляти в цій колонці, здаються такими, що вийшли з науково-фантастичного роману, але сьогодні вони цілком реальні та вільно доступні.

Після того, як я закінчив експерименти з кодуванням і почав писати цю статтю, я задумався про позитивні та негативні наслідки спільного використання цієї інформації.

Як ви побачите, сьогодні порівняно легко виробляти машинно створений вміст, а якість поколінь швидко покращується.

Це призвело мене до сумного висновку, що ми побачимо набагато більше результатів спаму, ніж раніше.

На щастя, нещодавно Google опублікував звіт про спам за 2019 рік, який змусив мене почувати себе дуже комфортно.

Ви коли-небудь переглядали свою папку небажаної пошти? Ось як могли б виглядати результати пошуку без кроків, які ми вживаємо для боротьби із пошуковим спамом. Наша сьогоднішня стаття досліджує, як ми працюємо, щоб запобігти появі спаму в результатах пошуку Google https://t.co/RA4lUoDXEF

- Google SearchLiaison (@searchliaison) 9 червня 2020 р

“Минулого року ми виявили, що понад 25 мільярдів сторінок, які ми знаходимо щодня, є спамом. (Якби кожна з цих сторінок була сторінкою в книзі, це представляло б понад 20 мільйонів примірників "Війни та миру" щодня).

Продовжуйте читати нижче

Наші зусилля забезпечили, що понад 99% відвідувань за нашими результатами перетворюються на досвід без спаму.

Останніми роками ми спостерігаємо збільшення кількості спам-сайтів з автоматично згенерованим та скребковим вмістом, із поведінкою, яка дратує або шкодить пошуковим особам, наприклад, підроблені кнопки, інвазивні оголошення, підозрілі перенаправлення та шкідливе програмне забезпечення. Ці сайти часто оманливі та не представляють реальної цінності для людей. У 2019 році нам вдалося зменшити вплив цього типу спаму на користувачів Пошуку більш ніж на 60% порівняно з 2018 ″.

Хоча Google повідомляє про величезну кількість сторінок зі спамом на день, він повідомляє про вражаючі 99% успіху в боротьбі зі спамом загалом.

Найголовніше, що вони досягли неймовірних успіхів у видаленні машинно створеного вмісту спаму.

У цій темі я поясню кодом, як комп’ютер здатний генерувати вміст, використовуючи останні досягнення NLG.

Я перегляну теорію та деякі вказівки, щоб ваш вміст був корисним.

Це не дозволить вам наздогнати весь спам, який Google і Bing працюють, щоб усунути цілодобово.

Продовжуйте читати нижче

Тонкі сторінки вмісту

У своїй статті про створення заголовків та метаописів я поділився ефективною технікою узагальнення вмісту сторінки для отримання мета-тегів.

Після того, як ви виконали ці кроки, ви зможете побачити, що він працює дуже добре і навіть може створювати якісні та невидані тексти.

Але що, якщо на сторінках немає вмісту для узагальнення? Техніка не вдається.

Дозвольте сказати вам дуже розумний трюк для вирішення цієї проблеми.

Якщо на цих сторінках є якісні посилання, ви можете використовувати опорний текст та текст, що оточує посилання, як зведений текст.

Повернемось до 1998 року, коли була створена пошукова система Google.

У документі, що описує їх нову пошукову систему, Пейдж і Брін поділились дуже цікавим розумінням у розділі 2.2.

“Більшість пошукових систем пов’язують текст посилання зі сторінкою, на якій посилання знаходиться. Крім того, ми пов’язуємо його зі сторінкою, на яку вказує посилання. Це має ряд переваг. Спочатку, анкери часто надають точніші описи веб-сторінок, ніж самі сторінки. По-друге, прив'язки можуть існувати для документів, які не можуть бути проіндексовані за допомогою текстової пошукової системи, наприклад, зображень, програм та баз даних. Це дозволяє повертати веб-сторінки, які фактично не проскановані ".

Ось технічний план:

  1. Ми отримаємо відповідні зворотні посилання та якірні тексти, використовуючи нові інструменти для веб-майстрів Bing.
  2. Ми викреслимо навколишній текст із найякісніших посилань.
  3. Ми створимо резюме та довгий вміст, використовуючи подряпаний текст.

Звіт Bing Webmaster Tools

змінює

Однією з особливостей, яка мені подобається у новому інструменті відстеження BWT, є те, що він може надавати посилання не лише на ваш власний сайт, але й на інші.

Я сподіваюся, що це стане популярною та безкоштовною альтернативою платним інструментам.

Я експортував файл CSV із великим списком посилань та прив'язок, але коли я спробував завантажити його за допомогою панд Python, виявив ряд проблем із форматуванням.

Продовжуйте читати нижче

Випадкові прив'язні тексти можуть містити коми і спричиняти проблеми з файлом, розділеним комами.

Я вирішив їх, відкривши файл у Excel та збереживши як Excel.

Подряпини навколишнього тексту за допомогою python

Як видно з наведеного скріншоту, багато текстів якоря досить короткі.

Ми можемо подряпати сторінки, щоб отримати абзац, який їх містить.

Спочатку завантажимо звіт, який ми експортували з BWT.

Я подивився цільову URL-адресу, виходячи з кількості використаних вхідних посилань.

Я витягнув зворотні посилання з однієї зі сторінок, щоб перевірити ідею за допомогою цього коду.

Продовжуйте читати нижче

Тепер давайте подивимося, як ми можемо використовувати цільову URL-адресу та зворотне посилання для вилучення відповідного тексту прив’язки, який включає прив’язку.

Отримання текстів із зворотних посилань

Спочатку встановимо request-html.

Для того, щоб зробити код простим, я вручну створим селектор CSS для введення тексту, що оточує посилання.

Не важко обчислити його за посиланням та якорем сторінки за допомогою коду JavaScript або Python.

Це може бути гарною ідеєю спробувати як домашнє завдання.

Відкрийте зразок сторінки зворотного посилання, і за допомогою Інструментів розробника Chrome ви можете клацнути правою кнопкою миші на абзаці, який вас цікавить, і скопіювати селектор CSS.

Це селектор, яким я користувався.

Це текст, який повернувся. Я виділив жирним шрифтом текст нашого зразкового опорного тексту.

Продовжуйте читати нижче

Ми знаємо, що утримання вчителів покращує результати навчання, і навпаки, плинність вчителів може зашкодити досягненням учнів. Навколо 16% освітян виїжджають домену щороку, і ми знаємо, що багато вчителів, як я, залишають у перші п’ять років. Вчителі зазначають, що основними причинами їх від'їзду є відсутність самостійності та голосу, а також питання культури та, зокрема, дисципліни. Крім того, товарообіг є дорогим - райони з нестачею вчителів коштують більше 2,2 млрд доларів на рік.

Тепер про найцікавішу частину !

Генерація нейронних текстів

Ми будемо використовувати той самий зведений код, який ми використовували для створення заголовків та метаописів у моїй попередній статті, але з невеликим змістом.

Замість вказівки бажаної короткої довжини коротшої за вихідний абзац, ми вкажемо більшу довжину. Чи вдасться? Подивимось !

Я отримую це цікаве попередження.

Ваша максимальна довжина встановлена ​​на 250, але довжина входу - лише 99. Ви можете розглянути можливість зменшення максимальної довжини вручну, наприклад за допомогою підсумовувача (‘...’, max_length = 50)

Продовжуйте читати нижче

Подивимось сформований текст.

Оригінальний текст містив 492 символи, а сформований текст - 835.

Але, подивіться на якість та нові фрази, які з’являються у створеному тексті. Абсолютно, це захоплює дух !

Чи може цей прийом генерувати ще довші тексти? Так !

Цей сформований текст має довжину 1420 символів і підтримує логічний потік !

Звіром, який керує цією технікою, є модель Facebook під назвою BART.

Автори документа характеризують його як узагальнену форму BERT.

Подивимось, як це працює.

Як працює нейронна генерація тексту

Чи проходили ви якісь тести на схильність або IQ, де вам пропонують послідовність цифр і де вам потрібно вгадати наступне ?

По суті, це зробила наша модель вище, коли ми надали якийсь початковий текст і попросили наших моделей передбачити, що буде далі.

Продовжуйте читати нижче

Він перетворив наш оригінальний текст у послідовність чисел, вгадав наступне число, взяв нову послідовність, що включає вгадане число, і повторив той самий процес.

Це триває доти, поки не досягне обмеження довжини, яке ми вказали.

Тепер це не просто звичайні числа, а вектори та більш конкретно (у випадку BERT та BART) вбудовані двонаправлені слова.

Я пояснив вектори та двостороннє вбудовування слів за аналогією GPS у своїх статтях про глибоке навчання, частина 1 та частина 2. Обов’язково ознайомтесь з ними.

Таким чином, вбудовування кодує багату інформацію про слова, які вони представляють, що значно підвищує якість прогнозів.

Отже, ось приклад того, як це працює.

Враховуючи текст: "Найкраща мова програмування для ОСЕ, що виконують повторювані завдання, - ____, а для ОСЕ, які виконують попередні перевірки - ____". Ми просимо модель доповнити речення.

Першим кроком є ​​перетворення слів у цифри/вкладення, де кожне вкладання ідентифікує слово у його контексті.

Продовжуйте читати нижче

Потім перетворіть це на головоломку, яку комп’ютер може розгадати, щоб знайти числа/вставки, які можуть заповнити пропуски з урахуванням контексту.

Алгоритм, який може розв’язати цей тип головоломки, називається мовною моделлю.

Мовна модель подібна до граматичних правил англійською або будь-якою іншою мовою.

Наприклад, якщо текст є запитанням, він повинен закінчуватися знаком питання.

Різниця полягає в тому, що всі слова та символи представлені цифрами/вставками.

Тепер цікаво те, що при глибокому навчанні (що ми тут використовуємо) не потрібно вручну створювати великий список граматичних правил.

Модель засвоює правила емпірично шляхом ефективних спроб і помилок.

Це робиться під час так званого етапу попередньої підготовки, коли моделі навчаються на величезній сукупності даних протягом декількох днів та використовують дуже потужне обладнання.

Для нас найкраще, якщо результати цих зусиль будуть у вільному доступі для всіх.

Продовжуйте читати нижче

Невже нам не пощастило ?

BERT є прикладом лінгвістичної моделі, подібно до GPT-2 та BART.

Як це використовувати розумно

Як я вже згадував вище, цей матеріал дійсно потужний і може використовуватися для створення непотрібного вмісту у відносно недорогих масштабах.

Особисто я не хотів би витрачати час, пробираючись через сміття, поки шукаю.

З часом я зрозумів, що для того, щоб вміст добре працював у пошуку, це повинно бути:

  • Будьте корисними.
  • Задовольнити справжню потребу.

Якщо ні, то незалежно від того, виробляється воно комп’ютером чи людиною, воно не отримає жодних зобов’язань чи підтверджень від кінцевих користувачів.

Шанси на рейтинг та результати дійсно низькі.

Ось чому я віддаю перевагу таким методам, як резюме та переклад чи запитання/відповідь, де ви більше контролюєте покоління.

Продовжуйте читати нижче

Вони можуть допомогти вам переконатися, що ви додаєте нову вартість.

Громадські проекти та навчальні ресурси

Я намагався зробити цю легку статтю в коді та пояснення якомога простішими, щоб дозволити більшій кількості людей у ​​спільноті долучитися до цього задоволення.

Але якщо ви більш технічні, я думаю, ви оціните це більш детальне та математичне пояснення предмета.

Не забудьте також перейти за посиланнями у розділі "Подальше читання" статті, на яку посилається вище.

Тепер кілька захоплюючих новин.

Я попросив спільноту поділитися проектами Python, над якими вони працюють. Я, можливо, очікував купку, і мене цілком здуло, скільки я отримав у відповідь. # НЕЗАЧЕКАЙТЕ 🐍🔥

Це Python та JS, але я все одно поміщу його туди! Розширення Chrome для боротьби зі спамом на Картах Google. Код сервера на мові Python і перевіряє та класифікує адреси. pic.twitter.com/Rvzfr5ku4N

- zchtodd (@zchtodd) 8 червня 2020 р

Продовжуйте читати нижче

1. RPA в python для автоматизації повторюваних скріншотів https://t.co/zyaafY0bcd
2. Пошукова консоль API + NLP для перевірки сторінок, де слово в метазаголовку не відповідає запитам, що використовуються відвідувачами: https://t.co/KsYGds7w1r

- Майкл Ван Ден Рейм (@vdrweb) 8 червня 2020 р

3. Перевірте код стану всіх URL-адрес із показами з Search Console, використовуючи API Search Console https://t.co/qX0FxSoqgN

- Майкл Ван Ден Рейм (@vdrweb) 8 червня 2020 р

Привіт Гамлет !

Я працюю над засобом перевірки перенаправлення з нечіткими можливостями збігу.

Буде @GoogleColab, але в ідеалі я б також був розміщений у @streamlit, щоб люди могли оцінювати якість своїх переадресацій лише одним клацанням, перетягуванням.

Скоро поділюсь 🙂

- Чарлі Уорньє (@DataChaz) 9 червня 2020 р

@hamletbatista https://t.co/oPt5M393Lu
Він працював над цією темою за допомогою @streamlit
Напишіть переконливіші метазаписи.
Пояснювальне відео: https://t.co/YvVoFMQ4FS

- Anubhav Bittoo Narula (@ anubhavn22) 9 червня 2020 р

Scrapear redes sociales y pasarlo por npl o Red neuronal para saber el sentimiento del escrito y de ahí sacar graficas con datastudio o kibana (perdona que responda en español pero mi inglés es bastante mejorable)

- JaviLázaro (@JaviLazaroSEO) 8 червня 2020 р

Продовжуйте читати нижче

1. Читайте файли журналів і переглядайте 5xx/4xx в режимі реального часу, щоб розслабитися !
2. Намір ключового слова проти оцінки відповідності URL-адреси.

- Венера Калра (@ vénkalra) 9 червня 2020 р

Я зараз розробляю пакет для #SEO та інтернет-маркетологів, що містить серед іншого
- Гусеничний
- тестер robots.txt
- перевірка SERP
- Карта сайту в конвертер DataFrame
- Перетворювач URL в DataFrame

та інше https://t.co/BMVeeQaTxE 🙂

- Еліас Даббас (@eliasdabbas) 9 червня 2020 р

Деякий аналіз вмісту за допомогою Beautiful Soup + Knowledge Box API + Cloud Entity API! 🐍🐍🐍

- Джес, але 2 метри (@jessthebp) 8 червня 2020 р

Більше ресурсів:

Кредити зображення

Всі скріншоти, зроблені автором, червень 2020 р