Охоронець - французька програма, яка захищає від ненависних коментарів на YouTube та Twitter -

Створений молодим 22-річним французьким розробником, Bodyguard захищає своїх користувачів від ненависних коментарів на YouTube та Twitter. Додаток завойовує дедалі більше уваги і, схоже, знайшов свою аудиторію, особливо серед користувачів, які користуються ним щодня більше тисячі. Оскільки 97% користувачів задоволені і понад 17 000 коментарів заблоковано, Bodyguard, здається, є ефективним захисним пунктом проти ненависті в Інтернеті. Щоб дізнатись більше про послугу та як вона працює, ми задали кілька запитань її творцю: Чарльзу Коену.

Як виникла ідея створити цей додаток? ?

Я народився в поколінні YouTube, веб-сайті, який я відвідував з 10 років (коли я починав розробку). YouTube - це сайт, де кібердомагання спостерігаються з самого початку і дедалі частіше спричиняють хаос (закриття каналу тощо). Одного разу я натрапив на статтю про самогубство молодої дівчини в результаті дуже агресивного кібер-знущань, і я провів деякі дослідження, лише з’ясувавши, що подібних випадків було багато. Потім я почав шукати рішення, які були наявні для ефективної боротьби з цією проблемою: жодного. Я завжди хотів розробити стартап, заснований на цій технології, це був ідеальний час, тим більше, що він відповідав реальній потребі. Потім я взяв ставку і ризикнув почати розробку ШІ (без будь-якого поняття про ШІ), який, як я знав, мав дуже низький рівень помилок/хибнопозитивних ризиків, ризикуючи негайно втратити своїх користувачів, слово рот і класифікуючи охоронця як "цензора".

Як довго ви працюєте над цим проектом? ?

Я працюю над проектом вже 1 рік, а додаток було запущено 6 місяців тому. На початку я зіткнувся з величезною проблемою: у мене не було даних і даних, щоб я міг навчити охоронця виявляти коментарі ненависті. Перші 3 місяці мені довелося виконати певну роботу з тегами: повідомляти Bodyguard вручну, що ненавидить, а що не ненавидить, на основі "зіткнень" у Twitter. Робота з маркування та навчання людей продовжується донині, але зараз у мене є база даних з 500 000 секретних коментарів.

Технічно, як це працює ?

Охоронцем керує штучний інтелект: він відтворює дію, яка зазвичай вимагає мозку людини (див .: модерація.). Ми аналізуємо контекст речення та адаптуємось до користувача, якого захищаємо. Щоб швидко підсумувати:

По-перше, ми шукаємо у реченні серію ненависних слів або образу (серед поєднання декількох десятків мільйонів слів), незалежно від написання, смайлів, мови SMS, мови LEET, незалежно від того, якщо користувач намагається цензуруйте образу, або обійдіть Охоронця.

На другому кроці ми проаналізуємо контекст, а саме те, що є перед і після цих слів, і виходячи з цього, ми приймаємо перше рішення: ненависно чи не ненависно.

не слухайте придурків, які кажуть, що ви повія -> виявлено Охоронцем як ненависне.
ти п ууууууууууууу т е -> ненависний.
Я іноді серйозний мудак -> не ненависний.
ти справді гроооооосссссссссеееееееееееееее ****** -> ненависний.
t мати c tlmnt 1 p * te -> ненависний.

Це основні приклади, але технологія, звичайно, працює з усіма видами насильства: погрозами, сексуальними домаганнями, моральним настроєм, тролінгом, знущанням, ненавистю, гомофобією, образами, расизмом ...

Потворний -> знущання -> ненависний.
Не заперечуйте проти тих, хто каже, що ви потворні -> не ненависні.
T video c shit, no я жартую -> no hateful.
Ти не красива -> ненависна.
Ви прекрасні -> не ненависні.
Не слухайте тих, хто каже, що ви прекрасна -> знущання -> ненависть.
Ти справді гарна, ні, я жартую. -> знущання -> ненависні.
Ви заслуговуєте на зґвалтування. -> сексуальні домагання -> ненависні.
Ваша мати заслуговує ляпасів -> погроза -> ненависть.
Ваш великий 👃 -> глузування

По-третє, ми пристосовуємося до профілю користувача: якщо користувач гомосексуаліст, ми будемо непримиренними до гомофобії; якщо користувач - чоловік, який носить макіяж, ми будемо набагато жорсткішими з певними коментарями, якщо користувач має фізичну різницю ( ожиріння, обмеження), ми будемо безкомпромісні щодо знущань тощо ... Ми також адаптуємось до віку: якщо користувач дуже молодий, ми будемо захищати його набагато ефективніше, і нарешті ми виявляємо рейди. У ненависному рейді коментарів Bodyguard знову стане набагато жорсткішим в міру, щоб повністю захистити наших користувачів. Цей третій крок дозволяє деяким користувачам, наприклад, прийняти гумор:

Господар, ви нахабник 😂 -> не ненависний на думку користувача.
Покажіть нам свою попку> -> видалено, якщо користувач - дівчина, зберігається, якщо користувач - дорослий чоловік.

Охоронець також захищає від зауважень близьким, і всі ці дії виконуються в середньому за 5 мілісекунд. Це дозволяє нам також захищати чат YouTube за допомогою тієї ж технології. Звичайно, користувач має можливість відновити коментар (або розблокувати твіт), який був видалений. Але зазвичай, якщо тілоохоронець допустив помилку, ми самі її відновлюємо, а потім навчаємо ШІ не повторювати цю помилку. Тож користувачеві нічого робити: ми про все дбаємо !

Очевидно, трапляється також, що Bodyguard проходить через деякі коментарі, це не проблема, оскільки ми також маємо інструменти, які дозволяють нам вручну перевіряти певні коментарі "ризику", які ми вручну видаляємо, якщо вони виявляються ненависними. Ми ще раз навчаємо Охоронця виявляти такі коментарі, щоб не відпускати їх. Саме завдяки цим пристроям ми можемо запевнити своїх користувачів, що захищаємо їх від 100% ненависних коментарів.

Чому, на вашу думку, ви можете зробити краще, ніж самі платформи та їх система модерації ?

Перш за все, немає платформи, яка пропонує розумну систему модерування французькою мовою. YouTube, Instagram та Twitch запустили подібний сервіс англійською мовою (1 рік тому), все ще в бета-версії, тож до того, як він з’явиться французькою, це може зайняти роки. Єдине, що YouTube робить зараз, - це додавати ключові слова до чорного списку, і кожен раз, коли коментар містить одне з цих слів, він утримується. На жаль, це дуже бінарне рішення, яке в деяких випадках може виконувати роль цензора.

Якщо користувач класифікував слово "гей", "Я гей і я повністю згідний" буде утримано. Цю систему легко обійти, оскільки "ти справді гааааай" не буде розміщено для перевірки.

Крім того, ця система дуже обмежена, тому що потрібно було б вводити кожну комбінацію, і деякі ненависні коментарі - це навіть без жодного найменшого образливого слова (Приклад: "ти справді виглядаєш занадто красиво, спустися на землю"). Таким чином, не бажаючи кидати мені квіти, я, звичайно, можу сказати, що я роблю краще, ніж нинішні платформи, оскільки вони не пропонують захист французькою мовою. Я бачу це у своїй статистиці, щодня видаляю все більше коментарів, видаляючи вже понад 17 000 коментарів для "лише" 900 користувачів YouTube (включаючи деякі з високою популярністю).

На даний момент додаток абсолютно безкоштовний, чи планували ви якісь платні плани на майбутнє? ?

Я думаю залишити програму абсолютно безкоштовною для захисту користувачів. Я ще не дуже думав про це, бо зосереджений на розробці та підтримці ШІ Bodyguard. Але чому б не створити систему ліцензування, щоб пропонувати технологію певним компаніям?.

Чи зможемо ми скоро скористатися ним для захисту в інших мережах, таких як Facebook, Snapchat чи Instagram? ?

Snapchat, на жаль, не пропонує API (крім маркетингу), щоб я міг захистити його користувачів, що є справжньою ганьбою, оскільки на цій платформі також багато кібердомагань. Очікується, що ця технологія потрапить у Facebook та Instagram найближчими місяцями !

Чи плануєте Ви розвивати послугу на міжнародному рівні за підтримки нових мов ?

Мій план - розпочати бізнес навколо Bodyguard у найближчі кілька місяців, об’єднавшись із потрібними людьми, які сподіваються залучити кошти. Моя мета - перекласти Bodyguard на кілька мов (першу англійську), щоб стати основним гравцем проти кібер-домагань, запропонувавши нарешті конкретне рішення.

Нарешті, я просто хочу додати, що я видаляю лише коментарі, які є заперечувальними проти кримінальної відповідальності. Я не торкаюся свободи вираження поглядів, і навіть думаю, що допомагаю їй, тому що багато людей бояться запускати на цих платформах страх, що перед ними знущаються та/або ображають. Коротше кажучи, я пропоную безкоштовний модератор будь-кому, на 95% керований ШІ і працює цілодобово. !

Вас спокушає Bodyguard, завантажте програму з Google Play або App Store! Зверніть увагу, що ви можете протестувати технологію і навіть проаналізувати канал YouTube або обліковий запис Twitter тут. Найбільш скептичні можуть також мати доступ до демонстрації, все через веб-сайт.