Закон про дані, як розділити дані на законність

Томас Сен-Обен, генеральний директор Seraphin.legal та Чарльз Леконте, науковий співробітник та співзасновник CaseIP

Повна версія статті, опублікована в Archimag n ° 323 у Відкритому доступі на HAL-Сорбонні

Якщо дані є одним з основних нематеріальних активів компаній, законність автоматизованого процесу збору є необхідною умовою для подальшого вдосконалення цієї інформаційної спадщини.

Ноу-хау в галузі збору, зберігання, аналізу, обробки, збагачення та візуалізації даних особливо потребує збереження конкурентоспроможності. Але як щодо законності даних? Це поява вчений з юридичних даних.

Перш ніж ви зможете використовувати дані, вам доведеться їх зібрати. Існують різні способи збору даних:

або вручну, що може зайняти значну кількість часу, якщо ви хочете мати великий обсяг;
або за допомогою автоматичних методів, за допомогою програмного забезпечення або скребка, що дозволяє отримати велику кількість інформації за рекордний проміжок часу.

Все більше компаній використовують веб-скрапінг для отримання вмісту веб-сайту, щоб збагатити власну базу даних або створити новий бізнес.
Питання законності цієї діяльності часто вирішується із запізненням, зокрема інвесторами в рамках належної перевірки або коли розпочинається процес дотримання вимог GDPR.

Але як закон кваліфікує та контролює збір даних, особливо коли ними керують роботи? Які запобіжні заходи слід вжити, щоб перетворити цей цифровий актив на цінний актив? Який стан техніки, щоб зробити фігуру робота-скрепера для адвоката ?

Що таке вишкрібання ?

"Вишкрібання" - це англійський термін, що означає буквально "вишкрібання". Застосовуваний до Інтернету термін, також відомий як веб-вишкрібання, вишкрібання екрана, видобуток веб-даних, збирання веб-сайтів або вилучення веб-даних, відноситься до автоматизованої техніки вилучення структурованого вмісту. Конкретно, відновлення даних здійснюється програмою, скриптом, який буде переглядати веб-сайт, витягувати дані та зберігати їх з метою повторного використання на власному сайті.

Це техніка, яку не слід плутати із скануванням веб-сторінок, яке полягає в скануванні Інтернету для автоматичного перегляду Інтернету, автоматичному переході від сайту до сайту для збору даних з метою індексації, полегшуючи таким чином пошук вмісту, як у Google наприклад. Метою цієї техніки є індексація, на відміну від вишкрібання, метою якої буде чисте і просте відновлення, щоб запропонувати однаковий вміст на своїй платформі.

Вишкрібання публічних даних приватними особами проти надання послуги API на загальнодоступних довідкових даних

Набір даних LEGI, розміщений у відкритих даних DILA 1 липня 2014 р. На data.gouv.fr за відкритою ліцензією

Скрепінг також відрізняється від використання інтерфейсу прикладного програмування (API), що дозволяє вихідному сайту контролювати передачу даних стороннім повторним користувачам, надаючи безкоштовний або платний доступ.

Найпоширенішим методом законного сканування даних є виявлення та отримання публічних даних, що розповсюджуються за безкоштовною та відкритою ліцензією. Під метаданими ігор, відкритих на data.gouv.fr, відображається ліцензія, пов’язана з даними багаторазового використання. У Франції це обов’язково буде одна з ліцензій, перелічених у Декреті № 2017-638 від 27 квітня 2017 року, що стосується ліцензій на безкоштовне повторне використання публічної інформації.

Але на момент дебатів щодо створення публічної служби даних, закріпленої в Указі № 2017-331 від 14 березня 2017 року, що стосується державної служби з надання доступних довідкових даних, деякі практики висловилися за створення державна служба для надання доступності API довідкових даних, зокрема щодо легальних публічних баз даних Легіфрансу.

Результат дискусії? Не тільки публічно-правові дані відсутні у списку дев’яти основних довідкових баз даних але надання API не було накладено як обов'язковий наслідок для цих важливих даних для доступу до закону.

Тому для відновлення та використання відкритих даних кожен із зацікавлених гравців повинен фінансувати та впроваджувати практики вилучення публічних даних, а не мати ці початкові та спільні інвестиції на основі основних виробників публічних даних.

Таким чином, у випадку вилучення легальних публічних даних необхідно буде отримати дані з FTP-серверів DILA та збирати інформацію, що стосується пов'язаної ліцензії, в метаданих сторінки data.gouv.fr, щоб робот-скрепер підтверджував законність збору цього джерела.

На міжнародному рівні слід згадати ініціативу W3C, яка прагне визначити стандарти щодо доступу до даних, зокрема до публічних даних. Таким чином, стандарт Prov-O дозволяє, наприклад, запускати запит SPARQL в Інтернеті даних, щоб робот збирав, наприклад, лише державні джерела з відповідною ліцензією.

Вишкрібання приватних осіб проти збору юридичних метаданих, пов’язаних із набором даних

Скрапінг пережив пожвавлення інтересу з 2010 року, коли з’явилася діяльність, що збиває зростання. Таким чином, його можна використовувати для подавання інструментів моніторингу та аналізу або для створення файлів, присвячених пошуку клієнтів, шляхом вишкрібання Linkedin або іншого веб-сайту, що пропонує каталог, наприклад.

Створення бази даних про перспективи та незаконне вилучення з соціальних мереж є звичною практикою серед хакерів зростання, яку також регулярно викладають у школах веб-маркетингу та обговорюють на форумах ...

Як законодавчо врегулювати повторне використання приватних даних? Відповідно до GDPR або захисту ділової таємниці триває кілька процедур.

Проект ДИЗАЙНУЙТЕ ВАШУ КОНФІДЕНЦІЙНІСТЬ, підтримуваний екосистемою PrivacyTech, прагне дозволити фізичним особам пов’язувати юридичні метадані (права та обов’язки) зі своїми персональними даними. Репозиторій T&C доступний у Open Data. Остання спільна робота дозволила створити сховище RMC (перейти від `` загальних умов використання до загальних умов повторного використання '') і була представлена Національній Асамблеї 10 квітня 2019 року, щоб повернути конкретний контроль люди, які постраждали від обробки.

Презентація доповіді "Технологія конфіденційності" щодо управління даними 10 квітня 2019 року в Національній Асамблеї перед депутатом Паулою Фортеза

Ця робота приносить користь і є частиною більш загального підходу до досліджень та розробок навколо створення правово-технічних стандартів для конкретизації визнання права на портативність даних та навколо PrivacyUX. Ця робота буде предметом подання європейського проекту H2020 на початку 2020 року: створюється консорціум на чолі з асоціацією PrivacyTech

Окрім питання персональних даних, проект, очолюваний INRIA, "ліцензує ваші дані", в цілому планує пов'язати легальні метадані з кожним набором даних, доступних в Інтернеті даних.

Щоб навчити робота правовому вишкрібанню даних, мабуть, гарною практикою є заохочення у середньостроковій перспективі: зацікавлена особа або виробник повинні запропонувати закодовану версію чинного законодавства та відповідну ліцензію.

Ця практика, розроблена в повному обсязі у контексті створення озера даних у великих компаніях, дозволяє безпосередньо пов’язати зведення прав та дозволів з даними. Це згодом також дозволить роботу попередньо оцінити юридичну доцільність змішування при створенні служб, а "розширений юрист" розширити сферу своєї класичної служби захисту даних. !

Якщо останні нововведення в LegalTech та PrivacyTech дозволяють розглянути можливість реалізації "Закону - це Кодекс" у законодавстві про дані та стратегіях оцінки даних, чи слід змінити відповідну законодавчу базу ?

Стан законодавства, що застосовується до вишкрібання

В епоху великих даних та практик утилізації узагальнених даних Ме Ніколас Куртьє ставить під сумнів захист виробників баз даних sui generis згідно із законом 1998 року ''. Права виробників баз даних базуються на статичному підході до обробки даних: ми зосереджуємося на створенні бази даних, а не щодо її використання ''.

З точки зору власника скрепірованих даних, який вклав час і гроші на створення бази, щоб пропонувати послуги з доданою вартістю на веб-платформі, відновлення плодів його праці уподібнюється крадіжці.

У позитивному законодавстві декілька текстів дозволяють (права виробників баз даних, директива про комерційну таємницю, Закон про захист даних про захист персональних даних, дії у недобросовісній конкуренції тощо) дозволяють продовжувати незаконне вилучення.

В області інтелектуальної власності право sui generis, закріплене в 1998 році ((ст. L342-1 Кодексу інтелектуальної власності), дозволяє виробнику бази даних забороняти, серед іншого, "вилучення шляхом передачі цілого або якісно або кількісно значну частину вмісту бази даних на іншому носії, будь-якими способами та в будь-якій формі будь-яким чином »або навіть« повторним використанням, зробивши весь або весь вміст загальнодоступним. якісно чи кількісно значної частини вмісту базу даних незалежно від форми »(ст. L342-1 Кодексу інтелектуальної власності).
Саме на цих засадах 1 вересня 2017 року Трибунал де Великої інстанції Парижу засудив сайт Entreparticuliers.com (Париж TGI, 1 вересня 2017 року, Leboncoin.fr c/Entreparticuliers.com).
У кримінальному законодавстві законодавець визначив видобуток даних конкретним правопорушенням. Закон від 24 липня 2015 року вніс зміни до статті 323-3 Кримінального кодексу, яка тепер карає дією "вилучення, зберігання, відтворення, передача" шахрайських даних із автоматизованої системи обробки даних (STAD). Таким чином, крадіжка даних є відмінним злочином від крадіжки матеріальної речі.

Обмеження застосування цього правила до веб-скрапінгу полягає в тому, що в статті згадуються лише STAD і що законодавець не прийняв жодного визначення, і, схоже, суддя прийняв його широко. Таким чином, кваліфікація зберігалася для мережі банківських карток (TGI, Париж, 13eme Ch. Correctionnelle, 25 лютого 2000 р.) Або жорсткого диска. Залишається з’ясувати, чи може веб-сайт скористатися цим захистом.

Але в цифровій економіці цінність полягає у використанні.

Навіть якщо ми поділяємо ідею реформи чинного позитивного права, здійсненого Ме Кортьє, ми вважаємо, що це, перш за все, комбіноване застосування закону і техніки, що дасть змогу юридично наглядати за скабуванням даних.

Технологія блокчейн за допомогою ліцензій API або пов’язаних з наборами даних, перетворених у смарт-контракти, вже дозволяє токенізувати ліцензії, відстежувати повторне використання даних і автоматично розподіляти фрукти.

Якщо закон дозволяє компаніям не бути абсолютно безпорадними, коли справа стосується захисту своїх інформаційних активів, а юридичні технології швидко прогресують, вони також можуть запобігти відновленню своїх даних вище за течією, захистивши свій сайт.

Як запобігти вишкрібанню? Як захиститися ?

У більшості випадків цільовий сайт зі скрепінгу не зацікавлений у наданні сценарію доступу до своїх даних.
Жодна техніка не є безпомилковою, але ці методи дозволяють, як мінімум, поєднувати правовий захист з технічним захистом.

Створення облікового запису користувача

Однією з найпростіших технік, щоб уникнути вишкрібання, є вимагання створення облікового запису для перегляду вмісту сайту. Якщо потрібно створити обліковий запис, адміністратор може відстежувати дії користувача та легко виявляти підозрілу поведінку. Однак ця техніка, яка може бути стримуючим фактором для ботів, може бути і для користувачів ...

Заборона ip

Щоб заблокувати доступ сайту до роботів-скребків, однією з перших дій, яку можна вжити, є регулярна перевірка журналів з'єднань. У разі незвичної діяльності, що вказує на автоматизований доступ, наприклад, вказівки на кілька подібних дій з однієї і тієї ж IP-адреси, завжди можна заблокувати або обмежити цей доступ. Заборонивши цей IP, сценарій блокується.
Однак у багатьох системах використовуються проксі-сервери, які дозволяють регулярно змінювати свою IP-адресу. Отже, техніка виробляє лише сповільнюючий ефект.

Капчі

Можна обмежити кількість дій користувача за певний час. У разі сумнівів можна використовувати Captchas ("Повністю автоматизований тест для розпізнавання комп’ютерів та людей") для перевірки особистості користувача. Цей метод також частково ефективний.
Але це дратує реальних користувачів, і є програмне забезпечення, щоб обійти їх.

Відгуки про практику юридичного сканування даних інтелектуальної власності

Інтелектуальна власність має значний пул даних, які можна багаторазово використовувати.
У цьому питанні декілька установ поширюють набори даних, починаючи від судової практики ІВ та назв законодавства ІВ.
Нашим завданням було створити легальний робот-скрепер, здатний легально збирати ці дані, щоб мати можливість використовувати їх згодом.

Ми працювали в 4 кроки:

інвентаризація наборів даних, доступних на міжнародному рівні з точки зору даних прецедентного права ІВ;
інвентаризація відповідних ліцензій та опитування виробничих установ (якщо застосовується), щоб з’ясувати основи, що застосовуються для повторного використання;
моделювання юридичних метаданих, пов'язаних із отриманими наборами даних;
створення робочого колеса для збору даних, моделювання відповідних правових метаданих, семантичного збагачення зібраних даних та інтеграції їх у базу даних.