Великі дані Прийшов час »- GULP

Інтерв’ю з Сергієм Рисєвим, керівником відділу розробки програмного забезпечення та системного адміністрування GULP

GULP не тільки об’єднує експертів та компанії, але й наймає розробників програмного забезпечення. Її завдання включають підтримку та розвиток технології, що лежить в основі близько 90 000 профілів фрілансерів, понад 200 000 запитів на проекти на рік та кожну тисячу пропозицій про роботу та проекти щодня. Сергій Рисєв, керівник відділу розробки програмного забезпечення та системного адміністрування в GULP, та його команда підтримують внутрішніх колег у GULP у пошуку потрібних експертів у цьому величезному пулі даних та об'єднанні їх з компаніями. Для нашої серії великих даних ми попросили його оцінити поточний стан розвитку та питання, що повинен принести фахівець із великих даних.

GULP: Як ви оцінюєте поточний розвиток великих даних?

Сергій Рисєв: Обсяги даних вибухають у найрізноманітніших сферах нашого життя: незліченні дані датчиків у наших автомобілях, транзакції клієнтів, інформація про покупки за допомогою дисконтних карток, переміщення даних із наших смартфонів тощо. Суспільство виробляє все більше і більше даних, так що їх більше не можна оцінювати класичними методами, навіть за допомогою найкращої бази даних Oracle.

Основні концепції обробки великих даних були відомі давно, але дотепер просто бракувало технічних умов для втілення теорії на практиці. За останні роки технології зберігання даних та обчислювальної техніки зробили величезний стрибок і стали дешевшими, тож ось-ось це зміниться.

Великі ІТ-компанії, такі як Google, IBM та Amazon Web Services, зробили тут важливу новаторську роботу. Вони дедалі частіше пропонують "побічні продукти" власних розробок, що є у вільному доступі на ринку, що робить великі дані все більш придатними для широких мас. Прикладами можуть служити Amazon Machine Learning, IBM Watson або Lex від Amazon, які надають основні функції Alexa для власних програм.

Часто цитується речення: "Дані - це нова олія". І саме це воно і є: Дані є вихідною сировиною для багатьох застосувань. Однак сама сира нафта все ще має відносно мало користі; її потрібно переробити, перш ніж вона може використовуватися як паливо або пластмаса, наприклад. Тим не менше: Той, хто володіє даними або нафтою, має вирішальну перевагу. Той приймає швидші та кращі рішення порівняно з тими, хто цього не робить. Наприклад, він краще знає, що стосується клієнтів і де можна знайти потенційних клієнтів.

GULP: Яка різниця між проектом великих даних та звичайним ІТ-проектом?

Сергій Рисєв: Особливо, коли проекти великих даних створюються з нуля, вони мають більш сильний дослідницький характер, оскільки поки що не так багато перевірених методів та підходів. Ви навіть менше, ніж у традиційних проектах, знаєте, чого чекати і яким буде кінцевий результат.

Темою, якою не слід нехтувати, є тема: Від кого беруться дані, хто відповідає за дані та як їх можна контролювати та передавати членам команди проекту з відповідними правами доступу? Ключовим тут є не лише створення технічно придатних інтерфейсів, а й залучення всіх на борт.

GULP: Що повинні взяти з собою експерти з великих даних?

Сергій Рисєв: Багато досвіду та інтуїції. Вони повинні мати можливість оцінити, чи можуть вони отримати цінну або відповідну інформацію з наявних даних. Або, якщо це не так, як «геолог» при пошуку нафти - технічним жаргоном: «брокер даних». Вони знають, де цікаві дані, як внутрішні, так і зовнішні, наприклад, у Федеральному статистичному управлінні, Євростаті тощо. І вони знають, які дані є актуальними. Експертам з великих даних також потрібен певний дух досліджень з усіма супутніми характеристиками: допитливість, готовність до навчання, завзятість і наполегливість.

І з чисто технічної точки зору: технології великих даних не існує, оскільки існує безліч різних підходів до реалізації проектів великих даних. Такі мови, як Python і R, а також системи баз даних noSQL навколо Hadoop, такі як Cassandra, HBase або MongoDB, особливо важливі. Тим, хто цікавиться великими даними, слід також вивчити інструменти для запитів SQL на кластерах Hadoop, наприклад Hive, Impala або Phoenix. (Примітка редактора: ми розберемо навички роботи з великими даними в окремій статті.)