Аналітики з Американського управління статистики стверджують: у 2021 році кількість вакансій data scientist виросте майже до 3 мільйонів. За їхніми підрахунками, вже зараз такі фахівці потрібні близько 70% американських компаній. А в Україні за другу половину 2020 року були опубліковані 1600 вакансій на позицію data scientist.

До теми Київстар Бізнес шукає фахівців у команду Big Data

Data scientist: хто це і що робить

Data scientist – це фахівець, який вміє працювати з великими даними Big data. Що ж таке Big data?

Це величезні обсяги неструктурованої інформації. Наприклад, щодня в українських банках здійснюються мільйони операцій: оплата комунальних платежів, перекази на карту, покупка товарів. Інформація про ці платежі зберігається в Національному банку України – це big data. Такі ж бази даних збирають мобільні оператори, соцмережі та пошукові сервіси.

Аналіз великих даних потребує структурування / Фото Getty Images

Що таке Big data

Таким чином, Big data охоплює аналіз наступних анонімізованих даних про:

  • дзвінки;
  • платежі;
  • переміщення;
  • вподобання;
  • погоду.

Завдання data scientist – знайти закономірності в цих даних і зробити на їх основі висновки. Так, якщо правильно проаналізувати всі запити інтернет-магазину, можна збільшити продажі. В потрібний час запропонувати клієнту потрібний товар на потрібному пристрої: рибалці – сучасні вудки, а підприємцю – нову книгу про бізнес.

Люди, яких ви можете знати: один з алгоритмів Big data

Списки будь-яких рекомендацій – будь-то друзів або музики – теж результат обробки великої кількості даних. Одним з перших таку модель запустив айтівець Джонатан Голдман. У 2006 році він влаштувався на посаду аналітика по роботі з базами даних в компанію LinkedIn.

Логотип LinkedIn / Фото Datasciencecareeroptions

Поки інші члени команди мізкували над тим, як збільшити активність користувачів в мережі, Джонатан придумав новий алгоритм. Він проаналізував дані всіх зареєстрованих користувачів і спрогнозував: ймовірність того, що одні люди теоретично можуть знати інших, достатньо велика. Джонатан назвав алгоритм "Люди, яких ви можете знати" і переконав генерального директора використовувати його в мережі. В результаті за станом на 2020 рік загальна кількість користувачів LinkedIn сягнула 675 мільйонів з них понад 300 мільйонів – активні користувачі.

Які завдання для бізнесу вирішує data scientist

Data scientist аналізує інформацію не просто так, а щоб на її основі дати правдивий прогноз. Наприклад, він може спрогнозувати ефективність рекламної кампанії. Часто висновки дата-фахівця допомагають у прийнятті рішень. Наприклад, дати клієнту банку кредит або відмовити.

Крім того, data scientist – це співробітник, який розробляє рішення складних завдань і може візуалізувати інформацію. Наприклад, графічно показати, які платежі відхилив банк за останній рік і чому.

Ось завдання, які може розв’язати data scientist у бізнесі:

  • зібрати інформацію про користувачів і згрупувати їх за категоріями;
  • спрогнозувати, який продукт викличе інтерес і як довго буде мати попит;
  • передбачити, який напрям варто відкрити.

Стрімінговий сервіс Netflix почав працювати з data science ще на початку 2000-х. Уже тоді глядачам запропонували оцінювати фільм, який вони подивилися. А потім на основі цих оцінок формували добірки фільмів для певних категорій. І сьогодні для цього Netflix збирає такі дані:

  • дата і час перегляду;
  • пристрій, на якому подивилися фільм;
  • який запит вводили в пошуку.

Так кожен глядач отримує те, що буде цікаво подивитися саме йому. Завдяки такому підходу сьогодні у Netflix більше ніж 200 мільйонів користувачів по всьому світу.

Що повинен знати data scientist

Data science – це сфера, в якій перетинаються комп'ютерні та математичні науки. Тут потрібно обов'язково знати:

  • математику, статистику, теорію ймовірностей;
  • принципи машинного навчання;
  • мови програмування SAS, R або Python;
  • бази даних MySQL і Postgre;
  • технології візуалізації даних і звітності;
  • сховище даних Hadoop and MapReduce.

Особливу увагу слід приділяти мовам програмування.

Дата-фахівець Теренс Шин в березні 2021 року проаналізував близько 15 тисяч вакансій у сфері data science. В результаті він зібрав найбільш затребувані навички для фахівців по роботі з даними у 2021 році. Так, серед мов програмування в них перше місце займає Python, друге – SQL.

Стилізований логотип мови програмування Python / Фото Proglib

Потрібно також відмінно знати бібліотеки TensorFlow і Scikit-learn. Останнім часом все більше фахівців потрібно зі знанням хмарних технологій AWS і GCP.

Скільки заробляють data scientist

Зарплата data scientist залежить не тільки від рівня професійної підготовки та навичок фахівця, але і від складності конкретного проєкту. За останніми даними порталу DOU, взимку 2021-го зарплата data scientist в Україні в середньому склала 2 тисячі доларів США.

Заробітні плати спеціалістів у IT-сфері в Україні / Інфографіка mc.today

При цьому фахівець з досвідом роботи від одного до трьох років може розраховувати на 1,5 тисячі доларів зарплати. А data scientist з досвідом роботи від чотирьох до шести років вже може розраховувати на зарплату у 3,8 тисячі доларів, що у гривневому еквіваленті становить понад 100 тисяч гривень на місяць.