Аналитики из Американского управления статистики утверждают: в 2021 году количество вакансий data scientist вырастет почти до 3 миллионов. По их подсчетам, уже сейчас такие специалисты нужны около 70% американских компаний. В Украине за вторую половину 2020 были опубликованы 1600 вакансий на позицию data scientist.

К теме Киевстар Бизнес ищет специалистов в команду Big Data

Data scientist: кто это и что делает

Data scientist – это специалист, который умеет работать с большими данными Big data. Что же такое Big data?

Это огромные объемы неструктурированной информации. Например, каждый день в украинских банках совершаются миллионы операций: оплата коммунальных платежей, переводы на карту, покупка товаров. Информация об этих платежи хранится в Национальном банке Украины – это big data. Такие же базы данных собирают мобильные операторы, соцсети и поисковые сервисы.

Анализ больших данных требует структурирования / Фото Getty Images

Что такое Big data

Таким образом, Big data охватывает анализ следующих анонимизированных данных о:

  • звонки;
  • платежи;
  • перемещения;
  • предпочтения;
  • погоду.

Задача data scientist – найти закономерности в этих данных и сделать на их основе выводы. Так, если правильно проанализировать все запросы интернет-магазина, можно увеличить продажи. В нужное время предложить клиенту нужный товар на нужном устройстве: рыболову – современные удочки, а предпринимателю – новую книгу о бизнесе.

Люди, которых вы можете знать: один из алгоритмов Big data

Списки каких-либо рекомендаций – будь то друзей или музыки – тоже результат обработки большого количества данных. Одним из первых такую ​​модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.

Логотип LinkedIn / Фото Datasciencecareeroptions

Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый метод. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, достаточно велика. Джонатан назвал алгоритм "Люди, которых вы можете знать" и убедил генерального директора использовать его в сети. В результате по состоянию на 2020 год общее количество пользователей LinkedIn достигло 675 миллионов, из них более 300 миллионов – активные пользователи.

Какие задачи для бизнеса решает data scientist

Data scientist анализирует информацию не просто так, а чтобы на ее основе дать правдивый прогноз. Например, он может спрогнозировать эффективность рекламной кампании. Часто выводы дата-специалиста помогают в принятии решений. Например, дать клиенту банка кредит или отказать.

Кроме того, data scientist – это сотрудник, который разрабатывает решения сложных задач и может визуализировать информацию. Например, графически показать, какие платежи отклонил банк за последний год и почему.

Вот задачи, которые может решить data scientist в бизнесе:

  • собрать информацию о пользователях и сгруппировать их по категориям;
  • спрогнозировать, какой продукт вызовет интерес и как долго будет пользоваться спросом;
  • предусмотреть, какое направление следует открыть.

Стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали подборки фильмов для определенных категорий. И сегодня для этого Netflix собирает такие данные:

  • дата и время просмотра;
  • устройство, на котором посмотрели фильм;
  • запрос вводили в поиске.

Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня в Netflix более 200 миллионов пользователей по всему миру.

Что должен знать data scientist

Data science – это сфера, в которой пересекаются компьютерные и математические науки. Здесь нужно обязательно знать:

  • математику, статистику, теорию вероятностей;
  • принципы машинного обучения;
  • языка программирования SAS, R или Python;
  • базы данных MySQL и Postgre;
  • технологии визуализации данных и отчетности;
  • хранилище данных Hadoop and MapReduce.

Особое внимание следует уделять языкам программирования.

Дата-специалист Теренс Шин в марте 2021 проанализировал около 15 тысяч вакансий в сфере data science. В результате он собрал самые востребованные навыки для специалистов по работе с данными в 2021 году. Так, среди языков программирования в них первое место занимает Python, второе - SQL.

Стилизованный логотип языка программирования Python / Фото Proglib

Нужно также отлично знать библиотеки TensorFlow и Scikit-learn. В последнее время все больше специалистов нужно со знанием облачных технологий AWS и GCP.

Сколько зарабатывают data scientist

Зарплата data scientist зависит не только от уровня профессиональной подготовки и навыков специалиста, но и от сложности конкретного проекта. По последним данным портала DOU, зимой 2021-го зарплата data scientist в Украине в среднем составила 2 тысячи долларов США.

Заработные платы специалистов в IT-сфере в Украине / Инфографика mc.today

При этом специалист с опытом работы от одного до трех лет может рассчитывать на 1,5 тысячи долларов зарплаты. А data scientist с опытом работы от четырех до шести лет уже может рассчитывать на зарплату в 3,8 тысячи долларов, что в гривневом эквиваленте составляет более 100 тысяч гривен в месяц.