Что такое data science? руководство для начинающих

Пример: профилактика диабета

Что, если мы сможем предсказать возникновение диабета и предпринять соответствующие меры заранее, чтобы предотвратить его?
В этом случае мы прогнозируем появление диабета, используя весь жизненный цикл, о котором мы говорили ранее. Давайте рассмотрим различные шаги.

Шаг 1:

Во-первых, мы собираем данные на основе истории болезни пациента, как описано в Фазе 1. Вы можете обратиться к приведенным ниже примерам.

Данные

Как вы можете видеть, у нас есть различные атрибуты, как указано ниже.Атрибуты:

npreg — Количество беременности
glucose  — Концентрация глюкозы в плазме
bp — Кровяное давление
skin — Толщина кожи трицепса
bmi — Индекс массы тела
ped — Функция родословной диабета
age — Возраст
income  — Доход

Шаг 2:

Теперь, как только у нас появились данные, нам необходимо очистить и подготовить их для анализа.
Эти данные имеют множество несоответствий, таких как отсутствующие значения, пустые столбцы, неожиданные значения и неправильный формат данных, которые необходимо очистить.
Здесь мы организовали данные в одну таблицу под разными атрибутами, что делает ее более структурированной.
Давайте посмотрим на примеры ниже.

Очистка данных

Эти данные имеют много несоответствий.

В столбце npreg слово «one» написано словами, тогда как оно должно быть в числовой форме.
В столбце bp одно из значений — 6600, что невозможно (по крайней мере для людей), поскольку bp не может доходить до такого огромного значения.
Как вы можете видеть, столбец «income» пуст, в этом случае не имеет смысла прогнозировать диабет. Поэтому иметь его здесь избыточно и это нужно удалить из таблицы.
Таким образом, мы очистим и обработаем данные, удалив выбросы, заполнив нулевые значения и нормализуя типы данных. Если вы помните, это наш второй этап, который представляет собой предварительную обработку данных.
Наконец, мы получаем чистые данные, как показано ниже, которые можно использовать для анализа.

Очищенные данные

Шаг 3:

Теперь давайте сделаем некоторый анализ, как обсуждалось ранее в Фазе 3.

Сначала мы загрузим данные в аналитическую песочницу и применим к ней различные статистические функции. Например, R имеет такие функции, как describe, которое дает нам количество отсутствующих значений и уникальных значений. Мы также можем использовать summary функцию, которая даст нам статистическую информацию, такую как средние, медианные, диапазонные, минимальные и максимальные значения.
Затем мы используем методы визуализации, такие как гистограммы, линейные графики, полевые диаграммы (histograms, line graphs, box plots), чтобы получить представление о распределении данных.

Data Science визуализация

Шаг 4:

Теперь, основываясь на представлениях, полученных на предыдущем шаге, наилучшим образом подходит для этой проблемы — дерево решений (decision tree).

Поскольку у нас уже есть основные атрибуты для анализа, такие как npreg, bmi и т. Д., Поэтому мы будем использовать метод обучения с учителем для создания модели.
Кроме того, мы использовали дерево решений, потому что оно учитывает все атрибуты за один раз, например, те, которые имеют линейную связь, а также те, которые имеют нелинейную взаимосвязь. В нашем случае мы имеем линейную зависимость между npreg и age, тогда как существует нелинейная связь между npreg и ped.
Модели дерева решений очень надежны, так как мы можем использовать различную комбинацию атрибутов для создания различных деревьев, а затем, наконец, реализовать ту, которая имеет максимальную эффективность.
Давайте посмотрим на наше дерево решений.

Дерево решений

Здесь самым важным параметром является уровень глюкозы, поэтому это наш корневой узел. Теперь текущий узел и его значение определяют следующий важный параметр. Это продолжается до тех пор, пока мы не получим результат в терминах pos или neg. Pos означает, что тенденция к диабету является положительной, а neg отрицательной.

Шаг 5:

На этом этапе мы проведем небольшой пилотный проект, чтобы проверить, соответствуют ли между собой  наши результаты. Мы также будем искать ограничения производительности, если таковые имеются. Если результаты неточны, нам нужно перепланировать и перестроить модель.

Шаг 6:

Как только мы выполним проект успешно, мы будем делиться результатами для полного развертывания.

Data Scientist’у проще сказать, чем сделать. Итак, давайте посмотрим, что вам нужно, чтобы быть им. Data Science требует навыков в основном из трех основных областей, как показано ниже.

Data Science умения и навыки

Как вы можете видеть на приведенном выше графике, вам нужно приобрести различные умения и навыки. Вы должны хорошо разбираться в статистике и математике для анализа и визуализации данных.

Требования к специалисту

Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.

Кроме этого, Data Scientist должен знать:

  1. Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
  2. Базы данных MySQL и PostgreSQL.
  3. Технологии и инструменты для представления отчетов в графическом формате.
  4. Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
  5. Как подготовить данные и сделать их перевод в удобный формат.
  6. Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
  7. Как установить закономерности и видеть логические связи в системе полученных сведений.
  8. Как разработать действенные бизнес-решения.
  9. Как извлекать нужную информацию из разных источников.
  10. Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
  11. Как успешно внедрить программу.
  12. Область деятельности организации, на которую работает.

Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:

  • трудолюбивым,
  • настойчивым,
  • скрупулезным,
  • внимательным,
  • усидчивым,
  • целеустремленным,
  • коммуникабельным.

Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.

Что изучает Data Science

Каждый день человечество генерирует примерно 2,5 квинтиллиона байт различных данных. Они создаются буквально при каждом клике и пролистывании страницы, не говоря уже о просмотре видео и фотографий в онлайн-сервисах и соцсетях.

Наука о данных появилась задолго до того, как их объемы превысили все мыслимые прогнозы. Отсчет принято вести с 1966 года, когда в мире появился Комитет по данным для науки и техники — CODATA. Его создали в рамках Международного совета по науке, который ставил своей целью сбор, оценку, хранение и поиск важнейших данных для решения научных и технических задач. В составе комитета работают ученые, профессора крупных университетов и представители академий наук из нескольких стран, включая Россию.

Сам термин Data Science вошел в обиход в середине 1970-х с подачи датского ученого-информатика Петера Наура. Согласно его определению, эта дисциплина изучает жизненный цикл цифровых данных от появления до использования в других областях знаний. Однако со временем это определение стало более широким и гибким.

Data Science (DS) — междисциплинарная область на стыке статистики, математики, системного анализа и машинного обучения, которая охватывает все этапы работы с данными. Она предполагает исследование и анализ сверхбольших массивов информации и ориентирована в первую очередь на получение практических результатов.

В 2010-х годах объемы данных по экспоненте. Свою роль сыграл целый ряд факторов — от повсеместного распространения мобильного интернета и популярности соцсетей до всеобщей оцифровки сервисов и процессов. В итоге профессия дата-сайентиста быстро превратилась в одну из самых популярных и востребованных. Еще в 2012 году позицию дата-сайентиста журналисты назвали самой привлекательной работой XXI века (The Sexiest Job of the XXI Century).

Объем данных, созданных, собранных и потребленных во всем мире с 2010 по 2024 год (в зеттабайтах)

(Фото: Statista)

Развитие Data Science шло вместе с внедрением технологий Big Data и анализа данных. И хотя эти области часто пересекаются, их не следует путать между собой. Все они предполагают понимание больших массивов информации. Но если аналитика данных отвечает на вопросы о прошлом (например, об изменениях в поведениях клиентов какого-либо интернет-сервиса за последние несколько лет), то Data Science в буквальном смысле смотрит в будущее. Специалисты по DS на основе больших данных могут создавать модели, которые предсказывают, что случится завтра. В том числе и предсказывать спрос на те или иные товары и услуги.

Курсы или халява?

Выбор между платными курсами и самостоятельным обучением – это индивидуальное решение для каждого. В случае с наукой о данных, есть очень весомые аргументы «за» и «против» каждого варианта. Так, курсы стоят дорого – выше средней цены по современным профессиям, но вместе с тем, они дают возможность учится у практикующих специалистов, которые смогут на понятных примерах объяснить сложные темы.

С другой стороны, много профессиональной информации есть в открытом доступе, и чтобы ее изучить не нужно тратить сотни тысяч рублей. Но остается вопрос – а сможете ли вы разобраться самостоятельно? Чтобы принять взвешенное решение, советуем изучить нашу статью о плюсах и минусах каждого формата обучения: Дистанционное обучение: плюсы и минусы, возможности и преимущества онлайн-обучения

🥇 №1. Профессия Data Scientist от Skillbox

После прохождения этого курса ты освоишь 2 специальности и получишь 1.5 года реального стажа в Data Science.

Кому подойдёт:

  • Новичкам в IT. Чтобы получить базовые навыки программирования, аналитики и математики. 
  • Программистам. Для улучшения своих знаний и навыков в Python и R. 
  • Аналитикам. После обучения ты научишься ставить гипотезы, кодить на Python и R, а также повысишь свою квалификацию. 

Чему научат:

  • Навыкам в аналитике.
  • Базовым знаниям по математике для DS.
  • Работе с языками Python и R.
  • Методам визуализации данных.
  • Взаимодействию с базами данных.
  • Использованию нейронных сетей и построению рекомендательных систем.

Сколько длится: 18 месяцев.

Цена: 232 500 рублей без скидки, 116 250 рублей со скидкой

Часть 2. Batman Data Science: Начало

На сайте после регистрации открывается доступ к множеству курсов. Все курсы, что мне попадались можно было начинать в любой момент, ограничений по времени не было, взаимодействие с преподавателями или студентами тоже не требовалось.

Каждый курс можно пройти по отдельности, а можно в составе учебной программы (learning path).  За прохождение каждого учебного курса выдается электронный сертификат, за выполнение требований учебной программы — бейдж

Интерфейс сайта напоминает любую другую систему дистанционного обучения, так что думаю сам процесс не должен вызывать проблем у опытных пользователей.

Поскольку о Data Science на момент регистрации я не знал вообще ничего, сам бог велел начать с программы обучения Data Science Fundamentals, в принципе это же мне подтвердил местный «Скайнет». На сайте есть бот (Student Advisor), если ему написать: «Data Science», то он как раз присоветует эту учебную программу. Для каких-либо более сложных и душевных бесед бот не подходит, потому что он понимает похоже только ключевые слова из тем курсов.

Приступим. На странице учебной программы, видно, что она состоит из нескольких курсов, ранжированных в рекомендуемом порядке прохождения (хотя никто не запрещает проходить в любом порядке).

При этом, для получения бейджика первой степени, как правило необходимо освоить самый первый курс учебной программы, для получения бейджика второй степени необходимо, как правило пройти все курсы программы. Рассмотрим её подробней.

Место работы

Data scientist востребован везде, где используются данные для решения конкретных задач. Это может быть финансовая структура, применяющая скоринговые системы при кредитовании физических лиц, или транспортная компания, составляющая расписание движения автобусов на основе анализа пассажиропотока.

Типы работодателей для дата-сайентистов:

  1. Крупные интернет-компании. Устроившись в подобную фирму стажером, можно наработать опыт в области обработки данных для карьерного роста. Работникам обеспечена официальная занятость, полный соц. пакет, бонусы.
  2. Аналитические подразделения предприятий различных отраслей деятельности. В эту группу входят банки, аудиторские фирмы, телекоммуникационные операторы, ритейл-сети. Сбербанк, один из первых финансовых гигантов в стране, воспользовался услугами дата-сайентистов. Работая в исследовательском отделе крупной компании, опытный специалист может внести личный вклад в ее развитие, предложив на основе анализа данных пути решения застарелых проблем.
  3. Стартапы в сфере data science. Фирмы, работающие в сфере консалтинга, набирают в штат команду дата-сайентистов. Для качественного консультирования клиента важен всесторонний подход к анализу его деятельности, формулирование предложений по продвижению бизнеса.

Бизнес-сообщество нуждается в грамотных специалистах по анализу данных. Поэтому на рынке труда постоянно присутствует много вакансий аналитиков в сфере финансов, телекоммуникаций, маркетинга и других направлений.

Этап 5. Дополнительные технические навыки, необходимые в работе

Данные этап может занять 60-200ч, в зависимости от степени перфекционизма. Оптимальным кажется изучить всё на столько, чтобы понимать ключевые принципы и команды, но не обязательно тренироваться на большом количестве учебных примерах, т.к. если удастся устроиться на работу, то получение практики и оттачивание навыков можно делать уже в процессе работы

  • Conda, понимание проблем зависимостей версий библиотек, и как conda это может решить

  • основы bash

  • Python standard library, если не освоили ранее (необходимый минимум itertools, collections, contextlib), умение эффективно разбивать код на функции и модули, классы; умение применять context managers.

  • Основы git, также очень полезно умение работать с IDE: pycharm/vs code. Их использование облегчит работу с git, заменив графическим интерфейсом работу с командной строкой

  • Библиотеки визуализации (matplotlib+seaborn, plotnine, plotly), если не освоили их раньше.

С таким багажом знаний наверняка можно найти позицию джуниор дата сайентиста (может называться по-другому, но суть та же).

В принципе, на этом уровне знаний можно работать годами, практикуясь в применении разных из уже изученных моделей, библиотек и инструментов, осваивая вспомогательные методы (feature engineering), нюансы, и способы решения похожих же задач, с помощью разных библиотек (xgboost, cat-boost). Постепенно будет уровень рост ЗП. Но это не уровень Senior специалиста.

Data Science – что это?

Data Science – это работа с неструктурированными данными, осуществляемая с помощью различных методик машинного обучения и математической статистики. Однако сегодня стало очевидным, что для получения полезной информации необходимо не только применять определенные алгоритмы, но и обладать нужным уровнем гибкости и понимания, чтобы выявить имеющиеся закономерности и связи.

Поэтому Data Science предлагает 5 уровней работы с данными:

  1. Объединение (сбор и ввод, прием сигнала, удаление ненужных сведений);
  2. Сопровождение (хранение, очистка, подготовка, обработка и архитектура);
  3. Процесс (интеллектуальный анализ, кластеризация /классификация, моделирование, обобщение);
  4. Анализ (исследовательский / подтверждающий, прогнозный, регрессивный, интеллектуальный, качественный);
  5. Коммуникация (отчетность, визуализация данных, бизнес-аналитика, принятие решений).

Какие специалисты работают с данными

Аналитик данных (Data Analyst) — работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. В SkillFactory открыт курс «Специализация Аналитик Данных»

Разработчик BI (Business Intelligence Developer) — занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования.

Инженер по данным (Data Engineer) — занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. В SkillFactory открыт курс «Специализация Data Engineer»

Специалист по данным (Data Scientist) — занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.

Будущее Data Science

У Data Science большие перспективы, и вот почему:

Экспоненциальный рост объема данных в мире

Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.

Рост рынка Data Science

Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.

Развитие технологий искусственного интеллекта

Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».

Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.

Курс

Data Scientist

Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

FAQ

Стоит ли идти в профессию, не имея никакой предварительной подготовки?

Если у вас нет навыков в программировании, а математику знаете на уровне школьной программы – освоить профессию будет сложно. Прежде чем решиться на полноценный курс, советуем обязательно пройти бесплатные вводные уроки, которые рассказывают о специфике профессии, знакомят с базой. Так вы сможете понять общую планку, и сможете ли вы до нее дотянутся.

В каких сферах работает дата сайентист?

Сейчас большинство вакансий в нашей стране предлагают ИТ-компании, но в целом эта профессия может использоваться практически в любой индустрии: медицине, технологическом производстве, торговых сетях, финансовых учреждениях – любой достаточно крупной компании.

Как правильно выстраивать учебу в дата сайнс самостоятельно?

Самому выстроить комплексную подготовку довольно сложно, но возможно. Мы рекомендуем ориентироваться на советы Ребекки Викери, которая сама освоила профессию и успешно работает в ней уже 10 лет. Для начала изучите язык Python и его возможности в анализе данных, следующий шаг – машинное обучение, затем SQL, язык R, разработка программного обеспечения, глубокое обучение. Уже после этого стоит потратить время на изучение теории и математики

На что стоит обратить внимание?

Обязательно – Derivatives, то есть производные, Geometric definition, Calculating the derivative of a function, Nonlinear functions, Chain rule, Composite functions, Composite function derivatives, Multiple functions, градиенты, theory of probability (теория вероятности)

Не менее важно прокачать знания в линейной алгебре. Начните с изучения матриц, которые используются во многих популярных инструментах машинного обучения, например, XGBOOST

Сюда же – векторные пространства и линейные уравнения, матричные преобразования (Matrix transformations), умножение матриц — Matrix multiplication. После этого, стоит уделить время изучению статистики и приступать к практике.

Требования к специалисту

За последнее десятилетие специалисты по обработке данных стали необходимым активом и присутствуют практически во всех организациях. Эти профессионалы – разносторонне образованные люди с техническими навыками высокого уровня, способные создавать сложные количественные алгоритмы для организации и синтеза больших объемов информации, используемых для ответа на вопросы и реализации стратегии в организации.

Указанные знания должны сочетаться с хорошими коммуникативными и лидерскими качествами, необходимыми для достижения полезных результатов для различных заинтересованных сторон внутри организации или бизнесе в целом.

Заинтересованность в своей работе в сочетании с высочайшими отраслевыми знаниями и хорошими навыками коммуникации позволяют data scientists легко объяснять высокотехнологичные результаты другим сотрудникам с нетехническим образованием.

Как правило, для работы в качестве специалиста по данным требуется высшее образование в области информатики, математики или естествознания, при этом высоко ценится специализация в сфере высшей математики, физики, статистики и инженерного дела. Ожидается, что сотрудник будет знать некоторые языки программирования (R, Python, SQL, C и/или Java) и особенности работы с базами данных.

Отдельные крупные работодатели предлагают самостоятельные программы подготовки специалистов, которые обычно занимают около двух лет. Некоторые из них принимают в качестве учеников выпускников ВУЗов с любой специальностью.

Квалификация последипломного образования (например, степень магистра или доктора наук) также может быть полезной для профессиональной карьеры. В некоторых учебных заведениях доступно обучение в магистратуре по специальности бизнес-аналитика или дата сайенс, однако для поступления требуется иметь диплом первой ступени ВУЗа по специальности в области математики, инженерии, информатики или естественных наук, в редких случаях допускаются бакалавры, окончившие факультеты бизнеса, экономики или психологии, при наличии математических способностей и базового опыта программирования.

Где используется Data Science?

  • Как насчет того, сможете ли вы понять точные требования своих клиентов к существующим данным, таким как история просмотра посетителей, история покупок, возраст и доход. Без сомнения, у вас были все эти данные ранее, но теперь с огромным количеством и разнообразием их вы можете более эффективно обучать модели и рекомендовать продукт своим клиентам с большей точностью. Разве это не удивительно, поскольку это принесет больше преимуществ вашей организации?
  • Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, если ваш автомобиль использовал элементы ИИ чтобы отвезти вас домой? Автопилот собирает данные от датчиков, радаров, камер и лазеров, чтобы создать карту окружения. Основываясь на этих данных, он принимает решения, например, когда ускоряться, когда нужно обгонять, где нужно сделать чередование с использованием передовых алгоритмов машинного обучения.
  • Давайте посмотрим, как Data Science может использоваться в интеллектуальной аналитике. Рассмотрим пример прогнозирования погоды. Данные о кораблях, самолетах, радарах, спутниках могут собираться и анализироваться для создания моделей. Эти модели не только прогнозируют погоду, но также помогают прогнозировать возникновение любых стихийных бедствий. Это поможет вам заранее принять необходимые меры и спасти много драгоценных жизней.

Посмотрим на нижеприведенную инфографику, чтобы увидеть все области, где Data Science производит впечатляющие результаты.

В каких областях Data Science поражает воображение

Теперь, когда вы поняли необходимость в Data Science, давайте поймем, что это такое.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка. 

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков

Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram, на и .

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Какие специалисты работают с данными

На этапе обработки неструктурированной информации и преобразования ее в базы данных работают ELT-специалисты. К ним относят:

  • Data Engineer, задача которого заключается в обеспечении целостности и безопасного хранения информационных баз;
  • backend-разработчик — отвечает за поддержание баз данных в работоспособном виде;
  • архитектор БД планирует хранение собранных сведений.

При анализе массивов информации требуется извлечь максимум полезных данных. Эти цели реализуют:

  • data analyst (аналитик данных) – обрабатывает сведения для решения проблемы с помощью статистических методов, экспериментов, дает прогнозы на перспективу;
  • дата сайентист – получает информацию из разных источников для установления закономерностей и развития бизнеса;
  • Bl-аналитик – используя готовые решения, занимается их визуализацией;
  • Ml-специалист – зная языки программирования и выдвигая гипотезы, разрабатывает алгоритмы анализа.

Что мне нравится в моей работе

Я работаю в «Тинькофф» уже три с половиной года. В нашей компании много задач для сайентистов и почти нет ограничений по развитию. Наука о данных — достаточно универсальная область

По сути тебе не важно какими данными ты занимаешься: о торговле продуктами или о поведении пользователей в интернете. Для всех задач есть одинаковая база: математика и программирование

Зная базовые вещи уже можно углубляться в конкретные области, например, компьютерное зрение или обработку естественного языка.

Большинство задач в индустрии довольно стандартные, они ориентированы прежде всего на бизнес-результат. Поэтому в какой-то момент каждому специалисту хочется начать делать что-то свое параллельно основной работе. Я, например, хотел бы привнести что-то новое в open-source (программы и технологии для разработчиков), но пока своих значимых кейсов нет.

Мне нравится создавать технологии, которые автоматизируют ручную работу. Например, известная в машинном обучении библиотека scikit-learn поделила профессию на «до» и «после»: у разработчиков появились инструменты для быстрой работы с алгоритмами ML.

Еще мне хотелось бы углубиться в другие области машинного обучения. Я занимаюсь временными рядами, обычно в этой специализации лучше работают классические модели. И хочу поглубже копнуть в Deep Learning — глубинное обучение, где нейросети способны решать очень сложные задачи. Именно в этой области сейчас происходят наиболее интересные в машинном обучении вещи.

Курс 

Полный курс по Data Science

Освойте востребованную профессию с нуля за 12 месяцев и станьте уверенным junior-специалистом.

  • Индивидуальная поддержка менторов
  • 10 проектов в портфолио
  • Помощь в трудоустройстве 

Получить скидку Промокод “BLOG10” +5% скидки

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *