Начните со статистики
Главную пользу в компании дата-сайентист приносит благодаря своему умению извлекать полезные данные из сложных. Для этого нужно научиться выделять смысл из хаотической информации.
Освойте статистический анализ. Он поможет вам:
-
Описать данные и предоставить детальную картину заинтересованным лицам.
-
Сравнить данные и проверить гипотезы, чтобы потом сообщить информацию для важных бизнес-решений.
-
Определять тренды и взаимосвязи, по которым можно будет сделать ценные прогнозы.
Будьте внимательны! Хуже скудной аналитики — только неправильная, поэтому важно хорошо понимать, как работает статистический анализ. К счастью, существует несколько ключевых принципов, которые помогут вам избежать ошибок.
Например, всегда относитесь к полученным результатам с долей критики и скептицизма. Возможно, тренды, которые вы нашли в данных, это всего лишь систематическая ошибка отбора? Правильно ли вы брали методологию? Совпадают ли ваши данные со всеми предположениями?

QIWI Universe 2019 проинвестирует 24 миллиона рублей для решения 8 бизнес-кейсов. Как получить свою долю?
От ваших предположений зависит то, какая информация окажется настолько «интересной», что ее стоит сообщить. Задумайтесь, о чем целесообразнее будет рассказать — о средних значениях или медиане набора данных.
Иногда важно знать, на какие методы не стоит полагаться. Существует несколько способов анализа данных, и необходимо работать с ними внимательно, чтобы избегать ошибок. Например, множественные сравнения всегда должны корректироваться, и ни в коем случае не нужно подтверждать гипотезу данными, с помощью которых вы ее вывели.
Проектирование данных (data engineering)
Большую часть работы дата-сайентиста занимает изучение и сортировка сырых данных для глубокого анализа. Гораздо меньше времени уделяется внедрению алгоритмов с нуля. Большинство статистических инструментов поставляется с готовыми R-пакетами и модулями на Python.
Программирование
Помимо аналитических навыков и знаний в своей области, вам необходимо уметь работать с кодом. На вопрос, какие языки программирования должен знать дата-сайентист, нет единого ответа. По крайней мере, вам пригодятся Python и/или Rl.
Какой бы язык вы ни выбрали, постарайтесь ознакомиться со всеми его функциями и экосистемой. Изучите доступные пакеты и модули и настройте идеальную интерактивную среду разработки. Научитесь работать с API, необходимые для анализа основных платформ и сервисов вашей компании.
Ключевым элементом вашей работы станут базы данных. Научитесь понимать какой-нибудь из видов SQL. Если ваша компания пользуется базами данных вроде MongoDB, стоит изучить и их принципы работы.
Фото: Unsplash
Коммуникация
Вы должны эффективно доносить полученные данные, руководствуясь следующими принципами:
-
Точность
-
Конкретика
-
Краткость
-
Доступность
Визуализация данных
Хорошо построенный график или схема может показать то, на что ушло бы несколько абзацев текста.
Есть множество платных и бесплатных инструментов для визуализации данных, например, Plotly, Tableau, Chartio, d3.js и другие. Если вам нужно быстро набросать таблицу, не отказывайтесь от таких проверенных средств, как Excel или Google Sheets.
Фото: Unsplash
Когда вы создаете график, важно, чтобы на нем отображался максимум информации, но при этом сохранялась его «читабельность». Хорошая схема понятна с первого взгляда. Больше информации о том, как лучше составлять диаграммы и схемы вы найдете в книге Эдварда Тафти «Визуальное представление больших объемов информации».
Не забывайте постоянно учиться
Если вы дочитали до этого места и расстроились, что не обладаете ни одним из этих навыков, ничего страшного. Самое важный навык дата-сайентиста — это умение постоянно учиться и переучиваться. Индустрия стремительно развивается, и в ближайшие годы появятся новые фреймворки, инструменты и методы. Через пять-десять лет все полученные умения могут устареть — будьте к этому готовы. Выучите основы и постоянно узнавайте что-то новое — только так вы сможете удержаться на плаву.
Источник: https://rb.ru/story/data-scientist-skills/