10 лучших HTML-редакторов

Разработка #Программы #Редакторы кода #Подборка #HTML/CSS Рассматриваем лучшие приложения для работы с HTML-разметкой. Узнаем, чем пользуется верстальщик с глубокими познаниями...

«Чистая» ОС, или Неведома зверушка. Ставим ClearOS

Разработка #FTP #Ubuntu #VPN #Firewall #Apache #Routing #Базы данных #Панель управления Как-то раз нужно было быстро запустить веб-сервер с...

5 интересных трюков CSS

Режимы наложения можно использовать для того, чтобы сделать контент на сайте более уникальным. По сути, одно изображение имеет...

Система управления контентом PHPShop.CMS

PHPShop.CMS – продукт российской компании PHPShop Software. Точнее, это общее название для нескольких продуктов-лицензий (как у 1C-Bitrix), а...

Обзор Vue.js

Разработка #Фреймворки #Обзор #JavaScript Vue.js или просто Vue – это прогрессивный JavaScript-фреймворк, который используется для создания пользовательских интерфейсов....

Создание email рассылок на Joomla

Создание почтовых рассылок – это эффективный способ рекламы и привлечения внимания к своему сайту. Я уже рассказывала о...

GitHub включил по умолчанию механизм защиты от утечек данных

Новости #GitHub #Сервисы #Безопасность Реклама. ООО «ТаймВэб». erid: LjN8K4hV8 Сервис GitHub включил защиту от попадания в публичный репозиторий приватных...

PHP: инструменты для тестирования, отладки, защиты и мониторинга

PHPUnit – инструмент для тестирования, похожий на JUnit (который используется для тестирования Java). Он дает возможность создавать собственные...

Timeweb инвестировал 10 млн долларов в развитие Timeweb Cloud

Новости #Финансы Компания Timeweb завершила первый этап инвестиций в размере 10 млн долларов в развитие облачного провайдера Timeweb Cloud....

Что должен знать Junior-разработчик

Разработка #Карьера #Обзор #Технологии #JavaScript #HTML/CSS После обучения многие выпускники начинают активно искать работу по специальности. Диплом IT-специалиста...

Списки в Python и методы работы с ними

Разработка #Python Списки в Python – упорядоченный изменяемый набор объектов произвольных типов, пронумерованных от 0. Они используются для...

Создаем калькулятор-конвертер на базе React. Часть 4: Декомпозиция и мелкие исправления

Разработка #Фреймворки #JavaScript Продолжаем разработку калькулятора-конвертера на базе Реакта с визуальной библиотекой Chakra. В этой статье речь пойдет...

CMS, фреймворк или собственная разработка: что выбрать?

CMS CMS – система управления контентом. Распространяется на бесплатной или платной основе. Подойдет для проектов: с небольшой нагрузкой;...

Как выбрать шаблон для Drupal

Разработка #Шаблоны #Разбор #Drupal Drupal – это открытый гибкий бесплатный движок для создания уникального сайта. Вебмастер может пользоваться...

Лучшие IDE и редакторы кода для Python

Разработка #Программы #IDE #Редакторы кода #Python Писать программный код можно хоть карандашом на листке бумаги. Рационально ли это?...

5 главных способов привлечения клиентов из карт и отзывиков

Бизнес #Продажи #Предпринимательство #SEO Реклама. ООО «ТаймВэб». erid: LjN8KQs4Z Мы в MyReviews делаем инструменты для мониторинга и улучшения рейтинга...

Методология разработки Waterfall: как устроена каскадная модель

Разработка #Менеджмент #Разбор #Оптимизация Термином Waterfall (в переводе с английского «водопад») называют каскадную модель управления проектами, при которой происходит...

Google представил нейросеть Gemini 1.5 – за раз она может обработать 11-часовое аудио

Новости #Google #Боты #Нейросети #Обновления Реклама. ООО «ТаймВэб». erid: LjN8KZYK5 Два месяца назад компания Google анонсировала новую языковую модель Gemini,...

Что такое формат JSON

Разработка #IDE #Разбор #JavaScript За представление структурированных данных на основе синтаксиса JavaScript отвечает стандартный текстовый формат под названием JSON,...

Как сделать дейлики эффективными: интервью с Настей Ткаченко

Мнение рынка #Менеджмент #Разбор #Программы #Мессенджеры В гостях у Комьюнити побывала Настя Ткаченко, проджект-менеджер конструктора сайтов Craftum. У...

Чем занимается Data Scientist

С развитием IT-индустрии появились новые профессии и значительно преобразовались традиционные. Например, раньше аналитика ассоциировалась исключительно с продажами, теперь прогнозирование и оценка данных востребованы практически везде. Информации настолько много, что потребовалось создание отдельной научной дисциплины – Data Science.

Что такое наука о данных? Кто такой Data Scientist и как им стать?

История Data Science

Еще в середине двадцатого века был виден потенциал цифровых технологий: благодаря им удобно не только складировать информацию, но и качественно к ней обращаться. Знания, заложенные в цифру, легче обработать, проанализировать и передать в другие области науки. Поэтому в 1966 году появляется «Комитет по данным для науки и техники» (CODATA), который был призван дисциплинировать сбор, хранение, поиск и критическую оценку научных данных.

Несмотря на то, что Data Science – раздел информатики, изначально в основе лежали не компьютерные технологии, а методы сбора данных. Хотя ученые и пытались сделать упор на цифровые ресурсы, технические устройства и интерфейсные технологии оставляли желать лучшего. Научный мир понимал, что за Data Science будущее, но на тот момент ответвление не могло стать полноценным направлением науки.

В 1974 году выходит книга легендарного ученого-информатика Петера Наура, в которой он не просто употреблял термин «Data Science», но и давал точное объяснение науки: это изучение жизненного цикла цифровых данных – от преобразования информации в электронный вид до ее представления другим областям науки.

И популярность Data Science только росла. 80-90-е выделились огромными прорывами в области компьютерных комплектующих, интернет-технологий и программного обеспечения. Хранить данные в электронном виде стало не просто удобно, но и выгодно. Компании переходили на электронные базы и активно продвигали услуги через интернет.

В 1990 году понятие «Data Science» обретает второе дыхание. Технологии придуманы, данные выложены – а дальше что? Кто будет разгребать завалы информации? Должны появляться специалисты, умеющие создавать структуры и алгоритмы. Поэтому Комитет активно дорабатывал науку и выделял наилучшие методы обработки данных.

Наконец, в начале «нулевых» все научное общество признало Data Science отдельной наукой и назначило CODATA ее предводителем. С тех пор группа ученых каждые четыре года обновляет стандарты работы с данными.

Big Data

В начале 2010 появляется термин «Big Data», то есть «большие данные». Информации в сети стало настолько много, что огромные массивы знаний стали называть просто «Big». Однако чем больше данных, тем сложнее их обрабатывать и анализировать. К счастью, и инструментов разрабатывалось не меньше: это и языки программирования, и специальное ПО (как серверное, так и десктопное), и новые формулы вычислений, и искусственный интеллект.

Естественно, специалист обязан в них досконально разбираться. Если на заре становления Data Science скорее напоминала энтузиазм отдельных ученых, то сегодня это сложные познания, требующие глубокого понимания.

Итак, мы подобрались к Data Scientist. Кто он такой, чем занимается и кто может стать им?

Профессия Data Scientist

Интернет и базы данных – это большие объемы неструктурированной информации, «вываленной» в сеть. И каждая компания хочет выделить и оценить конкретные данные; например, институт эпидемиологии желает получить отчет о развитии конкретного вируса, маркетинговое агентство – вычислить современные тренды, а Министерство образования сопоставить успеваемость в прошлом и текущем десятилетии.

Получается, перед Data Scientist ставится задача собрать и проанализировать информацию, а в некоторых случаях дать прогноз. Естественно, без компьютерных технологий структурировать массивы данных не получится. Но не думайте, что Data Scientist просто ищет информацию и складывает ее в правильной последовательности.

Современная наука о данных работает с алгоритмами, заменяющими людей, чат-ботами, искусственным интеллектом и так далее. Дата-сайентист должен обладать навыками программирования, так как он сам пишет нужные алгоритмы.

Не стоит путать дата-ученого с бизнес-аналитиком; последний чаще опирается на коммерческие цели, а не на техническую часть. Простой пример: интернет-магазин желает улучшить свой сервис. Для оценки продаж, лояльности покупателей и конкурентов руководитель приглашает бизнес-аналитика, который советует нарастить производство, снизить цены или поменять подход по продвижению услуг. А Data Scientist составит список технических огрехов и способов их устранить; помимо теории, он на практике способен изменить алгоритмы оформления заказа или переписать чат-бота.

Data Scientist востребован везде, где есть данные, подверженные структуризации и алгоритмизации:

  • Бизнес. Например, специалист может написать алгоритм, упрощающий сбор статистических данных.
  • Банковские системы. Выдача онлайн-кредитов, оформление заявок на вклады и прочие банковские услуги регулируются алгоритмами, написанными дата-сайентистом.
  • Транспорт. Построение оптимального маршрута, написание алгоритма выявления пробок.
  • IT. Боты, поисковые системы, искусственный интеллект.
  • Промышленность. Прогнозирование сбоев в работе или нехватки сырья.
  • Медицина. Современные медицинские приборы предполагают автоматические диагнозы на основе симптомов. Алгоритмы анализа помогают врачам индивидуально работать с пациентами и назначать наиболее эффективное лечение.
  • Другие области науки. Генетика и биоинженерия не обходятся без Data Science.

Областей применения Data Science очень много, поэтому профессия крайне востребована. Если до сих пор не совсем понятно, чем занимается Data Scientist, то вот базовая последовательность его действий при получении конкретной задачи:

  1. Получение технического задания от заказчика.
  2. Специалист оценивает задачу и пробует выполнить заказ методом машинного обучения.
  3. Дата-сайентист ищет дополнительные данные и критерии оценки, так как главное – эффективность модели.
  4. После этого он приступает к программированию и тренировке алгоритма.
  5. Когда модель будет готова, он испытывает ее на предмет выполнения задачи; подключаются другие специалисты, например риск-менеджеры.
  6. Если все работает как нужно, алгоритм внедряется в производство.
  7. После введения модели в эксплуатацию Data Scientist следит за процессами, по необходимости дорабатывая или улучшая алгоритм.

На данный момент это одна из самых высокооплачиваемых и перспективных вакансий в мире. В России Data Scientist уровня senior зарабатывает до 300 000 тыс. в месяц.

Как стать дата-сайентистом

Стать специалистом непросто. Если вы явный гуманитарий, будет еще сложнее. Но упорство и усидчивость способны преодолеть любые преграды.

Для начала выучите основы математики. Вы должны знать такие понятия, как дифференциал, определитель матрицы и производная. Придется потратить достаточно времени на теорию и заучивание формул, однако главная цель не зазубрить информацию, а научиться свободно в ней ориентироваться.

Требуются познания и в области статистики. В нее включается как теория, так и практика (в том числе программное обеспечение).

И наконец – Python и машинное обучение. Этот язык программирования способен освоить даже новичок, так как он отличается от того же C++ более простым синтаксисом. Однако основы машинного обучения могут занять больше времени. Дата-сайентист должен не просто знать теорию, но и уметь применять знания на практике.

Конечно, перечисленные выше требования всего лишь тезисы. Профессия очень разносторонняя и требует специализированных навыков. И все же результат стоит усилий: зарплаты постоянно растут, а «титул» Data Scientist дает сразу +100 к уважению в обществе.

Массивы информации постоянно растут, поэтому профессия крайне востребована. Если вы всерьез решите окунуться в мир данных и искусственного интеллекта – добро пожаловать в Data Science! 

Межтекстовые Отзывы
Посмотреть все комментарии
guest