То, что ученый данных?

Недавно окончил аспирантуру в статистике, у меня за последние пару месяцев начал искать работу в области статистики. Практически у каждой компании, я считал, было объявление о работе в должности и"аналитика данныхи". В самом деле, казалось, давно прошли те дни, видя должности статистические ученый или статистика. Уже будучи ученым данные действительно заменил, что будучи статистиком был или были синонимами названия не задумывались? Ну, большинство квалификаций для рабочих мест чувствовал, что вещи, которые могли бы претендовать под названием статистика. Большинство Джобс хотел докторскую степень в области статистики ($\галочка$), самое необходимое понимание экспериментального проектирования ($\галочка$), линейной регрессии и дисперсионного анализа ($\галочка$), обобщенные линейные модели ($\галочка$), и другие многомерные методы, такие как ППШ ($\галочка$), а также знания в статистическом вычислительной среде, такой как R или SAS ($\галочка$). Похоже, ученый данных-это просто кодовое имя для статистик. Однако, в каждом интервью я пошел начал с вопроса: "Так вы знакомы с алгоритмами машинного обучения?" Больше часто чем не, я нашел себе того, чтобы попытаться ответить на вопросы о Большие данные, высокопроизводительные вычисления, и темы на нейронных сетях, корзина, поддержка векторных машин бустинга деревьев решений, моделей без присмотра и т. д. Уверен, что я убедил себя, что это были все статистические вопросы в душе, но в конце каждого интервью я не мог'т помочь, но уйти, чувствуя, что я знал меньше и меньше о том, что ученый данные. Я статист, но я ученый данных? Я работаю над научными проблемами, так что я должен быть ученым! А также я работаю с данными, так что я должен быть ученым данные! И согласно Википедии, большинство ученых согласятся со мной (https://en.wikipedia.org/wiki/Data_science и т. д. )

хотя использование термина "по данным науки", которая взорвалась в бизнес > в средах, многие ученые и журналисты не видят разницы между наукой и статистических данных. Но если я иду на все эти собеседования для ученого данных, почему мне кажется, что они никогда не просят меня статистические вопросы? Ну после моего последнего интервью я хочу хороший ученый будет делать и я разыскал сведения, чтобы решить эту проблему (Эй, я ученый, данных в конце концов). Однако, после многих бесчисленное количество поисковых запросов в Google спустя, я оказался там, где я начал чувствовать, как будто я был в очередной раз пытается дать определение того, что ученый данные. Я не'т знаем, что ученый данных был точно, поскольку там было так много определений его, (http://blog.udacity.com/2014/11/data-science-job-skills.html, http://www-01.ibm.com/software/data/infosphere/data-scientist/) но, похоже, все говорит мне, что я хотел быть один:

  • https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
  • http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
  • и т. д....список можно продолжать. Ну в конце дня, что я поняла "что ученый данных" это очень трудный вопрос, чтобы ответить. Черт, было всего два месяца в Amstat, где они посвятили много времени, пытаясь ответить на этот вопрос:
  • http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
  • http://magazine.amstat.org/blog/2015/11/01/statnews2015/ Ну а пока, я должна быть сексуальной статистиком, чтобы быть ученым сведения, но, надеюсь, крест проверенные сообщество могло бы пролить свет и помочь мне понять, что значит быть ученым данных. Разве'т ученые все данные статистики?

    (Правка/Обновление) Я думал, что это может оживить разговор. Я только что получил письмо от американской статистической ассоциации о работе полагание с Microsoft ищет специалистов по обработке данных. Вот ссылка: ученый данные положения. Я думаю, что это интересно, потому что роль позиции бьет на много специфических черт, о которых мы говорим, но я думаю, что многие из них требуют очень тщательного фон статистики, а также противоречащие многие ответы, размещенные ниже. В случае, если ссылка мертва, вот те качества, компания Microsoft стремится в ученый данные: требования основной работы и навыки: опыт работы с доменом бизнеса с помощью аналитики

  • должен иметь опыт в нескольких соответствующих областях бизнеса с использованием навыков критического мышления для осмысления сложных бизнес-задач и их решения с использованием расширенной аналитики в крупных реальных бизнес-данных
  • Кандидат должен быть способен самостоятельно выполнить аналитические проекты и помогаем нашим внутренним клиентам понять выводы и претворять их в жизнь на благо своего бизнеса. моделирование
  • опыт работы в различных отраслях промышленности в предсказательном моделировании
  • Бизнес-проблемы определения и концептуального моделирования с клиентом для выявления важных связей и для определения системного контекста статистика/Эконометрика
  • разведочного анализа данных для непрерывных и категориальных данных
  • Спецификация и оценка структурной модели уравнения для корпоративного и потребительского поведения, издержки производства, спрос-фактор, дискретный выбор, и другие технологии связи по мере необходимости
  • Передовые статистические методы для анализа непрерывных и категориальных данных
  • Анализ временных рядов и реализация моделей прогнозирования
  • Знание и опыт работы с несколькими переменными проблемы
  • Умение оценивать правильность модели и провести диагностические тесты
  • Способность интерпретировать статистические данные или экономические модели
  • Знания и опыт в построении дискретно-событийное моделирование и динамических имитационных моделей управление данными
  • знакомство с использованием T-SQL и аналитика для преобразования данных и применение разведочных методов анализа данных для очень больших реальных данных
  • Внимание к целостности данных, включая резервирование данных, точности данных, аномальных или экстремальных значений, взаимодействия данных и отсутствующие значения. навыки коммуникации и сотрудничества
  • работать самостоятельно и способен работать с виртуальной командой проекта, что позволит детально исследовать инновационные решения для сложных бизнес-задач
  • Сотрудничать с партнерами, применять навыки критического мышления, и привод аналитические сквозных проектов
  • Превосходные навыки общения, как устные, так и письменные
  • Визуализации аналитических результатов в такой форме, которая обрабатывается различными группами заинтересованных сторон пакеты программ
  • расширенный статистический/эконометрические пакеты программ: питон, Р, СПМ, САС, отслеживанию событий, САС предприятие Горняк
  • Анализа данных, визуализации, и управления: Т-SQL, Эксел, PowerBI и аналогичные инструменты требования:
  • минимум 5+ лет соответствующего опыта требуется
  • Аспирантура в количественном сфере желателен.
Комментарии к вопросу (42)

Люди определяют научные данные по-разному, но я думаю, что общая часть:

  • практические знания, как бороться с данными,
  • практические навыки программирования.

Вопреки своему названию, это'Очень редко "по науке" по. То есть, в науке данных упор делается на практические результаты (например, в машиностроении), а не доказательств, математической чистоте и строгости, характерных для академической науки. Вещи должны работать, и нет большой разницы, если он базируется на научной работы, использование существующей библиотеки, свой собственный код или импровизированный взломать.

Статистик не нужен программист (возможно использование ручки & бумага и специальное программное обеспечение). Кроме того, некоторые должности в науке данные не имеют ничего общего со статистикой. Е. Г. это'данных инженерно-таких как обработка больших данных, даже в случае самых продвинутых есть математика может быть расчет средней (лично я бы'вызывать действие на "Т; наука" и, хотя). Кроме того, что "Наука" это раскрутили, так что косвенное отношение задания используют это название - чтобы заманить соискателей или поднять эго текущих работников.

Мне нравится таксономии Майкл Hochster'ы ответ на Quora:

тип ученого данными: для анализа. Этот тип в первую очередь касается осмысления данных или работы с ним, довольно статично. Тип данных ученый очень похож на статиста (и может быть не одна), но знает все практические детали работы с данными, которые не учили в статистике программы: очистка данных, методов работы с очень большими наборами данных, визуализация, глубокое знание предметной области, написание также о данных, и так далее.

тип Б ученый данные: B-для здания. Тип B ученые обмениваться данными некоторые статистические фоне с типом, но они также очень сильны кодеры и может быть обученными инженерами программного обеспечения. Типа ученый B данные, в основном, заинтересованы в использовании данных “в производстве”. Они строят модели, которые взаимодействуют с пользователями, зачастую выполняя рекомендации (продукции, людей, которых вы знаете, рекламу, фильмы, результатов поиска).

В этом смысле, типа ученый, данные статистик, которые можно запрограммировать. Но, даже для количественной стороны, там могут быть люди с фоном более в области компьютерных технологий (например, машинного обучения), чем обычные статистические данные, или те, фокусируя свое внимание на визуализации данных.

И данные науки Венн диаграмма (здесь: взлом ~ Программирование):

см. также альтернативные диаграммы Венна (этот и что). Или даже чирикать, в то время как юмористический, показав сбалансированную список типичные навыки и виды деятельности аналитиков данных:

См. Также этот пост: данные ученый - статистик, программист, консультант и визуализатор?.

Комментарии (12)
Решение

Есть несколько юморных определений, которые еще не были даны:

Мне нравится, как он играет красиво на более шумихи, чем вещества угол.

Кроме того, это рифы на западном побережье вкус всего этого.

Лично я считаю, что обсуждение (в общем, и здесь) несколько скучным и повторяющимся. Когда я думал о том, что я хочу---может быть, четверть века или больше назад---я нацелен на количественный аналитик. Это все равно, что я делаю (и люблю!) и это, в основном, перекрывает и охватывает то, что было дано здесь в разные ответы.

(Примечание: существует старый источник цитаты две, но я могу'т найти его прямо сейчас.)

Комментарии (7)

Там'С ряд исследований науки о данных. Мне нравится [это][1], потому что он пытается анализировать профили людей, которые на самом деле держат науки о данных рабочих мест. Вместо того, чтобы использовать неофициальные данные или автора'ы предубеждения, они используют методы науки о данных анализ данных ДНК ученый. Это'ы довольно показательно посмотреть на навыки, перечисленные учеными данных. Обратите внимание на топ-20 навыки содержат много навыков.

В современном мире, ученый данных, как ожидается, быть мастером на все сделки; с собственной ученика, который имеет прочную количественную основу, с способности к программированию, бесконечная любознательность и отличная коммуникативные навыки. Обновление: Я статистик, но я ученый данных? Я работаю над научными проблемами, так что я должен быть ученым! Если вы кандидат, вы'вновь, скорее всего, ученый уже, особенно, если у вас есть опубликованные работы и активных исследований. Вы Don'т должны быть ученым, чтобы быть ученым сведения, хотя. Есть некоторые роли, на некоторых фирмах, как Walmart (см. ниже), где требуется степень доктора наук, но, как правило, данные ученые степень бакалавра и как вы можете видеть из примеров ниже. Как вы можете понять из диаграммы выше, скорее всего, вы'll быть обязаны иметь хорошего стиля программирования и обработки навыков. Кроме того, зачастую данные науки связано с определенным уровнем, часто на "глубокий" и, специалистов в области машинного обучения. Вы, конечно, можете называть себя ученым данные, если у вас есть кандидат в статистику. Однако, кандидат наук в области компьютерных наук из ведущих учебных заведений может быть более конкурентоспособны, чем выпускники статистика, ведь они могут иметь весьма сильную прикладной статистики знание, которое дополняется сильными навыками программирования - это востребованная комбинация работодателями. Для борьбы с ними вы должны приобрести прочные навыки программирования, так что в балансе вы'll быть очень низким. Что'ы интересное, что обычно все стат кандидаты будут иметь определенный опыт программирования, но в науке зачастую данные требования гораздо выше, чем, работодатели хотят получить дополнительные навыки, знания алгоритмов и структур данных, распределенных вычислений и т. д. Для меня преимущество имеющим степень кандидата наук в статистику в проблему, захваченных в остальном фраза "а Джек на все руки", что обычно за: "а не" по. Это's хорошо, чтобы люди, которые знают чуть-чуть обо всем, но я всегда смотрю на людей, которые знают что-то слишком глубоко, то ли она'ы, статистика или информатика, это не так важно. Важно то, что он способен добраться до дна, он'ы удобное качество, когда вам это нужно. Опрос также списки лучших работодателей, ученых данных. Microsoft находится на верхнем, видимо, что было удивительно для меня. Если вы хотите получить лучшее представление о том, что они'вновь ищу, поиск LinkeIn с "Наука" в разделе Задания полезно. Ниже две выдержки из МС и Walmart'ы вакансии в LinkedIn, чтобы поставить точку.

  • Ученый Данным Microsoft
  • 5+ лет опыта разработки программного обеспечения в построение систем обработки данных/услуги
  • Степень бакалавра или более высокой квалификацией в области компьютерных наук, УО, или математика со специализацией в области статистики, интеллектуального анализа данных и машинного обучения.
  • Отличные Навыки Программирования (С#, Java, Python И Т. Д.) в обработке данных большого объема
  • Обработка знание Hadoop или другие технологии Больших Данных
  • Знание аналитических продуктов (например, R, SQL, как, САС, погонщиков и т. д.) это плюс. Обратите внимание, как зная, пакеты стат это только плюс, но и отличные навыки программирования в Java-это требование.
  • Волмарт, Ученый Данных
  • Доктор философии в области компьютерных наук или аналогичной сфере или МС как минимум 2-5 лет опыта
  • Хорошие функциональные навыки кодирования в C++ или Java (Ява является наиболее предпочтительным)
  • должен быть способен тратить до 10% в день субботника в написании кода в C++или Java/Hadoop/ульев
  • Экспертный уровень знаний одного из скриптовых языков, таких как Python или Perl.
  • Опыт работы с большими массивами данных и распределенные вычислительные инструменты плюс (карту/уменьшить, в Hadoop, улей, свечи и т. д.) Здесь кандидат является предпочтительным, но только компьютерный гений по имени. Распределенных вычислений на Hadoop или Spark-это, наверное, необычный навык для статистик, но некоторых физиков-теоретиков и прикладных математиков использовать подобные инструменты. Обновление 2: "это уже время, чтобы убить “сведения ученого” название на" говорит Томас Дэвенпорт, кто написал статью в "Гарвард Бизнес Ревью" в 2012 году под названием "по данным ученого: красивейшая работа 21 века" и такого рода начался сведения ученого увлечение: что означает сегодня, чтобы сказать вы находитесь—или хочу, или хочу прокат—“данные ученым?” Не много, к сожалению.
Комментарии (6)

Где-то я'ве читать это (правка: Джош's объяснило свое чирикать):

сведения ученый-это человек, который лучше по статистике, чем любой программист и лучше на программирование, чем любая статистика.

Эта цитата может быть описано по этой науки обработки данных. Первый взгляд на этой схеме похоже на "Ну и где здесь Программирование?", но если у вас есть тонны данных, вы должны быть в состоянии обрабатывать их.

Комментарии (10)

Я'вэ написано несколько ответов и каждый раз, когда у них долго и в конце концов я решил, что я встал на трибуну. Но я думаю, что этот разговор не в полной мере исследованы два важных фактора:

  1. В Science в науке данных. Научный подход заключается в попытке уничтожить ваши собственные модели, теории, особенности, методика выбора и т. д., И только когда вы не можете сделать это, вы признаете, что ваши результаты могут оказаться полезными. Это'ы мышления, и многие из лучших ученых данных, что я'вэ встретил жесткий дисциплин (химия, биология, техника).

  2. Наука о данных-это широкая область. Хороший научный результат данных обычно включает в себя небольшую группу ученых данных, каждый со своей собственной специальности. Например, один из членов команды является более жесткой и статистической, еще лучше программиста с инженерным образованием, а другой-сильный консультантом с бизнес-подкованных. Все трое быстро выучить предмету, и все трое любопытен и хочу найти правду, какой бы горькой она ни ... и делать то, что's в интересах (внутреннего или внешнего) клиента, даже если клиент не'т понять.

Конек за последние несколько лет, уходят в прошлое, как я думаю, заключается в наборе компьютерщиков, кто освоил кластерных технологий (экосистемы Hadoop и т. д.) и сказать, что'ы идеально подходит для специалистов по обработке данных. Я думаю, что's что ОП перестал работать, и я'd не советую ОП, чтобы подтолкнуть свои сильные стороны в строгости, правильности и научного мышления.

Комментарии (5)

Я думаю, что побитовые охватывает большую часть моего ответа, но я собираюсь добавить мои 2С.

Нет, мне очень жаль, но статистика не является ученым сведения, по крайней мере основываясь на том, как большинство компаний сегодня определяют роль. Отметим, что определение изменилось с течением времени, и одна из задач специалистов-практиков, чтобы убедиться, что они остаются актуальными.

Я поделюсь некоторые общие причины, почему мы отвергаем кандидатов на "ученый данных" В ролях:

  • Надежды об объеме работы. Как правило, ДС должен уметь работать самостоятельно. Это означает, что там's никто другой, чтобы создать набор данных для него, чтобы решить эту проблему, он был назначен. Так, он должен уметь находить источники данных, запросы, типовые решения, и то, зачастую, также создать прототип, который решает проблему. Много раз это просто создание панели мониторинга, сигнал тревоги, или репортаж, который постоянно обновляется.
  • Связи. Похоже, что многие статистиков иметь трудное время &quot упрощения и"; и "продажа и" свои идеи для бизнеса. Вы можете показать только один график и рассказать историю из данных таким образом, что все в комнате могут сделать это? Обратите внимание, что это после того, как вы закрепите, что вы можете защитить каждый бит этого анализа, если вызов.
  • Навыки программирования. Мы не'т необходимость производства навыки программирования на уровне, поскольку у нас есть разработчики, которые, тем не менее, она нужна нам, чтобы быть в состоянии написать прототип и развернуть его в веб-службу в АРМ экземпляр EC2. Так, навыки программирования не'т имею в виду умение писать скрипты R. Я могу добавить беглости в Linux где-то здесь, наверное. Итак, бар-это просто высшее, что большинство статистиков склонны верить.
  • SQL и баз данных. Нет, он может'т забрать на работу, так на самом деле мы нуждаемся в нем, чтобы адаптировать основные SQL-он уже знает, и научиться запрашивать различные БД систем, которые мы используем в орг, включая красное смещение, куст и вуаля - каждый из которых использует свой собственный вкус на языке SQL. Плюс, обучение SQL на работу означает, что кандидат будет создавать проблемы в любой другой аналитик, пока они не научатся писать эффективные запросы.
  • Машинное Обучение. Как правило, они использовали логистическую регрессию или несколько других методов, чтобы решить проблему на основе заданного набора данных (типа Kaggle). Однако, даже это интервью начинается с алгоритмов и методов, то в ближайшее время сосредоточиться на такие темы, как характеристика поколения (помните, что вам нужно создать набор данных, там's никто еще создадим его для вас), ремонтопригодность, масштабируемость и производительность, а также соответствующие компромиссы. Для некоторого контекста можно проверить соответствующие бумаги от Google опубликовала в НПВ 2015.
  • Анализ Текста. Не должно быть, но некоторый опыт в обработке естественного языка-это хорошо. В конце концов, большая часть данных в текстовом формате. Как обсуждалось там's никто другой, чтобы сделать преобразования и очистить текст для вас, чтобы сделать это расходник по мл или иного статистического метода. Также обратите внимание, что сегодня даже CS Грады уже сделали какой-то проект, что клещи в этом поле.

Конечно для младшего роль вы можете'т иметь все выше. Но, как многие из этих навыков вы можете себе позволить без вести и забрать на работу?

Наконец, разъяснить, самый распространенный повод для отказа от других специалистов является именно отсутствие даже базовых знаний статистики. И где-то есть разница между инженером данных и специалистов по обработке данных. Тем не менее, инженеры данных, как правило, применяют для этих ролей, так как много раз они считают, что "статистика" это просто среднее, отклонение и нормальное распределение. Так, мы можем добавить несколько соответствующих, но страшно статистические словечки в описание должностных обязанностей для того, чтобы уточнить, что мы подразумеваем под "по статистике" и избежать путаницы.

Комментарии (2)

Позвольте мне игнорировать шумиху и словечки. Я думаю, что "ученый данных и" (или что вы хотите назвать это) это реальная вещь и то, что отличается от статистик. Существует много видов позиций, которые эффективно ученых данных, но не учитывая, что имя - один из примеров людей, работающих в области геномики.

Как я это вижу, ученый данные кому-то, что имеет навыки и опыт для проектирования и выполнения исследования на большие объемы сложных данных (например, высоко мерный, в котором базовые механизмы неизвестного и сложного).

Это означает:

  • Программирование: уметь осуществлять анализ и трубопроводов, часто требующие определенного уровня распараллеливания и взаимодействие с базами данных и высокопроизводительных вычислительных ресурсов.
  • Информатика (алгоритмы): проектировании/выборе эффективных алгоритмов, в результате чего выбирается анализ, возможно и частота ошибок контролируется. Иногда это может также потребовать знания численного анализа, оптимизации и т. д.
  • Информатика / статистика (как правило, акцент в области машинного обучения): разработка и реализация основы для того, чтобы задать вопросы о данных, или обнаружить "узоры" в нем. Это предполагает не только знание различных тестов/инструментов/алгоритмов, а также Как создать правильное контрольных, кросс-проверки и так далее.
  • Моделирование: часто мы хотим быть в состоянии выпускать некоторые модели, что дает простое представление данных таким образом, что мы можем сделать полезные предсказания и понимания механизмов, лежащих в основе данных. Вероятностные модели очень популярны для этого.
  • Предметно-специфический опыт: одним из ключевых аспектов успешной работы со сложными данными, включающее доменный представление. Так что я бы сказал, что крайне важно, чтобы данные, ученый либо имеют опыт в домене, сможет быстро освоить новые месторождения, или должна быть способна взаимодействовать с экспертами в этой области, которые могут дать полезную информацию о том, как подходить к данным.
Комментарии (13)

Все великие ответы, но в моей работе опыт охоты у меня отмечено, что термин "по данным ученого" и был постыжен с "младший аналитик" в головах рекрутеров, что я был в контакте с. Таким образом, многие хорошие люди без опыта статистической считая, что вводным курс они сделали пару лет назад, теперь называют себя учеными данных. Как кто-то с информатикой и многолетний опыт работы в качестве аналитика данных, я делал PhD в статистике позже в моей карьере, думая, что это поможет мне выделиться из толпы, я оказался в неожиданно большом стечении "по данным ученых". Я думаю, что я мог бы вернуться, чтобы "статистик" но!

Комментарии (1)

Я'м младшим сотрудником, но меня профессия есть "Сведения ученый." Я думаю, что побитовые'ответом является точное описание того, что я был нанят, чтобы сделать, но я'd, как, чтобы добавить еще одну точку зрения, основываясь на мой день-в-день на работе:

$\$текст{данные} \neq \текст{статистика},$$ $\$текст{статистика} \в \текст{данные}.$$

Наука-это процесс дознания. Когда данные средства, что запрос выполнен, наука о данных происходит. Это не'Т означает, что каждый, кто эксперименты или исследования с данными, это обязательно ученый данных, точно так же, что не все, кто эксперименты или исследования с проводкой обязательно инженер-электрик. Но это значит, что можно приобрести нужные навыки, чтобы стать профессиональным "по данным дознавателя," в тот же путь, что можно получить достаточное обучение, чтобы стать профессиональным электриком. Что обучение является более или менее состоит из точек в побитового'ы ответа, из которых статистика является составной, но не полностью.

Петр'ы ответ тоже хороший итог все, что я <удар>нужно</удара> хочу знать, как поступить в той или иной неделе. Моя работа пока в основном помогает, чтобы отменить ущерб, нанесенный бывшими сотрудниками, которые принадлежали в "опасной зоны" и компонент диаграммы Венна.

Комментарии (8)

Я тоже недавно заинтересовался наукой данных в качестве карьеры, и когда я думаю о то, что я узнал о науке данных задания, по сравнению с многочисленными статистическими данными курсов, которые я взял (и пользовался!), Я начал думать ученых данных, как компьютерные ученые, которые обратили свое внимание на данных. В частности, я отметил следующие основные различия. Однако следует отметить, что различия появляются настроения. Следующий раз отражает мои субъективные впечатления, и я не претендую на всеобщность. Просто мои впечатления!

  1. В статистике, вы много заботитесь о распределений, вероятностей, и дедуктивные процедуры (как делать тесты гипотезы, которые являются основными распределениями и т. д.). Насколько я понимаю, наука о данных более часто, чем не предсказание, а заботы о косвенных высказываний в какой-то степени поглощается процедур из области компьютерных наук, таких, как перекрестная проверка.

  2. В статистических курсов, я часто просто создал свою собственную информацию, или использовать некоторые готовые данные, которые доступны в достаточно чистом виде. Это означает, что он находится в хорошей прямоугольной формы, некоторые таблицы Excel, или что-то подобное, что органично вписывается в оперативной памяти. Очистки данных, безусловно, участвует, но я никогда не имел дело с "извлекать" и данные из интернета, не говоря уже от баз данных, которые должны быть созданы для того, чтобы провести количество данных, не помещающихся в оперативной памяти больше. Мое впечатление, что этот вычислительный аспект гораздо более доминирующую в науке данных.

  3. Может быть, в этом проявляется мое незнание о том, что статистикам делать в типичных статистических работ, но до научных данных я никогда не думал о построении моделей в более крупный продукт. Там был анализ, чтобы быть сделано, статистическая проблема, которую необходимо решить, какой параметр должен быть оценен, и это все. В науке данные, кажется, что часто (хотя и не всегда) прогностические модели строятся на большее что-то. Например, вы щелкните в любом месте, и в течение миллисекунд, прогностического алгоритма решили, что отображается в результате. Так, в то время как в статистике, мне всегда было интересно, "что параметр можно оценить, и как мы будем делать это элегантно" и, кажется, что в данных науки акцент делается больше на "что мы можем предсказать, что потенциально полезными в данных продукта и".

Опять же, вышесказанное не попытаться дать общее определение. Я просто указываю на основные различия, которые я заметил сам. Я не в научные данные, но я надеюсь на переход в следующем году. В этом смысле возьмите вот мои два цента с зерном соли.

Комментарии (0)

Я всегда хотел, чтобы вырезать в суть дела.

statistics - science + some computer stuff + hype = data science
Комментарии (1)

Я говорю ученым данные роли, где один создает результаты удобочитаемое для бизнеса, используя методы, чтобы результат был статистически надежных (значительное).

Если какая-либо часть этого определения не следует говорить о том, как разработчик, истинный ученый, статистик, или данных инженер.

Комментарии (0)

Ученых данных были очень искусными навыками в Python, MySQL и Java-разработки.

У них очень четкое понимание аналитических функций, очень хорошо в математике, статистики, интеллектуального анализа данных, интеллектуального анализа навыки, а также они имеют очень хорошее знание языков программирования, как Python и R.

Много ученых данных сейчас имеют кандидатские и магистерские программы На самом деле по данным исследования, только около 8% просто степень бакалавра, так что гораздо более глубокое.

Построение статистических моделей, которые принимают решения на основе данных. Каждое решение может быть твердым, например, блокируют страницы из перевода, или мягкий, например, присвоить результат для дрессировки страницы, который используется в системах вниз или людей.

Проведение причинности эксперименты, которые пытаются приписать причину наблюдаемого явления. Это может быть сделано путем проектирования экспериментов/Б или если А/Б эксперимент не представляется возможным применять эпидемиологический подход к проблеме, например, @Рубин причинно-следственная модель

Выявление новых продуктов и функций, которые приходят от разблокировки ценность данных; быть лидером мысль о ценности данных. Хорошим примером этого является рекомендации характеристика продукта, что Amazon впервые стали доступны для массовой аудитории.

Комментарии (1)

Наука данных является многопрофильной сочетание вывода данных, разработка алгоритма и технологии для того, чтобы решить аналитически сложных проблем. Но из-за недостатка данных ученых, карьеру в науке данные действительно могут создать многочисленные возможности. Однако, организации ищут сертифицированных специалистов из SAS, данные научного совета Америки (DASCA), платформы Hortonworks и т. д. Надеюсь, это хорошая информация!

Комментарии (0)

Чтобы ответить на ваш вопрос "что ученый данных?" Это может быть, стоит быть осведомлены о разнице между ученым и механиком данные сведения, как указано в http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/

Комментарии (1)