То, что ученый данных?
Недавно окончил аспирантуру в статистике, у меня за последние пару месяцев начал искать работу в области статистики. Практически у каждой компании, я считал, было объявление о работе в должности и"аналитика данныхи". В самом деле, казалось, давно прошли те дни, видя должности статистические ученый или статистика. Уже будучи ученым данные действительно заменил, что будучи статистиком был или были синонимами названия не задумывались? Ну, большинство квалификаций для рабочих мест чувствовал, что вещи, которые могли бы претендовать под названием статистика. Большинство Джобс хотел докторскую степень в области статистики ($\галочка$), самое необходимое понимание экспериментального проектирования ($\галочка$), линейной регрессии и дисперсионного анализа ($\галочка$), обобщенные линейные модели ($\галочка$), и другие многомерные методы, такие как ППШ ($\галочка$), а также знания в статистическом вычислительной среде, такой как R или SAS ($\галочка$). Похоже, ученый данных-это просто кодовое имя для статистик. Однако, в каждом интервью я пошел начал с вопроса: "Так вы знакомы с алгоритмами машинного обучения?" Больше часто чем не, я нашел себе того, чтобы попытаться ответить на вопросы о Большие данные, высокопроизводительные вычисления, и темы на нейронных сетях, корзина, поддержка векторных машин бустинга деревьев решений, моделей без присмотра и т. д. Уверен, что я убедил себя, что это были все статистические вопросы в душе, но в конце каждого интервью я не мог'т помочь, но уйти, чувствуя, что я знал меньше и меньше о том, что ученый данные. Я статист, но я ученый данных? Я работаю над научными проблемами, так что я должен быть ученым! А также я работаю с данными, так что я должен быть ученым данные! И согласно Википедии, большинство ученых согласятся со мной (https://en.wikipedia.org/wiki/Data_science и т. д. )
хотя использование термина "по данным науки", которая взорвалась в бизнес > в средах, многие ученые и журналисты не видят разницы между наукой и статистических данных. Но если я иду на все эти собеседования для ученого данных, почему мне кажется, что они никогда не просят меня статистические вопросы? Ну после моего последнего интервью я хочу хороший ученый будет делать и я разыскал сведения, чтобы решить эту проблему (Эй, я ученый, данных в конце концов). Однако, после многих бесчисленное количество поисковых запросов в Google спустя, я оказался там, где я начал чувствовать, как будто я был в очередной раз пытается дать определение того, что ученый данные. Я не'т знаем, что ученый данных был точно, поскольку там было так много определений его, (http://blog.udacity.com/2014/11/data-science-job-skills.html, http://www-01.ibm.com/software/data/infosphere/data-scientist/) но, похоже, все говорит мне, что я хотел быть один:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- и т. д....список можно продолжать. Ну в конце дня, что я поняла "что ученый данных" это очень трудный вопрос, чтобы ответить. Черт, было всего два месяца в Amstat, где они посвятили много времени, пытаясь ответить на этот вопрос:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/ Ну а пока, я должна быть сексуальной статистиком, чтобы быть ученым сведения, но, надеюсь, крест проверенные сообщество могло бы пролить свет и помочь мне понять, что значит быть ученым данных. Разве'т ученые все данные статистики?
(Правка/Обновление) Я думал, что это может оживить разговор. Я только что получил письмо от американской статистической ассоциации о работе полагание с Microsoft ищет специалистов по обработке данных. Вот ссылка: ученый данные положения. Я думаю, что это интересно, потому что роль позиции бьет на много специфических черт, о которых мы говорим, но я думаю, что многие из них требуют очень тщательного фон статистики, а также противоречащие многие ответы, размещенные ниже. В случае, если ссылка мертва, вот те качества, компания Microsoft стремится в ученый данные: требования основной работы и навыки: опыт работы с доменом бизнеса с помощью аналитики
- должен иметь опыт в нескольких соответствующих областях бизнеса с использованием навыков критического мышления для осмысления сложных бизнес-задач и их решения с использованием расширенной аналитики в крупных реальных бизнес-данных
- Кандидат должен быть способен самостоятельно выполнить аналитические проекты и помогаем нашим внутренним клиентам понять выводы и претворять их в жизнь на благо своего бизнеса. моделирование
- опыт работы в различных отраслях промышленности в предсказательном моделировании
- Бизнес-проблемы определения и концептуального моделирования с клиентом для выявления важных связей и для определения системного контекста статистика/Эконометрика
- разведочного анализа данных для непрерывных и категориальных данных
- Спецификация и оценка структурной модели уравнения для корпоративного и потребительского поведения, издержки производства, спрос-фактор, дискретный выбор, и другие технологии связи по мере необходимости
- Передовые статистические методы для анализа непрерывных и категориальных данных
- Анализ временных рядов и реализация моделей прогнозирования
- Знание и опыт работы с несколькими переменными проблемы
- Умение оценивать правильность модели и провести диагностические тесты
- Способность интерпретировать статистические данные или экономические модели
- Знания и опыт в построении дискретно-событийное моделирование и динамических имитационных моделей управление данными
- знакомство с использованием T-SQL и аналитика для преобразования данных и применение разведочных методов анализа данных для очень больших реальных данных
- Внимание к целостности данных, включая резервирование данных, точности данных, аномальных или экстремальных значений, взаимодействия данных и отсутствующие значения. навыки коммуникации и сотрудничества
- работать самостоятельно и способен работать с виртуальной командой проекта, что позволит детально исследовать инновационные решения для сложных бизнес-задач
- Сотрудничать с партнерами, применять навыки критического мышления, и привод аналитические сквозных проектов
- Превосходные навыки общения, как устные, так и письменные
- Визуализации аналитических результатов в такой форме, которая обрабатывается различными группами заинтересованных сторон пакеты программ
- расширенный статистический/эконометрические пакеты программ: питон, Р, СПМ, САС, отслеживанию событий, САС предприятие Горняк
- Анализа данных, визуализации, и управления: Т-SQL, Эксел, PowerBI и аналогичные инструменты требования:
- минимум 5+ лет соответствующего опыта требуется
- Аспирантура в количественном сфере желателен.
Люди определяют научные данные по-разному, но я думаю, что общая часть:
Вопреки своему названию, это'Очень редко "по науке" по. То есть, в науке данных упор делается на практические результаты (например, в машиностроении), а не доказательств, математической чистоте и строгости, характерных для академической науки. Вещи должны работать, и нет большой разницы, если он базируется на научной работы, использование существующей библиотеки, свой собственный код или импровизированный взломать.
Статистик не нужен программист (возможно использование ручки & бумага и специальное программное обеспечение). Кроме того, некоторые должности в науке данные не имеют ничего общего со статистикой. Е. Г. это'данных инженерно-таких как обработка больших данных, даже в случае самых продвинутых есть математика может быть расчет средней (лично я бы'вызывать действие на "Т; наука" и, хотя). Кроме того, что "Наука" это раскрутили, так что косвенное отношение задания используют это название - чтобы заманить соискателей или поднять эго текущих работников.
Мне нравится таксономии Майкл Hochster'ы ответ на Quora:
В этом смысле, типа ученый, данные статистик, которые можно запрограммировать. Но, даже для количественной стороны, там могут быть люди с фоном более в области компьютерных технологий (например, машинного обучения), чем обычные статистические данные, или те, фокусируя свое внимание на визуализации данных.
И данные науки Венн диаграмма (здесь: взлом ~ Программирование):
см. также альтернативные диаграммы Венна (этот и что). Или даже чирикать, в то время как юмористический, показав сбалансированную список типичные навыки и виды деятельности аналитиков данных:
См. Также этот пост: данные ученый - статистик, программист, консультант и визуализатор?.
Есть несколько юморных определений, которые еще не были даны:
Мне нравится, как он играет красиво на более шумихи, чем вещества угол.
Кроме того, это рифы на западном побережье вкус всего этого.
Лично я считаю, что обсуждение (в общем, и здесь) несколько скучным и повторяющимся. Когда я думал о том, что я хочу---может быть, четверть века или больше назад---я нацелен на количественный аналитик. Это все равно, что я делаю (и люблю!) и это, в основном, перекрывает и охватывает то, что было дано здесь в разные ответы.
(Примечание: существует старый источник цитаты две, но я могу'т найти его прямо сейчас.)
Там'С ряд исследований науки о данных. Мне нравится [это][1], потому что он пытается анализировать профили людей, которые на самом деле держат науки о данных рабочих мест. Вместо того, чтобы использовать неофициальные данные или автора'ы предубеждения, они используют методы науки о данных анализ данных ДНК ученый. Это'ы довольно показательно посмотреть на навыки, перечисленные учеными данных. Обратите внимание на топ-20 навыки содержат много навыков.
Где-то я'ве читать это (правка: Джош's объяснило свое чирикать):
Эта цитата может быть описано по этой науки обработки данных. Первый взгляд на этой схеме похоже на "Ну и где здесь Программирование?", но если у вас есть тонны данных, вы должны быть в состоянии обрабатывать их.
Я'вэ написано несколько ответов и каждый раз, когда у них долго и в конце концов я решил, что я встал на трибуну. Но я думаю, что этот разговор не в полной мере исследованы два важных фактора:
В Science в науке данных. Научный подход заключается в попытке уничтожить ваши собственные модели, теории, особенности, методика выбора и т. д., И только когда вы не можете сделать это, вы признаете, что ваши результаты могут оказаться полезными. Это'ы мышления, и многие из лучших ученых данных, что я'вэ встретил жесткий дисциплин (химия, биология, техника).
Наука о данных-это широкая область. Хороший научный результат данных обычно включает в себя небольшую группу ученых данных, каждый со своей собственной специальности. Например, один из членов команды является более жесткой и статистической, еще лучше программиста с инженерным образованием, а другой-сильный консультантом с бизнес-подкованных. Все трое быстро выучить предмету, и все трое любопытен и хочу найти правду, какой бы горькой она ни ... и делать то, что's в интересах (внутреннего или внешнего) клиента, даже если клиент не'т понять.
Конек за последние несколько лет, уходят в прошлое, как я думаю, заключается в наборе компьютерщиков, кто освоил кластерных технологий (экосистемы Hadoop и т. д.) и сказать, что'ы идеально подходит для специалистов по обработке данных. Я думаю, что's что ОП перестал работать, и я'd не советую ОП, чтобы подтолкнуть свои сильные стороны в строгости, правильности и научного мышления.
Я думаю, что побитовые охватывает большую часть моего ответа, но я собираюсь добавить мои 2С.
Нет, мне очень жаль, но статистика не является ученым сведения, по крайней мере основываясь на том, как большинство компаний сегодня определяют роль. Отметим, что определение изменилось с течением времени, и одна из задач специалистов-практиков, чтобы убедиться, что они остаются актуальными.
Я поделюсь некоторые общие причины, почему мы отвергаем кандидатов на "ученый данных" В ролях:
Конечно для младшего роль вы можете'т иметь все выше. Но, как многие из этих навыков вы можете себе позволить без вести и забрать на работу?
Наконец, разъяснить, самый распространенный повод для отказа от других специалистов является именно отсутствие даже базовых знаний статистики. И где-то есть разница между инженером данных и специалистов по обработке данных. Тем не менее, инженеры данных, как правило, применяют для этих ролей, так как много раз они считают, что "статистика" это просто среднее, отклонение и нормальное распределение. Так, мы можем добавить несколько соответствующих, но страшно статистические словечки в описание должностных обязанностей для того, чтобы уточнить, что мы подразумеваем под "по статистике" и избежать путаницы.
Позвольте мне игнорировать шумиху и словечки. Я думаю, что "ученый данных и" (или что вы хотите назвать это) это реальная вещь и то, что отличается от статистик. Существует много видов позиций, которые эффективно ученых данных, но не учитывая, что имя - один из примеров людей, работающих в области геномики.
Как я это вижу, ученый данные кому-то, что имеет навыки и опыт для проектирования и выполнения исследования на большие объемы сложных данных (например, высоко мерный, в котором базовые механизмы неизвестного и сложного).
Это означает:
Все великие ответы, но в моей работе опыт охоты у меня отмечено, что термин "по данным ученого" и был постыжен с "младший аналитик" в головах рекрутеров, что я был в контакте с. Таким образом, многие хорошие люди без опыта статистической считая, что вводным курс они сделали пару лет назад, теперь называют себя учеными данных. Как кто-то с информатикой и многолетний опыт работы в качестве аналитика данных, я делал PhD в статистике позже в моей карьере, думая, что это поможет мне выделиться из толпы, я оказался в неожиданно большом стечении "по данным ученых". Я думаю, что я мог бы вернуться, чтобы "статистик" но!
Я'м младшим сотрудником, но меня профессия есть "Сведения ученый." Я думаю, что побитовые'ответом является точное описание того, что я был нанят, чтобы сделать, но я'd, как, чтобы добавить еще одну точку зрения, основываясь на мой день-в-день на работе:
$\$текст{данные} \neq \текст{статистика},$$ $\$текст{статистика} \в \текст{данные}.$$
Наука-это процесс дознания. Когда данные средства, что запрос выполнен, наука о данных происходит. Это не'Т означает, что каждый, кто эксперименты или исследования с данными, это обязательно ученый данных, точно так же, что не все, кто эксперименты или исследования с проводкой обязательно инженер-электрик. Но это значит, что можно приобрести нужные навыки, чтобы стать профессиональным "по данным дознавателя," в тот же путь, что можно получить достаточное обучение, чтобы стать профессиональным электриком. Что обучение является более или менее состоит из точек в побитового'ы ответа, из которых статистика является составной, но не полностью.
Петр'ы ответ тоже хороший итог все, что я <удар>нужно</удара> хочу знать, как поступить в той или иной неделе. Моя работа пока в основном помогает, чтобы отменить ущерб, нанесенный бывшими сотрудниками, которые принадлежали в "опасной зоны" и компонент диаграммы Венна.
Я тоже недавно заинтересовался наукой данных в качестве карьеры, и когда я думаю о то, что я узнал о науке данных задания, по сравнению с многочисленными статистическими данными курсов, которые я взял (и пользовался!), Я начал думать ученых данных, как компьютерные ученые, которые обратили свое внимание на данных. В частности, я отметил следующие основные различия. Однако следует отметить, что различия появляются настроения. Следующий раз отражает мои субъективные впечатления, и я не претендую на всеобщность. Просто мои впечатления!
В статистике, вы много заботитесь о распределений, вероятностей, и дедуктивные процедуры (как делать тесты гипотезы, которые являются основными распределениями и т. д.). Насколько я понимаю, наука о данных более часто, чем не предсказание, а заботы о косвенных высказываний в какой-то степени поглощается процедур из области компьютерных наук, таких, как перекрестная проверка.
В статистических курсов, я часто просто создал свою собственную информацию, или использовать некоторые готовые данные, которые доступны в достаточно чистом виде. Это означает, что он находится в хорошей прямоугольной формы, некоторые таблицы Excel, или что-то подобное, что органично вписывается в оперативной памяти. Очистки данных, безусловно, участвует, но я никогда не имел дело с "извлекать" и данные из интернета, не говоря уже от баз данных, которые должны быть созданы для того, чтобы провести количество данных, не помещающихся в оперативной памяти больше. Мое впечатление, что этот вычислительный аспект гораздо более доминирующую в науке данных.
Может быть, в этом проявляется мое незнание о том, что статистикам делать в типичных статистических работ, но до научных данных я никогда не думал о построении моделей в более крупный продукт. Там был анализ, чтобы быть сделано, статистическая проблема, которую необходимо решить, какой параметр должен быть оценен, и это все. В науке данные, кажется, что часто (хотя и не всегда) прогностические модели строятся на большее что-то. Например, вы щелкните в любом месте, и в течение миллисекунд, прогностического алгоритма решили, что отображается в результате. Так, в то время как в статистике, мне всегда было интересно, "что параметр можно оценить, и как мы будем делать это элегантно" и, кажется, что в данных науки акцент делается больше на "что мы можем предсказать, что потенциально полезными в данных продукта и".
Опять же, вышесказанное не попытаться дать общее определение. Я просто указываю на основные различия, которые я заметил сам. Я не в научные данные, но я надеюсь на переход в следующем году. В этом смысле возьмите вот мои два цента с зерном соли.
Я всегда хотел, чтобы вырезать в суть дела.
Я говорю ученым данные роли, где один создает результаты удобочитаемое для бизнеса, используя методы, чтобы результат был статистически надежных (значительное).
Если какая-либо часть этого определения не следует говорить о том, как разработчик, истинный ученый, статистик, или данных инженер.
Ученых данных были очень искусными навыками в Python, MySQL и Java-разработки.
У них очень четкое понимание аналитических функций, очень хорошо в математике, статистики, интеллектуального анализа данных, интеллектуального анализа навыки, а также они имеют очень хорошее знание языков программирования, как Python и R.
Много ученых данных сейчас имеют кандидатские и магистерские программы На самом деле по данным исследования, только около 8% просто степень бакалавра, так что гораздо более глубокое.
Построение статистических моделей, которые принимают решения на основе данных. Каждое решение может быть твердым, например, блокируют страницы из перевода, или мягкий, например, присвоить результат для дрессировки страницы, который используется в системах вниз или людей.
Проведение причинности эксперименты, которые пытаются приписать причину наблюдаемого явления. Это может быть сделано путем проектирования экспериментов/Б или если А/Б эксперимент не представляется возможным применять эпидемиологический подход к проблеме, например, @Рубин причинно-следственная модель
Выявление новых продуктов и функций, которые приходят от разблокировки ценность данных; быть лидером мысль о ценности данных. Хорошим примером этого является рекомендации характеристика продукта, что Amazon впервые стали доступны для массовой аудитории.
Наука данных является многопрофильной сочетание вывода данных, разработка алгоритма и технологии для того, чтобы решить аналитически сложных проблем. Но из-за недостатка данных ученых, карьеру в науке данные действительно могут создать многочисленные возможности. Однако, организации ищут сертифицированных специалистов из SAS, данные научного совета Америки (DASCA), платформы Hortonworks и т. д. Надеюсь, это хорошая информация!
Чтобы ответить на ваш вопрос "что ученый данных?" Это может быть, стоит быть осведомлены о разнице между ученым и механиком данные сведения, как указано в http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/