Big Data перспективы

bmostr

Всем привет! : )
Есть идея переквалифицироваться из системного аналитика DWH в аналитика Big Data.
Если кто работает с большими данными, расскажи, пожалуйста, про область в целом, на сколько перспективно, на ваш взгляд, какие знания наиболее ценны/какие просто обязательны, в каких компаниях обычно требуются такие специлисты. Ну и вообще стоит ли, если по текущей специлизации достигнут уже хороший, уверенный уровень и предлагают хорошую ЗП.

svt_4969

Просто посмотри где сейчас Big Data технологии на Gartner Hype Cycle. Пока что на эту технологию ажиотаж, внедрять пытаются много где, но 80% проектов провалится (не топовые компании, где бигдата реально нужна, так как поток более 50Тб/сек - в таких просто нет выбора и обычный BI уже не подходит). Я бы выучил все эти хандупы, обождал, пока первые разработчики BD сопьются от безысходности, и лишь тогда выходил на рынок. Это года 2-3 ещё.

bmostr

Спасибо за ответ )
А какова роль аналитика (и выделяется ли такая роль) в задачах с большими данными? Извлекает информацию и анализирует её каким-то образом?
Несколько вакансий на hh.ru именно на аналитика есть, но описание задач минимально..

bmostr

не топовые компании, где бигдата реально нужна
Интернет, телеком? Или ещё какие-то области есть?

svt_4969

Спасибо за ответ )
А какова роль аналитика (и выделяется ли такая роль) в задачах с большими данными? Извлекает информацию и анализирует её каким-то образом?
Несколько вакансий на hh.ru именно на аналитика есть, но описание задач минимально..
В big data возможности аналогов SQL куда меньше, чем в случае реляционных БД. Про агрегацию тоже стоит забыть, во всяком случае про MOLAP, так как это в самом простом случае удвоит объём данных, что как бы вообще очень плохо в случае BD. Поэтому аналитик - это будет в первую очередь чувак, который ОЧЕНЬ хорошо шарит в оптимизации запросов, и лишь во вторую очередь статистик. Подозреваю, что описания на hh скудны, так как есть тонны данных, а что с ними делать никто не знает, и хотят чтобы им всё организовали. То есть аналитик - это типа на самом деле PM.

svt_4969

Интернет, телеком? Или ещё какие-то области есть?
Насколько знаю, в первую очередь оборонка (данные с ракетных двигателей). С телекомом и интернетом таки ещё справляются и традиционные BI-системы. Ну если конечно UI анализировать на сайте майкрософт или реддите, то тут обычным BI не обойдёшься наверно, хотя хз.

frostenrus

Не стоит. Про бигдату в основном маркетинговый треп. Антошка дело говорит.

uvilir

Интернет, телеком? Или ещё какие-то области есть?
big data в бизнесе на данный момент ИМХО бесполезна
надысь был на тусняке ему посвящённому - дык эти ребята, организаторы тусняка, сами не особо представляли зачем нам то, что они пытались продать
тема интересная, с алгоритмической-статистической точки зрения
но не там, где надо принимать решения на основании указанных данных
с учётом, что рядовой топ обычно не будет шарить в тонкостях анализа, то вынесенную ему информацию придётся скармливать очень простым языком, что отрежет существенную часть степени значимости данных
в результате у него не будет достаточно информации, для принятия решений, что в результате дискредитирует саму идею big data
по крайней мере до тех пор, пока до уровня топов не дорастут те, кто отлично разбирается в таких тонкостях
а для задач мониторингов всяческих, раздачи ворнингов - там пример был - мониторинг перемещений толп на олимпиаде в лондоне для полиции - то да, интересно

uvilir

Не стоит. Про бигдату в основном маркетинговый треп. Антошка дело говорит.
если найти где реально применяться будет - то в целом нет
но мне видится это некоммерческие проекты в первую очередь
либо агрегация и обработка данных, и продажа готовых отчётов потребителям

FieryRush

Да уж, надо разделять данные на категории. Одно дело если порносайт завести, там данных много, но они, так сказать, примитивны - просто блобы. Другое дело, если, например, данные с бирж, их по количеству меньше, но важен почти каждый байт и возможность анализа.

geva

но не там, где надо принимать решения на основании указанных данных
с учётом, что рядовой топ обычно не будет шарить в тонкостях анализа, то вынесенную ему информацию придётся скармливать очень простым языком
биг дата нужна не для того чтобы топам строить отчеты и принимать решения, насколько я понимаю.

uvilir

биг дата нужна не для того чтобы топам строить отчеты и принимать решения, насколько я понимаю.
в конечном итоге всё для того что б топам отчёты строить что бы они принимали решения

uvilir

Да уж, надо разделять данные на категории. Одно дело если порносайт завести, там данных много, но они, так сказать, примитивны - просто блобы. Другое дело, если, например, данные с бирж, их по количеству меньше, но важен почти каждый байт и возможность анализа.
тогда тебе надо доказать состоятельность анализа сперва
big data это большие инвестиции в системы обработки и анализа, но тебе будет тяжело доказать возврат этих инвестиций

FieryRush

Мне не надо ничего доказывать и так все доказано уже. В банках понимают важность данных.

lana

биг дата нужна не для того чтобы топам строить отчеты и принимать решения, насколько я понимаю.
а для чего? :) я вот совсем не верю в бигдата :crazy:

svt_4969

Хотел бы я утверждать это с той же уверенностью.

geva

я вообще думал чтоб клиентам предложения делать "на лету"

uvilir

Мне не надо ничего доказывать и так все доказано уже. В банках понимают важность данных.
не данных, а результатов анализа на данных
из big data у тебя результат - отчёт на одну страничку, с набором показателей
докажи, что эти показатели решают поставленную задачу

uvilir

я вообще думал чтоб клиентам предложения делать "на лету"
это CRM а не big data :smirk:

FieryRush

А как они могут не решать поставленную задачу. Например, ты продал что-то для клиента на рынке, как ты без данных составишь ему убедительный отчет о том, что ты его не нагрел.

uvilir

А как они могут не решать поставленную задачу. Например, ты продал что-то для клиента на рынке, как ты без данных составишь ему убедительный отчет о том, что ты его не нагрел.
данные сами по себе ничего не решают
решает отчёт
как ты докажешь, что отчёт, который строится на данных, решает данную задачу?

FieryRush

Как как - ты показываешь клиенту какая была ситуация на рынке, на отрезке времени когда исполнялся ордер. Что тут доказывать-то, все видно на графиках.

uvilir

Как как - ты показываешь клиенту какая была ситуация на рынке, на отрезке времени когда исполнялся ордер. Что тут доказывать-то, все видно на графиках.
каких графиках?
при чём тут big data?

ghytr0001

если найти где реально применяться будет - то в целом нет
а что вы тут какие-то умозрительные рассуждения ведете, нельзя ли поступать просто, когда small/middle data не справляются, тогда и мутить проект по переходу на big data? Типа small/middle data заработали денег, и дальше расширявшемся на big data. Имхо, бизнесов, которые не могут стартовать с small/middle data, но работают на big data не так много.

ghytr0001

Что тут доказывать-то, все видно на графиках.
а чем график отличается от порнухи?

FieryRush

каких графиках?
при чём тут big data?
Сколько можно объяснять. Чтобы строить модели, изучать производительность алгоритмов торговли, создавать внутренние и клиентские отчеты нужны данные с рынков. Все крупные (по крайней мере не рашкинские) банки хранят и используют эту инфу. А графики - это основной метод работы с инфой.

FieryRush

а чем график отличается от порнухи?
У порнухи другая структура - довольно большие файлы, которые, однако, нужны целиком и редко.

svt_4969

Сколько можно объяснять. Чтобы строить модели, изучать производительность алгоритмов торговли, создавать внутренние и клиентские отчеты нужны данные с рынков. Все крупные (по крайней мере не рашкинские) банки хранят и используют эту инфу. А графики - это основной метод работы с инфой.
Я чёта тоже не понимаю, про что ты говоришь. Графики ЗБС, но речь-то не про презентационные средства, а про извлечение информации для этих графиков из БД. В график подаётся очень мало информации, по сравнению с тем объёмом, что хранится. Так вообще всегда, не только для BD. Поэтому пользователю отчётности не будет ясно, чем BD отличается от BI - оно даёт тот же график, который можно получить по небольшому количеству данных.
Если у тебя всё работает на обычных BI-средствах, то зачем BD? Экономическая целесообразность заказчику будет понятна только после того, как он ощутит, что никто не может быстро дать ему то, что он хочет, и дело не в кривых руках или старых железках, а именно что в его оригинальной хотелке, которая заставляет собирать очень много данных, и потом их ещё и использовать.

ghytr0001

У порнухи другая структура - довольно большие файлы, которые, однако, нужны целиком и редко.
Для юзкейса, который ты описал "... показываешь клиенту какая была ситуация на рынке, на отрезке времени когда исполнялся ордер." Сохраняешь ордер вместе с графиком (данные для него) в блоб или файл, и получается та же порнуха.

FieryRush

Для юзкейса, который ты описал "... показываешь клиенту какая была ситуация на рынке, на отрезке времени когда исполнялся ордер." Сохраняешь ордер вместе с графиком (данные для него) в блоб или файл, и получается та же порнуха.
Так бывает в сфере в вакууме. В реальной жизни, нет столь тесной интеграции, потому что есть так сказать, разделение труда. Одни ордер исполняют, другие инфу сохраняют, третьи ее используют.

FieryRush

Я чёта тоже не понимаю, про что ты говоришь. Графики ЗБС, но речь-то не про презентационные средства, а про извлечение информации для этих графиков из БД. В график подаётся очень мало информации, по сравнению с тем объёмом, что хранится. Так вообще всегда, не только для BD. Поэтому пользователю отчётности не будет ясно, чем BD отличается от BI - оно даёт тот же график, который можно получить по небольшому количеству данных.
Не совсем так, нужны разные отрезки времени, поэтому невозможно сделать преагрегацию, а такие вещи как взвешенная по времени цена требуют первоначальных данных. Поэтому встает вопрос, что может за время сравнимое с секундой посчитать все эти вещи по гигабайтам данных. Ну и отчет - это только один юз кейс, есть и другие.
Для людей, использующих данные - это свобода, то что занимало много времени они получают за секунды, соответственно, могут пробовать больше вариантов, производить больше симуляций и т.п.

svt_4969

Не совсем так, нужны разные отрезки времени, поэтому невозможно сделать преагрегацию, а такие вещи как взвешенная по времени цена требуют первоначальных данных. Поэтому встает вопрос, что может за время сравнимое с секундой посчитать все эти вещи по гигабайтам данных. Ну и отчет - это только один юз кейс, есть и другие.
Для людей, использующих данные - это свобода, то что занимало много времени они получают за секунды, соответственно, могут пробовать больше вариантов, производить больше симуляций и т.п.
Ну в твоих устах это как-то идеализированно звучит. По факту невозможно и рыбку съесть и на пароходе покататься: если на фиксированном объёме данных ты хочешь увеличить скорость работы с ними, то ты должен как раз отказаться от многообразия манипуляций с этими данными, и какие там симуляции нормальные - только в рамках очень узких кейсов исследований.
Для работы с BI-системой вместо BD может быть достаточно агрегации до секунды, и людям будет проще работать с BI, думаю это очевидно. Вот в автоматических расчётах чего-то очень-очень срочного по огромному объёму данных - там да. Понятно, что ETL делать некогда, агрегацию делать некогда, надо всё сразу. Где-то читал около года назад, что BD в штатах скоро будет полноправной научной дисциплиной. Оно немудрено - для каждого кейса реальной нужны в BD надо ювелирно настроить алгоритм.
В общем, я готов признать необходимость использования BD только в полностью автоматических системах. Там где замешан человек - уже можно успеть сделать агрегацию и дать человеку данные в более удобном для работы виде.

ghytr0001

Так бывает в сфере в вакууме. В реальной жизни, нет столь тесной интеграции, потому что есть так сказать, разделение труда. Одни ордер исполняют, другие инфу сохраняют, третьи ее используют.
Ордер исполняют и сохраняют инфу не люди, а компьютеры. Люди лишь пишут код для машин. Разделение труда по написанию кода для нескольких программных модулей и "труд", который происходит внутри машины, разные вещи. Между группами в любом случае должен происходить обмен информацией о том, как устроены части системы (интерфейсы взаимодействия). Не вижу причин, почему в упомянутой мной реализации такой обмен будет более интенсивным.

frostenrus

Да вы тут упоролись в треде. Big Data это маркетинговый термин, не технология.
Означает "вот у вас будет много информации и для разных задач ее нужно будет по-разному обрабатывать".
Вот что Крок пишет про ритейл: http://habrahabr.ru/company/croc/blog/194388/
Никакие топы в большие данные лезть не будут, клиенты тоже. Типичная ситуация: аналитик на основе больших данных должен построить маленькие простые выводы, а их как и раньше подсовывать пользователям.
Соответственно профессия аналитика заключается в поиске в этих больших данных маленьких закономерностей.

uvilir

Вот что Крок пишет про ритейл: http://habrahabr.ru/company/croc/blog/194388/
вот тут Крок вступает на путь некоторых экспериментальных результатов, и попытки экстраполировать их опыт на всю индустрию
и за это хочет очень немало денег
хотя отдачу от подобных внедрений посчитать не сможет

frostenrus

вот тут Крок вступает на путь некоторых экспериментальных результатов, и попытки экстраполировать их опыт на всю индустрию
и за это хочет очень немало денег
хотя отдачу от подобных внедрений посчитать не сможет
Это уже другой вопрос.

uvilir

Это уже другой вопрос.
вообще это первичный вопрос - как окупаться будет
такие неявные по возвратам проекты у заказчиков выживают исключительно за счёт спонсорства очень высокого уровня - гендир/акционеры
при огромном противодействии линейного персонала
очевидного технико-экономического обоснования ты тут не сможешь предоставить

frostenrus

вообще это первичный вопрос - как окупаться будет
Хз с чего ты решил что этот тред про ROI.
Оставить комментарий
Имя или ник:
Комментарий: