BIG DATA - большие данные

Как и обещал, вот вам мой конспект-перевод первой главы книги. Он был сделан уже как месяц назад, но был утерян. Пришлось заново писать.

Продолжения не будет. Во-первых, в первой главе резюмированы все самые главные вещи, дальше по книге идет раскрытие заявленных вопросов и детализация. Во-вторых, права-права, не будет ссорится с уважаемые авторами. В-третьих, эта книга научно-популярная, нам хороша для общего понимания контекста, но нам, как програмистам, нужно читать других книги по теме.

Вычитывать ошибки в тексте нет времени, особенно напрягает бить запятые, уж извините.

В начале книги есть несколько отрывков из хвалебных отзывов, и один из них оставлен неким Марком Бениоффом:

«Биг Дата является обязательной для прочтения книгой для всех кто хочет оставаться впереди ключевых трендов определяющих будущее бизнеса»

(прим.отМеня: вероятно Марк имеет ввиду не только будущее IT бизнеса, но всего бизнеса как такового)

Первая глава: СЕЙЧАС

В 2009 был открыт новый вид вируса гриппа. Новый штам, включающий в себя элементы свиного и птичьего гриппа, распространялся стремительно. У врачей не было вакцины, и единственной надеждой было замедлить распространение эпидемии. Но для этого нужно было понять, куда эпидемия уже распространилась.

Центр по контролю за инфекционными заболеваниями собирает данные от врачей и сводит их в таблицы, но разрыв между зарегистрированным случаем и публикацией данный доходит до 2 недель. Это целая вечность для эпидемии гриппа, и просто лишало возможности видеть ситуацию в самый критический момент.

Но так случилось, что за несколько недель до начало этой эпидемии инженеры из Гугл опубликовали статью, в которой объясняли, что Гугл может «предсказать» распространение сезонного гриппа в США, и не только в национальном масштабе, но с точность до отдельных штатов. Они могли это сделать, просто изучив что люди гуглили.
Они изучили поисковые запросы за несколько лет и пытались найти корреляцию между ними и эпидемией гриппа. Но многие запросы были просто интересом людей о теме, так как они услышали о надвигающейся эпидемии. Но в конце концов инженеры наткнулись на золото, они нашли такие поисковые комбинации, которые действительно совпадали с ходом эпидемии.
Использование этих методов помогло предсказать и остановить эпидемия нового гриппа в 2009 году.
Удивительно, но эти гугловые методы не требовали контакта с пациентом, они вообще ничего не требовали, кроме обработки тех данных, что люди уже ввели в поисковую систему.

Но здравоохранение это только одна из сфер, где Биг Дата (далее БД) может все изменить.

В 2003 Орен Этзиони нужно было лететь на самолете из Сиэтла в ЛА на свадьбу брата. За месяцы до этой даты Орен купил билет, справедливо полагая, что чем раньше его купить — тем дешевле он будет. Во время полета любопытство взяло вверх над ним и он спросил других пассажиров за сколько они купили свои билеты. Каково же было его удивление, когда он узнал, что другие пассажиры купили билеты позже его и дешевле. Другой бы человек быстро успокоился, но не Орен.

Он решил, что не сможет расшифровать то безумие, которое стоит за изменениями цены на авиабилеты. Вместо этого он может собрать данные по ценам на билеты за прежние годы и вычислить возможность того, что цена на данный рейс в указанное время будет далее снижаться или повышаться. Он создал сервис Farecast с лозунгом «покупать или не покупать», и в скором времени к нему поступались люди с Микрософт и предложили 110 миллионов за проект.

ПримОтМеня: Farecast уже закрыт, но на Kayak-е при покупке билета в верхнем левом углу есть секция с прогнозом, будет ли цена на этот самый билет в будущем снижаться или повышаться.

Дайте данным говорить за себя

Плоды информационного общества легко увидеть, пока у каждого в кармане лежит смартфон и ноут в рюкзаке. Но сложнее заметить информацию как таковую. Через пол столетия как компьютеры начали менять общество, данные накопились до такой степени, что начало происходить что то новое и особенное.

Один из способов определить что же такое БД будет следующее: БД относится к таким вещам, которые мы может получить только при работе с большим объемом данным и не можем излечит из небольшого объема, чтобы получить новое видение, новое значение, которое меняет рынок, организации, и т.д.
Эра БД меняет путь который мы используем чтобы взаимодействовать с миром. Более важно, обществу нужно отказаться от одержимости знать причины происходящего в обмен на знание того, что именно происходит: не знать ПОЧЕМУ, но знать ЧТО (происходит). Это изменяет столетия устоявшихся практик того как мы принимаем решения.

Как и многие другие технологии БД станет жертвой «цикла зрелости технологии» (ПримОтМеня: Hype cycle - гуглим, не ленимся, это интересно): после того как БД попадет на обложки журналов, наступит момент когда об этом начнут забывать и многие ориентированные на БД компании разоряться...

Наша цифровая вселенная постоянно расширяется. Дело не только в том, что накопилось много данных, дело в том, что темп их накопления постоянно ускоряется. Темп накопления информации растете в 4 раза быстрее чем мировая экономика. Каждый будет смыт переменами, которые это несет.

Два примера выше показывают, что БД становится новым источником экономической стоимости (ценности). И хотя это только рассвет БД эпохи, мы уже полагаемся на это ежедневно. Например, Спам фильтры в нашей почте и автокоррекция в телефоне работают опираясь на БД.
В своей сути, БД — это все о предсказании (predictions). И хотя это описано как часть IT называемой Искусственный интеллект, а точнее ее области «Машинное обучение», эти названия на самом деле запутывают нас. БД - это не попытки «научить» компьютер «думать » как человек. Вместо этого, БД — это приложение математических средств для обработки огромного количества данных для того чтобы извлечь ВОЗМОЖНОСТЬ: вероятность того, что это письмо является спамом, вероятно того что набранные буквы «дмо» на самом деле должны значить «дом», вероятность, того что данный пешеход собирается перейти дорогу и самоуправляемой машине следует сбавить ход...

В будущем, и раньше чем мы думаем, мы станем больше полагаться в нашей жизни на «вычисленную вероятность», чем на собственные суждения...
Как интернет изменил мир, так и БД изменит фундаментальные основы жизни, давая количественное измерение, которое мы никогда не имели раньше.

Больше, запутанные, вполне достаточно

БД привносит три важных сдвига в то как мы анализируем информацию.

Первый — это то, что мы анализируем не просто много данных о явлении. Дело в том, что часто мы имеем возможность анализировать ВООБЩЕ ВСЕ данные об явлении. Это дает возможность разглядеть такие элементы и аспекты явления, которые были недостижимы при работе с выборкой данных.

Вообще то выборка данных — это производное от ситуации нехватки данных. Когда было невозможно собрать значительное количество данных или это было слишком затратно, использовались выборки. Все традиционные методы статистики построены на этом.
При этом, требовалось точность и аккуратность данных. Это был тип мышления, вызванный «small data” ситуацией: когда было так мало данных для измерений, требовалось обработать их так аккуратно, как это только возможно.

И поэтому, второе: БД запутаны и разнятся в качестве. Но при работе с БД мы часто удовлетворены самим ощущением направления событий, чем разбором явления до атома и цента. Нет, мы не отказываемся от точности полностью, мы просто отказываемся от одержимостью ей. И то что мы при этом теряем на микро уровне, мы восполняем новым видением на макро уровне.

И эти два сдвига, ведут к третьему: мы отказывается от старомодного поиска причинности явления. В БД мире мы не сфокусированы на поиске причин, вместо этого мы раскрывает паттерны и корреляции между явлениями. Корреляция возможно не скажут нам, ПОЧЕМУ что-то происходит, но они дадут нам знание ЧТО именно происходит, и часто этого вполне достаточно. Нам не всегда нужно знать причину феномена, нужно просто дать данным сказать самим за себя.

Сокровища находятся прямо у нас под ногами, нужно только изменить наше отношения к данным, сместив фокус с причинности на корреляцию. Буквально каждый набор данных содержит скрытую, еще никем не раскрытую информацию и значение, и гонка, чтобы найти и захватить их уже началась.

Den Brown

Как и обещал, вот вам мой конспект-перевод первой главы книги. Он был сделан уже как месяц назад, но был утерян. Пришлось заново писать.

Продолжения не будет. Во-первых, в первой главе резюмированы все самые главные вещи, дальше по книге идет раскрытие заявленных вопросов и детализация. Во-вторых, права-права, не будет ссорится с уважаемые авторами. В-третьих, эта книга научно-популярная, нам хороша для общего понимания контекста, но  нам, как програмистам, нужно читать других книги по теме.

Вычитывать ошибки в тексте нет времени, особенно напрягает бить запятые, уж извините.

В начале книги есть несколько отрывков из хвалебных отзывов, и один из них оставлен неким Марком Бениоффом:

[i]«Биг Дата является обязательной для прочтения книгой для всех кто хочет оставаться впереди ключевых трендов определяющих будущее бизнеса»[/i]

(прим.отМеня: вероятно Марк имеет ввиду не только будущее IT бизнеса, но всего бизнеса как такового)

[b]Первая глава: СЕЙЧАС[/b]

В 2009 был открыт новый вид вируса гриппа. Новый штам, включающий в себя элементы свиного и птичьего гриппа, распространялся стремительно. У врачей не было вакцины, и единственной надеждой было замедлить распространение эпидемии. Но для этого нужно было понять, куда эпидемия уже распространилась.

Центр по контролю за инфекционными заболеваниями собирает данные от врачей и сводит их в таблицы, но разрыв между зарегистрированным случаем и публикацией данный доходит до 2 недель. Это целая вечность для эпидемии гриппа, и просто лишало возможности видеть ситуацию в самый критический момент.

Но так случилось, что за несколько недель до начало этой эпидемии инженеры из Гугл опубликовали статью, в которой объясняли, что Гугл может «предсказать» распространение сезонного гриппа в США, и не только в национальном масштабе, но с точность до отдельных штатов. Они могли это сделать, просто изучив что люди гуглили.
Они изучили поисковые запросы за несколько лет и пытались найти корреляцию между ними и эпидемией гриппа. Но многие запросы были просто интересом людей о теме, так как они услышали о надвигающейся эпидемии. Но в конце концов инженеры наткнулись на золото, они нашли такие поисковые комбинации, которые действительно совпадали с ходом эпидемии.
Использование этих методов помогло предсказать и остановить эпидемия нового гриппа в 2009 году.
Удивительно, но эти гугловые методы не требовали контакта с пациентом, они вообще ничего не требовали, кроме обработки тех данных, что люди уже ввели в поисковую систему.

Но здравоохранение это только одна из сфер, где Биг Дата (далее БД) может все изменить.

В 2003 Орен Этзиони нужно было лететь на самолете из Сиэтла в ЛА на свадьбу брата. За месяцы до этой даты Орен купил билет, справедливо полагая, что чем раньше его купить — тем дешевле он будет. Во время полета любопытство взяло вверх над ним и он спросил других пассажиров за сколько они купили свои билеты. Каково же было его удивление, когда он узнал, что другие пассажиры купили билеты позже его и дешевле. Другой бы человек быстро успокоился, но не Орен.

Он решил, что не сможет расшифровать то безумие, которое стоит за изменениями цены на авиабилеты. Вместо этого он может собрать данные по ценам на билеты за прежние годы и вычислить возможность того, что цена на данный рейс в указанное время будет далее снижаться или повышаться. Он создал сервис Farecast с лозунгом «покупать или не покупать», и в скором времени к нему поступались люди с Микрософт и предложили 110 миллионов за проект.

ПримОтМеня: Farecast уже закрыт, но на Kayak-е при покупке билета в верхнем левом углу есть секция с прогнозом, будет ли цена на этот самый билет в будущем снижаться или повышаться.

[b]Дайте данным говорить за себя[/b]

Плоды информационного общества легко увидеть, пока у каждого в кармане лежит смартфон и ноут в рюкзаке. Но сложнее заметить информацию как таковую. Через пол столетия как компьютеры начали менять общество, данные накопились до такой степени, что начало происходить что то новое и особенное.

Один из способов определить что же такое БД будет следующее: БД относится к таким вещам, которые мы может получить только при работе с большим объемом данным и не можем излечит из небольшого объема, чтобы получить новое видение, новое значение, которое меняет рынок, организации, и т.д.
Эра БД меняет путь который мы используем чтобы взаимодействовать с миром. Более важно, обществу нужно отказаться от одержимости знать причины происходящего в обмен на знание того, что именно происходит: не знать ПОЧЕМУ, но знать ЧТО (происходит). Это изменяет столетия устоявшихся практик того как мы принимаем решения.

Как и многие другие технологии БД станет жертвой «цикла зрелости технологии» (ПримОтМеня: Hype cycle  - гуглим, не ленимся, это интересно): после того как БД попадет на обложки журналов, наступит момент когда об этом начнут забывать и многие ориентированные на БД компании разоряться...

Наша цифровая вселенная постоянно расширяется. Дело не только в том, что  накопилось много данных, дело в том, что темп их накопления постоянно ускоряется. Темп накопления информации растете в 4 раза быстрее чем мировая экономика. Каждый будет смыт переменами, которые это несет.

Два примера выше показывают, что БД становится новым источником экономической стоимости (ценности). И хотя это только рассвет БД эпохи, мы уже полагаемся на это ежедневно. Например, Спам фильтры в нашей почте и автокоррекция в телефоне работают опираясь на БД.
В своей сути, БД — это все о предсказании (predictions). И хотя это описано как часть IT называемой Искусственный интеллект, а точнее ее  области «Машинное обучение», эти названия на самом деле запутывают нас. БД - это не попытки «научить» компьютер «думать » как человек. Вместо этого, БД — это приложение математических средств для обработки огромного количества данных для того чтобы извлечь ВОЗМОЖНОСТЬ: вероятность того, что это письмо является спамом, вероятно того что набранные буквы «дмо» на самом деле должны значить «дом», вероятность, того что данный пешеход собирается перейти дорогу и самоуправляемой машине следует сбавить ход... 

В будущем, и раньше чем мы думаем, мы станем больше полагаться в нашей жизни на «вычисленную вероятность», чем на собственные суждения...
Как интернет изменил мир, так и БД изменит фундаментальные основы жизни, давая количественное измерение, которое мы никогда не имели раньше.

[b]Больше, запутанные, вполне достаточно[/b]

БД привносит три важных сдвига в то как мы анализируем информацию.

[i][b]Первый[/b][/i] — это то, что мы анализируем не просто много данных о явлении. Дело в том, что часто мы имеем возможность анализировать ВООБЩЕ ВСЕ данные об явлении. Это дает возможность разглядеть такие элементы и аспекты явления, которые были недостижимы при работе с выборкой данных.

Вообще то выборка данных — это производное от ситуации нехватки данных. Когда было невозможно собрать значительное количество данных или это было слишком затратно, использовались выборки. Все традиционные методы статистики построены на этом.
При этом, требовалось точность и аккуратность данных. Это был тип мышления, вызванный  «small data” ситуацией: когда было так мало данных для измерений, требовалось обработать их так аккуратно, как это только возможно.

И поэтому, [b][i]второе[/i][/b]: БД запутаны и разнятся в качестве. Но при работе с БД мы часто удовлетворены самим ощущением направления событий, чем разбором явления до атома и цента. Нет, мы не отказываемся от точности полностью, мы просто отказываемся от одержимостью ей. И то что мы при этом теряем на микро уровне, мы восполняем новым видением на макро уровне.

И эти два сдвига, ведут к [i][b]третьему[/b][/i]: мы отказывается от старомодного поиска причинности явления. В БД мире мы не сфокусированы на поиске причин, вместо этого мы раскрывает паттерны и корреляции между явлениями. Корреляция возможно не скажут нам, ПОЧЕМУ что-то происходит, но они дадут нам знание ЧТО именно происходит, и часто этого вполне достаточно. Нам не всегда нужно знать причину феномена, нужно просто дать данным  сказать самим за себя.

Сокровища находятся прямо у нас под ногами,  нужно только изменить наше отношения к данным, сместив фокус с причинности на корреляцию. Буквально каждый набор данных содержит скрытую, еще никем не раскрытую информацию и значение, и гонка, чтобы найти и захватить их уже началась.

Спасибо

wilder

Спасибо

Как книга называется ?

Sergey Prishchepa

Как книга называется ?

Den спасибо за перевод! Прочитал на одном дыхании!

Полностью соглашусь что данные это золото. Если будут данные на них уже можно строить сервисы, проводить анализы. Реально сегодня поисковые гиганты и сервисы которые "прилипли" к браузерам становятся богами.

Вот в отношени моей любимой темы SEO - поисковые запросы пользователей. Это просто золотая жила. Сегодня сеошники и и просто разработчики сайтов из кожы вон лезут чтобы хоть как-то косвенно получить статистику по поисковым запросам. И поисковые гиганты позволяют получить лишь крошки со своего барского стола. Но даже с этими крошками люди поднимают сайты и сервисы которые приносят потом сотни тысяч миллионы долларов.

А помню раньше эти поисковые запросы лежали прамо под ногами - яндекс вообще предоставлял сервис реалтайм запросов - было прикольно следить какие люди задают запросы (столько всего узнавал интересного) - это был просто черный вход в банковское хранилище еще и не запертый. Но кто тогда мог подумать что скоро это будет золотом?
Или более свежий пример - поисковики отдавали в редиректе сам запрос по которому с тебе пришел пользователь от них. Тоже очень большой поток полезной информации для любых сайтов - прикрыли лавочку.

Так что полностью согласен про важность и первостепенность данных!

Den, будем ждать от тебя умных мыслей по этой теме. Пусть и не перевод, согласен что это сложный процесс, но спечатления свои выкладывай.

Dmitry Shnyrev

Den спасибо за перевод! Прочитал на одном дыхании!
Полностью соглашусь что данные это золото. Если будут данные на них уже можно строить сервисы, проводить анализы. Реально сегодня поисковые гиганты и сервисы которые "прилипли" к браузерам становятся богами.
Вот в отношени моей любимой темы SEO - поисковые запросы пользователей. Это просто золотая жила. Сегодня сеошники и и просто разработчики сайтов из кожы вон лезут чтобы хоть как-то косвенно получить статистику по поисковым запросам. И поисковые гиганты позволяют получить лишь крошки со своего барского стола. Но даже с этими крошками люди поднимают сайты и сервисы которые приносят потом сотни тысяч миллионы долларов.
А помню раньше эти поисковые запросы лежали прамо под ногами - яндекс вообще предоставлял сервис реалтайм запросов - было прикольно следить какие люди задают запросы (столько всего узнавал интересного) - это был просто черный вход в банковское хранилище еще и не запертый. Но кто тогда мог подумать что скоро это будет золотом?
Или более свежий пример - поисковики отдавали в редиректе сам запрос по которому с тебе пришел пользователь от них. Тоже очень большой поток полезной информации для любых сайтов - прикрыли лавочку.
Так что полностью согласен про важность и первостепенность данных!
Den, будем ждать от тебя умных мыслей по этой теме. Пусть и не перевод, согласен что это сложный процесс, но спечатления свои выкладывай.

Ништяк!!!

DevNull

Ништяк!!!

книга так и называется BIG DATA.

кстати, я купил сразу четыре книги по теме БД, но нет времени двигаться дальше, но если вы будите настаивать и поддерживать меня в этом, то все может быть :)

Den Brown

книга так и называется BIG DATA.

кстати, я купил сразу четыре книги по теме БД, но нет времени двигаться дальше, но если вы будите настаивать и поддерживать меня в этом, то все может быть :)

Тема крайне интересная и я с удовольствием буду следить за твоими новостями.
Просто вот если честно не представляю практической ценности данных знаний.
Я думаю что ты расскажешь как спроецировать эту информацию на реальную жизнь

Dmitry Shnyrev

Тема крайне интересная и я с удовольствием буду следить за твоими новостями.
Просто вот если честно не представляю практической ценности данных знаний.
Я думаю что ты расскажешь как спроецировать эту информацию на реальную жизнь :)

Dmitry Shnyrev

Тема крайне интересная и я с удовольствием буду следить за твоими новостями.
Просто вот если честно не представляю практической ценности данных знаний.
Я думаю что ты расскажешь как спроецировать эту информацию на реальную жизнь :)

И зря не представляешь, за последнее время смотрю вакансии и вижу что всем нужны люди для BIG DATA. Очень много компаний делают всяческую аналитику для предсказания продаж чего угодно.

wilder

[quote="Dmitry Shnyrev"]Тема крайне интересная и я с удовольствием буду следить за твоими новостями.
Просто вот если честно не представляю практической ценности данных знаний.
Я думаю что ты расскажешь как спроецировать эту информацию на реальную жизнь :)[/quote]

И зря не представляешь, за последнее время смотрю вакансии и вижу что всем нужны люди для BIG DATA. Очень много компаний делают всяческую аналитику для предсказания продаж чего угодно.

Так это типа как правильно сделать запрос в базу данных и получить агрегированные данные?
Это типа книги по Postgresql, Mysql, Oracle или Mongo?
Я просто не представляю какими специфическими знаниями надо обладать чтобы быть специалистом по BIG DATA.
Написать запрос к базе и вывести данные в виде удобного графика я думаю сможет каждый. Вернее не каждый, а тот кто знает специфику конкретной базы данных и тайны агрегированных запросов (вроде так)

Dmitry Shnyrev

Так это типа как правильно сделать запрос в базу данных и получить агрегированные данные?
Это типа книги по Postgresql, Mysql, Oracle или Mongo?
Я просто не представляю какими специфическими знаниями надо обладать чтобы быть специалистом по BIG DATA.
Написать запрос к базе и вывести данные в виде удобного графика я думаю сможет каждый. Вернее не каждый, а тот кто знает специфику конкретной базы данных и тайны агрегированных запросов :D (вроде так)

Ну ты не обижайся если что - во мне говорит только полнейшее незнание данной темы
Возможно это будет как когда-то давно - когда я на протяжении многих лет программировал на php (в блокноте) и однажды узнал про фреймворки, CMS и IDE

Dmitry Shnyrev

Ну ты не обижайся если что - во мне говорит только полнейшее незнание данной темы :) 
Возможно это будет как когда-то давно - когда я на протяжении многих лет программировал на php (в блокноте) и однажды узнал про фреймворки, CMS и IDE :D

Ну, Data Science - это такой новомодный тренд, прям как быть "Mobile Developer" года 4 назад.

Щас все учатся копить эти "большие данные", уже более менее входят в жизнь энтерпрайза. Пока более менее научились копить данные, с "как их использовать" пока все ограничиваются бубнением "кросс-сэйлс,динамическое ценообразование, IOT, Customer 360, Proactive Support" и прочими словами. Пока это удел продвинутых компаний, имхо.

cidr8n

Ну, Data Science - это такой новомодный тренд, прям как быть "Mobile Developer" года 4 назад. 

Щас все учатся копить эти "большие данные", уже более менее входят в жизнь энтерпрайза. Пока более менее научились копить данные, с "как их использовать" пока все ограничиваются бубнением "кросс-сэйлс,динамическое ценообразование, IOT, Customer 360, Proactive Support" и прочими словами. Пока это удел продвинутых компаний, имхо.

Отличная статья про BIG DATA
http://habrahabr.ru/post/270367/
Есть много интересных практических моментов.

Dmitry Shnyrev

Отличная статья про BIG DATA
http://habrahabr.ru/post/270367/
Есть много интересных практических моментов.

Den, вот тебе еще подарок
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

Dmitry Shnyrev

Den, вот тебе еще подарок
[url=http://habrahabr.ru/company/dca/blog/270453/]Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений[/url]

Dmitry Shnyrev

Den, вот тебе еще подарок

спасибо, обязательно прочту

Den Brown

[quote="Dmitry Shnyrev"]Den, вот тебе еще подарок [/quote]

спасибо, обязательно прочту