Большие данные
Недавно ко мне обратилась представительница издательства «Манн, Иванов и Фербер» с предложением прочитать и написать отзыв об одной из их новых книг. Тема предложенной книги мне была не интересна и в ответ на мой отказ, она предложила выбрать для обзора любую из изданных этим издательством книг. Я выбрал книгу «Большие данные». Тут надо сделать небольшое отступление: из русскоязычных издательств «МИФ» мне нравиться, пожалуй, больше всех, так что сильно упрашивать меня не пришлось. (Бросить все это программирование? Стать известным литературным критиком?)
Следует сразу сделать небольшое замечание касаемо самого этого термина «большие данные». Лично для меня это было новостью. Авторы книги пишут что под словом «большие» следует понимать не столько объем данных, сколько полноту выборки («N = все»). В докомпьютерную эпоху для анализа каких-то данных необходимо было для начала выполнить из них случайную выборку такого объема, который еще поддается ручному анализу. На основе анализа этого небольшого объема делалось предположение о всех данных целиком (это и сейчас актуально, например, для социологических исследований, только тут сложность в самом сборе данных). Когда мы входим в мир больших данных, то уже нет необходимости делать предварительный отбор из всего их объема, мы анализируем все целиком. В книге приводиться пример выявления договорных боев в японской борьбе сумо с помощью статистического анализа. Весь входной объем данных, это всего чуть больше 64000 поединков — совершенно смешной объем для того что мы привыкли подразумевать под термином «большие данные». Однако, с точки зрения авторов книги, это большие данные и есть, ведь для анализа были использованы результаты всех боев (N = все) за много лет.
Нет смысла пересказывать области применения больших данных, которые упомянуты в книге — лучше ее просто прочитать. Там много примеров. А для интересующихся темой сейчас вообще время хорошее: большие данные в моде, в новостях постоянно описывают все новые их применения.
Эпоха больших данных — это не что-то такое, к чему надо готовиться, это уже наша объективная реальность, ставшая возможной благодаря повсеместной датификации (перевода информации в пригодный для анализа цифровой вид). И как у любой мощной технологии у нее есть две стороны.
С одной стороны, большие данные буквально спасают жизни. Например непрерывный мониторинг медицинских показаний недоношенных младенцев, с учетом ранее проанализированных замеров, позволяет распознать начало развития инфекции, когда никаких внешних признаков еще нет. В данных инфекция уже заметна, и лечение можно начать сразу.
С другой стороны, большие данные бросают вызов сохранению конфиденциальности и приватности. Анализируя потребления электроэнергии человеком можно многое узнать о его привычках. Или сравнивая поведение людей на сайтах скрывающих реальные имена и сайтах где реальные имена известны, можно с достаточно высокой точностью идентифицировать конкретного человека (в книге есть пример раскрытия реальных имен пользователей на основе анонимизированных данных с сервиса проката фильмов Netflix при сравнении их с реальными именами пользователей сайта IMDb).
Также есть риск захода совсем уже на темную сторону. Скажем может появиться искушение прогнозирования будущего поведения человека, для пресечения возможных правонарушений, до их непосредственного совершения. Просто потому, что анализ данных показал высокую вероятность таких событий. Антиутопия в чистом виде — человек еще ничего не сделал, но проблемы у него уже есть.
Важно понимать, большие данные показывают нам что-то на основе того что уже было. Предсказать нечто принципиально новое они не в состоянии. Так что мир человеческого интеллекта, творчества, прозрений, изобретательности остаются, к счастью, за нами, несмотря на весь прогресс в гигагерцах, терабайтах и алгоритмах.