Большие данные

Март 23, 2014, 17:00

Недав­но ко мне об­ра­ти­лась пред­ста­ви­тель­ни­ца из­да­тель­ства «Манн, Ива­нов и Фер­бер» с пред­ло­же­ни­ем про­чи­тать и на­пи­сать от­зыв об од­ной из их но­вых книг. Тема пред­ло­жен­ной кни­ги мне была не ин­те­рес­на и в от­вет на мой от­каз, она пред­ло­жи­ла вы­брать для об­зо­ра лю­бую из из­дан­ных этим из­да­тель­ством книг. Я вы­брал кни­гу «Боль­шие дан­ные». Тут надо сде­лать неболь­шое от­ступ­ле­ние: из рус­ско­языч­ных из­да­тельств «МИФ» мне нра­вить­ся, по­жа­луй, боль­ше всех, так что силь­но упра­ши­вать меня не при­ш­лось. (Бро­сить все это про­грам­ми­ро­ва­ние? Стать из­вест­ным ли­те­ра­тур­ным кри­ти­ком?)

Сле­ду­ет сра­зу сде­лать неболь­шое за­ме­ча­ние ка­са­е­мо са­мо­го это­го тер­ми­на «боль­шие дан­ные». Лич­но для меня это было но­во­стью. Ав­то­ры кни­ги пи­шут что под сло­вом «боль­шие» сле­ду­ет по­ни­мать не столь­ко объ­ем дан­ных, сколь­ко пол­но­ту вы­бор­ки («N = все»). В до­ком­пью­тер­ную эпо­ху для ана­ли­за ка­ких-то дан­ных необ­хо­ди­мо было для на­ча­ла вы­пол­нить из них слу­чай­ную вы­бор­ку та­ко­го объ­е­ма, ко­то­рый еще под­да­ет­ся руч­но­му ана­ли­зу. На ос­но­ве ана­ли­за это­го неболь­шо­го объ­е­ма де­ла­лось пред­по­ло­же­ние о всех дан­ных це­ли­ком (это и сей­час ак­ту­аль­но, на­при­мер, для со­цио­ло­ги­че­ских ис­сле­до­ва­ний, толь­ко тут слож­ность в са­мом сбо­ре дан­ных). Ко­гда мы вхо­дим в мир боль­ших дан­ных, то уже нет необ­хо­ди­мо­сти де­лать пред­ва­ри­тель­ный от­бор из все­го их объ­е­ма, мы ана­ли­зи­ру­ем все це­ли­ком. В кни­ге при­во­дить­ся при­мер вы­яв­ле­ния до­го­вор­ных боев в япон­ской борь­бе сумо с по­мо­щью ста­ти­сти­че­ско­го ана­ли­за. Весь вход­ной объ­ем дан­ных, это все­го чуть боль­ше 64000 по­един­ков — со­вер­шен­но смеш­ной объ­ем для того что мы при­вык­ли под­ра­зу­ме­вать под тер­ми­ном «боль­шие дан­ные». Од­на­ко, с точ­ки зре­ния ав­то­ров кни­ги, это боль­шие дан­ные и есть, ведь для ана­ли­за были ис­поль­зо­ва­ны ре­зуль­та­ты всех боев (N = все) за мно­го лет.

Нет смыс­ла пе­ре­ска­зы­вать об­ла­сти при­ме­не­ния боль­ших дан­ных, ко­то­рые упо­мя­ну­ты в кни­ге — луч­ше ее про­сто про­чи­тать. Там мно­го при­ме­ров. А для ин­те­ре­су­ю­щих­ся те­мой сей­час во­об­ще вре­мя хо­ро­шее: боль­шие дан­ные в моде, в но­во­стях по­сто­ян­но опи­сы­ва­ют все но­вые их при­ме­не­ния.

Эпо­ха боль­ших дан­ных — это не что-то та­кое, к чему надо го­то­вить­ся, это уже наша объ­ек­тив­ная ре­аль­ность, став­шая воз­мож­ной бла­го­да­ря по­все­мест­ной да­ти­фи­ка­ции (пе­ре­во­да ин­фор­ма­ции в при­год­ный для ана­ли­за циф­ро­вой вид). И как у лю­бой мощ­ной тех­но­ло­гии у нее есть две сто­ро­ны.

С од­ной сто­ро­ны, боль­шие дан­ные бук­валь­но спа­са­ют жиз­ни. На­при­мер непре­рыв­ный мо­ни­то­ринг ме­ди­цин­ских по­ка­за­ний недо­но­шен­ных мла­ден­цев, с уче­том ра­нее про­ана­ли­зи­ро­ван­ных за­ме­ров, поз­во­ля­ет рас­по­знать на­ча­ло раз­ви­тия ин­фек­ции, ко­гда ни­ка­ких внеш­них при­зна­ков еще нет. В дан­ных ин­фек­ция уже за­мет­на, и ле­че­ние мож­но на­чать сра­зу.

С дру­гой сто­ро­ны, боль­шие дан­ные бро­са­ют вы­зов со­хра­не­нию кон­фи­ден­ци­аль­но­сти и при­ват­но­сти. Ана­ли­зи­руя по­треб­ле­ния элек­тро­энер­гии че­ло­ве­ком мож­но мно­гое узнать о его при­выч­ках. Или срав­ни­вая по­ве­де­ние лю­дей на сай­тах скры­ва­ю­щих ре­аль­ные име­на и сай­тах где ре­аль­ные име­на из­вест­ны, мож­но с до­ста­точ­но вы­со­кой точ­но­стью иден­ти­фи­ци­ро­вать кон­крет­но­го че­ло­ве­ка (в кни­ге есть при­мер рас­кры­тия ре­аль­ных имен поль­зо­ва­те­лей на ос­но­ве ано­ни­ми­зи­ро­ван­ных дан­ных с сер­ви­са про­ка­та филь­мов Net­flix при срав­не­нии их с ре­аль­ны­ми име­на­ми поль­зо­ва­те­лей сай­та IMDb).

Та­к­же есть риск за­хо­да со­всем уже на тем­ную сто­ро­ну. Ска­жем мо­жет по­явить­ся ис­ку­ше­ние про­гно­зи­ро­ва­ния бу­ду­ще­го по­ве­де­ния че­ло­ве­ка, для пре­се­че­ния воз­мож­ных пра­во­на­ру­ше­ний, до их непо­сред­ствен­но­го со­вер­ше­ния. Про­сто по­то­му, что ана­лиз дан­ных по­ка­зал вы­со­кую ве­ро­ят­ность та­ких со­бы­тий. Ан­ти­уто­пия в чи­стом виде — че­ло­век еще ни­че­го не сде­лал, но про­бле­мы у него уже есть.

Важ­но по­ни­мать, боль­шие дан­ные по­ка­зы­ва­ют нам что-то на ос­но­ве того что уже было. Пред­ска­зать нечто прин­ци­пи­аль­но но­вое они не в со­сто­я­нии. Так что мир че­ло­ве­че­ско­го ин­тел­лек­та, твор­че­ства, про­зре­ний, изоб­ре­та­тель­но­сти оста­ют­ся, к сча­стью, за нами, несмот­ря на весь про­гресс в ги­га­гер­цах, те­ра­бай­тах и ал­го­рит­мах.

Сергей Лымарь © 2005-2014, Все права защищены.