談到“大數(shù)據(jù)”,最令人不可思議的事情就是有那么多人都傻呵呵的樂觀。是的,“大數(shù)據(jù)”這個(gè)詞火了一年多,“數(shù)據(jù)中藏著財(cái)富”的觀念也開始被人接受,但是實(shí)際情況是,大部分企業(yè)、組織和個(gè)人,不要說大數(shù)據(jù),連自己手上那點(diǎn)小數(shù)據(jù)都只是剛剛能勉強(qiáng)應(yīng)付。應(yīng)付而已,對(duì)于其中埋藏的知識(shí)和價(jià)值不要說發(fā)掘,恐怕都沒有意識(shí)到。在這樣的情況下,如果以幾何級(jí)數(shù)增長的數(shù)據(jù)海嘯排山倒海而來,而且其中混雜著大量的模糊數(shù)據(jù)、非確定性數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),一個(gè)頭腦清醒的人首先應(yīng)該感到的是敬畏,而不是樂觀。
所以IBM從來都是把“大數(shù)據(jù)”跟“分析”放在一起講的。“大數(shù)據(jù)”加上“分析”,才有可能得到價(jià)值,才有意義。沒有“分析”的“大數(shù)據(jù)”,就是一場淹沒一切的數(shù)據(jù)海嘯,是災(zāi)難。“分析”才是關(guān)鍵能力,才是點(diǎn)石成金棒,才是降魔杵。
不過人們只談“大數(shù)據(jù)”而不談“分析”也是有道理的。“大數(shù)據(jù)”這個(gè)詞在傳播上有優(yōu)勢(shì)啊!什么詞最容易流行?既是新詞,又望文知義,既朗朗上口,又能裝深刻的詞。“大數(shù)據(jù)”和“物聯(lián)網(wǎng)”這兩個(gè)詞就有這些特點(diǎn),所以輕而易舉地流行起來。而“分析”則是一個(gè)平淡無奇的詞,不具備可流行性。我曾經(jīng)在一個(gè)專業(yè)的大數(shù)據(jù)研討會(huì)里聽到一位業(yè)內(nèi)極有影響力的前輩人物說,“大數(shù)據(jù)分析”中的“分析”不是什么新鮮玩意,想當(dāng)初他的隊(duì)伍剛開張,坐在部委下屬的信息情報(bào)所里整天干的就是這個(gè)玩意。
這是一個(gè)悲劇。因?yàn)椤胺治觥辈粌H是整個(gè)游戲的關(guān)鍵,而且它的本意也比字面意義要深刻和有趣的多。它所對(duì)應(yīng)的英文原文是 analytics,而不是 analysis。用于數(shù)據(jù)分析的時(shí)候,這兩個(gè)詞的意思存在細(xì)微而意義重大的差別。Analysis是統(tǒng)計(jì)、過濾和抽取,基于現(xiàn)有的知識(shí),在數(shù)據(jù)中找到關(guān)鍵的、有價(jià)值的信息。而analytics更進(jìn)一步,是通過數(shù)據(jù)的比對(duì)和相關(guān)性發(fā)現(xiàn),發(fā)現(xiàn)新的知識(shí)。拿一個(gè)老掉牙的例子來說,超市通過analysis 可以知道哪個(gè)品牌的啤酒更受本地顧客的歡迎,平均每個(gè)周三會(huì)銷售多少棵大白菜,但是只有通過 analytics 才能知道把啤酒和尿布放在一起能夠增加銷量。假如第一個(gè)翻譯 analytics 的人能夠更謹(jǐn)慎一點(diǎn),換一個(gè)譯法,或許會(huì)更有利于大數(shù)據(jù)的應(yīng)用真正落地,也不會(huì)讓那位前輩自以為自己當(dāng)年做的 analysis 就是今天所說的 analytics。
理解大數(shù)據(jù)分析不是一件容易的事情。我們能從各種大數(shù)據(jù)書籍文章里得到的各種大數(shù)據(jù)故事,大多數(shù)都是把大數(shù)據(jù)問題和最終的效果介紹的濃墨重彩,卻對(duì)于分析這個(gè)環(huán)節(jié)語焉不詳。經(jīng)典句型是這樣的:某牛人有了一個(gè)好點(diǎn)子,面向某領(lǐng)域的某某問題,收集了多少多少數(shù)據(jù),然后那么一分析啊,就得出了驚世駭俗的結(jié)論,然后就發(fā)達(dá)了。至于怎么分析的,分析的原則、方法和過程,一概略過不談。這當(dāng)然也是可以理解的,因?yàn)檎嬲臄?shù)據(jù)分析涉及到許多領(lǐng)域知識(shí)、數(shù)學(xué)原理和算法,非專業(yè)人士弄不懂,也沒有必要知道那么多。但是這種忽略的一個(gè)結(jié)果,就是使人們輕視這個(gè)分析的過程,以為一個(gè)好點(diǎn)子加上一堆大數(shù)據(jù)就能輕而易舉地得出一個(gè)值錢的結(jié)論。這是大錯(cuò)特錯(cuò)的想法。我想正是這種想法,使得人們對(duì)于大數(shù)據(jù)過度樂觀,而失去了應(yīng)有的敬畏。
好吧,如果你現(xiàn)在已經(jīng)相信“分析”是一件很重要的事情,那么我們可以談?wù)劸W(wǎng)球了,因?yàn)橐苍S網(wǎng)球是幫你理解大數(shù)據(jù)分析的最好范例。你可以很簡單地打開溫布爾登、美網(wǎng)、澳網(wǎng)、法網(wǎng)的官網(wǎng),然后尋找其中 IBM SlamTracker 鏈接,點(diǎn)擊這個(gè)鏈接,你將在20分鐘內(nèi)理解大數(shù)據(jù)分析。
跟其他的體育項(xiàng)目一樣,網(wǎng)球也涉及大量的數(shù)據(jù)。一發(fā)成功率、一發(fā)得分率和Ace球是標(biāo)志球員競技水平的關(guān)鍵指標(biāo),發(fā)球速度、接發(fā)球成功率、上網(wǎng)成功率、得分點(diǎn)則突出體現(xiàn)了球員的打法特點(diǎn),如果非受迫性失誤和雙發(fā)失誤率上升,那表明球員的心理狀態(tài)或者體力開始下滑。這就是網(wǎng)球中的數(shù)據(jù),眾所周知,沒啥了不起的。
IBM贊助網(wǎng)球賽事并提供技術(shù)支持始于1993年,從2005年以來,IBM通過 SlamTracker 追蹤了四大滿貫賽事八年來的全部 8,128 場比賽,共收集 4,100 萬個(gè)數(shù)據(jù)點(diǎn)。
好,如果在這個(gè)層次上,你只是去統(tǒng)計(jì)和 analysis,那么也能得到很多有用的結(jié)論,比如Ace球數(shù)量對(duì)比賽結(jié)果影響很大,首先被破發(fā)的選手失敗的可能性比較大,等等。不過,這些大家可能已經(jīng)知道了。你或許還可以有一些有趣的發(fā)現(xiàn),比如一發(fā)速度快的選手上網(wǎng)成功率也比較高,比如納達(dá)爾的得分點(diǎn)幾年來從底線逐漸逼近網(wǎng)前,等等。但是這些發(fā)現(xiàn)或者是平淡無奇的,或者不是那么重要。在網(wǎng)球這個(gè)已經(jīng)被無數(shù)人反復(fù)琢磨的領(lǐng)域,想通過數(shù)據(jù)看出一些新道道,不是一件容易的事情。

圖1. 2013年溫網(wǎng)決賽的 Keys to the Match 界面
這就是大數(shù)據(jù)分析(analytics)顯身手的時(shí)刻了。在 IBM 的 SlamTracker 中大數(shù)據(jù)分析的精華,就體現(xiàn)在 Keys to the Match 里。它的最后呈現(xiàn)非常簡單,只是在每場比賽中為對(duì)陣雙方的選手找到三個(gè)獲勝的關(guān)鍵指標(biāo)。比如說,當(dāng)溫網(wǎng)男單決賽中德約科維奇對(duì)陣穆雷的時(shí)候,小德的三個(gè)獲勝關(guān)鍵指標(biāo)分別是第4拍到第9拍獲勝率、Ace球數(shù)量、回球成功率,而穆雷的三個(gè)獲勝關(guān)鍵指標(biāo)分別是回球得分率、二發(fā)成功率和發(fā)球成功率。Keys to the Match 不但找到了這三個(gè)關(guān)鍵的指標(biāo),而且找到了量化的及格線。比如說在今年法網(wǎng)女單決賽里,Keys to the Match 告訴小威廉姆斯,要戰(zhàn)勝莎拉波娃,接對(duì)方一發(fā)的回球得分率要爭取超過36%,而反過來,莎拉波娃要打敗小威廉姆斯,接對(duì)方一發(fā)的回球得分率要爭取超過28%。如果在這三項(xiàng)指標(biāo)里A選手比B選手完成的更好,那么A獲勝的可能性就大大高于B。
這里神奇的地方在于,這三項(xiàng)關(guān)鍵指標(biāo)并不都是司空見慣的普通指標(biāo)。例如,第4拍到第9拍的勝率,接對(duì)方一發(fā)的回球得分率,這些都不是隨便能在電視直播的屏幕上找到的指標(biāo)。而誰又能想到,這些不起眼的指標(biāo)才是衡量戰(zhàn)局、決定成敗的關(guān)鍵點(diǎn)呢?不要說是普通球迷,就是最資深的網(wǎng)球?qū)<遥绻麅H靠平時(shí)的觀察和手工的分析,也很難找到這些關(guān)鍵指標(biāo),并且把它按重要次序排好。至于為每一個(gè)指標(biāo)設(shè)定一個(gè)及格線,那更是不可思議的事情。
是的,這就是大數(shù)據(jù)分析能夠辦到的事情,也是只有大數(shù)據(jù)分析才能夠辦到的事情。8128場比賽,4100萬個(gè)數(shù)據(jù)點(diǎn),動(dòng)用5500個(gè)分析模型,在45個(gè)潛在動(dòng)態(tài)指標(biāo)里選擇、對(duì)比、分析、判斷、猜測、排除、定位、評(píng)估、定量、組合,只有在這樣基礎(chǔ)之上,Keys to the Match才能夠?yàn)閷?duì)陣的雙方挑選出最重要的三個(gè)指標(biāo),并且確定及格線。
這才叫大數(shù)據(jù)分析,用分析從大量的數(shù)據(jù)中尋找相關(guān)性模式,發(fā)現(xiàn)以前不為人知的、超越于平凡知識(shí)之上的、至關(guān)重要的新知識(shí)。這樣的新知識(shí),是隱藏在表象之下的獲勝關(guān)鍵,是決定競爭結(jié)局的密碼,是價(jià)值,是財(cái)富,是自我實(shí)現(xiàn)之路。這才是為什么那么多商業(yè)界的有識(shí)之士狂熱的追捧大數(shù)據(jù)的原因所在。

圖2. Keys to the Match 的幕后故事
IBM中國公司對(duì)外關(guān)系部
孟巖