一、大數(shù)據(jù)的初步理解
似乎一夜之間,大數(shù)據(jù)(Big Data)變成一個IT行業(yè)中最時髦的詞匯。
首先,大數(shù)據(jù)不是什么完完全全的新生事物,Google的搜索服務(wù)就是一個典型的大數(shù)據(jù)運(yùn)用,根據(jù)客戶的需求,Google實(shí)時從全球海量的數(shù)字資產(chǎn)(或數(shù)字垃圾)中快速找出最可能的答案,呈現(xiàn)給你,就是一個最典型的大數(shù)據(jù)服務(wù)。只不過過去這樣規(guī)模的數(shù)據(jù)量處理和有商業(yè)價值的應(yīng)用太少,在IT行業(yè)沒有形成成型的概念。現(xiàn)在隨著全球數(shù)字化、網(wǎng)絡(luò)寬帶化、互聯(lián)網(wǎng)應(yīng)用于各行各業(yè),累積的數(shù)據(jù)量越來越大,越來越多企業(yè)、行業(yè)和國家發(fā)現(xiàn),可以利用類似的技術(shù)更好地服務(wù)客戶、發(fā)現(xiàn)新商業(yè)機(jī)會、擴(kuò)大新市場以及提升效率,才逐步形成大數(shù)據(jù)這個概念。
有一個有趣的故事是關(guān)于奢侈品營銷的。PRADA在紐約的旗艦店中每件衣服上都有RFID碼。每當(dāng)一個顧客拿起一件PRADA進(jìn)試衣間,RFID會被自動識別。同時,數(shù)據(jù)會傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進(jìn)試衣間停留多長時間,數(shù)據(jù)都被存儲起來加以分析。如果有一件衣服銷量很低,以往的作法是直接干掉。但如果RFID傳回的數(shù)據(jù)顯示這件衣服雖然銷量低,但進(jìn)試衣間的次數(shù)多。那就能另外說明一些問題。也許這件衣服的下場就會截然不同,也許在某個細(xì)節(jié)的微小改變就會重新創(chuàng)造出一件非常流行的產(chǎn)品。
還有一個是關(guān)于中國糧食統(tǒng)計(jì)的故事。中國的糧食統(tǒng)計(jì)是一個老大難的問題。中國的統(tǒng)計(jì),雖然有組織、有流程、有法律,但中央的統(tǒng)計(jì)人員依靠省統(tǒng)計(jì)人員,省靠市,市靠縣,縣靠鎮(zhèn),鎮(zhèn)靠村,最后真正干活或上報的是基層兼職的調(diào)查人員,由于眾所周知的KPI考核導(dǎo)向的原因,層層加碼,幾乎沒有人相信這個調(diào)查數(shù)據(jù),而其中國家統(tǒng)計(jì)局的人是最不信的。在前兩年北京的一個會議上,原國家統(tǒng)計(jì)局總經(jīng)濟(jì)師姚景源向我們講述了他們是如何做的。他們采用遙感衛(wèi)星,通過圖像識別,把中國所有的耕地標(biāo)識、計(jì)算出來,然后把中國的耕地網(wǎng)格化,對每個網(wǎng)格的耕地抽樣進(jìn)行跟蹤、調(diào)查和統(tǒng)計(jì),然后按照統(tǒng)計(jì)學(xué)的原理,計(jì)算(或者說估算)出中國整體的整體糧食數(shù)據(jù)。這種做法是典型采用大數(shù)據(jù)建模的方法,打破傳統(tǒng)流程和組織,直接獲得最終的結(jié)果。
最后是一個炒股的故事。這個故事來自于2011年好萊塢的一部高智商電影《永無止境》,講述一位落魄的作家?guī)扃辏昧艘环N可以迅速提升智力的神奇藍(lán)色藥物,然后他將這種高智商用于炒股。庫珀是怎么炒股的呢?就是他能在短時間掌握無數(shù)公司資料和背景,也就是將世界上已經(jīng)存在的海量數(shù)據(jù)(包括公司財(cái)報、電視、幾十年前的報紙、互聯(lián)網(wǎng)、小道消息等)挖掘出來,串聯(lián)起來,甚至將Face Book、Twitter的海量社交數(shù)據(jù)挖掘得到普通大眾對某種股票的感情傾向,通過海量信息的挖掘、分析,使一切內(nèi)幕都不是內(nèi)幕,使一切趨勢都在眼前,結(jié)果在10天內(nèi)他就贏得了200萬美元,神奇的表現(xiàn)讓身邊的職業(yè)投資者目瞪口呆。這部電影簡直是展現(xiàn)大數(shù)據(jù)魔力的教材性電影,推薦沒有看過的IT人士看一看。
從這些案例來看,大數(shù)據(jù)并不是很神奇的事情。就如同電影《永無止境》提出的問題:人類通常只使用了20%的大腦,如果剩余80%大腦潛能被激發(fā)出來,世界會變得怎樣?在企業(yè)、行業(yè)和國家的管理中,通常只有效使用了不到20%的數(shù)據(jù)(甚至更少),如果剩余80%數(shù)據(jù)的價值激發(fā)起來,世界會變得怎么樣呢?特別是隨著海量數(shù)據(jù)的新摩爾定律,數(shù)據(jù)爆發(fā)式增長,然后數(shù)據(jù)又得到更有效應(yīng)用,世界會怎么樣呢?
單個的數(shù)據(jù)并沒有價值,但越來越多的數(shù)據(jù)累加,量變就會引起質(zhì)變,就好像一個人的意見并不重要,但1千人、1萬人的意見就比較重要,上百萬人就足以掀起巨大的波瀾,上億人足以改變一切。
數(shù)據(jù)再多,但如果被屏蔽或者沒有被使用,也是沒有價值的。中國的航班晚點(diǎn)非常多,相比之下美國航班準(zhǔn)點(diǎn)情況好很多。這其中,美國航空管制機(jī)構(gòu)一個的好做法發(fā)揮了積極的作用,說起來也非常簡單,就是美國會公布每個航空公司、每一班航空過去一年的晚點(diǎn)率和平均晚點(diǎn)時間,這樣客戶在購買機(jī)票的時候就很自然會選擇準(zhǔn)點(diǎn)率高的航班,從而通過市場手段牽引各航空公司努力提升準(zhǔn)點(diǎn)率。這個簡單的方法比任何管理手段(如中國政府的宏觀調(diào)控手段)都直接和有效。這里多說一兩句,過去一個暴政國家對內(nèi)的控制主要是物理上的暴力,就是強(qiáng)力機(jī)構(gòu)權(quán)力無限大,搞國家恐怖主義;而現(xiàn)在一個暴政國家,主要是就靠壟斷信息、封鎖信息,讓民眾難以獲得廣泛而真實(shí)的信息,從而實(shí)現(xiàn)國家的控制。這個信息封鎖,就是對大數(shù)據(jù)的封鎖。
沒有整合和挖掘的數(shù)據(jù),價值也呈現(xiàn)不出來。《永無止境》中的庫珀如果不能把海量信息圍繞某個公司的股價整合起來、串聯(lián)起來,這些信息就沒有價值。
因此,海量數(shù)據(jù)的產(chǎn)生、獲取、挖掘及整合,使之展現(xiàn)出巨大的商業(yè)價值,這就是我理解的大數(shù)據(jù)。在互聯(lián)網(wǎng)對一切重構(gòu)的今天,這些問題都不是問題。因?yàn)?,我認(rèn)為大數(shù)據(jù)是互聯(lián)網(wǎng)深入發(fā)展的下一波應(yīng)用,是互聯(lián)網(wǎng)發(fā)展的自然延伸。目前,可以說大數(shù)據(jù)的發(fā)展到了一個臨界點(diǎn),因此才成為IT行業(yè)中最熱門的詞匯之一。
二、大數(shù)據(jù)將重構(gòu)很多行業(yè)的商業(yè)思維和商業(yè)模式
我想以對未來汽車行業(yè)的狂野想象來展開這個題目。
在人的一生中,汽車是一項(xiàng)巨大的投資。以一部30萬車、七年換車周期來算,每年折舊費(fèi)4萬多(這里還不算資金成本),加上停車、保險、油、維修、保養(yǎng)等各項(xiàng)費(fèi)用,每年耗費(fèi)應(yīng)在6萬左右。汽車產(chǎn)業(yè)也是一個很長產(chǎn)業(yè)鏈的龍頭產(chǎn)業(yè),這個方面只有房地產(chǎn)可以媲美。
但同時,汽車產(chǎn)業(yè)鏈?zhǔn)且粋€低效率、變化慢的產(chǎn)業(yè)。汽車一直以來就是四個輪子、一個方向盤、兩排沙發(fā)(李書福語)。這么一個昂貴的東西,圍繞車產(chǎn)生的數(shù)據(jù)卻少的可憐,行業(yè)產(chǎn)業(yè)鏈之間幾無任何數(shù)據(jù)傳遞。
我們在這里狂野地想象一番,如果將汽車全面數(shù)字化,都大數(shù)據(jù)了,會產(chǎn)生什么結(jié)果?
有些人說,汽車數(shù)字化,不就是加個MBB模塊嗎?不,這太小兒科了。在我理想中,數(shù)字化意味著汽車可以隨時聯(lián)上互聯(lián)網(wǎng),意味著汽車是一個大型計(jì)算系統(tǒng)加上傳統(tǒng)的輪子、方向盤和沙發(fā),意味著可以數(shù)字化導(dǎo)航、自動駕駛,意味著你和汽車相關(guān)的每一個行動都數(shù)字化,包括每一次維修、每一次駕駛路線、每一次事故的錄像、每一天汽車關(guān)鍵部件的狀態(tài),甚至你的每一個駕駛習(xí)慣(如每一次的剎車和加速)都記錄在案。這樣,你的車每月甚至每周都可能產(chǎn)生T比特的數(shù)據(jù)。
好了,我們假設(shè)這些數(shù)據(jù)都可以存儲并分享給相關(guān)的政府、行業(yè)和企業(yè)。這里不討論隱私問題帶來的影響,假設(shè)在隱私保護(hù)的前提下,數(shù)據(jù)可以自由分享。
那么,保險公司會怎么做呢?保險公司把你的所有數(shù)據(jù)拿過去建模分析,發(fā)現(xiàn)幾個重要的事實(shí):一是你開車主要只是上下班,南山到坂田這條線路是非繁華路線,紅綠燈很少,這條路線過去一年統(tǒng)計(jì)的事故率很低;你的車況(車的使用年限、車型)好,此車型在全深圳也是車禍率較低;甚至統(tǒng)計(jì)你的駕駛習(xí)慣,加油平均,臨時剎車少,超車少,和周圍車保持了應(yīng)有的車距,駕駛習(xí)慣好。最后結(jié)論是你車型好,車況好,駕駛習(xí)慣好,常走的線路事故率低,過去一年也沒有出過車禍,因此可以給予更大幅度的優(yōu)惠折扣。這樣保險公司就完全重構(gòu)了它的商業(yè)模式了。在沒有大數(shù)據(jù)支撐之前,保險公司只把車險客戶做了簡單的分類,一共分為四種客戶,第一種是連續(xù)兩年沒有出車禍的,第二種過去一年沒有出車禍,第三種過去一年出了一次車禍,第四種是過去一年出了兩次及以上車禍的,就四種類型。這種簡單粗暴的分類,就好像女人找老公,僅把男人分為沒有結(jié)過婚的、結(jié)過一次婚的、結(jié)過二次婚的、結(jié)過三次及以上婚的四種男人,就敢嫁人一樣。在大數(shù)據(jù)的支持下,保險公司可以真正以客戶為中心,把客戶分為成千上萬種,每個客戶都有個性化的解決方案,這樣保險公司經(jīng)營就完全不同,對于風(fēng)險低的客戶敢于大膽折扣,對于風(fēng)險高的客戶報高價甚至拒絕,一般的保險公司就完全難以和這樣的保險公司競爭了。擁有大數(shù)據(jù)并使用大數(shù)據(jù)的保險公司比傳統(tǒng)公司將擁有壓倒性的競爭優(yōu)勢,大數(shù)據(jù)將成為保險公司最核心的競爭力,因?yàn)楸kU就是一個基于概率評估的生意,大數(shù)據(jù)對于準(zhǔn)確評估概率毫無疑問是最有利的武器,而且簡直是量身定做的武器。
在大數(shù)據(jù)的支持下,4S店的服務(wù)也完全不同了。車況信息會定期傳遞到4S店,4S店會根據(jù)情況及時提醒車主及時保養(yǎng)和維修,特別是對于可能危及安全的問題,在客戶同意下甚至?xí)扇∵h(yuǎn)程干預(yù)措施,同時還可以提前備貨,車主一到4S店就可以維修而不用等待。
對于駕駛者來說,不想開車的時候,在大數(shù)據(jù)和人工智能的支持下,車輛可以自動駕駛,并且對于你經(jīng)常開的線路可以自學(xué)習(xí)自優(yōu)化。谷歌的自動駕駛汽車,為了對周圍環(huán)境作出預(yù)測,每秒鐘要收集差不多1GB的數(shù)據(jù),沒有大數(shù)據(jù)的支持,自動駕駛是不可想象的;在和周圍車輛過近的時候,會及時提醒車主避讓;上下班的時候,會根據(jù)實(shí)時大數(shù)據(jù)情況,對于你經(jīng)常開車的線路予以提醒,繞開擁堵點(diǎn),幫你選擇最合適的線路;在出現(xiàn)緊急狀況的時候,比如爆胎,自動駕駛系統(tǒng)將自動接管,提高安全性(人一輩子可以難以碰到一次爆胎,人在緊急時的反應(yīng)往往是災(zāi)難性的,只會更糟);到城市中心,尋找車位是一件很麻煩的事情,但未來你可以到了商場門口后,讓汽車自己去找停車位,等想要回程的時候,提前通知讓汽車自己開過來接。
車輛是城市最大最活躍的移動物體,是擁堵的來源,也是最大的污染來源之一。數(shù)字化的車輛、大數(shù)據(jù)應(yīng)用將帶來很多的改變。紅綠燈可以自動優(yōu)化,根據(jù)不同道路的擁堵情況自動進(jìn)行調(diào)整,甚至在很多地方可以取消紅綠燈;城市停車場也可以大幅度優(yōu)化,根據(jù)大數(shù)據(jù)的情況優(yōu)化城市停車位的設(shè)計(jì),如果配合車輛的自動駕駛功能,停車場可以革命性演變,可以設(shè)計(jì)專門為自動駕駛車輛的停車樓,地下、地上樓層可以高達(dá)幾十層,停車樓層可以更矮,只要能高于車高度即可(或者把車豎起來停),這樣將對城市規(guī)劃產(chǎn)生巨大的影響;在出現(xiàn)緊急情況,如前方塌方的時候,可以第一時間通知周圍車輛(尤其是開往塌方道路的車輛);現(xiàn)在的燃油稅也可以發(fā)生革命性變化,可以真正根據(jù)車輛的行駛路程,甚至根據(jù)汽車的排污量來收費(fèi),排污量少的車甚至可以搞碳交易,賣排放量賣給高油耗的車;政府還可以每年公布各類車型的實(shí)際排污量、稅款、安全性等指標(biāo),鼓勵民眾買更節(jié)能、更安全的車。
電子商務(wù)和快遞業(yè)也可能發(fā)生巨大的變化。運(yùn)快遞的車都可以自動駕駛,不用趕白天的擁堵的道路,晚上半夜開,在你家門口設(shè)計(jì)自動接收箱,通過密碼開啟自動投遞進(jìn)去,就好像過去報童投報一樣。
這么想象下來,我認(rèn)為,汽車數(shù)字化、互聯(lián)網(wǎng)化、大數(shù)據(jù)應(yīng)用、人工智能,將對汽車業(yè)及相關(guān)的長長的產(chǎn)業(yè)鏈產(chǎn)生難以想象的巨大變化和產(chǎn)業(yè)革命,具有無限的想象空間,可能完全被重構(gòu)。當(dāng)然,要實(shí)現(xiàn)我所描述的場景,估計(jì)至少50年、100年之后的事情了,估計(jì)我這輩子是看不到的。
下面一個想象是圍繞著人本身來展開的。人的數(shù)字化生存也就是這幾十年的事情。我爺爺奶奶那輩子,是在人生末年的時候有照片,算是初步在個人形象方面有了一點(diǎn)數(shù)字化,讓我們及后代還可以知道爺爺奶奶的光輝形象。而我們從小就有照片,這些年我們的數(shù)字化就越來越多了,身份是數(shù)字的(就是身份證),銀行存款是數(shù)字的,照片是全數(shù)字,體檢單也數(shù)字化,購物數(shù)字化(淘寶上有我的幾十個地址、幾百條購物信息、上萬次搜索信息),溝通數(shù)字化(微信上有新的朋友圈生態(tài)),初步構(gòu)建了一個數(shù)字化生存的狀態(tài)。而我們的下一輩或下下一輩將進(jìn)入完全的數(shù)字化生存,人從一出生就有基因圖譜,到后續(xù)的每一次體檢、每一次化驗(yàn),到每一年、每一個月、每一個日子的活動,到相關(guān)親戚的軌跡,從每一個人,到每一代人,到整個族譜,到整個國家,到整個全球,這些海量數(shù)據(jù)的產(chǎn)生將從量變到質(zhì)變,這些數(shù)據(jù)的挖掘與使用將對人類本身產(chǎn)生革命性的影響。這里,我們也想象一下:
比如,在你找對象的時候,碰上一位心愛的姑娘,大數(shù)據(jù)系統(tǒng)就像算命系統(tǒng)一樣,根據(jù)雙方海量數(shù)據(jù)的挖掘,告訴你和姑娘匹配指數(shù)是多少,告訴你全球類似情況的夫妻日后離婚概率是多少,低于某個匹配指數(shù),大數(shù)據(jù)系統(tǒng)會慎重建議你認(rèn)真考慮不要這個姑娘繼續(xù)交往下去。聽起來是不是特別像門當(dāng)戶對的數(shù)字化呢?當(dāng)然,你可能會說,這樣的人生多沒有意思啊,錯誤本來就是人生最美麗的一部分。呵呵,我只討論科學(xué)問題,對你這種以“浪漫主義”為名,事實(shí)上是不以結(jié)婚為目的的耍流氓式的戀愛,不予以理睬。其實(shí),我內(nèi)心也承認(rèn),偶爾耍耍流氓是很好的。呵呵,開個玩笑。
又比如,在你找工作的時候,可能會有這么一天,當(dāng)你面試時,HR會淡定的告訴你,對不起,經(jīng)過我們的大數(shù)據(jù)分析,你歷來的網(wǎng)貼、微博、微信總體負(fù)面情緒過多,不符合我們企業(yè)陽光樂觀積極向上的主題,出門左拐就有地鐵站,慢走。
再比如,在你過生日的那天,朋友們生日快樂祝福之后,大數(shù)據(jù)分析系統(tǒng)會告訴你,你的生命將進(jìn)入倒計(jì)時,根據(jù)過去幾年的身體數(shù)字化大數(shù)據(jù),根據(jù)基因圖譜,根據(jù)你親戚的相關(guān)情況統(tǒng)計(jì),你有80%的概率在20年內(nèi)死去,有30%概率在60歲左右因基因缺陷發(fā)生腦溢血,因此你要改善生活習(xí)慣,并重點(diǎn)加強(qiáng)監(jiān)控腦溢血發(fā)生的可能性。這些事情如果都發(fā)生,會出現(xiàn)什么情況?第一,估計(jì)人類的生命普遍將延長10年以上,因?yàn)楹芏酀撛诘耐话l(fā)性惡性疾病爆發(fā)的概率大幅度降低了。第二,和上面的汽車故事一樣,保險公司也可以基于大數(shù)據(jù)重構(gòu)商業(yè)模型,可以對每個人的大數(shù)據(jù)進(jìn)行分析,對每個人進(jìn)行針對性的保險業(yè)務(wù)設(shè)計(jì)。第三,藥廠的商業(yè)模式可能也改變了,藥廠擁有你相關(guān)的大數(shù)據(jù),可以為你量身定做藥品,西服都能量身定做,藥品為什么不能呢?定制的西服更合身,定制的藥品肯定針對性更強(qiáng)、副作用更少。西服能量身定做,是因?yàn)橛心闳龂臄?shù)據(jù),藥品能量身定做也是因?yàn)橛心闵眢w的數(shù)據(jù),道理是一樣的。第四,國家的醫(yī)保政策也可能重構(gòu),國家能根據(jù)大數(shù)據(jù)系統(tǒng),分析整體國民素質(zhì),分析老齡化情況,分析養(yǎng)老金系統(tǒng)的承受能力,針對性地增強(qiáng)某些區(qū)域的醫(yī)療資源,或者動態(tài)調(diào)整養(yǎng)老保險費(fèi)率,或者動態(tài)調(diào)整退休年限等等。
對汽車產(chǎn)業(yè)和數(shù)字化人生的想象告一段落。這里,我想系統(tǒng)回顧一下工業(yè)文明的發(fā)展歷程,首先是物理世界的工業(yè)文明,典型是蒸汽機(jī)的發(fā)明,使汽車、輪船進(jìn)入生活;然后是數(shù)字世界的工業(yè)文明,就是IT技術(shù)的使用,使PC及各種電子產(chǎn)品進(jìn)入生活,以及企業(yè)數(shù)字化系統(tǒng)的建立,使沃爾瑪這樣的巨型企業(yè)產(chǎn)生成為可能;下一步就是物理世界和數(shù)字世界的融合,這也就是業(yè)界熱炒的“工業(yè)互聯(lián)網(wǎng)”、“IT 3.0”,而這里面除了數(shù)字技術(shù)在傳統(tǒng)行業(yè)的使用(這個事實(shí)上已經(jīng)在廣泛使用)、電子商務(wù)在渠道的廣泛推行,更重要的就是大數(shù)據(jù)的產(chǎn)生及挖掘、使用,使企業(yè)在管理方式、市場機(jī)會挖掘、產(chǎn)品設(shè)計(jì)、營銷、服務(wù)、商業(yè)模式等發(fā)生巨大的變化,這種巨大的變化帶來了很多行業(yè)的革命性變局,也就是顛覆與改造。這種變化在所謂的低效率的大行業(yè)將最為明顯與直接。這些所謂的的低效率大行業(yè),就是壟斷特征明顯、產(chǎn)業(yè)規(guī)模大、產(chǎn)業(yè)鏈長、歷史悠久但長時間變化少、IT應(yīng)用水平低的行業(yè),如汽車、金融、保險、醫(yī)療等。
在這個章節(jié)的最后,我想總結(jié)一下自己對大數(shù)據(jù)的看法。
第一,大數(shù)據(jù)使企業(yè)真正有能力從以自我為中心改變?yōu)橐钥蛻魹橹行?。企業(yè)是為客戶而生,目的是為股東獲得利潤。只有服務(wù)好客戶,才能獲得利潤。但過去,很多企業(yè)是沒有能力做到以客戶為中心的,原因就是相應(yīng)客戶的信息量不大,挖掘不夠,系統(tǒng)也不支持,目前的保險業(yè)就是一個典型。大數(shù)據(jù)的使用能夠使對企業(yè)的經(jīng)營對象從客戶的粗略歸納(就是所謂提煉歸納的“客戶群”)還原成一個個活生生的客戶,這樣經(jīng)營就有針對性,對客戶的服務(wù)就更好,投資效率就更高。
第二,大數(shù)據(jù)一定程度上將顛覆了企業(yè)的傳統(tǒng)管理方式。現(xiàn)代企業(yè)的管理方式是來源于對軍隊(duì)的模仿,依賴于層層級級的組織和嚴(yán)格的流程,依賴信息的層層匯集、收斂來制定正確的決策,再通過決策在組織的傳遞與分解,以及流程的規(guī)范,確保決策得到貫徹,確保每一次經(jīng)營活動都有質(zhì)量保證,也確保一定程度上對風(fēng)險的規(guī)避。過去這是一種有用而笨拙的方式。在大數(shù)據(jù)時代,我們可能重構(gòu)企業(yè)的管理方式,通過大數(shù)據(jù)的分析與挖掘,大量的業(yè)務(wù)本身就可以自決策,不必要依靠膨大的組織和復(fù)雜的流程。大家都是基于大數(shù)據(jù)來決策,都是依賴于既定的規(guī)則來決策,是高高在上的CEO決策,還是一線人員決策,本身并無大的區(qū)別,那么企業(yè)是否還需要如此多層級的組織和復(fù)雜的流程呢?
第三,大數(shù)據(jù)另外一個重大的作用是改變了商業(yè)邏輯,提供了從其他視角直達(dá)答案的可能性?,F(xiàn)在人的思考或者是企業(yè)的決策,事實(shí)上都是一種邏輯的力量在主導(dǎo)起作用。我們?nèi)フ{(diào)研,去收集數(shù)據(jù),去進(jìn)行歸納總結(jié),最后形成自己的推斷和決策意見,這是一個觀察、思考、推理、決策的商業(yè)邏輯過程。人和組織的邏輯形成是需要大量的學(xué)習(xí)、培訓(xùn)與實(shí)踐,代價是非常巨大的。但是否這是唯一的道路呢?大數(shù)據(jù)給了我們其他的選擇,就是利用數(shù)據(jù)的力量,直接獲得答案。就好像我們學(xué)習(xí)數(shù)學(xué),小時候?qū)W九九乘法表,中學(xué)學(xué)幾何,大學(xué)還學(xué)微積分,碰到一道難題,我們是利用了多年學(xué)習(xí)沉淀的經(jīng)驗(yàn)來努力求解,但我們還有一種方法,在網(wǎng)上直接搜索是不是有這樣的題目,如果有,直接抄答案就好了。很多人就會批評說,這是抄襲,是作弊。但我們?yōu)槭裁匆獙W(xué)習(xí)啊?不就是為了解決問題嘛。如果我任何時候都可以搜索到答案,都可以用最省力的方法找到最佳答案,這樣的搜索難道不可以是一條光明大道嗎?換句話說,為了得到“是什么”,我們不一定要理解“為什么”。我們不是否定邏輯的力量,但是至少我們有一種新的巨大力量可以依賴,這就是未來大數(shù)據(jù)的力量。
第四,通過大數(shù)據(jù),我們可能有全新的視角來發(fā)現(xiàn)新的商業(yè)機(jī)會和重構(gòu)新的商業(yè)模式。我們現(xiàn)在看這個世界,比如分析家中食品腐敗,主要就是依賴于我們的眼睛再加上我們的經(jīng)驗(yàn),但如果我們有一臺顯微鏡,我們一下就看到壞細(xì)菌,那么分析起來完全就不一樣了。大數(shù)據(jù)就是我們的顯微鏡,它可以讓我們從全新視角來發(fā)現(xiàn)新的商業(yè)機(jī)會,并可能重構(gòu)商業(yè)模型。我們的產(chǎn)品設(shè)計(jì)可能不一樣了,很多事情不用猜了,客戶的習(xí)慣和偏好一目了然,我們的設(shè)計(jì)就能輕易命中客戶的心窩;我們的營銷也完全不同了,我們知道客戶喜歡什么、討厭什么,更有針對性。特別是顯微鏡再加上廣角鏡,我們就有更多全新的視野了。這個廣角鏡就是跨行業(yè)的數(shù)據(jù)流動,使我們過去看不到的東西都能看到了,比如前面所述的汽車案例,開車是開車,保險是保險,本來不相關(guān),但當(dāng)我們把開車的大數(shù)據(jù)傳遞到保險公司,那整個保險公司的商業(yè)模式就全變了,完全重構(gòu)了。
最后一點(diǎn),我想談的是大數(shù)據(jù)發(fā)展對IT本身技術(shù)架構(gòu)的革命性影響。大數(shù)據(jù)的根基是IT系統(tǒng)。我們現(xiàn)代企業(yè)的IT系統(tǒng)基本上是建立在IOE(IBM小型機(jī)、Oracle數(shù)據(jù)庫、EMC存儲)+Cisco模型基礎(chǔ)上的,這樣的模型是Scale-UP型的架構(gòu),在解決既定模型下一定數(shù)據(jù)量的業(yè)務(wù)流程是適配的,但如果是大數(shù)據(jù)時代,很快會面臨成本、技術(shù)和商業(yè)模式的問題,大數(shù)據(jù)對IT的需求很快就會超越了現(xiàn)有廠商架構(gòu)的技術(shù)頂點(diǎn),超大數(shù)據(jù)增長將帶來IT支出增長之間的線性關(guān)系,使企業(yè)難以承受。因此,目前在行業(yè)中提出的去IOE趨勢,利用Scale-out架構(gòu)+開源軟件對Scale-up架構(gòu)+私有軟件的取代,本質(zhì)是大數(shù)據(jù)業(yè)務(wù)模型所帶來的,也就是說大數(shù)據(jù)將驅(qū)動IT產(chǎn)業(yè)新一輪的架構(gòu)性變革。去IOE潮流中的所謂國家安全因素,完全是次要的。
所以,美國人說,大數(shù)據(jù)是資源,和大油田、大煤礦一樣,可以源源不斷挖出大財(cái)富。而且和一般資源不一樣,它是可再生的,是越挖越多、越挖越值錢的,這是反自然規(guī)律的。對企業(yè)如此,對行業(yè)、對國家也是這樣,對人同樣如此。這樣的東西誰不喜歡呢?因此,大數(shù)據(jù)這么熱門,是完全有道理的。
三、新智慧生物的誕生?
下面的想象就更狂野了,真正要實(shí)現(xiàn),估計(jì)至少是我們十輩子或者一百輩子以后的事情。那時候,我們已經(jīng)是祖宗了哈。大家就當(dāng)科幻小說來看好了。
從最近一位微軟副總裁的演講說起。瑞克·拉希德(Rick Rashid)是微軟研究院的高級副總裁,有一天,他在中國的天津邁上講臺,面對2000名研究者和學(xué)生,要發(fā)表演講,他非常非常緊張。這么緊張是有原因的。問題在于,他不會講中文,而他的翻譯水平以前非常糟糕,似乎注定了這次的尷尬。
“我們希望,幾年之內(nèi),我們能夠打破人們之間的語言障礙,”這位微軟研究院的高級副總裁對聽眾們說。令人緊張的兩秒鐘停頓之后,翻譯的聲音從擴(kuò)音器里傳了出來。拉希德繼續(xù)說:“我個人相信,這會讓世界變得更加美好。”停頓,然后又是中文翻譯。
他笑了。聽眾對他的每一句話都報以掌聲。有些人甚至流下了眼淚。這種看上去似乎過于熱情的反應(yīng)是可以理解的:拉希德的翻譯太不容易了。每句話都被理解,并被翻譯得天衣無縫。令人印象最深的一點(diǎn)在于,這位翻譯并非人類。
這就是自然語言的機(jī)器翻譯,也是長期以來人工智能研究的一個重要體現(xiàn)。人工智能從過去到未來都有清晰而巨大的商業(yè)前景,是以前IT業(yè)的熱點(diǎn),其熱度一點(diǎn)不亞于現(xiàn)在的“互聯(lián)網(wǎng)”和“大數(shù)據(jù)”。但是,人類過去在推進(jìn)人工智能的研究遇到了巨大的障礙,最后幾乎絕望。
當(dāng)時人工智能就是模擬人的智能思考方式來構(gòu)筑機(jī)器智能。以機(jī)器翻譯來說,語言學(xué)家和語言專家必須不辭勞苦地編撰大型詞典和與語法、句法、語義學(xué)有關(guān)的規(guī)則,數(shù)十萬詞匯構(gòu)成詞庫,語法規(guī)則高達(dá)數(shù)萬條,考慮各種情景、各種語境,模擬人類翻譯,計(jì)算機(jī)專家再構(gòu)建復(fù)雜的程序。最后發(fā)現(xiàn)人類語言實(shí)在是太復(fù)雜了,窮舉式的做法根本達(dá)不到最基本的翻譯質(zhì)量。這條道路最后的結(jié)果是,1960年代后人工智能的技術(shù)研發(fā)停滯不前數(shù)年后,科學(xué)家痛苦地發(fā)現(xiàn)以“模擬人腦”、“重建人腦”的方式來定義人工智能走入一條死胡同,這導(dǎo)致后來幾乎所有的人工智能項(xiàng)目都進(jìn)入了冷宮。
這里講個小插曲。我讀大學(xué)的時候,有個老師是國內(nèi)人工智能的頂級教授,還是國內(nèi)某個人工智能研究會的副會長。他評述當(dāng)時的人工智能,不是人工智能,而是人工愚蠢,把人類簡單的行為分解、分解再分解,再去笨拙地模擬,不是人怎么聰明怎么學(xué),而是模擬學(xué)習(xí)最蠢的人的最簡單的動作。他說,對于當(dāng)時人工智能的進(jìn)步,有些人沾沾自喜,說好像登月計(jì)劃中人類離月亮更進(jìn)一步了,其實(shí),就是站上了一塊石頭對著月亮抒情,啊,我離你更近了。他對自己事業(yè)的自我嘲諷,讓我至今記憶非常深刻。
后來有人就想,機(jī)器為什么要向人學(xué)習(xí)邏輯呢,又難學(xué)又學(xué)不好,機(jī)器本身最強(qiáng)大的是計(jì)算能力和數(shù)據(jù)處理能力,為什么不揚(yáng)長避短、另走一條道路呢?這條道路就是IBM“深藍(lán)”走過的道路。1997年5月11日,國際象棋大師卡斯帕羅夫在和IBM公司開發(fā)的計(jì)算機(jī)“深藍(lán)”進(jìn)行對弈時宣布失敗,計(jì)算機(jī)“深藍(lán)”因此贏得了這場意義深遠(yuǎn)的“人機(jī)對抗”。 “深藍(lán)”不是靠邏輯、不靠所謂的人工智能取勝的,就是靠超強(qiáng)的計(jì)算能力取勝:思考不過你,但是算死你。
類似的邏輯在后續(xù)也用到了機(jī)器翻譯上。谷歌、微軟和IBM都走上了這條道路。就是主要采用匹配法,同時結(jié)合機(jī)器學(xué)習(xí),依賴于海量的數(shù)據(jù)及其相關(guān)相關(guān)統(tǒng)計(jì)信息,不管語法和規(guī)則,將原文與互聯(lián)網(wǎng)上的翻譯數(shù)據(jù)對比,找到最相近、引用最頻繁的翻譯結(jié)果做為輸出。也就是利用大數(shù)據(jù)以及機(jī)器學(xué)習(xí)技術(shù)來實(shí)現(xiàn)機(jī)器翻譯?,F(xiàn)有的數(shù)據(jù)量越是龐大,那么這個系統(tǒng)就能越好地運(yùn)行,這也正是為何新的機(jī)器翻譯只有在互聯(lián)網(wǎng)出現(xiàn)以后才有可能重新取得突破性進(jìn)展的原因所在。
因此,目前這些公司機(jī)器翻譯團(tuán)隊(duì)中,有不少計(jì)算機(jī)科學(xué)家,但卻連一個純粹的語言學(xué)家也沒有,只要擅長數(shù)學(xué)和統(tǒng)計(jì)學(xué),然后又會編程,那就可以了。
總而言之,利用這種技術(shù),計(jì)算機(jī)教會自己從大數(shù)據(jù)中建立模式。有了足夠大的信息量,你就能讓機(jī)器學(xué)會做看上去有智能的事情,別管是導(dǎo)航、理解話語、翻譯語言,還是識別人臉,或者模擬人類對話。英國劍橋微軟研究院的克里斯·畢肖普(Chris Bishop)打了個比方:“你堆積足夠多的磚塊,然后退上幾步,就能看到一座房子。”
這里我們假設(shè)這種技術(shù)能夠持續(xù)進(jìn)步,未來基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)基礎(chǔ)上的人工智能達(dá)到比較流暢地模擬人類對話,就是人類可以和機(jī)器進(jìn)行比較自如的對話。事實(shí)上,IBM的“沃森”計(jì)劃就是這樣科技工程,比如試圖讓計(jì)算機(jī)當(dāng)醫(yī)生,能夠?qū)Υ蟛糠植∵M(jìn)行診斷,并和病人進(jìn)行溝通。另外,也假設(shè)目前剛剛興起的穿戴式計(jì)算設(shè)備取得巨大的進(jìn)展。這種進(jìn)展到什么程度呢?就是你家的寵物小狗身上也裝上了各種傳感器和穿戴式設(shè)備,比如有圖像采集,有聲音采集,有嗅覺采集,有對小狗的健康進(jìn)行監(jiān)控的小型醫(yī)療設(shè)備,甚至還有電子藥丸在小狗的胃中進(jìn)行消化情況監(jiān)控。小狗當(dāng)然也聯(lián)上網(wǎng),也一樣產(chǎn)生了巨大的數(shù)據(jù)量。這時,我們假設(shè)基于這些大數(shù)據(jù)建模,能夠模擬小狗的喜怒哀樂,然后還能夠通過擬人化的處理進(jìn)行語音表達(dá),換句話說,就是模擬小狗說人話,比如主人回家時,小狗搖尾巴,旺旺叫,那么這個附著于小狗身上的人工智能系統(tǒng)就會說,“主人,真高興看到你回家”。不僅如此,你還可以和小狗的人工智能系統(tǒng)進(jìn)行對話,因?yàn)檫@個人工智能系統(tǒng)能基本理解你的意思,又能夠代替小狗擬人化表達(dá)。以下我們模擬一下可能的對話:
你:“小狗,今天過得好?”
小狗:“不錯啊,主人你今天換的新狗糧味道很好,總覺得沒有吃夠。”
你:“那很好。我們以后繼續(xù)買這種狗糧。對了,今天有什么人來嗎?”
小狗:“只有郵遞員來投遞報紙。另外,鄰居家的小狗瑪麗也來串門,我們一起玩了一下午。”
你:“那你們玩的怎么樣?”
小狗:“很開心啊。我好像又進(jìn)入了初戀呢。”
……
我們可以把上面的模擬對話當(dāng)成一個笑話。但其實(shí),我們這個時候就會發(fā)現(xiàn)一個驚人的事實(shí),就是你其實(shí)是面對了兩只小狗,一只是物理意義上的小狗,一只是基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的人工智能虛擬小狗,而且虛擬小狗比物理小狗還要聰明,真正善解人意。那么,這個虛擬小狗是不是新的智慧生物呢?
我們繼續(xù)把這個故事來做延伸,把小狗換成未來的人,人在一生中產(chǎn)生大量的數(shù)據(jù),根據(jù)這些數(shù)據(jù)建??梢灾苯油蒲莩龊芏嗟慕Y(jié)論,比如喜歡看什么樣的電影啊,喜歡什么口味的菜啊,在遇到什么問題時會怎么采取什么行動啊。
這樣的數(shù)據(jù)一直累積下來,直到這個人去世。我們有個大膽的想象,這些巨大的數(shù)據(jù)能否讓這個人以某種方式繼續(xù)存在下去呢?后代有什么問題需要尋求答案的時候,比如在人生的關(guān)鍵抉擇時,比如大學(xué)要上什么專業(yè)、該不該和某個姑娘結(jié)婚,可不可以問問這個虛擬的人(祖先)有什么建議呢?答案是當(dāng)然可以。在這種情況下,數(shù)字化生存不僅在人生前存在,也可以在人死后繼續(xù)存在。人死了,可以在虛擬空間中繼續(xù)存在。一輩子、一輩子的人故去,這些虛擬的智慧都可以繼續(xù)存在,假設(shè)很多年過去了,這些虛擬智慧的祖宗們太多太多了,活著的子孫們甚至可以組建一個“祖宗聯(lián)席參謀委員會”,優(yōu)選那些考得好的(比如中過狀元),當(dāng)過國家高級公務(wù)員(比如太守)、當(dāng)過企業(yè)高管(比如CEO)、當(dāng)過教授、當(dāng)過作家的等等當(dāng)過成功人士的祖宗,專門用于后代的咨詢、解惑。讓這些祖宗死后還有競爭,別死了就沒有事情干了。這個場景是不是很熟悉啊?就是迪斯尼動畫片《花木蘭》中出現(xiàn)過的場景啊,花木蘭在面臨是否代父參軍的重大人生時刻,就向“祖宗聯(lián)席參謀委員會”傾訴過困惑,得到了指點(diǎn)。
再更大膽地想象一下,假設(shè)材料科學(xué)也取得巨大的進(jìn)展,那我們能不能把這些虛擬的生命重新植入到模擬人類的生態(tài)體上呢?當(dāng)然也可以。這個新智慧體可非常像真正的人啊。那這算不算人死后復(fù)生呢?那這個新智慧體能不能繼續(xù)擁有以前的身份證呢?能不能繼續(xù)擁有以前的財(cái)產(chǎn)呢?能不能繼續(xù)享受養(yǎng)老金呢?是不是也要有強(qiáng)制規(guī)定一定的壽命限制呢?這種智慧體會不會自學(xué)習(xí)、自進(jìn)化?他們會不會爆發(fā)和人類的戰(zhàn)爭?往深處多想想,感覺全亂套了,現(xiàn)在的倫理、法律等都面臨巨大的挑戰(zhàn)。
這些說明什么呢?就是隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的進(jìn)一步進(jìn)展,這個世界出現(xiàn)了新的智慧生物!大數(shù)據(jù)和機(jī)器學(xué)習(xí)在改變、重構(gòu)和顛覆很多企業(yè)、行業(yè)和國家以后,終于到了改變?nèi)祟愖陨淼臅r候了!人類的演進(jìn)出現(xiàn)了新的分支!
有科學(xué)家畫了下面一張圖,來描述這兩者智慧生物。一種是基于生物性的,經(jīng)過幾百萬年的進(jìn)化而來;一種是基于IT技術(shù),基于大數(shù)據(jù)和機(jī)器學(xué)習(xí),通過自模擬、自學(xué)習(xí)而來。前者更有邏輯性,更有豐富的情感,有創(chuàng)造力,但生命有限;后者沒有很強(qiáng)的邏輯性,沒有生物上的情感,但有很強(qiáng)的計(jì)算、建模和搜索能力,理論上生命是無限的。
當(dāng)然,這些事情要發(fā)生都會非常非常遙遠(yuǎn)。反正我們活著的時候是見不到了,死了也見不到,因?yàn)槲覀兯赖臅r候,我相信這種建立在大數(shù)據(jù)和機(jī)器學(xué)習(xí)之上的虛擬生命還不會存在。
四、結(jié)束語
我最后想說的是,我們對未來的認(rèn)知,主要是基于常識和對未來的想象。根據(jù)統(tǒng)計(jì),現(xiàn)在《紐約時報》一周的信息量比18世紀(jì)一個人一生所收到的資訊量更大,現(xiàn)在18個月產(chǎn)生的信息比過去5000年的總和更多,現(xiàn)在我家一臺5000元電腦的計(jì)算能力比我剛?cè)氪髮W(xué)時全校的計(jì)算能力更強(qiáng)大??萍嫉倪M(jìn)步在很多的時候總會超出我們的想象,試想如果未來我們一個人擁有的電腦設(shè)備超過現(xiàn)在全球現(xiàn)在計(jì)算能力的總和,一個人產(chǎn)生的數(shù)據(jù)量超過現(xiàn)在全球數(shù)據(jù)量的總和,甚至你的寵物小狗產(chǎn)生的信息量都超過現(xiàn)在全球數(shù)據(jù)量的總和,世界會發(fā)生什么呢?那就取決于你的想象力了。
對于未來,你想象到什么了呢?
相關(guān)閱讀