我們身處一個(gè)“技術(shù)爆炸”和“共享、開源”的時(shí)代,先進(jìn)技術(shù)的更新迭代速率超過了歷史上任何一個(gè)時(shí)期,而且這些技術(shù)也不再閉塞,人人都可以接觸并學(xué)習(xí)。
終身學(xué)習(xí)已經(jīng)是我們每個(gè)人不得不面對的問題,這一點(diǎn)在大數(shù)據(jù)/人工智能領(lǐng)域體現(xiàn)的尤為明顯:層出不窮的新技術(shù),一方面為我們帶來了便利,但同時(shí)也使我們面臨難以高效學(xué)習(xí)和選擇的窘境。因此,在這樣的時(shí)代背景下學(xué)習(xí)大數(shù)據(jù)知識,需要有相適應(yīng)的邏輯和方法。
本文試圖幫助各位讀者用好各類“共享、開源”的學(xué)習(xí)工具以及學(xué)習(xí)渠道,躲過各類新手容易誤入的“深坑”,以最小時(shí)間成本和經(jīng)濟(jì)成本,優(yōu)質(zhì)地完成目標(biāo)技術(shù)的學(xué)習(xí)和掌握。
本文首先分析了時(shí)代背景,繼而對目前大數(shù)據(jù)領(lǐng)域的人才梯隊(duì)進(jìn)行了劃分,最后給出了大數(shù)據(jù)/人工智能人才從菜鳥到高手的進(jìn)階指南。
一、背景鋪墊
“技術(shù)爆炸”以及“共享開源”是這個(gè)時(shí)代最有特色的標(biāo)簽,筆者認(rèn)為二者是互為因果且緊密聯(lián)系的,首先在“技術(shù)爆炸”的時(shí)代,對于走在技術(shù)發(fā)展最前沿的研究團(tuán)隊(duì)來說,“技術(shù)變現(xiàn)”的最好手段就是“共享開源”。反觀互聯(lián)網(wǎng)、移動(dòng)互聯(lián)發(fā)展成熟之前,信息是十分閉塞的,某項(xiàng)技術(shù)創(chuàng)新一旦出現(xiàn)就需要第一時(shí)間注冊專利,技術(shù)需要靠政府來保護(hù),而技術(shù)變現(xiàn)的唯一途徑就是出賣專利或者組織生產(chǎn)形成產(chǎn)品。
現(xiàn)如今互聯(lián)網(wǎng)及移動(dòng)互聯(lián)已經(jīng)發(fā)展的十分成熟,新的信息會(huì)以極低的成本在極短的時(shí)間內(nèi)傳遍世界的每個(gè)角落,所以處在技術(shù)前沿的研究團(tuán)隊(duì)僅需要在第一時(shí)間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網(wǎng)站,便會(huì)立即得到全球輿論的共同保護(hù),這樣的力度要遠(yuǎn)遠(yuǎn)強(qiáng)于某個(gè)國家的專利保護(hù)。
隨后,只要新技術(shù)確有應(yīng)用價(jià)值或者學(xué)術(shù)價(jià)值,那么各類資本巨頭、科技大鱷以及相關(guān)的各類組織便會(huì)排著隊(duì)上門送出豐厚的offer,對于前沿團(tuán)隊(duì)來說,技術(shù)變現(xiàn)的時(shí)間點(diǎn)要遠(yuǎn)遠(yuǎn)早于技術(shù)產(chǎn)品化的時(shí)間點(diǎn)。
其次,因?yàn)?ldquo;技術(shù)爆炸”總有新的技術(shù)等待著前沿團(tuán)隊(duì)去研究發(fā)現(xiàn),所以前沿團(tuán)隊(duì)保持領(lǐng)先的最好方法不是捂著現(xiàn)有成果不放,而是盡快“共享開源”實(shí)現(xiàn)變現(xiàn),然后投入到新的研究工作中。
最后,“共享開源”也在很大程度上促進(jìn)了“技術(shù)爆炸”,無論任何技術(shù)、科技的長足發(fā)展都需要一個(gè)龐大人才體系來支撐,反觀歷史上的各個(gè)時(shí)期,分享知識、培養(yǎng)人才的渠道主要是“學(xué)校”,這一渠道不但形式單一而且往往具備相當(dāng)?shù)拈T檻,會(huì)將相當(dāng)一部分“有志青年”擋在門外。
而在如今這個(gè)時(shí)代,知識傳播最快速的渠道是互聯(lián)網(wǎng),由于“共享開源”,世界上最優(yōu)質(zhì)的教育資源以及最先進(jìn)的學(xué)術(shù)、技術(shù)理念忽然間沒有了任何門檻,面向全部個(gè)體無差別開放,結(jié)果就是只要某一技術(shù)、科技領(lǐng)域有了很大的突破并具備廣闊的應(yīng)用前景(如大數(shù)據(jù)、人工智能),那么相應(yīng)的人才梯隊(duì)會(huì)在短時(shí)間內(nèi)自動(dòng)補(bǔ)齊跟上。
站在大數(shù)據(jù)學(xué)術(shù)前沿的研究團(tuán)隊(duì)只需要一往無前地開拓疆域,其后的人才梯隊(duì)隨即會(huì)自動(dòng)開展“新技術(shù)論證”及“技術(shù)產(chǎn)品化”等“保障”工作,保障這一技術(shù)領(lǐng)域及相關(guān)行業(yè)的健康發(fā)展,來進(jìn)一步促進(jìn)資源向金字塔尖的前沿團(tuán)隊(duì)匯聚,支撐其開拓工作。
我們將上文提到的人才梯隊(duì)劃分為:菜鳥筑基、初入江湖、登堂入室以及華山論劍四個(gè)等級:
菜鳥筑基:本階段的人才以大數(shù)據(jù)基礎(chǔ)理論的學(xué)習(xí)為主,尚不能勝任真實(shí)的項(xiàng)目或者工作;
初入江湖:本階段的人才已經(jīng)具備了初步的大數(shù)據(jù)實(shí)踐的能力,建議通過實(shí)踐(做項(xiàng)目、打比賽等)來更好地帶動(dòng)學(xué)習(xí);
登堂入室:本階段的人才需具備大數(shù)據(jù)科研論文的調(diào)研、閱讀和理解能力,能夠成功地將論文中的算法進(jìn)行復(fù)現(xiàn);
華山論劍:本階段的人才能夠獨(dú)立地開展大數(shù)據(jù)新技術(shù)的研究工作,具有發(fā)表原創(chuàng)性論文的能力。
下文將針對處于不同階段的大數(shù)據(jù)人才,給出不同的修煉、升級建議。
二、菜鳥筑基
1. 最好的資源往往是公開的
讀過背景鋪墊后相信已經(jīng)不需筆者再解釋為什么最好的資源往往是公開的,在此直接給出一些獲取高質(zhì)量資源的渠道。首先推薦國外的三個(gè)網(wǎng)站,分別是“Coursera”、“Arxiv”以及“Github”。
Coursera是全球頂尖的在線學(xué)習(xí)網(wǎng)站,由業(yè)內(nèi)極具學(xué)術(shù)造詣及分享精神的大咖創(chuàng)辦。Coursera上的課程相對比較基礎(chǔ),應(yīng)該是“小白”起飛最好的平臺,在這里推薦吳恩達(dá)(Andrew Ng)開設(shè)的“機(jī)器學(xué)習(xí)”以及“深度學(xué)習(xí)”。對于國內(nèi)學(xué)生來說最大的問題可能就是英語了,在這里需要明確一點(diǎn),如果各位想要成為真正的高手,那么英語是永遠(yuǎn)繞不過去的坎,業(yè)內(nèi)最新、最好的資料無一例外都是英文,即便是來自國內(nèi)的頂尖高手在發(fā)論文時(shí)都不會(huì)選擇用中文。
其實(shí)對于絕大多數(shù)人,英語并不應(yīng)該被當(dāng)作一門“學(xué)科”來學(xué)習(xí),而應(yīng)該被當(dāng)作“工具”來用。具體的做法也沒有捷徑,就是看到不懂的單詞立即查,單詞不用刻意去記憶,下次遇到不會(huì)就再查一次,一切以快速弄懂句子含義為目標(biāo)。
Arxiv以及Github是各位讀者未來會(huì)特別常用的兩個(gè)網(wǎng)站/工具,Arxiv上有最新最全的共享論文,論文中會(huì)對各類算法進(jìn)行詳盡的闡釋,Github上有最新最好的開源代碼,這些代碼往往是對某種算法的實(shí)現(xiàn),具體的使用方法網(wǎng)上有許多教程,在此不做展開。
讀者可以簡單的理解為Arxiv是修煉內(nèi)功的地方,而Github是修煉外功的地方。只練內(nèi)功不練外功是無法解決實(shí)際問題的,但只練外功不練內(nèi)功又往往毫無威力,一定要內(nèi)外兼修。最后再向大家介紹一個(gè)神奇的網(wǎng)站名叫“gitxiv”,會(huì)幫助各位找到論文與代碼的對應(yīng)關(guān)系。
2. 不要看書、不要看書、不要看書
一門學(xué)科怎么入門呢?菜鳥在面對這個(gè)問題時(shí),最容易踩入的“深坑”就是找一本權(quán)威的書來從頭學(xué)起,一旦踏入此坑,輕則荒廢自己數(shù)周時(shí)間,重則對某一門學(xué)科徹底失望終生。首先好書本來就不多,往往可遇不可求。其次即便遇到好書,為了保證學(xué)術(shù)性,書中用語往往“嚴(yán)謹(jǐn)”但難懂,且會(huì)從學(xué)科的早期歷史為讀者打下“堅(jiān)實(shí)基礎(chǔ)”,講到最近的技術(shù)手段時(shí)又戛然而止。最后,就算讀者傾盡數(shù)月之功力,堅(jiān)持讀完了,筆者可以用血淋林的親身實(shí)踐告訴你,書中前半部分的內(nèi)容一般人肯定會(huì)忘的。
當(dāng)然也有特殊情況,如果各位已經(jīng)確定了自己的研究方向,并且有高人/導(dǎo)師指點(diǎn),給出了相應(yīng)領(lǐng)域內(nèi)必讀好書的名錄,這一類書還是值得一看的。不過在看的時(shí)候也要注意,不要糾結(jié)于某些細(xì)節(jié)問題,看不懂的地方可以先記下來,這類細(xì)節(jié)往往會(huì)在各位后面實(shí)踐過程中的具體場景下恍然大悟。
正確的做法一句話就可以概括,好書是用來查的而不是用來啃的,什么時(shí)候來查呢?下文會(huì)逐步解答。
3. 找對好基友,連滾帶爬往前走
現(xiàn)在已經(jīng)不是一個(gè)單打獨(dú)斗,憑著跌落斷崖后找到一本秘籍閉關(guān)幾年就能橫掃天下的時(shí)代了,無論是像Hinton(推翻了BP算法的BP算法之父)這樣的泰斗,還是像何凱明(發(fā)best paper像一般人發(fā)paper一樣容易的神奇學(xué)霸)這樣的新秀,都處在各自非??孔V的團(tuán)隊(duì)中與小伙伴們共同探索。好基友不需要多,有一兩個(gè)真正靠譜的就已經(jīng)足夠,至于隊(duì)友的重要性后文會(huì)慢慢闡釋。
菜鳥筑基這部分最后要給出的建議就是,千萬不要在這個(gè)階段停留太久,不要等“準(zhǔn)備好了”再去著手實(shí)踐,因?yàn)檫@里的“準(zhǔn)備好了”往往包含菜鳥的不自信,不去進(jìn)一步提升自己是永遠(yuǎn)準(zhǔn)備不“好”的。一般情況下,想做“計(jì)算機(jī)視覺”或者“自然語言處理”等偏AI方向的同學(xué)在完成吳恩達(dá)的《深度學(xué)習(xí)》課程后,想做“數(shù)據(jù)挖掘”的同學(xué)在完成吳恩達(dá)的《機(jī)器學(xué)習(xí)》課程后,就可以選擇相應(yīng)的實(shí)踐項(xiàng)目準(zhǔn)備進(jìn)入下一階段了。
那么我們該選擇什么實(shí)踐手段呢?最佳的情況是有大神帶隊(duì)做真實(shí)項(xiàng)目,但是這樣的機(jī)會(huì)往往可遇而不可求,在此不展開討論。普羅大眾型的辦法是參加一個(gè)大數(shù)據(jù)比賽項(xiàng)目,現(xiàn)在國內(nèi)的“阿里天池”以及國外的“Kaggle”都是開放式的大數(shù)據(jù)比賽平臺,平臺上會(huì)有各種組織發(fā)布的各類真實(shí)項(xiàng)目供大家實(shí)踐、比賽。讀到這里各位心里可能還存有很大的疑問:“就算學(xué)會(huì)了基本課程,在沒有人帶的情況下能上手實(shí)踐嗎?”,下文將陸續(xù)回答如何“連滾帶爬”的進(jìn)行實(shí)踐。
三、初入江湖
1. 找到一個(gè)最高的baseline
這里的“baseline”可以理解為前人已經(jīng)做出成果,當(dāng)自己恰好需要去做相同工作時(shí)的參照。對于上文提到的情況,如果有大神帶隊(duì)進(jìn)行實(shí)踐的話,那么帶隊(duì)大神此前的實(shí)踐經(jīng)驗(yàn)就成為了全體小隊(duì)成員的“baseline”。那對于沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對于一類問題無從下手,例如剛剛學(xué)完“深度學(xué)習(xí)”的課程,但是不知道如何去做“自然語言處理”類的項(xiàng)目,最好的辦法是利用好國內(nèi)的“萬方”以及“知網(wǎng)”這樣的論文查詢平臺,去查詢相關(guān)領(lǐng)域國內(nèi)普通高校的學(xué)位論文,這樣的論文絕大部分都是中文并且會(huì)在論文中介紹大量的基礎(chǔ)背景知識,正好滿足了我們的需求。
如果是對某一技術(shù)方的特定知識點(diǎn)不明所以,例如在做“自然語言處理”方向的項(xiàng)目,但卻不太了解“LSTM”,則可以利用好國內(nèi)的諸如“知乎”、“簡書”以及“CSDN”這類的知識分享網(wǎng)站,只要不是太新的理論,都可以找到相應(yīng)的博文或者解答。使用上述兩類渠道的共同技巧是,多搜幾篇文章對比著看。同一個(gè)概念或者技術(shù),一篇文章很難全面描述清楚,并且由于文章作者不同,解釋問題的出發(fā)點(diǎn)也不盡相同,所以如果各位遇到看不懂某篇文章的情況時(shí),不用急躁,接著看下一篇文章就好。另外,前文提到的“好書”在這里就可以用來查了,讀者會(huì)發(fā)現(xiàn)原來想記都記不住的知識點(diǎn),只要“查”完并且“用”過,那么一般想忘都忘不掉。
這里對baseline所謂“高”的定義是,越接近學(xué)術(shù)前沿,實(shí)踐效果越好,就認(rèn)為越“高”。一般情況下,可參照的成果越“高”,中文文獻(xiàn)就越少。
文章寫到這里不知是否回答了上一章節(jié)提出的疑問,上一章節(jié)提到的“連滾帶爬”指的就是我們在選定某一實(shí)踐方向后,根據(jù)實(shí)踐的最終成果再回過頭來對我們的相關(guān)知識進(jìn)行“查漏補(bǔ)缺”的過程。這樣的學(xué)習(xí)過程,目標(biāo)性更強(qiáng),參與者完全有針對性的去學(xué)習(xí),學(xué)到的東西可以立即實(shí)踐,從而避免“學(xué)過就忘”的尷尬。
2. 合理追求quick win
筆者曾經(jīng)仔細(xì)地研究過為什么女生逛街會(huì)“不知疲倦”,得到的答案是,女生每逛一家店鋪,看看店鋪中的鞋子/衣服/包包就能得到一定的興奮點(diǎn),在得到一個(gè)興奮點(diǎn)后就想著直奔下一個(gè)興奮點(diǎn)。類比到我們做項(xiàng)目/打比賽的過程中,我們需要為自己的團(tuán)隊(duì)設(shè)置這樣的“興奮點(diǎn)”,讓團(tuán)隊(duì)成員都能夠享受到“quick win”的快感,來支持大家繼續(xù)推進(jìn)。
而取得“quick win”的關(guān)鍵是要將手中的工作/任務(wù)合理劃分成若干“稍微努力一下就能達(dá)到”的子任務(wù),這中間的細(xì)節(jié)過于復(fù)雜,在此就不展開討論。一個(gè)teamleader需要做的最重要的事,就是幫助團(tuán)隊(duì)合理劃分任務(wù)而不斷取得“quick win”,一個(gè)人只要具備這樣的能力,無論技術(shù)高低都能夠團(tuán)結(jié)一批志同道合的小伙伴。
3. 你最大的動(dòng)力往往來自DDL(Deadline)
有那么一句成功學(xué)的佳句是“每天叫醒我的不是鬧鐘而是夢想”,這句話聽起來很勵(lì)志,但對于90%的人來說就是胡扯,我們回首望去發(fā)現(xiàn)每天叫醒我們的往往是“上班遲到后被扣的工資”或者是“晚到實(shí)驗(yàn)室后老板的殺氣”,這就是現(xiàn)實(shí),聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及項(xiàng)目推進(jìn)中,能讓我們不斷向前的最大動(dòng)力往往是“在DDL前無法完成任務(wù)后小伙伴們的鄙視”以及“完成quick win后帶來的成就感”。
做好這一點(diǎn)除了上一小節(jié)提到的要合理劃分任務(wù)之外,最重要的就是有一個(gè)靠譜的teamleader不斷的進(jìn)行推進(jìn)(push),每到既定節(jié)點(diǎn)后雷打不動(dòng)的推進(jìn)。最后要啰嗦一句,根據(jù)馬斯洛需求層次理論,夢想應(yīng)該屬于模型頂層的“自我實(shí)現(xiàn)需求”,如果一個(gè)人可以被“夢想”叫醒,那么這個(gè)人的其他需求應(yīng)該已經(jīng)被很好的滿足了,所以我在這里真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。
四、登堂入室及華山論劍
如果有一天各位發(fā)現(xiàn)自己在工作實(shí)踐中,需要不斷地最前沿的論文,并且需要不斷地嘗試復(fù)現(xiàn)論文中的算法來用于實(shí)踐,那么要恭喜各位已經(jīng)跨入了大數(shù)據(jù)/人工智能領(lǐng)域高手的行列了。登堂入室與華山論劍兩個(gè)階段的區(qū)分不是特別明顯,因?yàn)檎撐淖x得多了,總會(huì)有些自己的新想法,這些想法經(jīng)過實(shí)驗(yàn)驗(yàn)證后就可以去發(fā)論文。反過來,即便你發(fā)表過前沿論文也還是需要繼續(xù)跟進(jìn)其他論文。
1. 朋友圈決定了你人生的高度
在這一小節(jié)的開始,筆者首先要端出一碗毒雞湯,即便是在這個(gè)“開源、共享”的時(shí)代,學(xué)術(shù)/技術(shù)資源的分布還是極度不平均的,并且這樣的不平均會(huì)越來越明顯。究其原因有兩個(gè),第一個(gè)原因可以援引在清華17級研究生開學(xué)典禮上某校領(lǐng)導(dǎo)的一句話來闡釋----“最有效果的研究手段就是與相當(dāng)水平的同行當(dāng)面交流”,翻譯一下就是高手越多的地方就越容易產(chǎn)生高手,這會(huì)導(dǎo)致高端人才分布的越發(fā)不平均。
另外,做學(xué)術(shù)前沿研究的經(jīng)濟(jì)成本是很高的,國內(nèi)某頂尖AI公司全球研發(fā)工作一個(gè)月的電費(fèi)開銷就能達(dá)到千萬級別。即使是普通的AI項(xiàng)目,服務(wù)器、GPU的成本也會(huì)導(dǎo)致普通的研究人員根本無法找到充足的經(jīng)費(fèi)來支持自己的研究。
2. 選擇永遠(yuǎn)比努力更重要
這個(gè)標(biāo)題聽起來又像是一碗“毒雞湯”,但這就是血淋林的生活帶給筆者的經(jīng)驗(yàn)。筆者見過某個(gè)算法團(tuán)隊(duì)自己悶頭搞了幾個(gè)月研究毫無進(jìn)展,經(jīng)過大神點(diǎn)播后一個(gè)月內(nèi)完工的情況。
下面舉一個(gè)更戲劇性的例子,自然語言處理曾經(jīng)在20世紀(jì)70年代左右有過界限分明的兩個(gè)學(xué)派之間的激烈交鋒,一撥是希望通過語法規(guī)則來做語音識別的“規(guī)則派”,另一撥是基于統(tǒng)計(jì)方法的“統(tǒng)計(jì)派”,這兩撥從事相同領(lǐng)域研究的學(xué)者竟然分別召開自己的學(xué)術(shù)會(huì)議,即便出席同一大會(huì)竟然也要分場開小會(huì)。
到了20世紀(jì)90年代“統(tǒng)計(jì)派”的識別率已經(jīng)達(dá)到了90%以上,而“規(guī)則派”僅有不到70%,勝負(fù)已分(吳軍老師的《數(shù)學(xué)之美》一書中對這段歷史進(jìn)行了詳盡有趣的闡述)。但試問如果有一名博士生在20世紀(jì)70年代將自己學(xué)術(shù)方向定為“規(guī)則派”,到了20世紀(jì)90年代的時(shí)候他該做何感想?
到了“登堂入室”這個(gè)階段之后,做好選擇顯得尤為重要,這樣的選擇不僅僅限于學(xué)術(shù)方向,也涵蓋例如“做學(xué)術(shù)”還是“做產(chǎn)業(yè)”等等更廣義的范圍。一個(gè)可以參考的經(jīng)驗(yàn)是,如果人生的重大決策失誤,基本要用五年來挽回,大家要考慮清楚自己有幾個(gè)這樣的五年。
3. 唯一的限制往往是自己的妥協(xié)
看看本小節(jié)的標(biāo)題,讀者可能會(huì)覺得本文這下要以“毒雞湯”收尾了。但其實(shí)在這里“妥協(xié)”并不是一個(gè)貶義詞,筆者認(rèn)為它起碼是個(gè)中性詞。從某種意義上講,每個(gè)人最終都會(huì)達(dá)到某種“妥協(xié)”,而不妥協(xié)就意味著背后存在與現(xiàn)狀不匹配的野心或者欲望,什么時(shí)候野心和欲望跟現(xiàn)實(shí)匹配了,也就一定會(huì)“妥協(xié)”。這就是華山論劍的秘密,每個(gè)能站在頂峰的人都必定抱著某種超乎常人的野心或者欲望,當(dāng)然這里的野心或者欲望是廣義的,也同樣指對于學(xué)術(shù)的追求。
最后,“毒雞湯”不負(fù)眾望的要出現(xiàn)了,根據(jù)筆者的觀察,每個(gè)人的“妥協(xié)點(diǎn)”并不是自己設(shè)定的,一般情況下自己也無法影響,所以每個(gè)人最終要走到的高度往往是確定的。
從個(gè)人的角度看來,并不覺得站在華山之巔就一定是好的,真正的“好”是能夠坦然接受自己的“妥協(xié)點(diǎn)”,并且能夠在自己的“妥協(xié)點(diǎn)”安安心心、高高興興的工作和生活下去,這才是最具智慧的選擇。
在不久的將來,多智時(shí)代一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏多智時(shí)代,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!