任何想要調配應用程序的工程師必須知道的基本概念之一是Bash 腳本編程。你必須對linux和bash 腳本編程感到舒適,這是處理大數(shù)據(jù)的基本要求。 核心是,大部分大數(shù)據(jù)技術都是用Java或Scala編寫的。但是別擔心,如果你不想用這些語言編寫代碼,那么你可以選擇Python或者R,因為大部分的大數(shù)據(jù)技術現(xiàn)在都支持Python和R。因此,你可以從上述任何一種語言開始。 我建議選擇Python或Java。 接下來,你需要熟悉云端工作。 這是因為如果你沒有在云端處理大數(shù)據(jù),沒有人會認真對待。 請嘗試在AWS,softlayer或任何其他云端供應商上練習小型數(shù)據(jù)集。 他們大多數(shù)都有一個免費的層次,讓學生練習。如果你想的話,你可以暫時跳過此步驟,但請務必在進行任何面試之前在云端工作。 接下來,你需要了解一個分布式文件系統(tǒng)。比較流行的分布式文件系統(tǒng)就是Hadoop分布式文件系統(tǒng)。在這個階段你還可以學習一些你發(fā)現(xiàn)與你所在領域相關的NoSQL數(shù)據(jù)庫。下圖可以幫助你選擇一個NoSQL數(shù)據(jù)庫,以便根據(jù)你感興趣的領域進行學習。 現(xiàn)在,你決定是否要處理數(shù)據(jù)流或靜止的大量數(shù)據(jù)。 這是用于定義大數(shù)據(jù)(Volume,Velocity,Variety和Veracity)的四個V中的兩個之間的選擇。