>
1、spark dataframe是一種以 RDD 爲基礎的分佈式數據集,是一種特殊的RDD,是一個分佈式的表,類似於傳統數據庫中的二維表格。
2、spark dataframe與RDD的主要區別在於,前者帶有schema元資訊,即spark dataframe所表示的二維表數據集的每一列都帶有名稱和類型。
圖文推薦