Tambourine作業メモ

主にスキル習得のためにやった作業のメモ。他人には基本的に無用のものです。

Spark

Apache Spark で遊びたい(3)

DatasetのAPIドキュメントは、> https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Datasetにあると書いている。次に進む前にちょっと眺めてみる。説明書きに書いてあることをまとめておく。 Dataset とは別にDataFrameとい…

Apache Spark で遊びたい(2)

本家のQuick Start(https://spark.apache.org/docs/latest/quick-start.html)をやってみる。最近ちょっと勉強しかけているScalaの方をやってみる。 > spark-shell 2018-05-03 16:40:22 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for…

Apache Spark で遊びたい(1)

なんだかインストールばっかりしている気がするが、まあ、そんなものである。社内の勉強会で、ちょっくらApache Sparkを触ってみることになった。まずは、環境の確認 > python --version Python 3.6.0 :: Anaconda 4.3.0 (x86_64) > java -version java vers…

Apache Spark で遊びたい(4)

Quick Startの続き。"More on Dataset Operations"に沿って遊んでみる。データは、大昔のとあるサーバのjavaheapのデータを使うことにする。こんなデータ。 > head -n5 javaheap.app01 09:00:11 550792720 1543502336 09:01:10 321361976 1543502336 09:02:1…