Sankara's Big Data Notes: core

Showing posts with label core. Show all posts

Monday, 10 August 2020

Customers and Orders - Table Joining using Spark RDD Example

scala> val custRDD = sc.textFile("hdfs://localhost:8020/user/data/customers/")

custRDD: org.apache.spark.rdd.RDD[String] = hdfs://localhost:8020/user/data/customers/ MapPartitionsRDD[7] at textFile at <console>:27

scala> custRDD.take(5).foreach(println)

1 Richard Hernandez Brownsville

2 Mary Barrett Littleton

3 Ann Smith Caguas

4 Mary Jones San Marcos

5 Robert Hudson Caguas

scala> custRDD.count()

res4: Long = 12435

scala> val ordersRDD = sc.textFile("hdfs://localhost:8020/user/data/orders/")

ordersRDD: org.apache.spark.rdd.RDD[String] = hdfs://localhost:8020/user/data/orders/ MapPartitionsRDD[9] at textFile at <console>:27

scala> ordersRDD.take(5).foreach(println)

1 2013-07-25 00:00:00.0 11599 CLOSED

2 2013-07-25 00:00:00.0 256 PENDING_PAYMENT

3 2013-07-25 00:00:00.0 12111 COMPLETE

4 2013-07-25 00:00:00.0 8827 CLOSED

5 2013-07-25 00:00:00.0 11318 COMPLETE

scala> ordersRDD.count()

res5: Long = 68893

scala> val orderTuple = ordersRDD.map (line => (line.split("\t")(2),1))

orderTuple: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[10] at map at <console>:29

scala> orderTuple.take(5)

res9: Array[(String, Int)] = Array((11599,1), (256,1), (12111,1), (8827,1), (11318,1))

scala> orderTuple.take(5).foreach(println)

(11599,1)

(256,1)

(12111,1)

(8827,1)

(11318,1)

scala> val reducedRDD = orderTuple.reduceByKey(_+_)

reducedRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[11] at reduceByKey at <console>:31

scala> reducedRDD.take(5).foreach(println)

(2828,4)

(2350,5)

(8602,8)

(11415,4)

(5302,10)

val custTuple = custRDD.map { line => \

val w = line.split("\t")

val custid = w(0)

val cfname = w(1)

val clname = w(2)

(custid,cfname + " " + clname)

}

custTuple.take(5).foreach(println)

scala> custTuple.take(5).foreach(println)

(1,Richard Hernandez)

(2,Mary Barrett)

(3,Ann Smith)

(4,Mary Jones)

(5,Robert Hudson)

scala> val joinedRDD = custTuple.join(reducedRDD)

joinedRDD: org.apache.spark.rdd.RDD[(String, (String, Int))] = MapPartitionsRDD[15] at join at <console>:37

scala> joinedRDD.take(5).foreach(println)

(2828,(Mary Smith,4))

(2350,(Brian Perez,5))

(8602,(Timothy Gilbert,8))

(11415,(George Smith,4))

(5302,(Betty Smith,10))

scala> val sortedRDD = joinedRDD.sortBy(_._2._2,false)

sortedRDD: org.apache.spark.rdd.RDD[(String, (String, Int))] = MapPartitionsRDD[20] at sortBy at <console>:39

scala> sortedRDD.take(5).foreach(println)

(569,(Mary Frye,16))

(5897,(Mary Griffin,16))

(12431,(Mary Rios,16))

(6316,(Kyle Smith,16))

(5654,(Jerry Smith,15))

Find the population of each city using Spark RDD

Populattion of each city

customer.txt:

-------------

1,Richard,Hernandez,XXXXXXXXX,XXXXXXXXX,6303 Heather Plaza,Brownsville,TX,78521

2,Mary,Barrett,XXXXXXXXX,XXXXXXXXX,9526 Noble Embers Ridge,Littleton,CO,80126

3,Ann,Smith,XXXXXXXXX,XXXXXXXXX,3422 Blue Pioneer Bend,Caguas,PR,00725

4,Mary,Jones,XXXXXXXXX,XXXXXXXXX,8324 Little Common,San Marcos,CA,92069

5,Robert,Hudson,XXXXXXXXX,XXXXXXXXX,10 Crystal River Mall ,Caguas,PR,00725

6,Mary,Smith,XXXXXXXXX,XXXXXXXXX,3151 Sleepy Quail Promenade,Passaic,NJ,07055

7,Melissa,Wilcox,XXXXXXXXX,XXXXXXXXX,9453 High Concession,Caguas,PR,00725

8,Megan,Smith,XXXXXXXXX,XXXXXXXXX,3047 Foggy Forest Plaza,Lawrence,MA,01841

9,Mary,Perez,XXXXXXXXX,XXXXXXXXX,3616 Quaking Street,Caguas,PR,00725

10,Melissa,Smith,XXXXXXXXX,XXXXXXXXX,8598 Harvest Beacon Plaza,Stafford,VA,22554

val custRDD = sc.textFile("D:\\Ex\\customer.txt")

val cityRDD = custRDD.map ( x => (x.split(",")(6),1))

val cityCountRDD = cityRDD.reduceByKey(_+_)

val sortedRDD = cityCountRDD.sortBy(x => x._2, false)

sortedRDD.take(10).foreach(println)

scala> val custRDD = sc.textFile("D:\\Ex\\customer.txt")

custRDD: org.apache.spark.rdd.RDD[String] = D:\Ex\customer.txt MapPartitionsRDD[26] at textFile at <console>:24

scala> val cityRDD = custRDD.map ( x => (x.split(",")(6),1))

cityRDD: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[27] at map at <console>:25

scala> val cityCountRDD = cityRDD.reduceByKey(_+_)

cityCountRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[28] at reduceByKey at <console>:25

scala> val sortedRDD = cityCountRDD.sortBy(x => x._2, false)

sortedRDD: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[33] at sortBy at <console>:25

scala> sortedRDD.take(10).foreach(println)

(Caguas,1152)

(Chicago,62)

(Los Angeles,59)

(Brooklyn,47)

(Bronx,28)

(Las Vegas,27)

(Houston,26)

(Phoenix,24)

(Philadelphia,24)

(San Diego,23)

Finding Frequency of word in Text File using Spark RDD

Frequency of word in text file