Cara Membaca data di R

2019/03/23

Data yang telah tersedia di R

Saat R terinstal, paket datasets yang terdiri atas banyak data set juga terinstal. Untuk mengakses data set tersebut perlu tahu nama dari file dari data yang diinginkan. Perintah:

data()

akan memunculkan daftar data set yang tersedia. Setelah tahu nama data set yang ingin digunakan, diantara tanda kurung dapat dituliskan nama data set. Misalnya, data yang cukup terkenal yaitu data iris yang terdiri atas 150 obyek. Spesies iris: setosa, versicolor, dan virginica masing-masing 50 obyek dengan mengukur 4 variabel dari setiap spesies iris tersebut.

data(iris)
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

Perintah head digunakan untuk melihat 6 baris pertama dari data, sedangkan tail untuk 6 baris terakhir.

tail(iris)
##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
## 145          6.7         3.3          5.7         2.5 virginica
## 146          6.7         3.0          5.2         2.3 virginica
## 147          6.3         2.5          5.0         1.9 virginica
## 148          6.5         3.0          5.2         2.0 virginica
## 149          6.2         3.4          5.4         2.3 virginica
## 150          5.9         3.0          5.1         1.8 virginica

Ringkasan statistik dari data juga dapat dijalankan.

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Data pada paket tertentu juga dapat digunakan, jika paket tersebut telah terinstal. Misalnya data clust4 dari paket kmed.

install.packages("kmed")
data(clust4, package = "kmed")
head(clust4)
##          x1        x2 class
## 1 11.202146  9.180266     4
## 2  2.054706 -8.023205     3
## 3  3.413081  0.575873     2
## 4 -7.251199 -5.628959     1
## 5  3.917112 -7.111772     3
## 6 -1.318943 -3.475943     3

Data dengan ekstensi .txt

Unduh data berekstensi .txt pada tautan berikut, kemudian letakkan file kuisioner.txt pada folder c. Cara membaca file berekstensi .txt pada R adalah menggunakan perintah read.table, kemudian diikuti alamat folder (path). Pemisahan setiap folder bukan menggunakan tanda \ seperti di windows explorer tetapi menggunakan tanda /. Jika pada file .txt ada column header, maka perlu ditambah header = TRUE.

kuisioner <- read.table("C:/kuisioner.txt", header = TRUE)
nrow(kuisioner)
## [1] 33
ncol(kuisioner)
## [1] 28
kuisioner[c(1:5),c(1,5,8:10)]
##   Nama JK Usia Pendidikan PengeluaranUT
## 1  xx1  1   50          1       4000000
## 2  xx2  1   38          1      12000000
## 3  xx3  1   42          1        500000
## 4  xx4  1   31          1       4000000
## 5  xx5  1   42          1      40000000

Data kuisioner terdiri atas 33 baris dan 28 kolom. Misalnya, baris 1 sampai dengan 5 ditampilkan pada variabel yang ke 1, 5, 8, 9, dan 10.

Data dengan ekstensi .csv

Unduh data berekstensi .csv pada tautan berikut, kemudian letakkan file komoditas.csv pada folder c. Cara membaca file berekstensi .csv pada R adalah menggunakan perintah read.csv, kemudian diikuti alamat folder (path). Tambahan row.names = 1 digunakan untuk memberikan nama pada baris berdasarkan kolom 1.

komoditas <- read.csv("C:/komoditas.csv", header = TRUE, row.names = 1)
nrow(komoditas)
## [1] 6
ncol(komoditas)
## [1] 14
komoditas[,c(7,9:10)]
##           Egg_plant Cucumber Large_chilli_pepper
## Curug            28       46                  13
## Walantaka       166      432                 145
## Cipocok        4000     3450                  60
## Serang          400      296                   0
## Taktakan          0     1555                  75
## Kasemen           0        0                   0

Data komoditas terdiri atas 6 baris dan 14 kolom. Misalnya, hanya variabel 7, 9, dan 10 ditampilkan.

Data dengan ekstensi .xls

Meskipun MS Exel sering digunakan untuk menyimpan data, penggunaan save as .xls tidak disarankan jika data ingin dianalisis dengan R. Cara yang paling aman adalah menyimpannya adalah dengan menggunakan format .txt atau .csv. Standar instalasi R tidak menyediakan fungsi untuk membaca file .xls, sehingga pengguna membutuhkan bantuan paket misalnya paket readxl.

Unduh data berekstensi .xls pada tautan berikut, kemudian letakkan file nilai.xls pada folder c. Cara membaca file berekstensi .xls pada R adalah menggunakan perintah read_xls dari paket readxl, kemudian diikuti alamat folder (path).

install.packages("readxl")
nilai <- readxl::read_xls("C:/nilai.xls")
nilai
## # A tibble: 10 x 3
##      Mhs Matematika English
##    <dbl>      <dbl>   <dbl>
##  1  1.00       79.0    91.0
##  2  2.00       69.0    67.0
##  3  3.00       97.0    68.0
##  4  4.00       86.0    97.0
##  5  5.00       96.0    86.0
##  6  6.00       99.0    80.0
##  7  7.00       66.0    90.0
##  8  8.00       61.0    66.0
##  9  9.00       83.0    84.0
## 10 10.0        60.0    79.0