Genre Film Favorit di Website IMDb tahun 2015–2020 (Scraping Web dengan RStudio)

WAHYU AJI PRADANA
5 min readNov 18, 2020

Assalamualaikum Warahmatullahi Wabarakatuh

Hallo semuanya, semoga dalam keadaan yang sehat selalu ya …

Nah, Pada kesempatan ini saya akan mencoba melakukan scraping web dengan menggunakan RStudio untuk mengetahui genre film favorit selama tahun 2015–2020. Perhatikan langkah-langkah berikut ini ya..

Langkah pertama yang bisa dilakukan adalah, kita buka web film IMDb atau bisa juga buka link ini https://www.imdb.com/ atau alamat genre film favorit yang mau kita scraping https://www.imdb.com/search/title/?count=100&release_date=2020,2020&title_type=feature

Kalau sudah, kita bisa buka program RStudio dan install package ‘xml2’ dan ‘rvest’. Lalu, panggil dengan syntax library(xml2) dan library (rvest).

Kemudian, jika package yang dibutuhkan sudah ter-install, kita bisa menuliskan syntax sebagai berikut. Nah nanti jangan lupa copy alamat web genre film favorit ya.

Kali ini saya akan mengambil data dari genre film yang ada di website IMDb nih.

Nah, biar bisa mulus proses scraping-nya. Kalian bisa pake aplikasi “SelectorGadget” dengan tujuan mengetahui letak runtime didalam halaman html. Kalian bisa pilih “Add to chrome” terus jadikan extensions di google Chrome kalian.

Kalau sudah dijadikan extensions, nanti aplikasi “SelectorGadget” bisa terlihat berupa ikon kecil di pojok kanan atas Chrome kalian.

Lanjut ya, kita bisa klik ikon aplikasi “SelectorGadget” itu, nanti akan muncul tampilan kaya gambar dibawah berupa kolom. Kita bisa arahkan kursor ke data genre lalu klik sampai genre film di website sampai berwarna hijau atau kining.

Gunakan syntax ini buat scraping data genre ya. Data genre ini dibuat sebagai data pendukung pembuatan syntax ini.

Kita ambil data text dari hasil scraping sebelumnya.

Nah, buat menghilangkan tanda ‘\n’, kita menggunakan syntax ini ya. Kita juga bisa mendeskripsikan genre film berdasarkan genre pertamanya saja, karena pada satu film bisa memuat beberapa genre.

Kemudian, kita konversi data genre yang berupa data text menjadi data factor, menggunakan syntax berikut.

Kita juga bisa melakukan hal yang sama utuk data rating dan gross.

Syntax yang digunakan untuk data rating, sebagai berikut.

Syntax yang digunakan untuk mengambil data gross. Kita bisa juga mengecek apakah ada data gross yang hilang atau kurang dengan menggunakan syntax berikut. karena tidak semua film mencantumkan data gross nya.

Didapatkan data bahwa, ada sekitar 6 film yang hanya mencantumkan data gross nya, sisanya sekitar 94 film tidak ada data gross nya.

Buat memastikan, kita bisa cek and re check lagi di website IMDb. Catat ya nomer berapa yang ngga ada data grossnya (Tapi bisa jadi yang saya coba, beda datanya dengan yang kalian coba, tapi so far caranya sama).

Nah, kalau udah, kita bisa input manual deh nomer berapa aja yang ngga ada data gross nya dengan symbol ‘NA’. Nanti bisa pake syntax berikut.

Jangan lupa data gross nya di konversi ke data numerik ya, sekalian di cari summary-nya. Kita bisa pake syntax berikut.

Kalau untuk visualisasinya, kita bisa pakai syntax dibawah ya.

Nanti akan keluar hasil berikut.

Sraping dan visualisasi ini buat tahun 2019 ya, nanti buat tahun-tahun yang lain bisa di cari sendiri dengan cara yang sama kok, paling tinggal diganti alamat web sama missing value grossnya. Nanti akan didapatkan hasil seperti berikut.

Tahun 2015

Tahun 2016

Tahun 2017

Tahun 2018

Tahun 2019

Tahun 2020

Plot gross yang terbentuk.

Dapat disimpulkan bahwa, pada tahun 2019 merupakan tahun dengan pendapatan film terfavorit terbanyak atau bisa dibilang naik drastis dibanding 4 tahun sebelumnya. Kemudian mengalami penurunan yang cukup tajam juga ditahun 2020, tidak lain juga karena pengaruh pandemic COVID-19.

Plot yang terbentuk tahun 2015–2020

Tahun 2015

Tahun 2016

Tahun 2017

Tahun 2018

Tahun 2019

Tahun 2020

Dalam berjalannya waktu film-film favorit masyarakat silih berganti, dapat dilihat dari plot yang terbentuk dari tahun 2015–2018, masyarakat cenderung menyukai genre film berbau Action. Kemudian untuk tahun 2019, masyarakat cenderung menyukai genre film berbau Drama. Namun trend untuk menonton film sendiri sangat menurun drastis di tahun 2020 ini, dapat dilihat hanya ada empat genre yang menjadi favorit masyarakat yaitu gendre Action, Animation, Comedy, dan Drama, dengan genre Animation yang menjadi favorit masyarakat.

Mungkin sekian yang dapat saya sampaikan, kurang dan salahnya saya mohon maaf yang sebesar-besarnya. Semoga bermanfaat ya ..

Wassalamualaikum Warahmatullahi Wabarakatuh.

Sumber :

Hakim, R. F. (2019, September 25). Web Scraping dengan R. From Medium.com : https://medium.com/@986110101/web-scraping-dengan-r-53d07fb81fc9

--

--