Dataset Card for Steam Games Dataset (Modified)

Dataset ini digunakan untuk proyek klasifikasi popularitas game berdasarkan data dari platform Steam, dengan tujuan utama partisipasi dalam lomba Datathon 2025.

πŸ† Konteks Penggunaan

Dataset ini dimodifikasi dan digunakan dalam rangka kompetisi Datathon 2025, yang berfokus pada pengembangan model machine learning untuk analisis data real-world.
Model yang dikembangkan bertujuan untuk memprediksi seberapa populer suatu game berdasarkan fitur-fitur seperti genre, developer, playtime, dan lainnya.

Dataset Details

Dataset Description

Dataset ini merupakan hasil modifikasi dari FronkonGames/steam-games-dataset yang tersedia di Hugging Face.
Beberapa kolom dihapus untuk mengurangi ukuran dan meningkatkan relevansi terhadap task prediksi popularitas.

  • Dikembangkan oleh: Fahri Desrian
  • Sumber asli: FronkonGames via Hugging Face
  • Lisensi: MIT
  • Bahasa: Bahasa Inggris
  • Tipe data: CSV tabular structured
  • Ukuran data: Β±100.000 baris game

Kolom yang Dihapus dari Dataset Asli

  • Header image
  • Website
  • Support url
  • Support email
  • Metacritic url
  • Score rank
  • Achievements
  • Recommendations
  • Notes
  • Average playtime two weeks
  • Median playtime two weeks
  • Screenshots
  • Movies

Kolom Utama yang Tersisa

  • Name
  • Release date
  • Price
  • Peak CCU
  • Required age
  • Positive, Negative reviews
  • Average playtime forever, Median playtime forever
  • Developers, Publishers
  • Genres, Tags, Categories
  • Estimated owners (digunakan sebagai label)

Intended Uses

Direct Use

Dataset ini ditujukan untuk:

  • Pelatihan model klasifikasi popularitas game.
  • Eksperimen dan benchmarking machine learning dalam bidang digital product analytics.
  • Proyek riset dan edukasi di bidang analisis industri game.

Data Processing

  • Kolom multi-label seperti Genres, Tags, dan Categories diubah menjadi fitur biner.
  • Fitur Estimated owners dibagi menjadi 3 kelas popularitas berdasarkan bins (kurang, cukup, sangat populer).
  • Nilai kosong ditangani dengan median imputation (untuk numerik) dan β€œunknown” (untuk teks).

Bias, Risks, and Limitations

  • Dataset berasal dari data publik, namun representasi game indie vs AAA tidak seimbang.
  • Perilaku pengguna Steam bisa berbeda dari platform lain.
  • Tidak ada informasi usia atau demografi pengguna.

Citation

BibTeX:

@dataset{fahriakmalsarah2025steamgames,
  author       = {Fahri Desrian, Sarah Zhafirah Adzra, Muhammad Akmal Fasya},
  title        = {Steam Games Dataset (Modified)},
  year         = 2025,
  url          = {https://huggingface.co/datasets/Yuuuuurei/steam-games-dataset-modified},
  note         = {Modified from FronkonGames/steam-games-dataset. Used in Datathon 2025.}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support