Skip to content

rifaldomalau/Life-Expectancy-WHO

Repository files navigation

🧬 Life Expectancy Prediction using Regression and Feature Selection

Proyek ini bertujuan untuk memprediksi Life Expectancy (Harapan Hidup) suatu negara berdasarkan berbagai faktor sosial, ekonomi, dan kesehatan masyarakat menggunakan pendekatan Regresi Linear dan Seleksi Fitur (Forward Selection).

Notebook ini berisi analisis lengkap dari data eksplorasi hingga evaluasi model untuk menentukan faktor paling berpengaruh terhadap harapan hidup.


📊 Dataset Information

Sumber: World Health Organization (WHO) – Life Expectancy (Data Dunia 2000–2015)

Jumlah Data: 2,938 baris
Jumlah Fitur: 22 kolom
Target: Life expectancy (dalam tahun)

Beberapa fitur penting:

  • Adult Mortality – jumlah kematian per 1.000 populasi dewasa
  • infant deaths – jumlah kematian bayi per 1.000 kelahiran
  • Alcohol – konsumsi alkohol per kapita
  • BMI – Body Mass Index rata-rata
  • GDP – Produk Domestik Bruto per kapita
  • Schooling – rata-rata lama pendidikan
  • HIV/AIDS – prevalensi penyakit per 1.000 penduduk

Dataset ini cukup kompleks karena melibatkan faktor kesehatan, sosial, dan ekonomi, sehingga cocok untuk analisis multivariat dengan regresi linear.


⚙️ Data Preprocessing

Langkah-langkah pra-pemrosesan meliputi:

  1. Menghapus missing values (NaN) dengan metode imputasi rata-rata atau median.
  2. Normalisasi data untuk menyetarakan skala antar fitur.
  3. Encoding fitur kategorikal seperti Status (Developed/Developing) menggunakan one-hot encoding.
  4. Membagi dataset menjadi training dan testing (80% : 20%).

🧩 Feature Selection (Forward, Backward, Stepwise)

Proyek ini menggunakan tiga metode seleksi fitur untuk menentukan variabel terbaik:

  • 🔹 Forward Selection: menambah fitur satu per satu berdasarkan peningkatan nilai Adjusted R².
  • 🔹 Backward Elimination: menghapus fitur satu per satu berdasarkan signifikansi (p-value).
  • 🔹 Stepwise Selection: kombinasi antara forward dan backward.

📈 Hasil Perbandingan Metode

Dataset Adjusted R² RMSE MAE AIC BIC Method
Test 0.960 0.940 1.864 1.189 NaN NaN Forward
Test 0.839 0.829 3.735 2.707 NaN NaN Backward
Test 0.892 0.882 3.054 2.303 NaN NaN Stepwise

Model terbaik berdasarkan R² Test:Forward Selection


🧮 Model Evaluation

Evaluasi model menggunakan beberapa metrik regresi:

  • R² (Coefficient of Determination) → mengukur seberapa baik model menjelaskan variasi data
  • Adjusted R² → R² yang disesuaikan dengan jumlah fitur
  • RMSE (Root Mean Squared Error) → kesalahan rata-rata kuadrat
  • MAE (Mean Absolute Error) → kesalahan absolut rata-rata

📊 Hasil Model Terbaik (Forward Selection)

Metric Value
0.960
Adjusted R² 0.940
RMSE 1.864
MAE 1.189

Model ini mampu menjelaskan 96% variasi data life expectancy dengan kesalahan prediksi rata-rata sekitar ±1.8 tahun — hasil yang sangat baik.


🖼️ Visualisasi Hasil

Notebook juga menyertakan berbagai grafik seperti:

  • Correlation Heatmap antar variabel
  • Residual Plot untuk memeriksa kesalahan model
  • Feature Importance Plot hasil seleksi fitur

Contoh visualisasi: plt.figure(figsize=(8,6)) sns.heatmap(df.corr(), cmap='coolwarm', annot=False) plt.title("Correlation Heatmap - Life Expectancy Dataset") plt.show()


🏁 Kesimpulan

  • Model terbaik diperoleh dari Forward Selection dengan R² = 0.96.
  • Fitur paling berpengaruh terhadap harapan hidup meliputi:
    • Schooling
    • GDP
    • Adult Mortality
    • BMI
    • HIV/AIDS
  • Faktor sosial dan ekonomi seperti pendidikan dan ekonomi negara berkontribusi signifikan terhadap peningkatan harapan hidup.

🚀 Cara Menjalankan Proyek

1. Clone repository ini:

git clone https://github.com/rifaldomalau/Life-Expectancy-WHO.git
cd Life-Expectancy-WHO

2. Install dependencies

pip install -r requirements.txt

3. Jalankan Notebook

jupyter notebook Life-Expectancy-Notebook.ipynb

About

Artificial Intelligence -> Machine Learning (ML) -> Supervised Learning -> Regression -> Forward Selection, Backward Elimination, Stepwise Regression

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors