Proyek ini mendemonstrasikan aplikasi Machine Learning (ML) untuk memprediksi harga berlian (price) berdasarkan karakteristik fisiknya. Metodologi utama yang digunakan adalah Regresi Linear dikombinasikan dengan teknik Forward Selection untuk mengidentifikasi dan menggunakan hanya fitur-fitur yang paling berpengaruh.
Tujuan: Mendapatkan model Regresi Linear yang sederhana, cepat, dan sangat akurat (R² tinggi) dengan memilih subset fitur optimal dari dataset.
- Data Preprocessing: Pembersihan data (menghapus duplikat dan anomali dimensi 0), One-Hot Encoding untuk fitur kategorikal (
cut,color,clarity), dan Standard Scaling. - Feature Selection: Menggunakan SequentialFeatureSelector (SFS) dengan
direction='forward'untuk secara bertahap memilih 10 fitur yang memberikan peningkatan R-squared terbesar. - Evaluasi Model: Pelatihan model Regresi Linear pada data yang telah dipilih fiturnya, diikuti dengan pengukuran kinerja menggunakan metrik Regresi standar.
| File | Deskripsi |
|---|---|
Diamond-Predict.ipynb |
Notebook utama berisi seluruh kode, implementasi, dan analisis langkah-demi-langkah dari Alur 1 hingga Alur 4. |
diamonds.csv |
Dataset yang digunakan (wajib ada di direktori yang sama). |
requirements.txt |
Daftar pustaka Python yang diperlukan. |
README.md |
Dokumen penjelasan proyek ini. |
git clone https://github.com/rifaldomalau/Diamond-Predict.git
cd Diamond-Predictpip install -r requirements.txtjupyter notebook Diamond-Predict.ipynb