Interaksi protein-protein (PPI) merupakan komponen mendasar dari berbagai proses biologis yang terjadi di dalam sel, seperti regulasi metabolisme, sinyal transduksi, dan replikasi DNA. Studi mendalam mengenai antarmuka PPI dapat memberikan wawasan mengenai kinetika, termodinamika, dan fungsi molekuler kompleks protein, serta mengungkapkan peran mereka dalam berbagai penyakit. Pengetahuan ini membuka peluang untuk mengembangkan target terapeutik baru. Namun, kendala besar dalam memahami PPI adalah lambatnya pengumpulan data struktur tiga dimensi (3D) kompleks protein melalui eksperimen, seperti kristalografi sinar-X atau spektroskopi NMR. Hal ini mendorong pengembangan metode komputasi, seperti molecular docking, untuk memprediksi struktur dan antarmuka PPI.
Pendekatan molecular docking telah berkembang dengan pesat, tetapi keberhasilannya dalam mengidentifikasi antarmuka kompleks yang menyerupai struktur native masih terbatas. Masalah utama terletak pada evaluasi objektif hasil docking untuk membedakan kompleks native dari non-native. Dalam konteks ini, pengenalan sifat-sifat spesifik antarmuka PPI menjadi penting untuk meningkatkan akurasi prediksi. Studi ini memanfaatkan algoritma pembelajaran mesin, khususnya Support Vector Machine (SVM), untuk mengklasifikasikan dan memprediksi antarmuka PPI berdasarkan sifat-sifat struktural dan kimia yang relevan. Dengan memanfaatkan data antarmuka native dan non-native yang dihasilkan dari molecular docking, model SVM dilatih untuk mengenali pola yang membedakan kedua jenis antarmuka tersebut.
Penelitian ini dimulai dengan mengumpulkan dataset non-redundan yang terdiri dari 989 struktur kompleks protein-protein yang tersedia dalam Protein Data Bank (PDB). Dataset ini dikategorikan menjadi dimer homo dan hetero, dengan langkah-langkah filter yang ketat untuk menghindari redundansi lebih dari 40% identitas sekuens antar kompleks. Antarmuka native dan non-native ditentukan menggunakan dua metrik utama: Fraction of Native Contacts (FNAT) dan Interface Root Mean Square Deviation (iRMSD). FNAT mengukur fraksi kontak residu native dalam kompleks hasil docking dibandingkan dengan struktur asli, sedangkan iRMSD mengevaluasi deviasi spasial residu-residu antarmuka antara kompleks hasil docking dan struktur asli.
Setelah kategori native dan non-native ditetapkan, sifat-sifat antarmuka seperti luas permukaan yang dapat diakses (ASA), energi pengikatan, dan keberadaan ikatan hidrogen dianalisis. Beberapa sifat ini menunjukkan perbedaan signifikan secara statistik (p ≤ 0,01) antara antarmuka native dan non-native, baik untuk dimer homo maupun hetero. Misalnya, residu seperti fenilalanin (PHE), tirosin (TYR), dan isoleusin (ILE) menunjukkan luas permukaan yang terkubur lebih tinggi pada antarmuka native, sementara lisin (LYS) memiliki luas permukaan yang terkubur lebih rendah.
Dengan menggunakan data ini, model SVM dilatih menggunakan pendekatan validasi silang 100 kali lipat. Model ini mampu membedakan antarmuka native dan non-native dengan akurasi tinggi, bahkan pada dataset validasi yang terdiri dari struktur monomer yang didocking ulang. Performansi model diukur menggunakan metrik seperti sensitivitas, spesifisitas, dan nilai F1, dengan hasil yang konsisten menunjukkan efisiensi pendekatan ini. Selain itu, penelitian ini mengembangkan server web bernama Protein Complex Prediction by Interface Properties (PCPIP) untuk mempermudah pengguna dalam memprediksi apakah antarmuka suatu kompleks menyerupai antarmuka native berdasarkan FNAT dan iRMSD.
Hasil penelitian ini memberikan langkah maju dalam analisis PPI, dengan mengintegrasikan sifat-sifat antarmuka protein ke dalam model pembelajaran mesin untuk meningkatkan akurasi prediksi. Pendekatan ini tidak hanya memfasilitasi studi lebih lanjut tentang interaksi protein tetapi juga berpotensi mempercepat penemuan target terapeutik baru.
Sumber
Leave a Reply