Prediksi Keparahan Genetik dengan Pembelajaran Mesin dari Simulasi Molekuler

Variasi genetik khususnya mutasi missense, atau mutasi yang berdampak pada perubahan susunan asam amino dalam gen, memiliki peran penting dalam memengaruhi sifat yang nampak atau fenotipik dan intensitas suatu penyakit. Mutasi tersebut sering menyebabkan perubahan dalam dinamika konformasi protein serta interaksi molekuler yang mengatur proses biologis kompleks. Sebagai contoh, mutasi pada protein kalmodulin dan amiloid-β dikaitkan dengan berbagai penyakit seperti aritmia jantung dan penyakit neurodegeneratif. Identifikasi mutasi ini menjadi lebih mudah berkat kemajuan teknologi sekuensing genom, namun tantangan besar tetap ada dalam mengklasifikasikan dan memprediksi dampak spesifik mutasi terhadap fenotip penyakit.

Metode prediksi fenotip tradisional seperti Scale-Invariant Feature Transform dan PolyPhen cenderung terbatas pada klasifikasi biner. Namun, pendekatan ini sering gagal memberikan informasi tentang mekanisme penyebab penyakit atau tingkat keparahan dampaknya. Untuk mengatasi keterbatasan tersebut penelitian yang dilakukan oleh McCoy et al., (2021) memperkenalkan metode berbasis machine learning (pembelajaran mesin) yang menggabungkan data dari simulasi dinamika molekuler. Pendekatan tersebut memungkinkan prediksi yang lebih akurat mengenai fenotip dan tingkat keparahan penyakit dengan mengekstraksi fitur struktural dan energetik protein terkait mutasi.

Metode penelitian yang dilakukan oleh McCoy et al., (2021)  mencakup simulasi dinamika molekuler untuk menganalisis struktur protein wild-type terhadap varian yang disimulasikan menggunakan teknik berbasis all-atom, yang melibatkan kalkulasi semua atom dari protein. Data dari simulasi ini diekstraksi untuk mendapatkan fitur struktural seperti jarak ujung ke ujung (end-to-end) dari linker dan sudut dihedral protein rangka. Fitur-fitur tersebut dianalisis menggunakan analisis komponen utama (PCA) untuk mengidentifikasi perubahan struktural dan algoritma pembelajaran mesin seperti k-nearest neighbors (KNN) digunakan untuk klasifikasi varian berdasarkan fenotip spesifik. Hasil prediksi divalidasi dengan data eksperimental, misalnya afinitas pengikatan kalsium pada kalmodulin dan probabilitas terbuka pada saluran protein reseptor rianodin 2 (RYR2) yang mengatur regulasi kalsium pada sel.

Hasil simulasi penelitian tersebut menunjukkan bahwa varian protein memiliki profil konformasi yang unik dibandingkan dengan wild-type. Variasi dalam jarak dan sudut dihedral antara domain protein menunjukkan pola distribusi konformasi yang khas untuk setiap varian. Sebagai contoh, mutasi D96V dan D130G pada kalmodulin menunjukkan penyimpangan besar dari distribusi wild-type yang berkorelasi dengan tingkat keparahan gangguan fungsional. PCA mengungkapkan bahwa fitur struktural seperti orientasi relatif domain lobus N dan C memiliki kontribusi signifikan terhadap perbedaan antara varian dan wild-type. Selain itu, pengelompokan menggunakan centroid varian menunjukkan pemisahan jelas antara fenotip yang berbeda seperti Catecholaminergic Polymorphic Ventricular Tachycardia (CPVT) dan Long QT Syndrome (LQTS) pada kalmodulin. Lebih lanjut, jarak Euclidean dari sentroid varian ke wild-type digunakan sebagai prediktor tingkat keparahan penyakit dan ditemukan berkorelasi positif dengan probabilitas terbuka saluran RYR2 pada varian CPVT serta afinitas pengikatan kalsium pada varian LQTS.Metode tersebut berhasil memprediksi fenotip penyakit dan tingkat keparahan dengan akurasi yang lebih tinggi dibandingkan metode konvensional. Dalam prediksi patogenisitas, metode tersebut mampu membedakan varian patogenik dari non-patogenik dengan akurasi 100% seperti yang divalidasi oleh data eksperimen pada kalmodulin dan amiloid. Selain itu, metode tersebut dapat mengklasifikasikan varian kalmodulin seperti N54I dan N98S sebagai penyebab CPVT, sementara varian D96V, D130G, dan F142L terkait dengan LQTS. Hal serupa juga berlaku untuk varian amiloid-β yang dapat diklasifikasikan sebagai penyebab penyakit degeneratif saraf Alzheimer 1 (AD1) atau Cerebral Amyloid Angiopathy (CAA). Dari sudut pandang terapetik, metode ini memberikan wawasan mekanistik tentang bagaimana mutasi memengaruhi interaksi protein-molekul yang dapat digunakan untuk mengembangkan terapi yang lebih terarah.

Sumber:

McCoy, M.D., Hamre, J., Klimov, D.K. and Jafri, M.S., 2021. Predicting genetic variation severity using machine learning to interpret molecular simulations. Biophysical journal120(2), pp.189-204.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *