Kemajuan dalam teknologi sekuensing RNA (RNA-seq) telah memberikan wawasan mendalam mengenai ekspresi gen dan mekanisme biologis yang mendasarinya. Metode tersebut dengan kemampuan resolusi tinggi dan efisiensi biaya telah menjadi alat utama dalam studi transkriptom. Meskipun kontrol kualitas diterapkan di berbagai tahap, keterbatasan dalam desain eksperimen dan analisis data sering kali menciptakan bias. Hal tersebut menyebabkan beberapa gen yang berbeda secara signifikan dalam ekspresinya (differentially expressed genes/DEGs) tidak terdeteksi. Oleh karena itu, pengembangan metode yang lebih sensitif menjadi kebutuhan mendesak untuk meningkatkan akurasi analisis RNA-seq.
Dalam penelitian ini, pembelajaran mesin (machine learning/ML) digunakan sebagai pendekatan komputasional untuk mengatasi keterbatasan analisis RNA-seq tradisional. ML menawarkan kemampuan untuk mengidentifikasi pola kompleks dalam data biologis dan membuat prediksi yang akurat berdasarkan data pelatihan. Dengan memanfaatkan algoritma seleksi fitur seperti Information Gain (InfoGain) yang dikombinasikan dengan metode klasifikasi Logistic Regression, penelitian ini mengidentifikasi fitur-fitur epigenetik yang relevan seperti tingkat asetilasi histon H3 yang secara signifikan terkait dengan regulasi ekspresi gen.
Pendekatan berbasis ML ini diuji pada dataset epigenomik dan transkriptomik dari Arabidopsis, khususnya dalam respons terhadap etilen, sebuah gas hormon yang berperan dalam berbagai proses perkembangan dan stres tanaman. Data histon asetilasi dan RNA-seq digunakan untuk mengekstrak total 468 fitur, yang kemudian disaring menjadi 23 fitur paling informatif. Kombinasi InfoGain dan Logistic Regression menunjukkan kinerja terbaik dalam memprediksi DEGs dengan tingkat akurasi yang tinggi. Validasi eksperimental melalui qRT-PCR mendukung keandalan model ini, di mana lebih dari 60% gen yang diprediksi menunjukkan konsistensi dengan hasil eksperimental.
Salah satu aspek menarik dari studi ini adalah kemampuannya untuk mengidentifikasi gen-gen yang sebelumnya tidak terdeteksi oleh metode RNA-seq konvensional. Misalnya, beberapa gen yang diketahui terkait dengan respons etilen, tetapi tidak teridentifikasi dalam analisis RNA-seq sebelumnya, berhasil diungkap menggunakan pendekatan berbasis ML ini. Temuan ini menyoroti potensi ML dalam memperluas cakupan analisis transkriptomik dan meningkatkan sensitivitas deteksi DEGs.
Selain itu, penelitian ini mengeksplorasi penerapan metode berbasis ML pada organisme lain, termasuk sel manusia dan tanaman padi. Model yang dikembangkan menunjukkan fleksibilitas yang luar biasa, dengan hasil yang konsisten dalam memprediksi gen-gen terkait proses biologis penting seperti proliferasi sel dan regulasi hormonal. Hal ini menegaskan bahwa pendekatan ini dapat diterapkan secara luas untuk berbagai sistem biologis.
Integrasi pembelajaran mesin dengan analisis RNA-seq menawarkan peningkatan signifikan dalam sensitivitas dan akurasi deteksi DEGs. Pendekatan ini tidak hanya memperbaiki keterbatasan yang ada, tetapi juga membuka peluang untuk memahami lebih jauh mekanisme kompleks dalam biologi molekuler. Dengan pengayaan data tambahan, seperti metilasi DNA dan modifikasi pasca-transkripsi, potensi model ini untuk mengungkap wawasan baru dalam biologi semakin besar, menjadikannya alat yang sangat berharga dalam penelitian genomik modern.
Sumber:
Leave a Reply