Perkembangan teknologi sekuensing skala besar yang semakin terjangkau telah mendorong ledakan data dalam bidang genomika populasi. Namun, ironi muncul ketika kecepatan pengumpulan data jauh melampaui kemampuan kita untuk menganalisis dan menafsirkan data tersebut secara tepat. Dalam konteks ini, artikel ilmiah yang diterbitkan oleh Johri dan kolega pada tahun 2022 dalam jurnal PLOS Biology menyoroti masalah krusial dalam inferensi statistik pada studi genomika populasi. Mereka menyampaikan pandangan konsensus mengenai pentingnya menyusun model dasar biologis yang relevan untuk setiap analisis genomik dan memperingatkan risiko kesalahan interpretasi ketika model yang digunakan tidak mempertimbangkan proses evolusi nonadaptif yang secara universal terjadi pada semua organisme.
Dalam praktiknya, inferensi genomika populasi berusaha mengungkap proses evolusi seperti mutasi, seleksi alam, hanyutan genetik (genetic drift), dan perubahan ukuran populasi dengan mengamati variasi molekuler antar individu dan antar spesies. Namun, banyak pendekatan modern yang secara langsung memodelkan adaptasi dalam populasi atau spesies tertentu justru mengabaikan dasar biologis yang lebih umum. Akibatnya, interpretasi atas hasil yang diperoleh seringkali bias, karena parameter seperti rekombinasi, seleksi purifikatif, atau konversi gen yang turut memengaruhi pola variasi, tidak dipertimbangkan secara menyeluruh.
Untuk itu, model dasar (baseline model) sangat dianjurkan sebagai pijakan awal dalam setiap studi genomika populasi. Model ini tidak hanya harus mencakup laju mutasi, rekombinasi, dan konversi gen, tetapi juga mempertimbangkan sejarah demografi, struktur populasi, sistem reproduksi, dan bentuk seleksi purifikatif yang bekerja pada daerah fungsional genom. Penyesuaian terhadap jenis organisme dan kualitas data menjadi kunci utama dalam pembangunan model ini. Misalnya, untuk organisme dengan tingkat heterozigositas rendah dan genom yang jarang memiliki sekuens fungsional, pendekatan model dapat disederhanakan dibandingkan dengan organisme kompleks seperti manusia atau tanaman berbunga.
Masalah terbesar dalam inferensi statistik adalah bahwa banyak model yang berbeda bisa memberikan hasil yang sama baik dalam memprediksi pola data. Contohnya, suatu pola variasi genetik yang cocok dengan model bottleneck populasi bisa saja juga dihasilkan oleh model seleksi positif berulang dalam populasi berukuran konstan. Dengan demikian, kemampuan suatu model dalam menyesuaikan data tidak berarti bahwa model tersebut adalah representasi biologis yang akurat, melainkan hanya salah satu hipotesis yang layak diuji lebih lanjut.
Analisis menggunakan simulasi berbasis pendekatan Bayesian aproksimasi (Approximate Bayesian Computation/ABC) memberikan gambaran mendalam mengenai bagaimana parameter dari berbagai model—baik yang netral maupun adaptif—dapat dieksplorasi secara sistematik. Simulasi ini tidak hanya memungkinkan peneliti menilai ketidakpastian parameter, tetapi juga mengevaluasi apakah pelanggaran terhadap asumsi dasar model dapat menyebabkan inferensi yang keliru. Misalnya, penggunaan data dengan cakupan rendah (low-coverage) berpotensi menyebabkan under-calling pada varian frekuensi rendah seperti singleton, yang kemudian memengaruhi spektrum frekuensi situs (site frequency spectrum/SFS) dan menggeser estimasi parameter seleksi atau demografi secara signifikan.
Selain itu, pemodelan struktur progeni yang menyimpang dari asumsi koalesen Kingman—seperti yang lazim ditemukan pada virus atau spesies laut pemijah—dapat menyebabkan inferensi palsu terkait intensitas seleksi atau ukuran populasi. Dengan mengintegrasikan parameter progeni skew ke dalam simulasi, peneliti dapat mengukur sejauh mana pelanggaran ini berdampak pada estimasi yang dilakukan. Dalam hal ini, penting untuk menyadari bahwa penggunaan model statistik standar yang tidak sesuai dengan biologi spesifik dari organisme studi dapat menimbulkan misinterpretasi serius terhadap dinamika evolusi sebenarnya.
Tak kalah penting, dalam menyusun model dasar, seluruh karakteristik teknis data harus diperhitungkan. Ini mencakup strategi pemanggilan varian (variant calling), masking terhadap wilayah sulit dipetakan, dan strategi pengumpulan data. Ketidaksesuaian antara kondisi data dan asumsi model berpotensi menurunkan validitas hasil, karena simulasi yang dilakukan tidak mencerminkan kondisi empiris yang sebenarnya.
Secara metodologis, setiap pendekatan inferensi seperti penggunaan statistik ringkasan (summary statistics), estimasi distribusi efek kebugaran (distribution of fitness effects/DFE), atau deteksi sweep seleksi, harus dievaluasi berdasarkan kekuatan dan laju kesalahan (false positive rate dan false negative rate). Hal ini tidak cukup dilakukan dengan meninjau data aktual, tetapi juga harus melibatkan analisis data sintetis melalui simulasi berbasis model untuk memahami sensitivitas dan spesifisitas alat analisis terhadap hipotesis yang diuji. Tanpa analisis ini, sebuah nilai ekstrem pada distribusi statistik ringkasan tidak bisa langsung diinterpretasikan sebagai tanda seleksi positif, sebab nilai ekstrem tersebut bisa muncul semata-mata karena proses demografi netral yang kompleks.
Oleh karena itu, strategi yang paling disarankan adalah pendekatan berbasis hipotesis yang dimodelkan. Peneliti harus terlebih dahulu menyusun pertanyaan penelitian spesifik, menyusun model dasar sesuai biologi organisme studi, kemudian menyimulasikan efek dari proses evolusioner tambahan untuk menilai apakah hipotesis tersebut menghasilkan pola variasi yang dapat dibedakan secara statistik dari model dasar. Jika tidak ada perbedaan yang signifikan, maka kesimpulan bahwa hipotesis tidak dapat diuji dengan data yang tersedia adalah valid dan seharusnya tidak dianggap sebagai kelemahan.
Paradigma ini menekankan pentingnya transparansi, kuantifikasi ketidakpastian, dan keterbukaan terhadap hasil negatif. Dalam konteks penelitian genomika populasi, menunjukkan bahwa suatu hipotesis tidak dapat dibuktikan dengan data yang tersedia adalah langkah ilmiah yang sah dan penting. Bahkan, proses ini sering kali membuka arah baru untuk eksplorasi teoretis, metodologis, atau pengumpulan data tambahan yang lebih relevan. Dengan semakin berkembangnya teknologi dan pendekatan statistika, harapan akan semakin tingginya akurasi inferensi genomika populasi tentu menjadi kenyataan.
Namun demikian, prinsip kehati-hatian, pembangunan model dasar yang komprehensif, serta pengujian ketat terhadap hipotesis tetap menjadi pilar utama dalam menghasilkan pengetahuan evolusioner yang valid dan dapat diandalkan. Di sinilah letak kontribusi penting artikel Johri dan rekan-rekannya, yang tidak hanya memberikan panduan praktis bagi peneliti genomika populasi, tetapi juga menetapkan standar ilmiah yang menjunjung tinggi ketepatan dan integritas inferensi ilmiah dalam era data besar.
Sumber:

Leave a Reply