Semantik pada DNA

Komunikasi adalah salah satu hal yang penting bagi manusia, dengan adanya komunikasi maka individu dapat berinteraksi secara sosial dengan individu yang lain. Agar antar individu dapat berkomunikasi dengan baik maka dibutuhkan protokol khusus yang dimengerti oleh kedua belah pihak, penutur dan pendengar. Tanpa ada pengetahuan fundamental mengenai protokol komunikasi maka komunikasi tidak akan berjalan dengan lancar, bahkan dapat menimbulkan mis-komunikasi. Gottlob Frege pada tahun 1923 meletakkan landasan mengenai logika matematika dan filosofi yang ada di balik bahasa. Frege menyatakan bahwa bahasa adalah sesuatu yang luar biasa, dengan menggabungkan beberapa kalimat maka akah didapatkan beraneka ragam makna. Kombinasi dari berbagai macam kalimat jika dirangkai akan menghasilkan bahasa dalam jumlah yang tidak terbatas. Frege meneliti bahwa manusia dapat memahami percakapan dari orang lain bukan karena masing masing individu pernah mendengar perkataan tersebut, akan tetapi manusia dapat memahami konteks percakapan karena dapat mengekstraksi kalimat dasar dari percakapan. Kemudian kalimat dasar tersebut dikombinasikan menjadi beberapa kemungkinan makna. [13]

Sama halnya dengan DNA, masalah redudansi dan ambigu pada penyusunan kata juga dapat muncul, namun redudansi pada kode genetik bertujuan untuk meminimalisir masalah pada penyusunan genetika. Redudansi pada kode genetik adalah dari 61 kodon dapat diterjemahkan menjadi 20 asam amino.

2.2.1 Natural Language Processing (NLP) pada DNA

Ada dua pendekatan yang dapat digunakan untuk melakukan NLP pada rantai DNA, yaitu pendekatan berbasis aturan (Rule Based atau Knowledge Based) dan pendekatan secara statistika atau Machine learning (ML). Ada dua hal mendasar yang penting pada pendekatan berbasis aturan, yaitu : pengetahuan mengenai struktur bahasa dan fakta fakta DNA yang sudah ada pada bidang bio medikal. Yang kedua adalah pengetahuan terhadap sistem yang ada pada DNA, seperti bagaimana pola linguistik pada DNA. Pada pendekatan berbasis statistika, maka komputer yang melakukan pendekatan data DNA menggunakan data set yang memiliki label, kemudian komputer akan membuat kluster dan klasifikasi dari DNA.

Masing-masing metode tersebut mempunyai kekurangan dan kelebihan, kelebihan pada pendekatan berbasis aturan adalah banyak bidang yang sudah meneliti struktur linguistik, sehingga aturan pada linguistik sudah ada secara baku dan dengan batasan yang cukup jelas. Dengan adanya aturan yang jelas maka pengembangan sistem akan lebih mudah dilakukan berdasarkan aturan yang telah ada. Akan tetapi, kelemahan mendasar pada metode ini karena perlu dilakukan penyesuaian setiap kali ditemukan ada aturan baru, serta diperlukan pengetahuan mendalam mengenai konsep pada rantai protein, rantai DNA dan rantai RNA. Walaupun NLP untuk bahasa inggris telah dikembangkan mulai 1960 serta banyak linguis yang mengembangkan, akan tetapi sampai saat ini masih banyak kendala terhadap ekstraksi makna dari sebuah kalimat bahasa inggris. Di sisi lain, keunggulan pendekatan menggunakan ML adalah tidak diperlukan pengetahuan khusus mengenai domain DNA, kemudian pendekan ML seringkali menemukan fenomena atau data unik berdasarkan nilai statistika. Namun kelemahan dari ML adalah diperlukan pengolahan untuk training data.[20]