Tuberkolosis (TB) adalah salah satu penyakit yang mudah menular dan termasuk di dalam 10 penyakit berbahaya (dengan posisi diatas HIV) diantara penyakit yang dapat menyebabkan kematian. Penyakit ini disebabkan oleh kuman Mycobacterium tuberculosis, penyebaran penyakit ini dapat melakui kontak tidak langsung dengan penderita TB. Penyebaran penyakit ini dapat melalui media udara, saat penderita TB batuk. Pada umumnya TB akan menyerang paru-paru (pulmonary TB), akan tetapi dapat juga terdampak pada bagian tubuh yang lain (extrapulmonary TB). Hampir seperempat dari populasi dunia terinfeksi oleh kuman Mycobacterium tuberculosis, sehingga dapat beresiko terjangkit penyakit TB. [1]

Secara global, penderita TB di dunia pada 2018 mencapai angka 9.0 – 11.1 juta orang, jumlah ini relatif stabil untuk beberapa tahun kebelakang. Jika angka tersebut ditelusuri lebih lanjut, jumlah penderita TB di Asia Tenggara adalah paling banyak (44%), kemudian disusul oleh Afrika (24%) dan Pasifik selatan (18%). Sedangkan apabila dikelompokkan menurut negara, maka ada delapan negara dengan penderita TB terbanyak, antara lain : India (27%), China (9%), Indonesia (8%), Filipina (6%), Pakistan (6%), Nigeria (4%), Bangladesh (4%) dan Afrika Selatan (3%).[2]

Pemerintah Indonesia melalui Peraturan Presiden Nomor 59 Tahun 2017 telah menetapkan target prevelansi penderita TB menurun, dari 2014 sebesar 297 per 100.000 penduduk menjadi 245 per 100.000 penduduk pada 2019. Dan Permenkes Nomor 67 Tahun 2016 menetapkan program penanggulangan TBC secara nasional sehingga pada 2035 Indonesia akan bebas penyakit TB. Salah satu program pemerintah adalah Intensifikasi riset dan inovasi, yaitu penemuan, pengembangan dan penerapan secara cepat alat, metode intervensi dan strategi baru pengendalian TB. Dan pengembangan riset untuk optimalisasi pelaksanaan kegiatan dan merangsang inovasi inovasi baru untuk mempercepat pengembangan program pengendalian TB. [3]

Istilah genom dalam dunia genetika dapat diartikan sebagai kumpulan informasi genetik yang dimiliki oleh mahkluk hidup. Genom pertama kali diperkenalkan pada 1920 oleh  Hans Winkler dari Universitas Hamburg. Genom pada manusia terdiri dari 24 tipe kromosom, dan setiap kromosom mengandung heliks ganda dari DNA. Manusia sebagai individu yang unik mempunyai DNA yang cukup panjang, setidaknya setiap manusia terdiri dari 3 juta basis DNA. [4]

Pada tahun 1969, Encyclopaedia Britannica membuat ensiklopedia mengenai DNA. Eksiklopedi ini yang terdiri dari dua puluh tiga volume artikel sesuai dengan urutan abjad, dan seluruhnya mengandung sekitar dua ratus juta huruf. DNA adalah sebuah polimer yang terdiri dari banyak rangkaian neuklotida, setiap neuklotida terdiri dari tiga komponen : gugus fosfat, gula deoksiribosa, dan basa nitrogen (nukleobasa). Pada DNA, nukleobasa tersusun dari Adenina (A), Guanina (G), Sitosina (C) dan Timina (T). Sehingga secara umum DNA mempunyai bahasa yang terdiri dari empat huruf alfabet yaitu: “a”, “c”, “g”, “t”. Sehingga, i untaian rangkaian DNA dalam sebuah kromosom terdapat ribuan bentangan gen, dimana dalam masing masing bentangan gen terdiri dari berbagai macam informasi, seperti: bagaimana protein dapat berinteraksi dengan DNA, atau bagaimana DNA menyimpan informasi rantai DNA itu sendiri. Dari semua data tersebut, kromosom dari seorang manusia dapat terdiri dari setidaknya ratusan ribu gen.[5]

Roman Osipovich Jakobson, sebagai salah seorang pioner dalam bidang linguistik struktural pada tahun 1973 mengenalkan hubungan antara bahasa dalam kehidupan sehari hari dengan data genetika. Keduanya mempunyai sebuah ciri yaitu sama sama terdiri dari kombinasi susunan syntax (kalimat) sehingga jika disusun dapat menghasilkan sebuah arti.

Jacobson mengenalkan hubungan antar elemen didalam kode genetik dengan bahasa lisan sebagai berikut:

  • Nukleotida à fonem atau huruf
  • Codon à kata kata
  • Leksikon à 64 codon

Hubungan antara nukleotida dengan huruf adalah merujuk bahwa nukleotida tidak dapat berdiri secara mandiri, namun harus bekerja sama dengan nukleotida yang lain, sama seperti konsep dari fonem. Jackobson dan Solomon Marcus memberikan gambaran hubungan antara codon dengan kata-kata. [6]

Untuk mengolah data rantai DNA akan sangat sulit apabila dilakukan oleh manusia secara manual, banyak faktor yang berpengaruh terhadap pengolahan data. Untuk membantu hal tersebut dapat menggunakan NLP (Natural Language Processing). Ada 3 aspek mendasar kegunaan dari NLP, yaitu : information retrieval, semantik dan information extraction. [7]