Di era komunikasi global, fitur real-time translation memungkinkan dua orang yang berbicara bahasa berbeda saling memahami hampir seketika. Secara garis besar, sistem terjemahan real-time menggabungkan beberapa komponen utama — pengenal suara (ASR), mesin terjemahan (NMT), dan pengubah teks-ke-suara serta lapisan-lapisan pendukung seperti segmentasi, deteksi bahasa, dan manajemen latensi. Pada artikel singkat ini akan dijelaskan bagaimana tiap bagian bekerja, tantangan yang muncul, dan perkembangan terkini.

 

1. Rangkaian kerja dasar (pipeline)

  • Perekaman & pre-proses: Suara ditangkap melalui mikrofon dan disiapkan (noise reduction, normalisasi).
  • Automatic Speech Recognition (ASR): Audio diubah menjadi teks sumber. Model ASR modern (mis. Whisper) dilatih pada ratusan ribu jam data multibahasa untuk meningkatkan ketahanan terhadap aksen dan kebisingan.
  • Neural Machine Translation (NMT): Teks sumber diterjemahkan ke bahasa target menggunakan model berbasis transformer yang menghasilkan terjemahan lebih alami dibanding teknik lama. Untuk mode simultaneous (langsung), NMT dioptimalkan untuk memproduksi keluaran cepat dengan strategi prefix/partial translation agar menyeimbangkan akurasi dan latensi.
  • Text-to-Speech (TTS) (opsional): Teks terjemahan diubah jadi suara sehingga penerima mendengar hasil terjemahan secara lisan.
  • Sinkronisasi & UI: Hasil disinkronkan kembali ke perangkat pengguna (layar teks, subtitle, atau audio lewat headphone).

Setiap langkah di atas bisa dijalankan secara on-device (lebih cepat, privasi lebih baik) atau di cloud (lebih kuat secara model tetapi ada latensi dan isu privasi).

2. Tantangan utama

  • Trade-off latensi vs kualitas: Terjemahan langsung menuntut keluaran cepat, namun menerjemahkan sebelum kalimat lengkap bisa merusak akurasi (mis. ambiguitas kata). Penelitian simultaneous NMT mencoba strategi prefix alignment untuk mengurangi kerusakan kualitas pada latensi rendah.
  • Bahasa dan dialek yang kurang data: Model unggul pada bahasa berdata besar (Inggris, Mandarin, Spanyol). Untuk bahasa dengan data terbatas, kualitas menurun kecuali memakai teknik pivot, transfer learning, atau augmentasi data.
  • Kesalahan ASR mempropagasi ke NMT: Jika ASR salah mendengar, NMT akan menerjemahkan kesalahan tersebut. Penggunaan model end-to-end atau joint ASR+MT sedang diteliti untuk mengurangi efek ini.
  • Nuansa budaya & idiom: Terjemahan literal sering gagal menangkap idiom, humor, atau register formal; model berbasis large-scale AI mencoba mengatasi ini dengan konteks yang lebih luas, tapi tantangan tetap ada.

3. Pendekatan teknis yang memperbaiki real-time translation

  • Simultaneous NMT (prefix-to-prefix): Memproses potongan awal ucapan dan menghasilkan terjemahan bertahap sehingga menurunkan latensi sambil mempertahankan kualitas pada rentang tertentu.
  • End-to-end speech translation: Model langsung dari audio sumber ke teks terjemahan tanpa langkah ASR eksplisit, mengurangi akumulasi kesalahan dan potensi penghematan waktu pemrosesan. Penelitian aktif pada topik ini sejak beberapa tahun terakhir.
  • On-device inference & optimisasi: Model diperkecil (quantization, pruning) agar bisa berjalan di ponsel — mengurangi ketergantungan cloud dan meningkatkan privasi/kecepatan. Google dan perusahaan lain juga mengintegrasikan kemampuan real-time ke aplikasi ponsel dan headphone

4. Aplikasi nyata & manfaat

  • Penerjemahan percakapan tatap muka (travel, layanan pelanggan).
  • Subtitle langsung untuk acara internasional, webinar, dan kuliah.
  • Alat bantu komunikasi untuk layanan darurat dan kesehatan lintas bahasa.

Ulasan dan evaluasi praktis menunjukkan bahwa real-time translation kini sangat membantu dalam pertemuan formal dan situasi terstruktur, tetapi masih belum sempurna untuk percakapan cepat, tumpang tindih pembicaraan, atau konteks budaya yang kompleks.

5. Masa depan singkat

Kecenderungan yang terlihat: (1) integrasi model multimodal besar yang memahami konteks lebih luas; (2) peningkatan kemampuan on-device; (3) perbaikan terjemahan idiomatik berkat fine-tuning berbasis konteks; dan (4) peningkatan fitur privasi dan keamanan data pada solusi komersial. Pada praktiknya, pembaruan-pembaruan produk besar (contoh: integrasi Gemini ke Google Translate untuk live translate) mempercepat adopsi fitur real-time pada perangkat umum seperti headphone.

 

 

Daftar Pustaka OpenAI — Introducing Whisper (ASR system) (21 Sept 2022). OpenAI

  1. Kano, Y. et al. — Simultaneous Neural Machine Translation with Prefix Alignment (IWSLT 2022). ACL Anthology
  2. Wang, H. — Progress in Machine Translation (review on NMT developments) (2022). Engineering.org.cn
  3. Naveen, P. — Overview and challenges of machine translation for real-time systems (2024)