Rancang Berdiri Aplikasi Web Scraping Untuk Korpus Paralel Indonesia – Inggris Dengan Metode Html Dom

Abstract: Korpus paralel merupakan dua dokumen text yangsaling berafiliasi dimana dokumen text pertama berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam membuatkan mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan waktuyang usang dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik penggalian warta dari situs web. Pembuatanaplikasi web scraping sanggup dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang dipakai adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah memakai metode blackbox, serta beberaparangkaian pengujian secara manual untuk mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil implementasi dan pengujian simpulan dari aplikasiweb scraping dengan metode HTML DOM ialah proses yangberjalan dalam aplikasi web scraping dengan metode HTMLDOM ialah proses scraping, tokenisasi, cleaning, danlowercased, semua proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.
Kata kunci: Web Scraping, HTML DOM, Korpus Paralel,Tokenisasi, Mesin Penerjemah Statistik
Penulis: Vivensius Mitra
Kode Jurnal: jptinformatikadd170060


Sumber http://www.e-jurnal.com/