Halo guys! Kembali lagi bersama Miniblog dari Inzaghi's Blog! Kali ini kita akan melakukan Proses Instalasi Tesseract OCR di Python untuk Windows.
Tesseract adalah mesin pengenalan karakter optik (OCR) yang dapat digunakan pada berbagai sistem operasi. Perangkat lunak ini bersifat gratis dan dirilis di bawah lisensi Apache. Awalnya, Tesseract dikembangkan oleh Hewlett-Packard sebagai perangkat lunak berpemilik pada tahun 1980-an, namun kemudian dirilis sebagai open source pada tahun 2005. Sejak tahun 2006, pengembangannya didukung oleh Google.
Pada tahun 2006, Tesseract dikenal sebagai salah satu mesin OCR open source paling akurat yang tersedia saat itu.
Tesseract adalah mesin pengenalan teks (OCR) open-source yang tersedia di bawah lisensi Apache 2.0. Tesseract dapat digunakan secara langsung, atau bagi para programmer, dapat diakses melalui API untuk mengekstraksi teks cetak dari gambar. Mesin ini mendukung berbagai macam bahasa.
Meskipun Tesseract tidak memiliki antarmuka grafis (GUI) bawaan, ada sejumlah GUI pihak ketiga yang tersedia dan dapat ditemukan melalui halaman 3rdParty.
Tesseract juga kompatibel dengan banyak bahasa pemrograman dan framework melalui wrapper yang tersedia di Github. Tesseract dapat digunakan bersama sistem analisis tata letak yang ada untuk mengenali teks dalam dokumen berukuran besar, atau digunakan bersama detektor teks eksternal untuk mengenali teks dari gambar dengan satu baris teks.
Berikut ini adalah Tutorial Cara Instalasi Tesseract OCR untuk di Windows.
Pastkan Anda telah menginstal Python di Komputer kalian. Untuk Tutorial-nya, silakan lihat di sini.
1. Download Tesseract OCR (di Windows)
Pertama, bukalah Website Resmi-nya di sini (tesseract-ocr.github.io), dan klik "User Manual" untuk menuju Dokumentasi dari Tesseract OCR.
Kemudian, Scroll ke bawah sampai menemukan "Downloads", dan klik pada "Downloads" di bagian Releases and Changelog.
Jika sudah, Scroll terus sampai menemukan "UB Mannheim" pada 3rd party Windows exe’s/installer.
Maka akan langsung pergi ke GitHub, dan klik pada "Latest Installers".
Tunggulah sampai proses Download selesai.
2. Setup Instalasi Tesseract OCR
Jika sudah, maka bukalah File yang telah di-Download tadi. Kemudian, pilihlah Bahasa untuk melakukan Instalasi, pililah "English" karena cukup dalam Bahasa Inggris saja agar mudah dipahami, dan klik "Ok".
Maka, akan membuka Setup Installer Tesseract OCR, dan klik "Next".
Pada Perjanjian Persetujuan (License Agreement), klik saja "I Agree".
Kemudian, klik "Install just for me" dan klik "Next".
Kemudian, Lewati saja pada bagian Choose Components dengan mengelik "Next".
Lalu, klik saja "Next" jika Lokasi Install Folder kalian sudah betul.
Untuk Start Menu Folder, lewati saja dengan mengeklik "Install".
Tunggulah sampai proses Instalasi Tesseract OCR selesai.
Terakhir, klik "Finish" untuk mengakhiri Setup Instalasi Tesseract OCR.
3. Konfigurasi Tesseract OCR (di Windows)
Apabila sudah selesai melakukan Langkah-langkah di atas, bukalah Letak Folder dari Tesseract OCR yang telah kamu simpan tadi saat melakukan Setup. Misalnya :
C:\Users\Inzaghi\AppData\Local\Programs\Tesseract-OCR
Selanjutnya, ketiklah Perintah ini untuk memeriksa bahwa Tesseract OCR sudah Terinstal :
tesseract -v
Selanjutnya, kita atur lagi di bagian System Environment Variables yang ada di Komputer Windows.
Kemudian, kita atur dengan mengeklik "Environment Variables...", cari di bagian Path lalu klik "Edit...", lalu klik di Tombol "New" dan tempelkan Alamat Folder Tesseract OCR tadi. Setelah itu, klik di Tombol "OK" semuanya.
Coba Ketik lagi Perintah "tesseract -v" di Folder apapun di Command Prompt (CMD) dan kamu sudah bisa memeriksa Versi Tesseract OCR dimanapun!
4. Instalasi Tesseract OCR ke Python
Selanjutnya, kita akan melakukan Instalasi Tesseract OCR ke Python. Langkah awal untuk membangun aplikasi OCR menggunakan Tesseract adalah dengan melakukan instalasi perangkat lunaknya. Anda bisa memperoleh Tesseract melalui situs resminya atau dengan memanfaatkan package manager seperti pip. Di bawah ini merupakan contoh cara memasang Tesseract menggunakan pip :
pip install pytesseract
Library Tesseract disertakan dengan alat baris perintah yang praktis bernama tesseract. Kita dapat menggunakan alat ini untuk melakukan OCR (Optical Character Recognition) pada gambar, dan hasilnya akan disimpan dalam file teks. Jika kita ingin mengintegrasikan Tesseract ke dalam kode C++ atau Python, kita akan menggunakan API dari Tesseract.
Untuk menginstall di Jupyter Notebook, silakan ketik :
!pip install pytesseract
Mohon maaf apabila ada kesalahan sedikit pun pada Tutorial ini, dan Semoga Bermanfaat!
Terima Kasih 😀😊😘👌👍 :)