Tesseract (software)

Tesseract
DesenvolvedorGoogle
Lançamento estável
5.5.2[1] / 26 de dezembro de 2025
Repositóriogithub.com/tesseract-ocr/tesseract
Escrito emC e C++
Sistema
operacional
Linux, Windows e MacOS
PlataformaLinux, Windows e MacOS
Disponível emInterface: inglês Reconhecimento: africâner, alemão albanês, árabe, azerbaijano, basco, bielorrusso, bengali, búlgaro, catalão, canarês, checo, cherokee, coreano, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, finlandês, francês, galego, grego, hindi, holandês, húngaro, inglês, indonésio, italiano, japonês, letão, lituano, malaiala, macedônio, maltês, malaio, norueguês, polonês, português, romeno, russo, sérvio, suaíli, sueco, tagalog, tâmil, télugo, tailandês, turco, ucraniano e vietnamita
LicençaLicença Apache 2.0.
Websitegithub.com/tesseract-ocr

Tesseract é um software de reconhecimento ótico de caracteres de código aberto (Licença Apache 2.0),[2] originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google; atualmente o projeto está hospedado no GitHub.

Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.

Referências

  1. «Releases – tesseract-ocr/tesseract». GitHub (em inglês). Consultado em 25 de maio de 2025 
  2. https://github.com/tesseract-ocr/tesseract/blob/master/README.md Consultado em 4 de fevereiro de 2016

Ligações externas