Tesseract ist eine freie Software zur Texterkennung, die ursprünglich zwischen 1984 und 1994 bei Hewlett-Packard entwickelt wurde. Die Software kann Textzeichen und Textzeilen erkennen und auch die Zerlegung eines Textes in Textblöcke (Layoutanalyse) übernehmen.
Tesseract wurde ursprünglich für Hewlett-Packard entwickelt, aber nie in einem Produkt verwendet. 1995 ging die Software als einer der drei präzisesten Testkandidaten aus einem Test der University of Nevada, Las Vegas hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Google nahm sich des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn 2005 unter der Apache-Lizenz frei.
Tesseract unterstützt mehr als 100 Sprachen und Sprachvarianten und kann auch nicht-lateinische Schriften wie Fraktur-Schrift, Devanagari, chinesische, arabische, griechische, hebräische und kyrillische Schriften erkennen. Die Software verwendet Sprachmodelle wie Wörterbücher zur Verbesserung der Erkennungsraten.
Tesseract ist für verschiedene Betriebssysteme wie GNU/Linux, Microsoft Windows, macOS, BSD-Betriebssystem, GNU/Hurd, Android und iOS verfügbar. Die Software kann auch auf Plattformunabhängig verwendet werden.
Tesseract wird unter der Apache-Lizenz, Version 2.0, veröffentlicht.
Die Entwicklung von Tesseract wird seit 2015 auf GitHub durchgeführt. Die Software wird von einer kleinen Gruppe von Hauptentwicklern und vielen Beiträgen einzelner Entwickler getragen.
Tesseract kann für verschiedene Anwendungen wie die Texterkennung auf mobilen Geräten, in Videos und bei der Erkennung von Spam in E-Mail-Bildern verwendet werden. Die Software wird auch von Google Books verwendet.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.