Google взялась за создание открытой системы распознавания текста

🕛 12.04.2007, 00:45

Компания Google продолжила открытие технологий связанных с распознаванием текста. В дополнение к ранее открытой системе Tesseract, выпущен новый открытый продукт - OCRopus (лицензия Apache 2.0).

Главная цель OCRopus - выявление и разделение областей текста (и др. объектов) на изображениях. Система модульная, в настоящее время для распознавания текста используется Tesseract, но Google планирует в ближайшие 12 месяцев значительно расширить возможности проекта (например, появится GUI интерфейс и поддержка не только английского языка), релиз намечен на 3 квартал 2008 года.

OCRopus предназначен для автоматизации распознавания отсканированных или снятых на цифровую камеру документов (включая рукописные), программа может использоваться для выявления спама в приложенных к письму изображений.