Программы сканирования и распознования текста(OCR).
ПРОГРАММЫ ДЛЯ СКАНИРОВАНИЯ И РАСПОЗНАВАНИЯ ТЕКСТА (OCR)
Обычно удобнее всего использовать программу, идущую в комплекте с драйверами к сканеру… Она рассчитана именно на этот сканер… но как правило все они на английском языке и с ними сложно работать.
Вначале давайте разберёмся ,что такое ОCR приложения ???
OCR-приложения (приложения, которые производят сканирование и распознавание текста, от англ. OpticalCharacterRecognition — Оптическое распознавание символов) – программы для перевода изображений документов в редактируемый текст, который можно затем обрабатывать в текстовых и табличных редакторах. По сравнению с ручной перепечаткой текста, такие программы дают огромный выигрыш в скорости работы, да и ошибок делают меньше. Еще одно достоинство — возможность сохранить иллюстрации, а они иногда не менее важны, чем текст документа.
Здесь представлен обзор OCR программ, которые поддерживают распознавание текста на русском языке. Свободные OCR проекты: Tesseract, поддерживаемый компанией Google, GOCR, OCRopus.Начнём пожалуй с программы – она как правило встроена в офисный пакет .
MicrosoftOfficeDocumentImaging
В последних версиях офисного пакета Microsoft Office появились инструменты для сканирования и распознавания текста – MS Office Document Scanning и Document Imaging. высокая степень интеграции с другими приложениями MS Office, поддерживаются средства индексирования документов. Document Imaging может открывать файлы MDI (собственный формат Microsoft для сжатия изображений) и TIFF, и передавать результаты распознавания в Microsoft Word.
Программа DocumentImaging работает только с двумя языками: английским и языком локализации самого MS Office. Для поддержки других языков необходимо дополнительно устанавливать пакет Multilingual User Interface (MUI). OCR настроек в программе практически нет, программа в автоматическом режиме поддерживает распознавание типа и размера шрифтов, картинок и простых таблиц.
ABBYYFinereader10.0.102.95 – популярная программа распознавания текста российской компании ABBYY
Finereader обеспечивает качественное распознавание и сохранение оформления документов. Существуют три версии этого пакета распознавания: Home Edition, Professional Edition и Corporate Edition, которые отличаются своими возможностями, пользовательским интерфейсом, ценой и типом лицензии.
Версия Home Edition предназначена только для домашнего использования и пригодится тем, кому время от времени требуется получить распознанную копию страниц книги, учебника, статьи из журнала для последующего редактирования в распространенных офисных программах. Интерфейс программы упрощен, для работы можно выбрать один из типовых способов обработки изображения и нажатием одной кнопки быстро получить результат.
Professional и Corporate Edition имеют профессиональный интерфейс, дополнительно содержат поддержку распознавания PDF файлов, встроенный редактор текста, проверку орфографии. Corporate версия ориентирована на использование в организациях, поддерживаются сетевые сканеры и многофункциональные устройства, добавлены возможности для совместной работы пользователей.
Программа производит распознавание текста с более 180 языков, для 38 из них предусмотрена встроенная проверка орфографии. Начиная с версии Professional, распознаются иврит, японский, тайский, китайский языки. Finereader открывает файлы графических форматов (TIFF, JPG, PFD, PNG и др.) в том числе DjVu – компактный формат для хранения отсканированных документов, книг.
В версии 9.0 также есть возможность распознавания изображений, полученных с цифровых фотоаппаратов. Обработка таких изображений имеет свои особенности, нужно скорректировать неравномерное освещение страницы, недостаточную резкость, изгиб строчек текста.
Scanitto
Программа предназначена для сканирования документов и изображений, сохранения их в удобном для вас формате. Кроме того, Scanitto имеет функцию прямой печати на принтере, что позволит использовать ваш принтер и сканер как копир.Используя сканер, дома или в офисе, Вы наверняка сталкивались с такими проблемами:
неудобный и достаточно сложный интерфейс программ сканирования, которые поставляются со сканерами;отсутствие возможности сохранения изображений в необходимом Вам формате;отсутствие функции прямой печати, которая сэкономила бы Вам много времени.
Для упрощения процесса сканирования была разработана программа Scanitto, которая позволит Вам быстро и удобно получать изображения со сканера.
Воспользовавшись программой Scanitto, Вы получаете возможность легко и просто сканировать изображения, документы или фотографии, и сохранять их в удобном для вас формате. Кроме того, Scanitto порадует вас функцией прямой печати на принтере, что позволит использовать ваш принтер и сканер как копир.
Использовать Scanitto просто, Вам нужно лишь выбрать сканер, указать параметры сканирования и папку для сохранения изображений. Вы сможете сразу же распечатать их на принтере.
Scanitto предоставит Вам:
Простой и удобный интерфейс;
Функцию прямой печати отсканированных изображений. Создание копий;
Возможность сохранения отсканированных изображений в следующих форматах: bmp, jpeg, tiff, png, pdf, gif;
Выбор необходимого Вам разрешения и цветности изображения;
Совместимость со всеми TWAIN сканерами.
Scanitto Pro — это легкое, быстрое и не перегруженное массой ненужных функций программное обеспечение для сканирования. Точная настройка параметров сканирования, копирование документов в один клик и сохранение документов в многостраничные PDF и TIFF файлы — это именно то, что постоянно нужно под руками пользователя сканера!
Большинство приложений, которые поставляются в комплекте со сканерами, распространяются как демо-версии, в то время как их полные версии довольно дорогое удовольствие и в то же время переполнены огромным количеством ненужных функций, которые, скорее всего, не будут использоваться. Обычные пользователи редко прибегают к современной цветовой коррекции, нестандартным форматам бумаги и другим новомодным функциям, в то время как специалисты просто не покупают недорогие сканеры и приложения — каждый из них имеет свои собственные требования, которые вряд ли будут удовлетворены стандартными решениями. Если у вас есть сканер, который вы используете для ограниченного круга задач (копирования, сканирования простых текстов и изображений) и ищете простое в использовании и недорогое средство, обязанное делать работу хорошо каждый день, вам, безусловно, следует проверить Scanitto Pro.
Scanitto Pro по всем параметрам превосходит своего предшественника, программу Scanitto, и существенно расширяет свою функциональность, вдобавок к множеству удобных возможностей, которые сделают вашу ежедневную работу еще более, свободной и эффективной. Scanitto Pro поддерживает практически все существующие TWAIN сканеры, так что вам не придется беспокоиться о совместимости, кроме случаев, если у вас есть нечто крайне редкое или экзотическое. Если у вас есть принтер, Scanitto Pro поможет вам сделать копию в один клик — просто подождите пока отсканируется оригинал и программа передаст его на устройство печати. Теперь можно выбирать область для сканирования, поэтому можно забыть о дальнейшей обрезке изображений. Если у вас есть огромный документ, состоящий из нескольких страниц, Scanitto Pro может сохранить его в многостраничный TIFF или PDF файл, поэтому вы легко можете оцифровать свои рукописи в один компактный файл. Плюс ко всему, каждый момент процесса сканирования может быть доработан с учетом конкретных требований.
Scanitto Pro является улучшенной программой для сканирования, которую может позволить себе каждый. Легкость в использовании каждой функции программы, необходимой для ежедневного сканирования — это выбор, о котором вы не будете жалеть!
Рекомендую использовать совместно с BlindScannerPro.Попробуйте в работе новую улучшенную версию ScanittoPro.
Как сканировать изобажения в PDF
Несмотря на то, что в списке форматов отсутствует PDF, сканировать в PDF все же можно. Достаточно отсканировать в любой из доступных форматов нужные изображения и нажать на крайнюю правую кнопку «Сохранить в PDF» на панели инструментов. ScanittoPro спросит куда Вы хотели бы записать новый PDF файл.
Операционные системы : Windows XP ,Windows Server 2003,Windows Vista, Windows 7,Windows 2008
Требования к компьютеру
PentiumIII 500 MHz (Рекомендуется: PentiumIII 733 MHz или выше)
256 MBRAM (Рекомендуется: 512 MBRAM или выше)
10 MB свободного места на диске
TWAIN Сканер
Внимание: перед использованием ScanittoPro нужно согласиться с условиями лицензионного соглашения .
BlindScanner — сканирование по сети
Открывает доступ к сканеру в локальной сети, не подключенному напрямую к Вашему компьютеру, а установленному, например, на компьютере, который расположен в соседнем кабинете. Программа проста в установке и использовании.
Иногда перед пользователями одной локальной сети встает вопрос: стоит ли покупать еще один сканер, если таковой уже имеется дома или в офисе только для того, чтобы получить возможность сканировать всем, не отвлекая коллег от их важной работы?
Программа BlindScanner расшарит (сделает общедоступным) и откроет доступ к сканеру в локальной сети, неподключенному напрямую к Вашему компьютеру, а установленному, например, на компьютере, который расположен в соседнем кабинете. Легкость в использовании, сохранение в различные форматы, сжатие изображений, автоматическое сканирование, мультистраничное сканирование, поддержка автоподатчика — это далеко не полный список возможностей программы. Теперь можно сканировать, используя свои любимые программы, текстовые и графические редакторы, достаточно выбрать BlindScanner в списке установленных сканеров и выбрать необходимые цвет, разрешение и размер сканируемого изображения.
Программа будет полезна не только в офисе, где она поможет сэкономить несколько сотен долларов предназначенных для покупки нового сканера, но и дома для сканирования, например, с ноутбука в домашней беспроводной сети. BlindScanner работает с любым планшетным TWAIN-сканером, а также поддерживает сканеры с автоподатчиками.
Кроме того, BlindScanner можно использовать и на одном компьютере для получения нескольких изображений со сканера в автоматическом режиме (с задержкой сканирования по таймеру) и сохранения полученных изображений в различные форматы.
Для чего нужен BlindScanner?
Один сканер на весь офис! Нет ничего проще, чем сканировать по сети.
Беспроводная сеть?Рабочий ноутбук у домашнего компьютера? Не нужно вытаскивать кабели и устанавливать драйвера.
Факс внутри офиса. Передать документ на другой этаж можно намного быстрее — есть же сканер!
BlindScannerPro и BlindScannerStandard используют порт 8900 для соединения с сервером. Для корректного функционирования необходимо убедиться, что никакая другая программа не занимает этот порт, и он не блокируется брандмауэрами.
VueScan Версия: 8.5.39
Программа VueScan — программа для работы со сканерами HP, Minolta, Nikon, Polaroid, Epson, Canon и другими. Программа VueScan может работать с внутренней глубиной цвета. Программа VueScan поддерживает автоматическую и ручную настройку большинства параметров и пакетный режим сканирования. В программе VueScan поддерживается более 500 моделей сканеров с определенным перевесом в сторону слайд-сканеров — Nikon, Minolta, Polaroid, Microtek, Epson. Предусмотрено автоматическое удаление дефектов изображения за счет канала инфракрасного сканирования и многопроходное сканирование с последующим усреднением результата — для подавления собственных шумов сканера. В программе VueScan имеются фильтры подавления зерна, нерезкого маскирования и удаления паразитного оттенка оригинала. В программе VueScan есть средства ручной корректировки динамического диапазона и градационной характеристики (независимо по каналам R, G, B). В большинстве случаев, стандартный драйвер устройства имеет крайне ограниченные возможности по регулировке параметров сканирования. Используя зачастую скрытые возможности конкретного сканера, VueScan позволяет гибко настроить процесс обработки изображений, включая развитую цветокоррекцию, возможности многопроходного и пакетного сканирования, аппаратную регулировку экспозиции, выбор максимальной глубины цвета и формата сохраняемых файлов. Большой интерес представляет функция сохранения исходных данных сканера в файл (raw file) и последующая обработка этих данных при выключенном устройстве, что избавляет от необходимости повторного сканирования оригиналов и увеличивает ресурс оборудования.
Применение VueScan особенно актуально при работе с прозрачными оригиналами (негативы, слайды), т.к. в программе содержится информация о цветовых характеристиках более 150 типов плёнок. Речь идёт, прежде всего, о маске цветного негатива, которая может сильно отличаться у разных плёнок и производителей. В программе предусмотрен прямой выбор маски из списка распространенных плёнок, а также возможность ручной регулировки цветовых компонентов маскирующего слоя. Пользовательские настройки можно сохранять в специальный файл, что позволяет создать индивидуальные профили для каждого вида работ.
Особенности программы VueScan:
— Поддержка работы с более 1200 моделями сканеров
— Версии для Windows, Linux и Mac OS
— Улучшает вашу производительность и качество сканирования
— Программа скачана более 5 000 000 раз
— Создание RAW сканированных файлов
— ICC профили и цветовые пространства
— Калибровка IT8 цвета What`s new in version 8.5.39:
* Fixed problem with OCR (Optical Character Recognition)
* Fixed problem with some HP scanners on Mac OS X
Оф. сайт: www.hamrick.com
Платформа:Windows All
Язык: Английский
OCRCUNEIFORM — это бесплатная программа сканирования и распознавания текста российского разработчика CognitiveTechnologies .
Первоначально OCRCuneiForm разрабатывался как коммерческий продукт, однако, в декабре 2007 года компания-разработчик стала распространять программу бесплатно, а в апреле 2008 года открыла исходные тексты программы. В планах дальнейшее развитие этой системы распознавания текста – проект OpenOcr.Org, поддерживаемый компанией CognitiveTechnologies и сообществом OpenSource разработчиков.
Эта OCR программа прилагается в комплекте с некоторыми моделями сканеров фирм Canon, HewlettPackard, Oki, Olivetti. Технологии распознавания компании Cognitive используются в популярном издательском пакете CorelDraw.
OCRCuneiForm обеспечивает быстрое, удобное и качественное распознавание текста с сохранением исходного вида документа. Поддерживается распознавание с более 20 языков, среди них русский, украинский, английский, немецкий, французский, испанский, итальянский, португальский, шведский, финский, сербский, хорватский, польский, а также распознавание смешанного русско-английского текста.
Основные возможности бесплатной программы сканирования и распознавания текста OCRCuneiForm:
современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования и распознавания текста;
встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом;
распознавание текста с сохранением исходного вида документа;
распознавание таблиц со сложной структурой, многоколоночного текста;
сохранение черно-белых и цветных иллюстраций в распознанном документе;
поддерживаются все TWAIN-совместимые сканеры;
использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие;
распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т.п.;
режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска в документе текстовых фрагментов, рисунков и таблиц;
дополнительные возможности, повышающие удобство работы с программой.
OmniPage
Программа отличается высокой скоростью и точностью распознавания. Распознаются более 120 языков с различными алфавитами: латинский, греческий алфавиты, кириллица, китайский, японский и корейский языки. Как и FineReader, OmniPage уверенно распознает документы, полученные с помощью цифровых камер с помощью технологии коррекции изображения «3D Correction».
В этой программе есть поддержка параллельной работы с несколькими документами: можно открывать, распознавать, корректировать и сохранять несколько документов одновременно.
OmniPage выпускается в трех версиях: Standard, Professional, Enterprise. Версия Professional, в отличие от Standard, включает средство для управления документами, ParerPort, и программа PDF Create, позволяющее создавать PDF документы из любого приложения. В версии Enterprise добавлены интеграция с Microsoft SharePoint Server, дополнительные сетевые и многопользовательские функции.Посмотреть возможности программы и купить ее можно на сайте компании-разработчиика www.nuance.com
Основные возможности программы сканирования и распознавания текста OmniPage:
высокая точность и скорость распознавания;
сохранение форматирования документа как в оригинале: колонки, таблицы, рисунки, списки;
технология «3DCorrection» позволяет корректировать и распознавать изображения, полученные с цифровых камер;
сохранение результатов распознавания в PDF, HTML, MicrosoftWord, Excel и PowerPoint, CorelWordPerfect и других форматах. Поддержка XML и XPS — открытого графического формата на основе XML, разработанного компанией Microsoft;
встроенные словари распознавания, в том числе финансовый, юридический, медицинский, для более точного распознавания специфических терминов;
средства коррекции изображений: удаление шума с рисунков, регулировка контрастности, яркости, других параметров;
поддержка многопоточного распознавания, использующая все возможности современных многоядерных процессоров;
преобразование форматов рисунков в полученном документе. Поддерживаются распространенные форматы изображений: TIF, JPG, BMP, PCX, GIF, PDF, MAX и другие;
возможность непосредственного распознавания из популярных офисных приложений, без запуска самой программы OmniPage;
регулировка соотношения скорость/качество распознавания. Это позволяет быстрее распознавать хорошо отсканированные, четкие документы;
возможность распознавания информации из различных электронных форм, анкет;средства автоматизации выполнения различных задач, настройка и выполнение последовательности действий путем нажатия одной кнопки (WorkflowAssistant).
Readiris
Так же, как и другие программы распознавания текста, Readiris преобразует отсканированные изображения документов в редактируемый формат. Readiris уверенно распознает документы, содержащие сложную верстку, таблицы, иллюстрации.
Существуют Pro и Corporate версии этого продукта, а также добавочные модули распознавания ближневосточных и восточных языков. Версия Corporate отличается от Pro улучшенной работой с PDF, поддержкой сжатия выходных файлов, распознаванием одного пакета в несколько файлов, индексированием распознанных документов и другими возможностями. В Corporate версии есть удобное средство для автоматического распознавания файлов, попадающих в определенную папку (Watchedfolder).
Поддерживается распознавание текста с более 120 языков распознавания, включая русский, а также ближневосточные языки — арабский, иврит, фарси (в версии Middle—East) и японский, китайский, корейский (в версии Asian). Есть версия Readiris для Macintosh.
Вместе с поддержкой распознавания популярных форматов картинок, распознаются файлы PDF и DjVu.
Основные возможности программы сканирования и распознавания текста ReadIris:
кнопки SmartTasks — позволяют выполнять различные задачи (сканирование, распознавание, сохранение и др.) путем нажатия одной кнопки;
поддержка формата XPS (XML Paper Specification);
сохранение результатов распознавания в распространенных форматах: doc, xls, pdf, html, rtf и других. В 12 версии добавлено также сохранение в форматах OpenOfficeDocument (ODT), XMLPaperSpecification (XPS), PDF/A
возможность сжатия выходных файлов PDF, XPS & PDF/A с помощью собственной проприетарной технологии intelligentHigh—QualityCompression (iHQC™), позволяющая, по словам компании-разработчика, создавать сжатые файлы по размеру до 400 раз меньше, чем оригинальные цветные изображения. В версии Corporate есть возможность автоматически распознавать файлы изображений, которые попадают в определенную папку (Watchedfolder) возможность автоматического распознавания мультистраничных документов или последовательности изображений в разные выходные файлы распознаются файлы изображений популярных форматов (TIFF, JPG, BMP, JPEG2000 и др.), а также PDF и DjVu файлы.Более 120 языков распознавания, в том числе русский, со встроенным орфографическим словарем для каждого языка. 25 языков интерфейса программы, русский интерфейс тоже есть.Распознавание арабского языка, фарси и иврита в версии Middle—East,распознавание восточных языков: китайского (упрощенное и традиционное письмо), японского и корейского языков в версии Asian,средства индексирования документов (возможность указать для каждого документа название, ключевые слова и расположение файла с распознанным текстом) — в версии Corporate.Развитые средства автоматизации сканирования и распознавания текста встроенные инструменты редактирования изображений: автоматическое определение ориентации документа, удаление шума, настройка резкости, яркости, контрастности, гаммы.
RiDoc.
RiDoc сканирует документы, одновременно уменьшая размеры файла отсканированного документа без потери информационного качества.Используйте RiDoc для создания электронных документов (цифровой копии документа).
Основные функции программы:
Сканирование документа. Работа со сканерами с автоматической подачей листов.
Создание архива отсканированных документов.
Наложение на отсканированный документ водяного знака (watermark).
Удобная технология сохранения документов с помощью «Быстрых папок».
Cсканированние документа в tiff (в т.ч. MiltiPage режим), bmp, jpeg, png форматы.
Сканирование документа в Word.
Сканирование документа в PDF файл.
Отправка отсканированного документа по электронной почте.
Печать отсканированного документа на принтере.
Ксерокопия документа.
Экспорт файлов формата doc (xls, pdf и др.) в графические файлы: bmp, png, jpeg, tiff с помощью виртуального принтера RiDoc.
Программа будет полезной для:
Рядовых пользователей, которым требуется сканировать документы.
Быстрого создания с помощью сканера электронных документов малого размера без потери информационного качества.
Создания электронных документов с помощью сканера, предназначенных для кодированной передачи (шифрование с открытым ключом (ЭЦП, электронная подпись).
Создания электронного документа с помощью сканера для передачи по электронной почте.
Удобного создания электронных версий документов при помощи виртуального принтера RiDoc.
Ведения собственного архива документов.
Есть задача отсканировать документ.
Для этого нам понадобится сканер для создания электронной версии документа и одна из программ, которая умеет запускать процесс сканирования и сохранять документы. Как видите, задача на первый взгляд достаточно простая.Найти программу, с описанным выше функционалом достаточно просто. Чаще всего рядовые пользователи пользуются программным обеспечением, которое идет вместе с данным сканером. Или еще как вариант — поиск нужной программы сканирования в Интернет. Для разового сканирования этого вполне будет достаточно.В чем же тогда отличие программы RiDoc над похожими по предназначению программами?Ответ лежит в решенни задачи сканирования программой RiDoc:
-Программа RiDoc предназначена для сканирования документов А4 формата — наиболее распространнёного формата документов.
—RiDoc поддерживает многостраничный режим сканирования документа.
—RiDoc позволяет существенно уменьшить размер файла отсканированного документа (до 80%) без потери информационного качества. Т.е. экономится дисковое пространство.
-Удобная процедура сохранения документов в программе RiDoc с помощью технологии «Быстрых папок».
-Если RiDoc используется в организации, то проще научить сотрудников работать в одной программе (RiDoc), чем обучать работе в нескольких подобных программах по сканированию документов.
Возможность с помощью RiDoc быстро сделать копию документа.
-Отправить отсканированный документ с помощью RiDoc по электронной почте.
Другими словами, программа RiDoc содержит в себе все самые необходимые функции для удобного сканирования и сохранения документов.
Процедуру создания электронного документа с помощью программы RiDoc можно разбить на несколько этапов:
Оцифровка документа.
Под оцифровкой документов будем понимать процедуру сканирования документов. При выполнении данной операции нужно учитывать формат документов, качество изображения и т.д., поскольку от этого зависит возможность режима сканирования документов — одиночное или потоковое сканирование.
Обработка электронного документа.
После оцифровки документа следует провести проверку качества отсканированного документа. На данном этапе следует проверить читабельность документа, выполнить корректировку яркости и контрастности изображения.
Электронный архив документов.
Сохранение электронного документа в один из графических форматов должно гарантировать достаточное информационное качество. Распространенными форматами сохранения документов являются такие форматы как TIFF, PDF. Рекомендуемое разрешение 300 dpi. Сохраняя электронный документ, учитывайте установленную Вами систему размещения документов.
Электронный документ и электронно-цифровая подпись (ЭЦП).
Для придания юридической силы электронному документу его следует подписать ЭЦП. Как правило, размер файла отсканированного документа получается достаточно большим. Процедура подписания такого документа ЭЦП может занять достаточно длительное время.
Программа RiDoc не только поможет Вам отсканировать документ, но и существенно уменьшить размер файла электронного документа (цифровой копии документа) без потери качества изображения документа.
С помощью RiDoc Вы решаете сразу две важные задачи:
— быстрое по времени подписание электронного документа ЭЦП.
-существенная экономия дискового пространства (до 80%) при хранении Ваших документов в электронном архиве.
Вот в основном и все программы ,их конечно намного больше , мы рассмотрели только те программы , которыми чаще всего пользуются пользователи.Какой программой работать – выбирать Вам . Удачного сканирования!!!!
40 комментариев