ПОЛНЫЙ ТЕКСТ И ZIР НАХОДИТСЯ В ПРИЛОЖЕНИИ Максим Бычков, Григорий Кудрявцев.
Ноябрьские тезисы о сканировании
Еmаil: bmn@gоsrеg.аdm.yаr.ru
Dаtе: 10 Nоv 2000
Материалы этой страницы будут регулярно пополняться. Опытом ОСR
делятся Максим Бычиков и Григорий Кудрявцев, у них на счету - ПСС Шекспира,
Стейнбека, Диккенс, ... всего около 60Мб подготовленных и вычитанных
электронных текстов.
Установки сканера по яркости
Если материал представлен в виде качественной (желательно высокой)
печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с
ручной установкой яркости дает более чем приемлемые результаты. Количество
ошибок на лист А4 стремится к нулю и колеблется в районе 1-5 неправильно
распознанных знаков. Установку яркости можно подобрать опытным путем, сводя
к минимуму помехи в виде рассыпанной по листу `сыпи`, но в основном, яркость
на уровне 42-45% обеспечивает хорошее качество распознавания.
Особо следует отметить ситуацию при сканировании некоторых печатных
изданий изданных в 40-е-60-е годы, в частности это касается многих собраний
сочинений изданных в это время. Несмотря на качественную печать,
использование сложных `многозавитушечных` шрифтов вводит программу
распознавания в искус придумать какое-то свое толкование некоторых знаков,
что существенно снижает качество получаемого текста. Частично разрешить
проблему позволяет повышение разрешения до 400 точек на дюйм - ошибок
становиться заметно меньше. Однако дальнейшее увеличение разрешения не дает
прироста точности распознавания. (Можно поробовать распознавание с
обучением, но это во первых долго и муторно, а во вторых, субъективно, не
дает заметного увеличения качества распознавания)
При сканировании книг с небольшим внутренним полем и `не раскрывающихся
до конца` в клееном переплете приходиться использовать автоматический подбор
яркости чтобы избежать затемнения в области переплета. Однако автоподбор
яркости снижает скорость прохода сканера и отнюдь не способствует лучшему
распознаванию областей текста не лежащих в затемненной части, поэтому лучше
избегать сканирования с автоматическим подбором, кроме самых крайних случаев
(особой ценности издания, и особой узости внутренних полей). (Книжка обычно
после этого становится загубленной.)
К сканированию с разрешением 600 точек на дюйм следует прибегать только
в случаях если оригинал напечатан шрифтом 9 и меньше пунктов.
Махim mаiltо:bmn@gоsrеg.аdm.yаr.ru
Продолжение следует
О сканерах
Сканнер Fujitsu М4097D. 30-40 страниц в минуту на автоподаче. Стоит около $10к
httр://www.fсра.соm/рrоduсt/рrd_рrоduсt_frаmе.html
httр://www.bаnсtес.соm/Рrоduсts.СFМ?Рrоduсts__IDNumbеr=36 ПОЛНЫЙ ТЕКСТ И ZIР НАХОДИТСЯ В ПРИЛОЖЕНИИ
Док. 127657 Опублик.: 18.01.02 Число обращений: 1
|