Рекомендации по обработке литературы

Рекомендации по обработке литературы Страница 1 из 2 Типичные проблемы некачественной обработки и рекомендации по их устранению При сканировании литературы необходимо придерживаться ряда рекомендаций, позволяющих получить на выходе высококачественный результат. Самый плохой сценарий – это когда время на сканирование книги потрачено, а итог оставляет желать лучшего. Среди типичных недостатков некачественной обработки следует отметить: 1. Обрезанные страницы. Обрезка может произойти либо вдоль краев текста, либо по углу, если страница сильно развернута, либо по развороту, если переплет затрудняет прижим книги к сканеру. 2. Темный фон. Случается как из‐за темной бумаги, так и из‐за неверных настроек сканирования и обработки. Устраняется грамотной обработкой. 3. Обрезанные номера страниц. Номера страниц часто находятся вдали от основного текста, и потому зачастую выпадают из области страницы при сканировании либо при обработке. 4. Ухудшение качества текста около переплета. Устраняется выбором необходимого усилия прижима к сканеру и грамотными настройками последующей обработки изображения. 5. Нестабильное положение текста на поле страницы. При работе с книгой очень неудобно, когда каждая страница развернута на свой угол и смещена в ту или другую сторону. Для устранения этого эффекта следует при сканировании выбрать и выдерживать положение, в котором книга будет каждый раз прижиматься к сканеру, и затем грамотно провести обработку файлов. 6. Чрезмерно большие поля. Особенно эта проблема актуальна для книг малого формата, которые умещаются на поле сканера целым разворотом. При этом часто оставляют излишние поля на изображении. В сочетании с п. 5 это может приводить к проблемам при печати, так как большие поля документа и большие поля принтера приводят к уменьшению масштаба вывода изображения на печать. 7. Низкое разрешение документа. Особенно часто эта проблема проявляется следующим образом: разрешение достаточно для чтения текста, но недостаточно для чтения формул с мелкими индексами и рисунков. Разрешение необходимо выбирать по наиболее трудно читаемому содержимому. 8. Искажение мелких символов, особенно в формулах, при слишком агрессивных настройках удаления фона. Обычно проявляется, когда разрешение исходного сканирования слишком низкое. Можно сканировать при более высоком разрешении (например, 200...300 dpi, а после обработки производить пересчет на 150...200 dpi, достаточные для чтения обработанного документа). 9. Отсутствие обложки с выходными данными книги и содержания. Отсутствие некоторых страниц. 10. Несоответствие исходного размера книги и размера страниц в документе. Необходимо придерживаться того, что при печати в оригинальном размере книга действительно должна выводиться в оригинальном размере. Эта проблема часто возникает при неграмотном изменении разрешения. 11. Цветной файл для черно‐белой книги. Цвет при этом проявляется только на фоне, что является лишней информацией, увеличивающей объем файла. Целесообразно сканировать в цвете, а Рекомендации по обработке литературы Страница 2 из 2 затем фильтровать изображение по цветовым каналам для убирания фона. Выходит гораздо эффективнее, чем убирание фона в черно‐белом изображении. 12. Книга представлена в виде отдельных файлов. Раньше было популярно разбивать большие книги на несколько частей для уменьшения размера файлов. Это было вызвано недостатков ресурсов при просмотре книги и передаче файлов по сети. Сегодня таких ограничений нет, поэтому вне зависимости от размера книгу следует собирать в единый файл. 13. Отсутствие оптимизации размера файла. Все программы для сборки документов в единый файл имеют настройки оптимизации, которые можно менять в зависимости от характера содержимого. Различие в размере файла может достигать 5 раз и более. 14. Несовпадение нумерации страниц книги и документа. Все редакторы позволяют сделать отдельную нумерацию для обложки и первых страниц документа, так что нумерация страниц основного текста будет строго соответствовать нумерации страниц в книге. 15. Книга представлена в виде двух страниц на одной странице документа. Это крайне неудобно с точки зрения навигации по номеру страницы. Также в документе отображен темный разворот на переплете, что приводит к перерасходу материалов при печати. С помощью графических редакторов (например, бесплатный XnView и пакетный обработчик XnConvert) можно легко разрезать разворот по страницам. Рекомендации по качеству результата сканирования и обработки литературы Результат обработки должен отвечать следующим требованиям: 1. Единый файл с расширением pdf или djvu. Содержимое должно быть оптимизировано для уменьшения размера документа. Документ должен включать все страницы книги, включая обложку с выходными данными и содержание. Нумерация страниц документа должна соответствовать нумерации страниц книги. 2. Разрешение изображения должно быть достаточным для чтения всей информации в книге, но не приводить к излишне завышенному размеру файла. Обычно в диапазоне 150...300 dpi. Черно‐белые страницы должны быть черно‐белыми. Фон страниц должен быть белым. 3. Страницы книги должны быть расположены на страницах документа однотипно, по одной странице книги на одну страницу документа, без смещений более 1 см и без поворота более 1 градуса. Текст, в том числе колонтитулы и номера страниц, не должны быть обрезаны. Поля должны быть меньше полей книги (лучше не более 1 см). Темная зона у переплета должна быть максимально обрезана. Размер страниц в документе должен соответствовать физическому размеру книги. 4. Документ должен иметь текстовый слой (OCR). Содержание должно иметь активные ссылки минимум на разделы документа, а лучше и на подразделы. На первой странице документа должна быть активная ссылка для перехода к содержанию.