Переславль-Залесское краеведение

Переславская краеведческая инициатива: 6700 документов

Технология: как это делается

По сторонней просьбе из Исторической библиотеки описана технология. Если кому интересно, вот как идёт обработка текста.

  1. Фотографируем страницы. Другие способы оцифровки громоздки или недоступны.
  2. Распознаём текст.
  3. При распознавании первичная правка: раскрытие уродливых сокращений, возвращение запятых на их историческую родину, пометки проблемных мест.

    Что до сокращений, то никто не читает «и пр., и т. д.» Все говорят: «и прочее, и так далее». Поэтому сокращения на письме — особого рода провокации, которые делаются, чтобы сделать текст труднее, чтобы убрать из него понятность. Их надо раскрывать.

    Что до проблемных мест, то вы знаете, что такое ЖАКТ? А другие читатели не знают, а стало быть, следует сделать сноску и истолковать.

    При распознавании же размечаются страницы оригинала, которые позже будут отмечены на полях.

    При распознавании же сшиваются неразрывными пробелами неотделяемые слова, например, одно- и двухбуквенные предлоги, частицы. Корректируются кавычки.
  4. Орфография. Ispell, потому что это единственная программа, которая проверяет русскую орфографию. Другие программы, к сожалению, не русский язык проверяют, а какой-то уродливо другой, так как поддерживают далеко не все буквы алфавита.
  5. Орфография. Программа, которая сравнивает текст с заданным словарём и отдельно выписывает строки, которые МОГУТ БЫТЬ ошибочными. Проверка её вывода, правка текста.
  6. Если статья написана неправильно, то есть требует проверок и выяснений, тогда идут проверки и выяснения. Проверенное и выясненное даётся подстраничными редакторскими примечаниями.

По сути, на этом подготовка текста закончена, и СТАТЬЮ в этом месте уже можно класть на сайт, поэтому

  1. Сформатировать заголовки (атрибуция). Вписать сведения об источнике: название, дата, страницы.
  2. pdflatex, вгонка абзацев в ширину полосы.

А вот с книгами несколько сложнее.

  1. Если иллюстраций нет, очень хорошо. Если есть, нужен художник. Но с художником трудности, поэтому иллюстрации мы обрабатывать в принципе не способны.
  2. Верификация источников. Нередко авторы, ссылаясь на источники, пишут такую глупость, что хоть святых выноси. Следует либо написать правильные ссылки, либо написать о невалидности источников. ГОСТ неспроста устанавливает формат библиографической записи. В этом деле помогает bibtex.
  3. Разметка страниц оригинала. В тех местах, где оригинал переходит на новую страницу, ставится команда, которая выносит на поля номер страницы оригинала.
  4. Выходная информация: УДК, ББК, авторский знак, аннотация. С этим большая беда, потому что аннотации писать некому, а как строить УДК, неизвестно. Обходимся ББК и авторским знаком, уже хорошо. Сведения о первоиздании, редакторах текста (не редакторах издательства!). Полное имя автора (если доступно) и год возникновения авторского права.
  5. Оглавление, колонтитулы, то есть текст заголовков правится с тем, чтобы влезал в колонтитулы и оглавление. В самом тексте он при этом остаётся прежним.
  6. Указатели. Чудовищное занятие -- разметка текста для сбора именного, предметного, географического и какого ещё указателя. Дело в том, что нет ни одного текста, который стал бы лучше БЕЗ указателя.

    Построенные указатели форматируются при помощи xindy, вводятся в документ и дополнительно правятся: убираются лишние строки, правятся разрывы страниц, пишутся взаимные ссылки и приводятся к единой форме дубликаты.
  7. Надо, опять же, упомянуть о множестве мелких технических решений, которые накапливаются от текста к тексту и держатся в едином стилевом файле. Это и оформление первой-второй страниц, и все мелкие вопросы форматирования.

Что остаётся после обработки? Исходная вёрстка в LaTeX, базы источников в bibtex, построенные указатели, конечный вариант в PDF.

Редактор сайта Андрей Фоменко.
Электронная почта smidt0@yandex.ru.
+7-906-713-62-16

Сайт работает с 2003 года.