«ЭЛЕКТРОННОГО АРХИВА» (СТРУКТУРИРОВАННОГО ХРАНИЛИЩА ДАННЫХ)
Одной из характерных тенденций в архивной среде современного мира стали процессы создания электронных архивов, т.е. представление архивных справочников и документальных собраний в оцифрованном виде и организация широкого доступа к ним.
Бывший (1999-2011) президент Федерального архива Германии (Bundesarchiv) д-р Хартмут Вебер (Dr. Hartmut Weber) сказал следующее о новом тренде в архивном деле: «Сегодня то, чего нет в Интернете, не воспринимают», он образно назвал современные электронные архивы, информация которых доступна в сети – «АРХИВЫ БЕЗ СТЕН». С ним можно согласиться. Новые технологии принесли с собой и новые потребности пользователей, которые хотят, сидя за мониторами компьютеров, иметь те же возможности, что и в читальных залах архивов. До полного претворения в жизнь такой продуктивной идеи пока далеко, но цель вполне ясна. Дело «за малым»…
Настоящие РЕКОМЕНДАЦИИ (которые содержат самые общие положения) не являются инструкцией, они предназначены для понимания роли правильной организации работы по созданию электронного архива (и/или преобразовании традиционного бумажного архива в электронный формат) на базе программного приложения «Учет и каталог» Информационной системы «Архивы Российской академии наук» (ИСАРАН).
Мы надеемся, что с нашими рекомендациями ознакомятся те сотрудники архивов, которые не имеют базового профильного образования в области архивного дела, и специалисты IT-подразделений академических институтов, которые вовлечены в процесс перевода документов в цифровой формат, но не имеют опыта работы с традиционными архивными фондами.
Термин «электронный архив» на сегодняшний день законодательно не закреплен, что оставляет свободу для его разнообразных трактовок и инвариантности его понимания. Доступным официальным вариантом определения является фрагмент из проекта Федерального закона (который еще не принят) «Об электронном документе»: «Электронный архив — это массив электронных документов, подлежащий хранению в порядке, установленном нормативными правовыми актами РФ». До выработки общепризнанного определения, основанного на законодательстве и нормативной базе, широко бытует понимание «электронного архива» как системы технических и программных средств для хранения, систематизации, учета, поиска и представления архивных документов.
На данном этапе решения проблемы мы готовы согласиться с определением «электронного архива» как интегрированной информационно-поисковой системы, которая обеспечивает структурированное хранение документов в электронном виде. В идеале она же должна иметь эффективную систему поиска и представление в Интернет. Этим требованиям удовлетворяет программное обеспечение Информационной системы «Архивы РАН», которое позволяет создавать полнотекстовые электронные массивы копий документов, образовавшихся в результате деятельности учреждений РАН или ученых, творческая деятельность которых связана с Академией наук и различными научными дисциплинами.
Главным условием электронной архивной системы, должно быть её соответствие (или не противоречие) государственным актам Российской Федерации (РФ) и международным стандартам в области архивного дела. Назовем три основных:
- Общий международный стандарт описания архивных документов – ISAD(G), утвержденный специальной комиссией по стандартам Международного Совета Архивов (Стокгольм, Швеция, 21-23 января 1993 г.);
- Федеральный закон от 22.10.2004 № 125-ФЗ «Об архивном деле в Российской Федерации»;
- Правила организации хранения, комплектования, учета и использования документов Архивного фонда РФ и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук, утвержденных приказом Министерства культуры и массовых коммуникаций РФ от 18.01.2007 № 19.
В соответствии с этими документами «электронный архив», который часто рассматривается как база/банк данных; он должен поддерживать многоуровневую структуру описания архивных документов (Фонд – Опись – Дело – Документ); идентифицировать принадлежность и адрес архивных материалов (генерировать архивный шифр); раскрывать содержание документов, чтобы облегчать поиск и обмен информацией по ключевым словам; создавать возможность распространения данных для широкого круга пользователей.
Для неспециалистов в области архивного дела важны два основных положения:
Во-первых, описательная система архивных материалов многоуровневая, она имеет определенную четкую иерархию (фонд – опись – дело – документ). Этот порядок закреплен международным стандартом ISAD(G), он же введен в национальные Правила работы государственных архивов, он же закрепляет многовековую традицию отечественного архивоведения, которая оправдала себя на протяжение многих десятилетий на всей территории нашей страны. «Изобретать велосипед» не нужно, он уже изобретен, на него можно сесть «и поехать».
Во-вторых, Правилами работы государственных архивов также закреплен порядок использования архивных документов, согласно которому неописанные (не обработанные научно-технически) документы не используются. Только у описанных архивных документов появляются шифры (ссылки на название архива, номер фонда, описи, дела и листа/листов), по которым их можно идентифицировать. Следует особо подчеркнуть, что ссылка на страницу сайта в качестве единообразного локатора (определителя местонахождения) ресурса (англ. Uniform Resource Locator, URL), на котором опубликована электронная копия документа в Интернет, ни в коем случае не может заменять собой архивного шифра документа – идентификационного адреса, по которому «прописан» оригинал. Все сталкивались со случаями «переездов» сайтов и полного их исчезновения из Интернета, когда по-прежнему URL невозможно вернуться к странице без дополнительных возможностей. Исследователь всегда должен ссылаться на архивный шифр документов. Кроме того, он всегда должен иметь дополнительную возможность обратиться в оригиналу даже тогда, когда электронная копия документа представлена в Сети, и хорошо читаема. Ряд приемов источниковедения предполагает изучение не только содержания документа, но и внешних его особенностей: водяных знаков бумаги, характера обрывов и повреждений носителя, пятен, помет на обратной стороне листа и т.д., что далеко не всегда передает электронная копия в полном объеме.
Только при условии соблюдения порядка, рекомендованного действующей нормативной базой, можно говорить о том, что программное обеспечение (ПО), которое лежит в основе создаваемой базы данных, является чем-то, что допустимо называть «электронным архивом». Данное условие исключает из рассматриваемой области информационные системы, в названии которых может присутствовать слово «архив», но которые не удовлетворяют требованиям нормативных и регулирующих документов, предъявляемых к ним.
Государственный централизованный учет архивных собраний системы организаций и учреждений РАН-ФАНО (научные и научно-отраслевые архивы; рукописные отделы и документальные собрания научно-исследовательских институтов (НИИ), музеев и библиотек; базы (банки) данных НИИ РАН о научных исследованиях и проектах) осуществляется посредством создания объединенной базы данных (ОБД) «Центральный фондовый каталог РАН-ФАНО» ИСАРАН.
Инструментом в решении задач интеграции ресурсов и формирования электронного ЦФК РАН-ФАНО является ядро «ИСАРАН» – специализированное программное обеспечение «Учет и каталог», которое прошло в 2009 г. государственную регистрацию в Роспатенте (номер свидетельства в государственном реестре – № 2009617035) и распространяется на безвозмездной основе в архивной системе РАН-ФАНО в качестве типовой (унифицированной) структуры структурирования и представления информации. Программное приложение «Учет и каталог» построено на принципах международного стандарта описания архивных документов – ISAD(G) и национальных «Основных правил работы архивов организаций…». Так почему бы не воспользоваться предоставляемой возможностью?
Современной тенденцией в области развития документооборота является отказ от бумажных носителей в пользу электронных ради удобства обращения и экономической выгоды. Системы электронного документооборота (СЭД) и системы электронного архива имеют ряд общих черт. Следует сразу сказать, что в идеале, СЭД учреждения может решать широкий круг задач, связанных с организацией будущего электронного архива документов и должна быть начальным этапом в его создании. В СЭД фиксируется вся текущая документация организации, а архивы (и электронные архивы в том числе) предназначены для сохранения важной, информационно значимой части этой документации. Но определение ценности документа не может на 100% определяться автоматически, оно является той задачей, которую профессиональные архивисты решают в «ручном» режиме.
Поэтому, мы реально смотрим на процессы, которые протекают в управлении документными потоками организаций РАН. Мы вынуждены констатировать, что до сих пор в архивы на постоянное хранение поступают документы, как правило, на бумажных носителях. Проблема взаимодействия делопроизводства и архивного дела в ведомстве пока не решена. Поэтому работа по созданию электронного архива в учреждениях РАН – ФАНО сегодня начинается с архивов с постоянным составом документов, оставляя за рамками проблемы генетическую связь делопроизводства и архивного собрания.
Наши Рекомендации будут посвящены, скорее, процессу перевода традиционного бумажного архива в электронный формат. Так, с чего же все начинается?
Документы, поступившие в Архив, в обязательном порядке должны быть «зафондированы», описаны и учтены:
- Комплекс документов, поступивший в архив от фондообразователя, должен получить официальное название и ему должен быть присвоен номер фонда.
- Документы должны быть описаны и сгруппированы в дела; дела должны быть систематизированы в одну или несколько описей дел фонда.
- Все единицы должны быть учтены и им должны быть присвоены идентификационные номера – шифры архива: номер Фонда – номер Описи – номер Дела.
Все подробности этих мероприятий описаны в «Правилах организации хранения, комплектования, учета и использования документов Архивного фонда РФ и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук», здесь мы на них не останавливаемся.
В настоящее время, традиционный (бумажный) учет в архивных учреждениях РАН-ФАНО должен дублироваться в электронном формате в программном приложении «Учет и каталог» ИСАРАН.
База данных «Учет и каталог» предназначена для ведения государственного учета документального комплекса Архива в автоматизированном режиме, формирования электронного научно-справочного аппарата, генерирования отчетной документации и поиска информации по электронному каталогу.
В структуре БД «Учет и каталог» два условных раздела, которые обеспечивают поддержку главных архивных функций:
Учет – обеспечивает организационную упорядоченность, возможность адресного поиска архивных документов и контролирует их наличие и состояние. БД позволяет описывать (создавать записи) документальные материалы, хранящиеся в Архиве на всех четырех уровнях архивного описания: Фонд – Опись – Дело – Документ.
В архитектуре БД на каждом описательном уровне формируется таблица записей, которая отражает определенный аспект описания своего уровня:
1. Список фондов
2. Список описей (Реестр описей),
3. Список дел (Опись дел),
4. Список документов
На каждом уровне описания заложены карты (формы) с унифицированным набором метаданных – информационными полями, которые являются описательными элементами данного уровня; а также установлена связь каждого настоящего описания с более высокой иерархией описания и определен (идентифицирован) уровень описания – архивный шифр.
Отчетность – область БД, где в автоматическом режиме генерируются учетно-отчетные документы. Элементы этой функции («Отчеты») присутствуют в архитектуре описательных уровней «Фонды», «Описи», «Дела».
Каталог (с поиском) – это объект БД, в котором присутствуют записи уровней «Дело» и «Документ» (из иерархии данных раздела «Учет») и записи, которые формируются в контенте каталога из автономной области «Каталожные карточки». Электронный каталог наделен функциями поиска и фильтрации записей.
ПО «Учет и каталог» в разделах «Фонды», «Описи», «Дела», «Документы» и «Каталожные карточки» поддерживает функцию сканирования документов, при условии, что к рабочей станции (компьютеру) пользователя, подключен сканер; и обеспечивает обработку и хранение файлов. ПО дает возможность «присоединения» уже готовых (ранее оцифрованных и хранящихся в папке с файлами) цифровых образов архивных документов.
Цель этого этапа работы по формированию «электронного архива» – создание графической базы данных с электронным ресурсом оцифрованных описей фондов и коллекций Архива.
После того, как будет создана учетная база данных с архивным описанием на двух уровнях (Фонды – Описи), можно приступать к созданию электронной копии бумажной описи дел. Карта «Изображения» описательного уровня «Опись» предназначена для создания и хранения графических файлов (цифровых образов) листов/страниц традиционной описи фонда (на бумажном носителе).
Параметры сканирования описей в БД «Учет и каталог»:
- графический формат – JPEG;
- разрешения изображения – 300 DPI (количество точек на дюйм);
- следует использовать режим «цветной».
Опись архивного фонда – это главный справочник по составу и содержанию документальных материалов, отложившихся в ходе деятельности учреждения или человека, систематизированных в структурированном порядке по определенной схеме классификации при приеме на государственное хранение. Научное описание каждой единицы хранения и расположение дел в определенном порядке внутри описи представляют собой важнейший элемент научно-справочного аппарата (НСА) любого архива, помогающего пользователю быстро и полно находить искомую информацию. Опись – это документ, необходимый как сотрудникам Архива РАН в их повседневной работе, так и широкому кругу исследователей при поиске информации в определенных предметных областях.
Методика работы по созданию, обработке, хранению и использованию графических файлов в ПО «Учет и каталог» зафиксирована в специальном разделе «СПРАВКА» (где представлена «Инструкция по формированию и ведению базы данных «Учет и каталог»).
В рамках темы «Создание базы данных «Электронные описи Архива РАН» участниками проекта (сотрудниками АРАН) был осуществлен «пилотный» проект по разработке информационно-технологического процесса создания текстовой электронной базы данных архивных описей методом распознавания графических образов оцифрованных листов традиционной описи фондов и перевода данных в текстовой формат. Для этого были отобраны описи, наиболее приемлемые (с хорошим качеством машинописи) для подобных операций, которые были оцифрованы с применением популярного программного комплекса для распознавания отсканированного текста – ABBYY Fine Reader Home. Тексты были преобразованы (в ручном режиме) в необходимый шаблон, а затем с помощью специально разработанного конвертора загружены в программный модуль «Тайпер», интегрированный с ИСАРАН. В программном модуле в ручном режиме проводилось редактирование данных перед конвертацией их в электронный каталог ИСАРАН с одновременной сверкой научных описаний дел с первоисточником.
Пилотный проект по конвертации графических файлов в полнотекстовые не принес желаемых результатов, так как в настоящий момент не существует эффективных технологий преобразования графических файлов ретроспективного текста в собственно текст. Дополнительной трудностью является невозможность преобразования графических файлов описей в текст априори, так как не позволяет обходиться без трудоемкой и неэффективной по затратам времени и труда «ручной доводки». По проведенному в процессе эксперимента хронометражу коллектив исполнителей пришел к выводу: рациональнее проводить комплекс работ по созданию текстовых баз данных традиционным способом: ручным набором текста в редакторе MS Word или при заполнении полей метаданных программного модуля «Тайпер».
Кроме того, при наборе описи ручным способом удается решать дополнительные и очень актуальные задачи: редактирование заголовков дел в описи, адаптация этих заголовков к условиям машинного поиска.
Этот этап работы начинается с создания текстовых баз данных описей дел (т.е. заполнение карт с метаданными уровня описания «Дела» в БД «Учет и каталог»).
Подготовка метаданных (в архивоведческой теории и практике – вторичной информации) путем аналитико-синтетической переработки первичной информации, содержащейся в документах, и извлечения необходимых сведений из учетных и других документов архива, завершается созданием автоматизированного научно-справочного аппарата к документам для дальнейшего поиска и многоаспектного использования.
После создания баз данных на описи дел фонда можно приступать к оцифровке документов – т.е. созданию цифрового (электронного) фонда пользования.
Цифровой (электронный) фонд пользования представляет собой информационный массив, созданный с применением информационных технологий, который состоит из научных описаний документов и прикрепленных к ним цифровых образов (электронных копий) этих документов.
В ЭФП включаются цифровые копии всех единиц хранения фонда.
Электронный фонд пользования создается:
- целевым порядком (в рамках ежегодных планов работы архива или реализации специальных проектов);
- целевым порядком на все документы, определенные для страхового копирования;
- целевым порядком на наиболее востребованные документы;
- в процессе выполнения заказов пользователей-исследователей;
- в процессе выполнения других работ (выставки, публикации, попутная каталогизация).
Организация работы и параметры сканирования архивных документов зафиксирована в «МЕТОДИЧЕСКИХ РЕКОМЕНДАЦИЯХ ПО ЭЛЕКТРОННОМУ КОПИРОВАНИЮ АРХИВНЫХ ДОКУМЕНТОВ» (Ю.Ю. ЮМАШЕВА. – М.: ВНИИДАД, 2012).
Параметры сканирования архивных документов:
- графический формат – TIFF (для страхового хранения электронной копии);
- разрешения изображения – не менее 300 DPI; максимум 600 DPI (рекомендуемое разрешение для страхового хранения электронной копии);
- следует использовать режим сканирование – «цветной».
В процессе создания контента базы данных ЭФП, каждый файл (электронный образ страницы документа) должен быть зашифрован в соответствии с идентификационном номером Архива: № Фонда - № Описи - № Дела – № Листа (если лист без оборотной стороны). Если в архивном шифре отсутствуют обозначения оборотной стороны листа (как правило, он отсутствует), а де-факто такие листы есть, то в шифре файла следует предусмотреть обозначение оборота - № Листа (об.)
Параметры сканирования: TIFF; 600 DPI; «цветной» - следует использовать для создания страховой электронной копии документа. Контент ЭФП (страховой вариант) может быть записан и храниться на компакт-дисках - CD-ROM, CD-RW, CD-R, DVD, DVD-R.
Для использования контента ЭФП в формате БД «Учет и каталог» ИСАРАН его следует конвертировать (сжать) до параметров: JPEG; 300-600 DPI и «добавить» в карту с полем «Изображения» области описания «Дела» (при обязательном условии заполнения метаданными полей карты «Дело»). Этот формат оптимален для просмотра изображений в БД «Учет и каталог» и веб-версии БД Архива на страницах сайта «ИСАРАН».
Создавать электронные копии изображений листов дела (документов) можно в описательной области «Документы» БД «Учет и каталог» при условии, что уже заполнен уровень описания «Дела». Если сотрудник Архива проводит каталогизацию (плановую или попутную) документов фонда, он может подготовить описание документа в соответствующем разделе и прикрепить графический файл (создав его путем оцифровки на сканирующем оборудовании, при условии, что сканер подключен к рабочей станции – компьютеру).
Можно констатировать, что программное приложение ИСАРАН – «Учет и каталог» дает возможность создания электронного контента с описанием архивного собрания на четырех уровнях (Фонды – Описи – Дела – Документы). При этом на уровне «Описи» существует функция оцифровки (или добавления уже готовых графических файлов) бумажной описи дел фонда, а на уровне «Дела» - добавления цифрового фонда пользования (файлов с изображением листов дел).
Мы показали последовательность основных процессов архивной деятельности, которая автоматизируется за счет применения программно-аппаратных средств (компьютерной техники и ПО «Учет и каталог» ИСАРАН), в результате которой создается электронный архив – структурированное хранилище данных. Именно электронные архивы становятся необходимыми условиями эффективной информационной поддержки работы архивистов
Для работы с программными приложениями Информационной системы «Архивы РАН» есть подробные инструкции, которые размещены на сайте (см. электронную презентацию ИСАРАН) и непосредственно в ПО «Учет и каталог» в разделе «Справка». Сотрудники Архива РАН всегда готовы проконсультировать лично всех заинтересованных исполнителей учреждений РАН, создающих электронный контент, по вопросам архивного дела и работы с нашим программным обеспечением.
Опыт показывает, что все то, что кажется довольно сложным при чтении инструкций, оказывается совсем простым на практике, особенно в момент обучения опытным методистом. Приглашаем наших коллег – академических архивистов найти возможность посетить Архив РАН и пройти обучение работе с нашими программными приложениями. Тогда создание массивов электронных копий документов, которые условно можно называть «электронным архивом», перестанут составлять трудность не только для их создателей, но и для многочисленных пользователей Интернет, которые в силу полученного гуманитарного образования привыкли иметь дело с традиционным использованием документа, принятом в России и в мире.