Доклад «Проблема интеграции информационных ресурсов: опыт Архива Российской академии наук».

Драчков А.В., Загребаева В.Н., Савина Г.А.


«Проблема интеграции информационных ресурсов: опыт Архива Российской академии наук»


Проблема интеграции информационных ресурсов учреждений культуры (или институтов памяти, как их часто называют) стала особенно актуальной в последнее время в связи с массовым поветрием создания электронных библиотек, появлением масштабных международных проектов совместного строительства универсальных и тематических электронных каталогов, попытками формировать единое информационное пространство на корпоративном, ведомственном, национальном и международном уровнях.

Единство задач музеев, архивов и библиотек в этом процессе дополняется также картиной «нефизической диффузии» объектов описания в любом из названных учреждений культуры. Ни для кого не является секретом, что все три объекта описания (документы, книги, предметы) присутствуют в собраниях музеев, архивов и библиотек в разных пропорциях, и нуждаются в выработке единого, желательно унифицированного, подхода в их описании, что также является интеграционной задачей нижнего уровня информатизации отдельно взятого учреждения культуры. Эта задача «нижнего» уровня является, однако, самой сложной задачей интеграции ресурсов вообще, над решением которой задумывают международные сообщества специалистов в области информатизации музеев, архивов и библиотек.

Принадлежа к архивному миру учреждений памяти, Архив Российской академии наук готов поделиться своим скромным опытом работы в данном направлении и своим видением путей решения этой проблемы, как в глобальном, так и в узком смысле понятия интеграции, познакомить со своими наработками и первыми результатами в этом достаточно трудном деле.

С 2004 г. Архив РАН (АРАН) ведет целенаправленную работу по применению информационных технологий в освоении источниковой базы своего документального собрания. В 2005 г. в сети Интернет была впервые представлена БД «Архив РАН» с электронным каталогом, которая до сих пор присутствует в Сети, увеличив контент данных в десятки раз.

С 2007 г. можно говорить о создании в Архиве многофункциональной Информационной системы (ИСАРАН), которая на текущий момент включает в себя десять взаимосвязанных баз данных и функциональных программных блоков. Центральную роль в решении задач интеграции ресурсов играет программное ядро ИСАРАН и база данных «Учет и каталог».

В ядре ИСАРАН («Учет и каталог») изначально была заложена возможность создания так называемого Центрального фондового каталога (ЦФК) к Архивному Фонду РАН или иными словами централизованного хранилища интегрированных метаданных корпоративных информационных ресурсов с возможностью общего и раздельного поиска, фильтрации данных, составления общей для всей системы архивов РАН учетно-отчетной документации (объединенный паспорт, списки фондов, реестры описей, путеводители) и общего электронного каталога по широкому спектру тематики документальных собраний архивов - участников интегрированного ресурса.

Концептуальное значение в деле интеграции информационного ресурса Архива РАН как головного учреждения академического сообщества архивистов в единое информационное пространство в будущем будут иметь еще две базы данных ИСАРАН – «Персональный состав РАН» и «История учреждений РАН». На сегодняшний день они еще не имеют достаточного наполнения контентом, чтобы уверенно говорить о них, как о прообразе «несущих конструкций» в структуре историко-научных данных Архивного фонда РАН1, но обе базы данных имеют реальную потенциальную возможность развиться в будущем до состояния авторитетных/нормативных записей или точек входа в общий массив данных. Разумеется, при условии стечения благоприятных условий динамики развития ИСАРАН в целом2.

В 2009 г. была создана web-версия ИСАРАН в двух вариантах: внутреннем (для служебного использования) и внешнем (для широкого представления в Сети). В конце этого же года были зарегистрированы в Роспатенте единая база данных «Архив РАН» и ядро программного комплекса «Учет и каталог». Государственная регистрация ПО и БД была предпринята с целью дальнейшего бесплатного распространения этого программного обеспечения в системе академических архивов для строительства на единой основе общего корпоративного информационного ресурса академических архивистов (по сценарию распределенного хранения документов и централизованного хранения метаданных).

В начале 2010 г. в Архиве РАН появился выделенный канал оптоволоконной связи, и новые возможности коммуникации сделали Архив РАН полноценным участником общеакадемического проекта «Электронная библиотека “Научное наследие России”», который представляет собой попытку создания интегрированной системы для разных информационных объектов учреждений памяти. Иными словами, Архив РАН получил не только статус партнерства в Едином научном информационном пространстве РАН, но ведомственный «культурный полигон» - сеть архивов, музеев и библиотек, объединенных общей задачей проекта, а также материальную поддержку работы по наполнению и совершенствованию контента ИСАРАН, без чего невозможно успешное развитие любого электронного ресурса.

Была начата совместная работа Архива РАН и Отдела систем математического обеспечения Вычислительного центра РАН по теме «Разработка концепции взаимодействия и обмена метаданными Информационной системы Архива РАН (ИСАРАН) с единым научным пространством (ЕНИП) РАН, в рамках которого окончательно должен быть выработан протокол обмена данными. В настоящее время работа продолжается.

Программный блок ИСАРАН «Учет и каталог» рассматривается разработчиками как типовая или унифицированная структура представления и использования информации, хранящейся в архивных учреждениях РАН. В первую очередь речь идет о научно-отраслевых архивах и архивах региональных научных центров РАН с постоянным составом документов, которых в системе РАН насчитывается около 40 (с тенденцией к увеличению этого числа за счет созданных в последние годы, но не имеющих пока статуса научно-отраслевых архивов).

К концу 2010 г. тестовая версия ИСАРАН-web (для служебного пользования) показала свою жизнеспособность: успешно был осуществлен пилотный проект по конвертации данных учета и электронного каталога Отдела "Научный архив и энциклопедия" Коми научного центра Уральского отделения РАН в общую базу данных. Таким образом, можно констатировать, что Архив РАН имеет в настоящее время рабочий инструмент для построения значительного по объему информационного массива по истории науки и культуры. Существуют также благоприятные предпосылки для бесплатного распространения ПО в тех архивах РАН, которые на текущий момент испытывают затруднения в выборе программно-технических средств или материально попали в состояние «цифрового неравенства», не имея возможности приобрести необходимое ПО. Намерения работать с академическими архивистами в русле общей концепции, общих принципов и на базе единого программного обеспечения для строительства корпоративного информационного ресурса, представленного в Интернет для широкого пользователя, были закреплены в названиях двух корпоративных сайтов «Архивы РАН» (www.arran.ru) и Информационная система «Архивы РАН» (www.isaran.ru), последний из которых специально рассчитан на реализацию такого рода задачи. В сайты была заложена идея портальности, которая на сегодняшний день рассматривается как перспективная задача будущего.

В настоящее время сайт Информационной системы «Архивы РАН» (www.isaran.ru) представлен в Сети ресурсами архивов, включающими базы данных с 4-х уровневым описанием: фонд – опись – дело - документ, где два нижние уровня описания формируют общий электронный каталог с функцией поиска информации, редуцированной по условиям запроса. Работа с системой академических архивов только началась, поэтому новые участники общего проекта внесли данные только на верхних уровнях описания. Планируемое нами создание web-версии программного модуля «Тайпер», позволяющего работать с общей базой данных в удаленном доступе, должно стимулировать процесс наращивания контента. В дни работы конференции АДИТ-2012 в Петрозаводске в Научном архиве Карельского научного центра РАН была установлена ИСАРАН-web, в которой заполнен верхний уровень данных «фонд» и подписан договор, согласно которому архив регионального научного центра РАН вступил в число участников общего информационного ресурса архивистов Российской академии наук.

Программное обеспечение, разработанное а Архиве РАН, при всей скромности сил и средств на него затраченных, имеет ряд привлекательных характеристик даже в сравнении с авторитетными программными комплексами, используемыми в архивной отрасли Российской федерации – «Архивный фонд-4» (разработка компании «Электронные офисные системы») и «КАИСА-АРХИВ» (разработка кампании «АльтСофт»), Интегрированная АИС объединения архивов (разработка Инженерно-внедренческого центра «Инсофт»). Преимущества ядра ИСАРАН для небольших архивов заключаются, в первую очередь, в его простоте и экономичности. Идя по пути «от частного к целому», разработчики не стремились сразу заложить предельно возможную функциональность в свою систему, она «обрастала мускулатурой» по мере необходимости, и продолжает наращивать свой информационный потенциал. Система проста, логична, ее внедрение не требует закупки дополнительного дорогостоящего оборудования, обязательного наличия в штате IT-специалистов, работы с классификаторами, серьезного администрирования и обучения персонала и т.д. Разработки «эконом-класса» оказались жизнеспособны и присутствуют в Интернете в виде Информационной системы с электронным каталогом с 2005 г., а в режиме on-line уже в течение трех с лишним лет (без технических перерывов на доработку или модернизацию).

В 2010 г. было принято решение выделить Информационную систему «Архивы РАН» «внешней» web-версии из структуры сайта www.arran.ru и перевести ее на самостоятельный сайт с доменным именем www.isaran.ru в связи с быстрым ростом контента и обособленностью задач сайтов. В конце 2011 года оба сайта, существующие под эгидой Архива РАН, были модернизированы и переведены на CMS Drupal, которая еще больше расширила возможности совместного ведения информационных ресурсов своими «встроенными» модулями и иными полезными возможностями, которые важны сегодня, а также рассчитаны «на вырост».

Говоря об интеграции информационных ресурсов, нам кажется правильным разделить проблему на 2 части: а) программно-техническую и б) общую. В первом случае речь может идти о выработке общих концептуальных и технических стандартов, как в международном, так и в национальном информационном пространстве, о принципах описания объектов культуры и возможностях программно-технической реализации интеграции научно-справочного аппарата ресурсов родственных учреждений культуры. Во втором - о простом присутствии в информационном пространстве Сети ресурсов учреждений культуры в том или ином виде и создании возможностей перехода к информационным ресурсам тематически близких массивов, начиная от простых ссылок и заканчивая точками доступа в корпоративные блоки.

Многолетний опыт международного сообщества институтов памяти в деле выработки общих концептуальных и технических стандартов обмена информацией имеет существенные позитивные примеры сотрудничества, которых удалось добиться зарубежным коллегам, значительно более скромные результаты в решении аналогичных задач имеют место на национальном российском уровне.

Как известно, роль лидера в процессе выработки международных стандартов в архивной области взял на себя Международный Совет Архивов (ICA) в лице его Комитета по передовой практике и архивным стандартам (Committee of Best Practices and Standards), который с 1992 г. прилагает усилия в решении задачи организовать интеграционный процесс обмена информацией в русле общих требований. На сегодня имеются 4 принятых ICA международных стандарта архивного описания и несколько зарекомендовавших свою жизнеспособность стандартов обмена описательной информацией и метаданными. С горечью следует констатировать, что международные стандарты архивного описания не адаптированы к российской национальной архивной действительности (исключая общий концептуальный стандарт ISAD, совпадающий с принятой в российской традиции вертикалью архивного описания), они в большинстве случаев даже не переведены на русский язык, представители России не принимают активного участия в работе Комитета ICA. Эти стандарты на сегодняшний день больше являются объектом академического интереса и здорового любопытства, чем инструментом интеграционной практики (хотя специалисты «АльтСофт» ближе и предметнее других подошли к решению этих вопросов).

Столь незначительные успехи стандартизации вообще, и на российской почве, в частности, обусловлены не столько инертностью и консерватизмом сообщества архивистов, сколько повышенной категорией трудности архивного многоуровневого описания, которое в разы сложнее описания библиографического или даже музейного.

Если воспользоваться метафорой и представить архивное описание в виде плавучего айсберга, подводную часть которого составляют объекты описания (музейные предметы, издания, в архивистике – документы), то надводная часть айсберга будет трехуровневой, превосходящей на порядки объем описания библиографического объекта или музейного предмета. Иными словами, самая нижняя дефиниция вертикальной иерархии (или непосредственно документ в электронном виде) не может быть найдена в океане информации без обязательного присутствия громоздкой многоуровневой системы описания, которая удерживает объект описания в системе координат, и делает возможным целенаправленный поиск нужных пользователю сведений. Чем ниже уровень описания сверху вниз (фонд – опись – дело – документ), тем полнее представлено описание контента информационных систем.

На сегодняшний день вполне репрезентативно выглядят результаты информатизации тех российских архивов, которым удается вести текущую работу на третьем уровне описания (дело). Четвертый нижний уровень (электронный документ) представляет собой конечную цель всей структуры описания, но ввиду колоссального количества массовых документов, которые хранятся в архивах на традиционном носителе (бумаге), нельзя всерьез даже предполагать, что в обозримом будущем этот объем документов сможет быть подвергнут оцифровке без какого-то отбора и целенаправленной тематической селекции. Сегодня для архивной отрасли в целом актуально говорить об интеграции электронных ресурсов на первом - третьем уровнях описания, то есть об интеграции научно-справочного аппарата (НСА), что значительно бы облегчило жизнь пользователям – потребителям архивной информации. Образно говоря, как «театр начинается с вешалки», так и электронные информационные ресурсы родственных учреждений культуры начинаются с НСА. И если верхние уровни описания (фонд и опись) в интегрированных системах выполняют скорее учетную функцию для всего многообразия документальных собраний архивов, то нижние уровни (дело и документ) формируют уже электронные каталоги и частично реализуют возможность знакомства пользователей с конечной целью поиска информации – электронным документом в оцифрованном виде.

Понятно, что решение любой масштабной проблемы многими участниками процесса тем эффективнее, чем раньше удается сторонам договориться об унифицированных подходах в общей работе. Естественно, что создание объединенного НСА российских архивов было бы сильно облегчено, если бы участники интеграционного процесса работали на едином ПО. Изначально этой цели было подчинено повсеместное внедрение программного комплекса «Архивный фонд», который со временем претерпел изменения в четырех версиях. Поскольку официальный программный комплекс архивной отрасли Российской Федерации имел много слабых сторон (в частности, он оказался несостоятельным в деле построения электронных каталогов, что интересовало архивы в первую очередь), постольку параллельно развивался стихийный процесс информатизации, в рамках которого появлялись альтернативные решения, которые были вполне конкурентоспособны и удовлетворяли информационные потребности части архивов.

В настоящее время попытки российских архивов объединить свои информационные ресурсы на уровне НСА осуществляются под эгидой Федерального архивного агентства (Росархив) на двух тиражируемых программных продуктах – «Архивный фонд» (версии 3 и 4) и «КАИСА-АРХИВ». Официальным программным продуктом отрасли остается «Архивный фонд», более эффективным и перспективным представляется программно-информационный комплекс «КАИСА-АРХИВ».

Сторонний наблюдатель может оценивать результаты информационной интеграции по тому, как она представлена в Интернете. «Архивный фонд» на сегодняшний день представлен на портале «Архивы России» Центральным Фондовым Каталогом, куда закачаны данные по фондам 10 федеральных архивов. Само явление – начало создания электронного ЦФК – отрадное, но информация о фондах на сегодняшний день крайне скудная. Программно-информационный комплекс «КАИСА-АРХИВ» реализован в ряде федеральных (РГАЛИ, РГИА, РГАКФД) и других архивов, и представляет электронные ресурсы названных архивов в режиме on-line. Была предпринята попытка общей точки входа в ресурсы «Rusart», представленные базами данных музеев, архивов и библиотек, работающих на программной платформе «АльтСофт», присутствие которой в Интернет, к сожалению, не стабильно, но интересно по замыслу и интеграционным перспективам.

Архив РАН относится к той категории российских архивов, которые по каким-то причинам или в силу определенных обстоятельств разработали свое ПО3, создали информационные системы, и ищут способов интеграции результатов своего труда в информационное пространство, а также перспектив кооперации информационных ресурсов с родственными учреждениями для практического целевого использования. На сегодняшний день своим информационным резервом Архив РАН рассматривает академические архивы в количестве около 40, которым бесплатно предлагается программное ядро «Учет и Каталог» Информационной системы ИСАРАН. Развиваясь в таком направлении, можно будет иметь совместный научно-справочный аппарат в едином интерфейсе представления данных. Но это только один путь интеграции ресурсов, на который могут добровольно вступить информационные партнеры Архива РАН.

Другой путь заключается не в объединении научно-справочного аппарата архивов в единое целое, а в создании точек доступа к информационным ресурсам родственных архивов, ссылок и иных переходов от ресурса к ресурсу в информационном пространстве. Оба пути правомерны и будут развиваться параллельно, потому что нереально привести весь НСА архивов к общему знаменателю, да и нецелесообразно концентрировать усилия только на этих попытках.

Логика работы в архивных учреждениях страны общая, поэтому процессы информатизации архивной отрасли схожи в архивах федеральных, региональных, муниципальных или отраслевых. Первоначальные мотивы формирования электронных каталогов, аккумулирующих архивные описания уровней «дело» и «документ» и оцифрованные образы самих документов у всех архивов сходны. Помимо целенаправленной работы по созданию тематических и целевых баз данных с оцифровкой документов, которая ведется по предварительному плану в рамках различных проектов, происходят спонтанные процессы оцифровки, продиктованные оперативной необходимостью (изготовление электронных копий документов для посетителей читальных залов, для подготовки выставок и презентаций, для иллюстраций к изданиям и т. п.). Оцифровка документов неизбежно растет в объеме, и на определенном этапе нуждается в регламентации процесса и структурировании информации о содержимом оцифрованной части документальных собраний архивов с целью повторного использования электронных копий документов. Одновременно решается задача обеспечения сохранности оригиналов документов, которые в дальнейшем использовании могут быть заменены их электронными образами. Таким образом, оцифровка документов начинает играть ту роль, которую играет целевая или попутная каталогизация документов при традиционном ведении архивных работ.

В Информационной системе ИСАРАН задача «вписать» плановую и стихийную оцифровку (с одновременным научным описанием на уровне дела или документа) в базы данных системы решается посредством двух программных модулей – «Тайпер» и «Каталог файлов», которые эффективно используются для наполнения контента баз данных. Модуль «Тайпер» может работать как в системе, так и в автономном режиме. Сейчас наработан большой опыт использования программного модуля «Тайпер» заведующими научных архивов академических институтов (являющимися фондообразователями Архива РАН), что позволяет формировать контент ИСАРАН за счет вливания в систему дополнительных массивов данных. На повестке дня стоит создание и внедрение модуля «Тайпер-web», который позволит архивам РАН, вовлеченным в совместную деятельность, работать с Информационной системой напрямую в режиме on-line (без администрирования со стороны Архива РАН).

Интеграция – это не только обмен информацией по договоренности и воле сторон, иногда она вытекает из содержания контента данных и делается необходимой помимо волевых решений или желания людей. Например, при работе над формированием базы данных «Учреждения Российской академии наук», которая должна охватывать весь период деятельности академии с 1724 года до настоящего времени, нужно будет достаточно полно отразить период с 1925 по 1991 гг., когда академия существовала в качестве Академии наук СССР. С точки зрения истории науки это деление отнюдь не формальное, все главные научные учреждения стран ближнего зарубежья, как мы их теперь называем, берут свои истоки от филиалов и баз АН СССР, на основании которых со временем возникли национальные академии. Невозможно отразить хронологический отрезок времени длиною почти в 70 лет, не прибегая к интеграции (в той или иной форме) контентов данных с архивами и учреждениями стран ближнего зарубежья.

Определенным катализатором процесса интеграции информационных ресурсов архивов является задача, поставленная перед отраслью Федеральным архивным агентством, по созданию электронного Центрального фондового каталога (ЦФК) ко всему Архивному Фонду Российской Федерации. Рабочим инструментом этого проекта должен стать программный комплекс «Архивный фонд-4». Остальным архивам предстоит найти способ конвертировать необходимые данные из своих информационных систем в ЦФК. Архив РАН имеет намерение создать Фондовый каталог всей системы архивов РАН на своем программном обеспечении и конвертировать его в ЦФК. Поэтому для архивов системы РАН использование корпоративного ПО будет обязательным условием для заполнения учетных данных, которые впоследствии будут автоматически генерироваться в общий паспорт архивных учреждений РАН. Таким образом, можно различать уровень обязательного участия для архивов системы РАН, продиктованный требованиями Регламента государственного учета документальных материалов Архивного фонда РФ, и уровень добровольного участия в строительстве общего электронного каталога, доступного пользователям Сети, который сейчас основан на доброй воле участников, объединенных в проект на договорных началах.

Говоря об интеграции информационных ресурсов учреждений памяти в широком смысле, следует в первую очередь иметь в виду сам факт присутствия этих информационных ресурсов в Сети. Еще очень далеко до претворения в жизнь идеи интегрированного НСА архивной отрасли в целом, а потребность в архивной информации и интерес к ней со стороны пользователей огромны в настоящее время. Представляется, что в этом процессе предстоит проделать тот путь, которым в свое время прошел сам Интернет - всемирная система объединённых компьютерных сетей. Не сразу появились оптоволоконные каналы, спутники связи, современные протоколы обмена данными, «умные» поисковые системы, различные браузеры и т.п. Все это возникло на определенном этапе развития Сети, ровно в тот момент, когда сообщество стало к этому готово, и оказался неизбежным переход к новому качеству. В этой связи особенно актуальным является подготовка, просвещение, обмен опытом (в рамках конференций, совещаний и т.п.) этого самого «сообщества», как на уровне держателей информации, так и на уровне пользователей этой информации, тем более, что все вместе и каждый в отдельности выступают и в той и в другой ипостаси.

Современное состояние информатизации архивной отрасли пока не позволяет говорить о полноценной интеграции не только во Всемирной паутине, но и в Рунете. Архив РАН отслеживает статистику посещаемости своих сайтов, периодически знакомится с «географией» и частотностью пользовательских запросов, с посещаемостью разных страниц сайтов. Сектор зарубежного интереса к сайтам равен приблизительно 25% посетителей, сектор иногородних пользователей России равен примерно 50%. Это говорит о том, что информационный ресурс не потерялся в международном информационном пространстве, но основная его целевая аудитория остается на территории Российской Федерации.

При всем желании «вписаться» в мировое информационное пространство не следует забывать о том, что основными потребителями нашей информации будут оставаться русскоязычные пользователи, как на территории России, так и за рубежом. Одним из практических выводов такого анализа является то, что специфика работы с электронными архивными документами Архива РАН такова, что нерационально расходовать ограниченные средства и скромные рабочие силы на введение иноязычных полей метаданных в описания архивных документов, потому что работа с такими документами потребует от пользователя свободного владения русским языком при прочтении текстов, которые в большом числе случаев будут рукописными и трудночитаемыми. Так же осознанно Архив РАН должен отказаться от представления в Сети так называемых «суррогатов» объектов описания - путь, по которому так успешно развивается электронная библиотека «Европиана». В отличие от музеев и библиотек, по определению нацеленных на публичность представления материалов посетителям, архивы никогда не были настолько открытыми и доступными. Главная причина тому не в «консерватизме» отрасли, а в уникальности каждого архивного дела независимо от качества его содержания и в определенной подготовленности пользователей архивной информации к текстологическим трудностям. Для архивов самая используемая и представляющая наибольший интерес для исследователей часть документального собрания определяется частотой обращений к определенным фондам и группам документов. Оцифровка этой части и должна оказаться в первую очередь в составе электронной коллекции документов, которые могут быть предложены пользователю в Сети, а не умозрительно отобранные «суррогаты», которые далеко не на все достойные внимания документы можно изготовить (хотя бы потому, что они будут выглядеть совсем «ненарядно»).

На данном этапе развития интеграционного процесса по представлению архивной документации в информационных ресурсах институтов памяти нам представляется главным - обязательное присутствие этих ресурсов в любом виде в глобальной сети Интернет. Огромное значение имеет полноценный и репрезентативный контент этих ресурсов, продуманная и удобная система кооперации учреждений в создании корпоративных блоков информации. Обязательными атрибутами успеха подобной работы нам представляются открытость и некоммерческий подход в оказании пользователям Интернет информационных услуг со стороны музеев, библиотек и архивов в пользовании научно-справочным аппаратом электронных средств информации. А вот условием достижения подобного успеха, заметного миру, является продуманная политика государства и его институтов (в нашем случае – Российской академии наук) в части целенаправленной поддержки и финансирования работ по внедрению в нашу повседневную деятельность информационно-коммуникационных технологий.




1 Из двух баз данных БД «Персональный состав РАН» более разработана, она заполнена первичными данными на все персоналии академиков и членов-корреспондентов РАН в количестве 5393 фамилий за 1724-2011 гг. и присутствует в тестовом режиме на сайте www.isaran.ru

2 Не имея постоянных источников финансирования, тематика направлений информатизации Архива РАН не подлежит жесткому перспективному планированию.

3 АРАН предпринял попытку начать работу по информатизации на базе ПК «Архивный фонд - 2», но сразу же отказался от этого ПО, так как «не вписался» своими специфическими учетными данными в поля метаданных программы.