Národní digitální archív (5. díl)
V dnešním dílu seriálu o projektech eGovernmentu se Vám pokusíme přiblížit projekt Národního digitálního archívu, od počáteční ideje až po současnou situaci.
Smyslem Národního digitálního archívu (NDA) je vyřešit problematiku dlouhodobé archivace dokumentu v digitální (elektronické) podobě.
Národní archív, který je k uchovávání dokumentů v digitální podobě pověřen se potýká se dvěma problémy. První překážkou jsou formáty, které se neustále mění, přičemž nové formáty často nejsou kompatibilními s předešlými (nové aplikace nejsou schopné přečíst informace uložené staršími programy.)
Druhým problémem jsou pak nosiče, které mají příliš krátkou životnost a kvalita na nich uložených dat se navíc velmi rychle snižuje. U datových nosičů je rovněž stejný problém jako u formátů, protože se stále vyvíjí technika, používají se nové typy nosičů a s těmi starými nové počítače nejsou schopny komunikovat.
Legislativa aneb kdo je zodpovědný za NDA
Problematiku dlouhodobého uchovávání dokumentů a dalších informací v digitální podobě řeší poměrně dlouho vlády (a nejen vlády) po celém světě. Česká vláda se rozhoupala k prvnímu impulsu, který by měl přispět k vyřešení tohoto problému 7. ledna 2004, kdy svým usnesením č. 11 uložila místopředsedovy vlády a ministru vnitra ve spolupráci s ministrem informatiky projekt dlouhodobého uchovávání a zpřístupňování dokumentů v digitální podobě.
Další usnesení vlády č. 500 ze dne 10. května 2005 předpokládá vznik NDA k 31. 12. 2011. Odpovědnost za vybudování NDA připadá na základě Zákona č. 499/2004 Sb., o archivnictví a spisové službě na Národní archiv.
Národní archiv vypsal na vybudování NDA veřejnou soutěž, kterou díky nejlepší nabídce vyhrála společnost ICZ, a. s. Tato firma tedy zpracovala Technologický projekt, na jehož základě by mělo dojít k zadání vybudování pracovišť digitálního archivu jako součásti Národního archivu.
Úkoly NDA
Primárním úkolem NDA bude zajistit dlouhodobé (déle než 50 let) uchování archiválií (odborně vybraných dokumentů). Dokumenty musí být čitelné a autentické. Sekundárním cílem NDA bude funkce tzv.
Chráněného úložiště, které umožní přípravu digitálních dokumentů před výběrem (skartačním řízením), uložení a zpřístupnění digitalizovaných archiválií (originály existují v čitelné analogové podobě) v rámci projektu ministra vnitra „otevřená minulost“.
Pojem dokument v kontextu NDA
Než přikročíme k popisu technologického řešení NDA měli bychom definovat pojem „dokument“ tak, jak jej definovali autoři projektu:
„Pro potřeby projektu jsme vycházeli z českého překladu doporučení MoReq, který překládá „record“ jako dokument a „document“ jako záznam. Dokument (anglicky record) definujeme stejně jako zákon o archivnictví a spisové službě jako „Každý písemný, obrazový, zvukový, elektronický nebo jiný záznam, ať již v podobě analogové či digitální, který vznikl z činnosti původce.“
Dokument (anglicky record) se skládá alespoň z jednoho záznamu (anglicky document) což je „Zaznamenaná informace nebo objekt, se kterým lze nakládat jako s jednotkou. Záznam může být tvořen více datovými soubory.” Dokumentem je tedy například úřední dopis s přílohami, přičemž vlastní dopis a každá příloha tvoří samostatný záznam.“ (Zdroj: Národní archiv)
Technologické řešení
Návrh řešení projektu NDA vychází ze standardu OAIS (ISO 14721:2003 – Open Archival Information System). Tento standard vymezuje základní koncepci archivu pro uložení elektronických dokumentů a je na něm budována většina digitálních archivů.
Standard definuje hlavní funkce, které má archiv zajišťovat. Jedná se o příjem, správu dat, archivní uložení, přístup, administraci a plánování uchovávání.
Metadata
Než se budeme dále věnovat technologickému řešení dlouhodobé archivace elektronických dokumentů, musíme nejprve vysvětlit pojem „metadata“. Metadata jsou doprovodné informace o elektronickém dokumentu, které jsou k jeho správné archivaci nezbytná.
Metadata zařazují dokument do časového kontextu, informují o manipulaci s dokumentem a o jeho migraci. Podle těchto kriterií rozdělujeme metadata na popisná, uchovávací a strukturální.
Popisná metadata
Popisná metadata slouží k popisu obsahu dokumentu, udávají tedy například název, popis, autor, původce, typ, kategorie apod. . Popisná metadata vycházejí ze standardů Dublin Core a Moreq2 a mohou být dále doplněna podle potřeby dané provozem nebo legislativou.
Uchovávací metadata
Uchovávací metadata pomáhají při výběru vhodného způsobu archivace. Obsahují údaje o formátu, technické údaje o uložených digitálních objektech, informace o činnostech či změnách provedených s digitálním obsahem. Pro uchovávací metadata byl využit standard PREMIS.
K udržování informací o formátu souborů se využívá on-line registr formátů PRONOM. Prostřednictvím uchovávacích metadat je mj. v archivu zajišťována autenticita – zaznamenávají se veškeré operace s příslušnými digitálními objekty.
Strukturální metadata
Strukturální metadata slouží pro sdružení všech částí informačního balíčku do jednoho logického celku. Ukazují, jak spolu jednotlivé součásti dokumentu souvisí. Strukturální metadata využívají standard METS.
Autenticita
Autenticita je hojně diskutovaný a dosud nevyřešený problém: jde o to dokázat, že archivovaný dokument je skutečně tím, čím se tváří být a nebyl nijak pozměňován. V současné době tento problém ještě příliš nehoří, protože lze porovnat originál s jeho digitálním protějškem. To ale v blízké budoucnosti možné nebude tím pádem bude nutná certifikace NDA jako bezpečného úložiště třetí stranou.
Certifikace bude nutná po stránce fyzické bezpečnosti, tak po stránce procesní včetně zajištění dostatečných finančních prostředků pro jeho dlouhodobou činnost. Certifikace proběhne podle aktuálních standardů či předpisů. Jednou z navržených možností je posouzení archivu Národním bezpečnostním úřadem.
Pro ověření autentity archivovaného dokumentu bude při jeho převzetí do NDA sloužit zaručený elektronický podpis, který bude součástí metadat, dále pak vnitřní prostředky NDA. Podle standardu OAIS jsou nejprve elektronické dokumenty a metadata zabaleny do balíčku s jednotnou strukturou. Tyto balíčky jsou podle standardu OAIS jsou nazývány SIP (Submisson Information Package) – balíčky přijímané od původců.
AIP – Archival Information Package (archivní balíčky) zahrnující ukládaný obsah a jeho příslušné popisné informace pro uchovávání (archivní a technické informace) a DIP – Dissemination Information Package (balíčky vytvořené na základě badatelského dotazu, pro využívání).
Digitální dokument je nejprve u původce připraven do vhodné podoby pro předání do archívu. Stanovení struktury SIP proto musí být ošetřeno legislativně: jde o základní předpoklad pro přejímání dat do NDA. Počáteční problémy budou řešeny komunikací prostřednictvím chráněného úložiště.
Předané dokumenty jsou zkontrolovány podle stanovených pravidel (validita, neškodnost, integrita apod.) Po kontrole jsou k dokumentům přiřazeny metadata a vše je zabaleno do AIP. Archivní balíček je poté uložen do vlastního digitálního archivu s řízeným přístupem, aplikací uchovávacích metod apod.
Způsob uchovávání
Pro uchovávání dokumentů budou zvolena dvě geograficky oddělená úložiště (vzdálenost musí činit alespoň 50 km). Ukládací média digitálního archivu reprezentují disková pole (magnetický princip) a UDO disky (optický princip). Ukládacím médiem chráněného úložiště bude diskové pole zálohované na pásky. Čitelnost dokumentu bude zajišťována metodou migrace.
Migrace (tedy převádění do nových formátů) se v současné době jeví jako jediný způsob archivace, který připadá v úvahu. Pomocí poměrně levné migrační technologie je možné převést velké množství dokumentů z tzv. primárních (výchozích) formátů do preferovaných formátů, které jsou vhodné k dlouhodobé archivaci.
Předpokládá se, že bude tento způsob vyzkoušen na jednodušších formátech (textové dokumenty apod.) a až poté na složitějších (GIS). Nejdůležitější je ovšem postupné sjednocování formátů, ve kterých budou dokumenty do NDA předávány.
Stanovení preferovaných formátů neznamená, že dokumenty musí vznikat pouze v nich. Dokument může být vytvářen v nativním formátu, té které aplikace, ale v určitém bodě životního cyklu by měl být převeden do preferovaného formátu. Použití preferovaných formátů umožní (v případě, že byly dobře zvoleny) potlačit nutnost migrace na minimum.
Příjem a karanténa
Příjem s karanténní zónou zajišťuje převzetí a kontrolu dat od původců. Převzatá data jsou nejprve umístěna do karanténní zóny, která má za cíl eliminovat nebezpečí proniknutí virů a obdobných nákaz software do systému Digitálního archivu.
Chráněné úložiště
Chráněné úložiště slouží k bezpečnému uložení těch dokumentů – balíčků, které se mají stát archiváliemi, ale prozatím nesplňují všechny podmínky.
Přístup k dokumentům
Přístup k dokumentům bude realizován prostřednictvím rozhraní do Informačního systému archivu (příslušného). Ten zajistí vyhledávání dokumentů, zobrazení výsledků hledání uživateli a prezentaci vlastních dokumentů uživateli. Veškeré informace uložené v archivu jsou podřízeny systému ochrany, takže uživatelé (platí pro všechny uživatele obecně, nejen pro badatele) mohou vždy získat pouze ty informace, ke kterým mají nastaveno oprávnění.
Časový harmonogram
1. rok – fáze přípravy
V této fázi bude vybrán hlavní dodavatel řešení celého archivu. Hlavní dodavatel dodá stavební i technologickou část. Zároveň bude vybrán dodavatel projektového dozoru. Projektový dozor bude mít za úkol průběžné sledování nákladů, výsledků a kvality řešení a závěrečný „audit“ výsledného řešení. Souběžně bude zahájen proces legislativních změn.
2. a 3. rok – fáze budování
V této fázi se podle schváleného technologického projektu navrhne konkrétní řešení počítačové technologie. Dále budou alokovány prostory pro pracoviště a vybudována potřebná infrastruktura (klimatizace, napájení, napojení na počítačové sítě, apod.).
Následně bude zahájen vývoj aplikačního software pro vlastní archiv i vývoj software, který bude připravovat dokumenty určené k archivaci do podoby definované projektem (SIP) u původců vybraných pro Ověřovací provoz (více viz. Etapa ověřovací provoz).
Po adaptaci prostor bude instalována a konfigurována technika a software a celek bude ověřen v testovacím provozu. Po jeho ukončení a odstranění případných nedostatků, proběhnou potřebné certifikace.
4. rok – Fáze ověřování
Ověřovací provoz je již produkční provoz, při kterém budou do digitálního archivu ukládány dokumenty od vybraných původců. Ověřovací provoz má za cíl doladit a nastavit celý systém. Poté bude zahájen reálný provoz.
Finanční náročnost
1. fáze – 11 900 000 Kč
2. fáze – 298 690 000 Kč
3. fáze – 85 680 000 Kč
Celkem – 396 270 000 Kč
Náklady na roční provoz jsou odhadovány na 70 000 000 Kč.
Díly seriálu
Informační systém pro podporu krizového řízení (1. díl)
Informační systém pro podporu vedení agendy živnostenského podnikání (2. díll)
Elektronické soudní řízení (3. díl)
Elektronická přestupková agenda (4. díl)
Národní digitální archív (5. díl)
Projekt Open source repository (6. díl)
Odpovědět na příspěvek