Digitální knihovny
a Digital Humanities
Národní knihovna ČR (NK ČR), se v druhé dekádě 21. století začala zajímat o to, jakým způsobem je možné zpřístupnit a poskytovat jejím uživatelům data ze svých bohatých digitalizovaných fondů. Absorpce digitálních pramenů a digitalizace stávajících fondů poskytuje významné množství pramenů pro digitální humanitní vědy a kvantitativně orientovaný výzkum. Zároveň toto bohatství vede k úvahám, jak metodicky, ale i prakticky posílit výzkumné projekty a sehrávat nápomocnou roli základnímu a aplikovanému výzkumu. Právě proto se NK ČR věnuje projektům podporujícím možnosti badatelů na všech úrovních, a to pomocí zkoumání jednotlivých specifických témat (např. autorství), ale zejména skrze přípravu páteřní infrastruktury poskytující data badatelům a zájemcům z řad veřejnosti, v oblasti pramenů z internetu a digitalizovaných knih, na které se zaměřuje projekt DL4DH.
Projekt DL4DH - vývoj nástrojů pro efektivnější využití a vytěžování dat z digitálních knihoven k posílení výzkumu digital humanities (DG20P02OVV002), realizovaný v letech 2020-2022, je zaměřen na vytěžování obsahu digitálních knihoven. Na jeho řešení se podílely Knihovna Akademie věd ČR (KNAV), Národní knihovna ČR (NK ČR) a Moravská zemská knihovna v Brně (MZK), a to ve spolupráci s dalšími odborníky z oblasti humanitních věd, kteří se z velké části angažují také ve spolku České asociace pro digitální humanitní vědy, z. s.
V rámci tohoto projektu vznikly nástroje, které umožní badatelům z oblasti humanitních věd lépe využít zejména české digitální knihovny, které obsahují velké množství digitalizovaných dat. Projekt připravil pro použití softwarové nástroje, které fungují ve formě nadstavby systému Kramerius, který je nejvyužívanějším prezentačním softwarem pro digitalizovaná data v knihovnách a dalších paměťových institucích v ČR, a umožňují čerpat přístupná data pro další zpracování. Jde o nástroje Feeder (grafický uživatelský frontend a REST API endpoint) a Kramerius+ (backend a databáze obohacených dat), které uživatelům přinášejí široké možnosti čerpat základní data ze systému Kramerius, ale i obohacená data z Krameria+. Ty systém umožňuje čerpat pomocí agregace dalších služeb vhodných pro zpracování v digitálně-humanitním výzkumu, v tomto momentě prostřednictvím služeb LINDAT/CLARIAH-CZ (tokenizace, lemmatizace, morfologická analýza prostřednictvím nástoje UDPipe a identifikace jmenných entit prostřednictvím nástroje NameTag). Feeder a Kramerius+ jsou navíc volně dostupné pod licencí GNU GPL 3 pro další použití a případný kolaborativní rozvoj přes GitHub.
Exporty dat z knihovny Kramerius je možné realizovat prostřednictvím vizuálního rozhraní, ale i REST API po přidělení tokenu. Uživatelé se mohou do rozhraní hlásit svojí identitou z akademické federace identit EduID.cz, v rozhraní si spravovat vlastní soubory dat pomocí unikátních identifikátorů objektů a podobjektů (knih, periodik, vícesvazků a jejich částí). V rámci exportu je možné získat zazipované balíčky dat pro každou část ve formátech CSV a JSON, obsahujících textová data, popisná metadata a technická paradata. Pro exporty v rámci XML formátu je používán další výsledek projektu DL4DH – nástroj TEI Converter, který umožňuje export dat ze systému Kramerius a obohacených dat z databáze Kramerius+ ve formátu TEI P5. Tyto výstupy je pak možné jednoduše použít na vstupu vlastních uživatelských workflow designovaných samostatně pro každý badatelský projekt. Pro hlubší informace o architektuře řešení poskytování dat a volné návrhy postupů jejich užití v oblastech archeologie, sociologie, literární vědy, historie a religionistiky nad rámec zde prezentované Mapy religionistických významů doporučujeme čerpat z certifikované metodiky vzniklé v rámci projektu.
Národní digitální knihovna (NDK) obsahuje dokumenty digitalizované v rámci spolupráce NK ČR a MZK, která započala díky projektu Vytvoření Národní digitální knihovny v roce 2012. NDK tak obsahuje digitalizáty z obou institucí, ale je možné v ní nalézt rovněž dokumenty převedené ze starší digitalizace NK ČR ze systému Kramerius 3 a dokumenty dalších institucí, digitalizujících v rámci programu VISK 7, které svá data do NDK průběžně předávají.
Všechny dokumenty obsažené v NDK podléhají zpřístupnění v souladu s autorským zákonem. Díla, u kterých již vypršela autorská práva, je možné prohlížet vzdáleně, přistupovat k datům i metadatům (včetně plných textů) a stahovat obrázky a PDF. Dokumenty, kde autorská práva stále ještě trvají, je potom možné prohlížet z terminálů v prostorách studoven NK ČR. Samostatnou kategorií přístupu jsou tzv. díla nedostupná na trhu. Jedná se o speciální licenci, kdy registrovaný a přihlášený čtenář může prohlížet vzdáleně díla, která jsou zařazena na Seznam děl nedostupných na trhu. Více o této problematice na DNNT.
Starší výstupy digitalizačního procesu ve formátů FOXML (často jen pár let staré) bývají na nedostatečné úrovni rozpoznání textu, zejména oproti dnešním verzím nástrojů OCR. Pro využití nejen v rámci Mapy religionistických významů, ale i hlavních výstupů projektu to tak představuje omezující faktor. Ten je znásoben neexistencí odpovídajících procesů a standardů pro aktualizaci OCR komponent dlouhodobě uložených balíčků. Za předpokladu, že knihovny chtějí dodržet vysoký standard prezentace, by se měl obsah nejprve obohatit na dlouhodobém úložišti a z něho následně exportovat do prezentačního rozhraní. Takový postup je však v momentálním stavu mimo možnosti knihoven. Jako řešení může rozhraní Krameria+ nabídnout možnost perspektivně integrovat aktuální verze OCR modulů a dalších nástrojů třetích stran do svého exportního workflow a v případě potřeby umožní badatelům dodávat textová data se značně vyšší relevancí.
V rámci projektu DL4DH bylo vytipováno několik okruhů, ke kterým vznikly v NDK virtuální sbírky. Jedná se o navržené kolekce digitalizovaných titulů, vztahujících se k určitému tématu. Zde jsme kladli důraz na specifikum sbírek v NDK dle odbornostních témat týmu, tedy na bohemikální témata zastoupených disciplín se zvláštním zaměřením na religionistiku, archeologii a historii. Všechny jsou dostupné na adrese https://ndk.cz/ pod hlavičkou virtuálních sbírek:
Kromě nedigitalizovaných titulů byly v digitální knihovně Kramerius dohledány i tituly, které již digitalizované jsou. U nedigitalizovaných děl probíhal výběr titulů na základě průzkumu na několika místech. Prvním krokem bylo procházení odborné literatury a vytipování významných klíčových slov, autorů, nakladatelství apod., podle kterých potom probíhalo samotné vyhledávání. Pro výběr nedigitalizovaných titulů byl používán knihovní systém ALEPH, relevantní tituly byly následně navrženy k digitalizaci a zdigitalizovány. V případě digitalizovaných titulů byl využíván jak knihovní systém, tak Národní digitální knihovna. Zde byly postupně procházeny jednotlivé tituly a vyhodnocována jejich relevantnost k danému tématu podle stejného klíče jako v případě nedigitalizovaných titulů.
Magdaléna Vecková, hlavní řešitel (KNAV)
Řešitelský tým KNAV:
Zdenko Vozár, spoluřešitel (NK ČR)
Řešitelský tým NK ČR:
Petr Žabička, spoluřešitel (MZK)
Řešitelský tým MZK: