1. Перейти до змісту
  2. Перейти до головного меню
  3. Перейти до інших проєктів DW

Головний архів Німеччини відкрили для штучного інтелекту

Елізабет Ґреніер
16 серпня 2024 р.

В архівах Німеччини зберігається багато рукописних документів колоніального періоду, котрі складно розшифрувати. Штучний інтелект навчився читати старовинні шрифти.

https://p.dw.com/p/4jYRi
Листівка 1903 року, на якій зображено село в одній з колоній Німецької імперії на території сьогоднішньої Республіки Камерун
Листівка 1903 року, на якій зображено село в одній з колоній Німецької імперії на території сьогоднішньої Республіки КамерунФото: akg-images/picture alliance

Той, хто вивчає німецькі архіви довоєнного періоду, насамперед стикається з тим, що німецька писемність істотно змінилася з плином часу. Хоча лексика та граматика залишилися схожими, для розшифрування старих документів потрібна особлива навичка - вміння читати рукописи, написані шрифтом, що його вже давно ніхто не використовує.

Одним із найпопулярніших шрифтів був німецький готичний курсив, відомий як куррент, що виник в епоху Середньовіччя. Існувало кілька його варіантів, але на початку ХХ століття як стандартний прийняли шрифт Зюттерліна. Його розробив художник-графік Людвіґ Зюттерлін (Ludwig Sutterlin) 1911 року, його вивчали в німецьких школах з 1915 до 1941 року, доти, доки його не заборонили нацисти, оскільки він нібито містив "єврейські літери".

Хоча німці, які виросли разом із Зюттерліном, використовували цей шрифт і в повоєнний період, їхні діти та онуки, як правило, не можуть читати листи, написані їхніми предками. Труднощі з розшифруванням документів відчувають також історики. Щоб полегшити роботу німецьких дослідників, Федеральний архів Німеччини розробив спеціальну програму на основі штучного інтелекту, яка здатна розшифровувати тексти, написані або надруковані різними шрифтами. Щоб навчити штучний інтелект, використовуються документи періоду німецького колоніалізму, написані готичним курсивом.

Читайте також: Попри штучний інтелект інноваційний процес сповільнюється

Розшифровка після оцифровування документів

У Федеральному архіві зберігається близько 10 тисяч документів колишнього Імперського управління у справах колоній, центрального органу колоніальної політики Німецької імперії. "Ці документи вибрали для навчання штучного інтелекту, оскільки в них особливо висока частка рукописів", - повідомив DW прессекретар архіву Ельмар Крамер (Elmar Kramer).

Є ще одна причина, чому ці документи цікаві для нового пілотного проєкту. Вони вже повністю оцифровані, і в них закінчився термін авторських прав, пояснює керівник проєкту Інґер Банзе (Inger Banse). 

Більшість німців не зможе прочитати шрифт Kurrent на цій листівці 1903 року із зображенням робітників у Камеруні
Більшість німців не зможе прочитати шрифт Kurrent на цій листівці 1903 року із зображенням робітників у КамеруніФото: akg-images/picture alliance

Але найголовніше, що розшифровані документи мають велику історичну цінність і є дуже важливими в процесі переосмислення колоніального минулого Німеччини - темі, що стала останніми роками дуже важливою у ФРН. Занадто довго злочини, скоєні в епоху німецького колоніалізму, не отримували належної оцінки, зазначила в одному зі своїх виступів державна міністерка з питань культури та ЗМІ Клаудія Рот (Claudia Roth), вітаючи намір Федерального архіву використати спеціально розроблені технології, які дають змогу "розширити знання про цю похмуру главу німецької історії". Держміністр упевнена, що таким чином може бути зроблено важливий внесок у процес переосмислення колоніального минулого.

Перший геноцид XX століття

Колоніальна політика Німецької імперії починається з кінця XIX століття. Вона була спрямована здебільшого на захоплення територій і заснування колоній в Африці, Південних морях і Китаї. Хоча політика німецького колоніалізму здійснювалася порівняно недовго - з 1884 року до закінчення Першої світової війни, тобто близько 30 років, - Німеччина стала третьою за величиною колоніальною імперією після Великої Британії та Франції.

Одна з найпохмуріших сторінок колоніального правління - придушення Сокехського повстання в 1910-1911 роках. Його підняли жителі Сокехса, острова у складі архіпелагу Східних Каролінських островів, розташованого на території тодішньої німецької Нової Гвінеї, проти колоніальної влади. Щоб вистежити повстанців і вигнати плем'я з острова, німецькі колоніальні чиновники застосували тактику випаленої землі. Документи про це повстання та його придушення  зберігаються у фондах Федерального архіву.

Ще однією темною сторінкою колоніалізму є страта короля Рудольфа Дуали Манга Белла та його секретаря Адольфа Нгосо Діна 1914 року, які мирно чинили опір експропріації та насильницькому переселенню населення Дуали в прибережному районі та на південному заході Камеруну, до чого вдавалась німецька колоніальна адміністрація.

Особливо жорстоким злочином колоніальних військ кайзерівської Німеччини стало організоване знищення народів гереро і нама в 1904-1908 роках на території сучасної Намібії. Після повстання, що спалахнуло, німецькі солдати вбили близько 75 тисяч осіб із цих двох племен, включно з жінками й дітьми. Історики називають цю подію першим геноцидом ХХ століття. 2021 року Німеччина офіційно визнала геноцидом винищення своїми колоніальними військами племен гереро і нама та вибачилася.

Сучасні технології на службі історії

Того ж року у Федеральному архіві розпочалося розроблення програм на основі штучного інтелекту з метою зробити документи колоніальної епохи доступнішими. "Ось чому штучний інтелект є для нас важливою темою вже кілька років. І в даному випадку можна сказати, що ми поєднуємо одну з наших найстаріших колекцій з однією з найновіших технологій, якщо хочете: штучний інтелект зустрічається з колоніалізмом", - пояснює Ельмар Крамер прагнення до новаторських розробок архіву в цій царині.

Приклад документа, написаного шрифтом Зюттерлін і розшифрованого за допомогою штучного інтелекту
Приклад документа, написаного шрифтом Зюттерлін і розшифрованого за допомогою штучного інтелектуФото: BArch/R 1001/5573/Image165/Bundesarchiv

Слід зважати на те, що штучний інтелект має вміти розшифровувати не лише шрифт Зюттерліна, а й інші, часом "доволі недбалі, неохайні письмена", підкреслює Крамер. А Інґер Банзе додає: "Тут багато різних почерків. У нас також є рукописні та друковані матеріали. Є багато чого перекресленого, але є й дуже охайні сторінки".

Тому документи були розділені на три різні категорії залежно від складності матеріалу. "Ми подивилися, як модель поводить себе в цих різних категоріях", - розповіла Інґер Банзе. Дослідники навчали програму штучного інтелекту вручну, перевіряючи результати транскрипції та покращуючи їх в кожному окремому рядку - загалом близько 170 сторінок. Банзе каже, що тепер вони досягли рівня, коли штучний інтелект забезпечує прийнятну точність при розшифровці навіть найскладнішого матеріалу.

Для подальшого вдосконалення транскрипції знадобилося б невиправдано багато часу. "Тому в якийсь момент нам довелося підвести риску", - пояснює вона. Замість цього було розроблено менш сувору пошукову систему, що дає змогу отримати ширший діапазон результатів. Програма штучного інтелекту Федерального архіву спочатку була навчена тільки розшифровці шрифту куррент, але в майбутньому вона відкриє цілу низку нових можливостей для інших німецькомовних архівів. Поки що це тільки пілотний проєкт, розроблений спеціально для колекції документів колоніального періоду, що зберігаються у Федеральному архіві. Його можна випробувати в дослідницькій залі архіву в Берліні, а незабаром він стане доступним і в інтернеті.

Пропустити розділ Більше за темою

Більше за темою