Ученые конструируют «машину времени»

Перегляди: 418

Последние несколько лет в исторических науках наблюдается новый тренд – попытка объединить их с анализом данных и информатикой.
Историки ищут новые способы извлекать информацию из старых источников при помощи искусственного интеллекта.

Завернутое в конверт, запечатанный красным воском, завещание Катаручиа Савонарио пролежало в Государственном архиве Венеции более 650 лет. Для физика Фауцио Альбертина он оказался отличным объектом для эксперимента. Он захотел прочитать завещание, не открывая его: направил рентген на конверт, чтобы сфотографировать текст внутри. Затем, используя алгоритмы, он разделил шесть страниц в цифровом виде, чтобы разборчиво воспроизвести написанные от руки слова.

Команда Альбертина пока не знает до конца, что говорится в документе. Савонарио использовал старую форму итальянского языка, что немного осложнило процесс перевода. Однако эта техника должна помочь историкам изучать тексты, не повреждая физические объекты.

Альбертин участвует в разработке большего проекта под названием «Машина времени», цель которого – создать поисковую машину вроде Google, охватывающую 2000 лет европейской истории. Для этого исследователи планируют перевести в цифровой вид и организовать архивы европейских городов в одну базу данных, объясняет Фредерик Каплан, руководитель проекта. В итоге историки смогут сканировать библиотеки закрытых томов при помощи рентгеновских техник, отправлять сканы алгоритму распознавания текста, который разрабатывает команда, а он будет автоматически заносить текст в базу данных.

Каплан также надеется, что «машина времени» будет предлагать функцию отображения карт, где вы сможете рассматривать, например, парижские улицы XIX века – есть качественные аэрофотоснимки Парижа той эпохи. Чтобы отобразить город в разные времена, исследователи могут использовать искусственный интеллект. Огромная база данных позволит изучать общественные модели в течение более продолжительных периодов времени и при больших географических масштабах. Этот проект является частью нового тренда, когда все больше историков пытаются использовать информатику и анализ данных для извлечения новой информации из старых текстов.

Например, историк Хильде де Вердт и ее команда создали инструмент, который автоматически помечает имена, места и время в цифровых китайских и корейских текстах. Они разработали базу данных, чтобы программа могла подключаться к программному обеспечению для построения карт, и им было легче визуализировать, как люди и идеи перемещаются в пространстве и времени. Анализ данных защищает от субъективности – когда ученые выделяют только те случаи, которые им самим интересны.

Даже относительно простые проекты, основанные на данных, могут дать нам новое понимание истории. Историк Маирин МакКэррон вручную занесла 600 персонажей из текста VIII века «Церковная история народа англов» в огромную таблицу Excel. Вместе с командой она также записала каждое взаимодействие между персонажами. «У нас даже есть категория для посмертных взаимодействий. Поскольку это старые религиозные тексты, святые возвращаются к живым и творят чудеса», – объясняет она. В частности, МакКэррон интересуют взаимодействия женщин в тексте. В истории они часто служили «посредниками мира» – предотвращали конфликты, выходя замуж за руководителя соседнего государства.

Впрочем, не все историки уверены в преимуществах такого подхода. «Когда я решила использовать его, я думала, он будет куда мощнее, чем оказался на самом деле», – утверждает историк Михаль Биран, которая создала базу данных и отобразила в ней социальные взаимодействия в Монгольской империи в XIII-XIV веках. Проблемы Биран могут быть вызваны сложностью ее исходного материала. Поскольку монгольская письменность практически не дошла до нашего времени, она в основном изучает документы, написанные на языках монгольских подданных – японском, персидском и русском. В разных языках у персонажей разные имена, даже в одном языке имя одного и того же персонажа может отличаться. Чтобы правильно их разобрать, нужно тщательно изучать тексты и всю информацию потом отсортировать в аккуратные «цифровые коробки», объясняет Биран.

Тем не менее, даже если текст источника легко переводится в цифровой вид, все еще нельзя полностью полагаться на анализ данных. В конечном счете история основывается на текстах, и чем больше вы внедряете математических процессов, тем дальше вы отходите от них. Чтобы действительно понять тонкости первичных документов, нужно обладать специализированными историческими знаниями.

Источник