Это должно упростить поиск информации о предках и ускорить работу с генеалогическими документами
Это должно упростить поиск информации о предках и ускорить работу с генеалогическими документами
Семья 3.0
отправить
Задать вопрос
по материалу
 

«Яндекс» научил поиск по архивам распознавать роли людей в документах

Это должно упростить поиск информации о предках и ускорить работу с генеалогическими документами

Сервис «Яндекс» «Поиск по архивам» получил обновлённую модель распознавания исторических документов. Теперь система не только извлекает текст из архивных записей, но и структурирует содержащиеся в них данные — определяет роли участников событий и связи между людьми. Это должно упростить поиск информации о предках и ускорить работу с генеалогическими документами.

Ранее пользователям приходилось искать нужные сведения среди всех упоминаний в документе, включая даты, служебные пометки и имена свидетелей. После обновления сервис позволяет фильтровать данные по типу события и роли человека в записи. Например, в документах о рождении можно искать отдельно «родившегося», «отца» или «мать», а в свидетельствах о браке — «жениха», «невесту» или «свидетеля».

В компании отмечают, что обновлённый сервис работает на собственной мультимодальной модели, способной одновременно анализировать текст и изображения. За счёт глубокого понимания русского языка разработчикам удалось сократить объём специализированной обучающей выборки и ускорить дообучение системы под задачи архивного поиска.

Качество модели оценивалось по способности находить человека по ФИО в архивных документах. Средняя точность поиска составила 90,5%. Наиболее высокий результат система показала при работе с записями о рождении — 92,7%. Для документов о браке показатель достиг 89,7%, о смерти — 87,2%.

«Поиск по архивам» — сервис «Яндекса» для работы с историческими документами XVIII–XX веков. В его базе содержится более 20 млн страниц материалов из архивов Москвы, Московской, Оренбургской, Вологодской, Иркутской, Астраханской и других областей. Кроме того, система индексирует более 200 дореволюционных и советских газет, а также справочники и другие источники.

 

Фото предоставлено внешней пресс-службой Яндекс.


Подпишитесь на рассылку «Умной Страны»
Подписаться