Лев Матвеев, «СёрчИнформ»: «В анализе пользовательского поведения мы пошли своим путем»
Модуль автоматизированного профайлинга – инструмент для анализа пользовательского поведения, решающий задачу снижения риска человеческого фактора в информационной безопасности
Российская компания «СерчИнформ Профайлинг» разработала модуль автоматизированного профайлинга – инструмент для анализа пользовательского поведения, решающий задачу снижения риска человеческого фактора в информационной безопасности. В его основе лежит метод психолингвистики. В интервью «Умной стране» собственник компании Лев Матвеев рассказывает, как идея реализована технически, где находит применение кроме сферы ИБ и за счет каких технологий возможно повышение точности анализа программы.
- Ваш флагманский и наиболее известный продукт – DLP-система. Откуда взялась идея автоматизировать профайлинг?
- DLP-системы сегодня умеют очень много. Они защищают от утечек данных, собирают и анализируют максимум информации о сотрудниках, помогают проводить серьезные ретроспективные расследования корпоративного мошенничества и коррупции в компаниях и госорганизациях. Но это работа с инцидентами, которые уже произошли. У заказчиков, с которыми мы работаем, есть потребность работать превентивно – не допускать этих нарушений в принципе.
Все вендоры ищут технологии, которые могли бы прогнозировать пользовательское поведение. Мы не исключение. На одном из наших клиентских мероприятий представитель заказчика рассказывал, как использует в работе службы безопасности профайлинг. Мы заинтересовались и решили, что именно этот метод и может стать автоматизированным решением для прогнозирования инцидентов.
– Обычно, когда говорят про анализ пользовательского поведения, имеют в виду UEBA-технологии. Верно ли, что профайлинг и UEBA довольно близки друг другу по функционалу?
– Если ориентироваться на маркетинговые описания – да, если смотреть на реальный функционал – нет. UEBA – это сбор статистистических данных (например, кто сколько сообщений пишет) и составление корреляций на их основе. А профайлинг – это анализ психологии пользователя.
Принципы UEBA существуют несколько десятков лет. Такой метод показывает отклонение от типичного поведения пользователя. Например, если он вдруг начнет рассылать большое количество писем. Это классика поведенческого анализа, такие кейсы давно решаются DLP-системой или – в более сложных случаях – DLP совместно с SIEM. Так что не вижу смысла изобретать более дорогой велосипед из чисто маркетинговых соображений.
UEBA прекрасно сигнализирует, если за типовую картину «поведения» выходит оборудование. Покажет, если «взбесилось» железо: перезагружается через каждые 5 минут, перебирает пароли или обрабатывает какой-то скрипт. А для оценки человеческих рисков UEBA эффекта не имеет. Допустим, мы можем определить какое-то типичное поведение для бухгалтера. А для креативного дизайнера? Уже возникнет проблема. Но и на «типичное» поведение бухгалтера накладывают отпечаток эмоции, периоды подъема и спада, факторы внешней среды.
Мы не роботы, и чтобы проводить поведенческий анализ человека нужна не статистика. Нужно смотреть на психологию человека, что делает профайлинг. Так что в анализе пользовательского поведения мы пошли своим путем.
- Расскажите тогда подробнее, что составляет суть профайлинга?
- Это инструмент нетестовой диагностики человека, основан на научных методах психолингвистики. Профайлинг имеет большую историю, появился еще в 1960-е гг. в полиции Израиля на очередной волне терактов. Его активно применяли в аэропортах – силовики оценивали эмоции пассажиров по их микровыражениям лиц, речи и стремились выявить преступные намерения. Кстати, в России эту практику также перенимали, в частности, в аэропорту Домодедово.
Но с тех пор профайлинг продвинулся и стал использоваться гораздо шире: для разоблачения мошенничества, управления кадровой безопасностью, принятия управленческих решений. Метод старый и завоевавший признание. Нашей задачей было его автоматизировать.
- Как профайлинг работает в автоматизированном формате?
- ProfileCenter – один из модулей нашей DLP-системы. Из системы программа забирает тексты, которые пишет пользователь в неформальном общении, «вытаскивает» из них значимую информацию, очищая ее от словесного «шума» и оценивает текст по более чем 70 критериям. Модуль отмечает стиль коммуникации, ценностную позицию автора, его отношение к предмету разговора и т.д.
В результате анализа ProfileCenter создает профиль по каждому человеку: сильные и слабые стороны личности, базовые эмоции человека, отношение к происходящему, роль в коллективе, криминальные тенденции и так далее. Все эти данные представлены в графическом виде, с ними удобно работать. Но главное – профиль не создается раз и навсегда, программа регулярно его обновляет. Если происходят важные изменения в проявлениях сотрудника, которые важны для соблюдения политик безопасности, система об этом сигнализирует.
- А кто у вас в компании отвечает за научную часть разработки?
- Алексей Филатов – профессиональный профайлер, ученый. У него есть вес и в академической, и в корпоративной среде. В команде он сформировал новый подход к анализу. Изначально мы отрабатывали предположение, что под каждый психотип нужно создать лексический словарь. Алексей отверг гипотезу, потому что это далеко не первый по значимости фактор. Важнее не что говорит человек, а как строит фразы, какую морфологию использует, какие части речи.
Под его руководством было сформировано техническое задание для разработчиков. Мы дорабатывали формулу: брали накопленные переписки собственных сотрудников, прогоняли их через программу, собирали статистику, снова корректировали формулу.
- Какие задачи в процессе разработки было особенно сложно решить?
- Было сложно понять, что такое «шум» в тексте. В результате долгой работы пришли к выводу, что шум – это цифры, слова на латинице, опечатки, картинки, сокращения, лишние знаки препинания, копипасты. Вся эта информация для анализа незначима.
Ещё одна сложность заключалась в том, чтобы вычленить из переписки неформальное общение и анализировать тексты, в которых сотрудник выходит за рамки профессиональных и должностных обязанностей. Первый источник, который мы подключили к модулю, — почта. Это был неудачный эксперимент, потому что люди пишут письма в сухом деловом стиле, профиль выстраивался некорректно.
- Как вы верифицировали результаты?
- Прежде чем выпускать модуль в коммерческий релиз, мы протестировали его, что называется, в боевых условиях на собственной компании и на нескольких крупных клиентах, которые хотели попробовать ProfileCenter первыми. Чем больше выборка — тем лучше результат. Данные сравнивали с результатами тестирований и профайлами, которые по людям вручную выстраивали профессиональные профайлеры – Иван Бируля и Алексей Филатов.
Ещё приходилось проводить много тестов на минимальное количество лемм (неизменная исходная форма слова), на котором можно было проводить адекватный и точный анализ текста. Начинали с 50–60 тысяч лемм, уменьшали с шагом в 5 000. В итоге пришли к выводу, что минимальное достаточное количество для анализа — 20 000 лемм.
Получили положительные результаты испытаний, отзывы клиентов и только потом выпустили модуль на рынок. Точность результатов готового модуля профайлинга мы оцениваем в 75–80%. Это очень хорошие цифры для решения задач бизнеса. Но мы продолжаем работу над повышением точности.
- А что препятствует?
- Каждый следующий процент точности расчёта даётся со всё большим трудом. Остались красные флажки, за которые мы пока не можем выйти. Чтобы создать психологический портрет максимально качественно, нужно 2–4 модальности: текст, мимика, интонации. Когда мы добавим в модуль анализ голоса, социальных сетей, клавиатурного почерка, качество реализации будет ещё лучше. Дальнейшее повышение точности может быть достигнуто за счёт подключения дополнительных модальностей. Сейчас мы тестируем клавиатурный подчерк.
- Каковы сферы применения профайлинга?
- Мы в первую очередь ориентировались на сферу безопасности. Например, в ситуациях, когда случился инцидент, но у службы безопасности нет зацепок, круг подозреваемых велик, а времени на расследование мало. Или когда в компании проходит реорганизация и нужно отслеживать атмосферу в коллективе.
Но на практике применение оказалось еще шире. ProfileCenter решает кадровые, управленческие задачи. Подсказывает, кого повышать, кто в коллективе потянет дополнительную ответственность, а кто — нет и т. д. Это особенно полезно в больших компаниях.
Первый же наш клиент — НПО «САУТ» — делился, что купил модуль не только для функции контроля, но и для HR-задач. Они собирают информацию, чтобы сформировать эффективные команды для командировок, чтобы оценивать сотрудников, рассматриваемых руководством к повышению. Наши последние обновления дают возможность создавать рейтинги сотрудников по разным качествам, так что руководитель получает фактически готовый список кадрового резерва.
Я сам как руководитель вижу большую пользу от профайлинга, в компании мы его, конечно, тоже используем на все сто. Я часто вспоминаю кейс из прошлого. Тогда я повысил отличного программиста до начальника отдела. В итоге работник не справился с новыми задачами и уволился. Я потерял разработчика и не приобрел руководителя. Будь у меня профайлинг, было бы видно, насколько программист справится с ролью управленца.
- Как дальше будет развиваться продукт?
- Пока идёт работа над усовершенствованием отчётов. Сейчас модуль может формировать около 78 000 вариантов расширенных профилей сотрудников, умеет определять риск-рейтинг пользователя, находить корреляции с инцидентами и поведением человека. До конца года планируем релиз профайлинга на английском языке. Далее – на испанском и португальском. Мы очень быстро выпустили продукт в коммерческий релиз. Занимаясь патентом ProfileCenter, мы узнали, что в США была подобная разработка несколько лет назад. Там компания для анализа использовала всего три критерия, мы – больше 70. Не знаю, что в их реализации пошло не так, но зная, как американцы умеют все монетизировать, я делаю вывод, что мы ушли вперед. Первые продажи показали, что программа востребована. Кроме того, мы получили признание и на государственном уровне – «КИБ Серчинформ ProfileCenter» в 2018 году признан лучшим решением для повышения информационной безопасности на конкурсе «Цифровые вершины».