Научные сотрудники Курчатовского института разработали математическую модель для анализа текстов, которые публикуют в социальных сетях. С помощью алгоритмов ученые смогут определить пол и возраст автора с вероятностью до 80%, даже если он пытается скрыть его.
Модель учитывает лингвистические особенности написания текста, речевые обороты, часто используемые слова, общую грамотность и другие характеристики.
Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах. Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.
Александр Сбоев
Научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий
Специалисты отмечают, что злоумышленники активно используют интернет для совершения киберпреступлений. Таким образом, анализ текстов станет значимым методом сбора информации о преступниках, а также снизит безнаказанность так называемых «троллей». Кроме того, модель будет использована в работе над более фундаментальной проблемой — распознаванием вероятности возникновения различных массовых социально опасных событий.
В ближайшее время исследователи обучат алгоритмы, которые будут распознавать образование и профессию автора.