Финансовый университет при правительстве РФ
студент
Дюдин Михаил Сергеевич, доцент, старший преподаватель кафедры «Математика и информатика», Финансовый Университет при Правительстве РФ, Краснодарский филиал
УДК 004.415.53
Введение.
Сейчас в банках всё активнее применяют инструменты для анализа, чтобы лучше понимать рынок, управлять рисками и эффективнее работать с клиентами.[1, с. 1] У банков есть данные о своих клиентах: от возраста и пола до истории всех платежей, как они пользуются мобильными приложениями и что отвечают на рекламные предложения.[2, с. 3]
Актуальность.
Когда банк может предсказать, что людям понадобится — кредитные карты, займы или вклады — ему становится проще планировать рекламу и предлагать клиентам именно то, что им нужно.[3, с. 45]
Также для таких расчетов чаще всего использовали обычные статистические методы — например регрессию или моделей, которые смотрят на данные во времени. Но по мере того, как банковских данных становилось всё больше и они усложнялись, эти методы уже не справлялись так хорошо.
Им на смену пришли методы машинного обучения, особенно нейронные сети.[4, с. 112] Они умеют находить сложные связи между разными показателями и дают более точные предсказания.
Цели и задачи.
В банковском деле нейронные сети решают такие задач как:
Машинное обучение помогает банкам разбираться с огромными массивами клиентских данных и создавать модели.
Результаты.
Чаще всего применяют машинное обучение в банках:
Для всего этого применяют как старые, проверенные алгоритмы, так и новейшие виды нейронных сетей. Какую именно модель выбрать, зависит от того, как устроены данные и что именно нужно решить.
|
Модель |
Тип данных |
Основное приложение |
|
Логистическая регрессия |
Структурированные табличные |
Кредитный рейтинг, прогноз отклика |
|
Градиентный бустинг (XGboost, LightGBM и CatBoost) |
Структурированные |
Прогноз спроса |
|
MLP |
Табличные |
Сегментация клиентов |
|
LSTM |
Временные ряды |
Анализ транзакций |
|
Transformer |
Последовательности данных |
Поведенческий анализ |
Если надо что-то разложить по разным группам, часто берут логистическую регрессию.[3, с. 78] Этот способ очень любят в аналитике, ведь его просто использовать, что самое важное – все сразу становится ясным и понятным. Вот почему банки так часто выбирают логистическую регрессию, когда им что-то надо посчитать.
Суть логистической регрессии в том, что она вычисляет, с какой вероятностью данные попадет в ту или иную группу. Допустим, если надо угадать спрос, модель покажет, насколько велика вероятность, что клиент примет предложение банка или, наоборот, скажет «нет». Самое важное тут – это прозрачность: сразу понятно, как каждый элемент информации повлиял на окончательное решение. Аналитики видят не просто «да» или «нет», а понимают, почему программа решила именно так.
Но чтобы вычислять еще точнее, нынешние банки все чаще берут в работу так называемые ансамблевые методы. Их идея в том, чтобы собрать вместе прогнозы сразу от нескольких моделей, тогда итоговый ответ будет куда надежнее.
Одним из наиболее распространённых и эффективных методов машинного обучения, применяемых в современных аналитических системах, является градиентный бустинг. Алгоритмы семейства XGBoost, LightGBM и CatBoost получили широкое распространение в банковской сфере и стали стандартным инструментом для решения задач оценки рисков, кредитного скоринга и прогнозирования.[5, с. 240] Их популярность обусловлена высокой точностью моделей, а также способностью эффективно обрабатывать «зашумлённые» и неполные данные, содержащие случайные ошибки, пропуски или неточности. Особенно эффективно градиентный бустинг проявляет себя при анализе структурированных (табличных) данных, где он позволяет выявлять сложные, нелинейные и неочевидные взаимосвязи между различными признаками, что существенно повышает качество прогнозов и принятия решений в финансовой аналитике.
Есть еще усовершенствованный инструмент – это полносвязные нейронные сети, или просто MLP. Они лежат в основе многих нынешних способов разбора данных. В банках MLP применяют, чтобы что-то рассортировать или предсказать, особенно когда на входе много всяких разных данных. Например, с их помощью прикидывают, насколько вероятно, что клиент откликнется на какую-нибудь рекламную акцию. MLP здорово справляются с табличными данными, находя там непростые связи между разными элементами. Но чтобы они работали как надо, данные нужно очень тщательно подготовить: привести к общему виду, перевести текст в цифры, заполнить пропуски и выбрать самые важные моменты.
Научная новизна.
В отличие от программ, которые работают с данными, что не меняются, рекуррентные нейронные сети (RNN) специально сделаны для того, чтобы разбирать последовательности, где очень важен порядок происходящего. Самый известный из них – это LSTM. Такие сети умеют запоминать, что было раньше, и учитывать это, когда анализируют то, что происходит сейчас. В банках это помогает очень подробно смотреть, как меняются привычки клиентов: например, изучать историю их платежей или следить за тем, что они делают в онлайн-банке.
К самым новым и современным инструментам можно отнести трансформеры. Сначала их придумали для работы с языком, и они совершили настоящий прорыв благодаря своей «системе внимания»: теперь можно сразу проанализировать всю длинную последовательность и найти в ней самые главные части для предсказания. В финансовой сфере трансформеры помогают разбирать длинные цепочки событий в поведении клиента, находя скрытые связи между его действиями, даже если эти действия происходили в разное время.
Какой инструмент выбрать, всегда зависит от того, какие у тебя данные и какую задачу надо решить. MLP лучше всего работают с упорядоченными табличными данными (например, с информацией о клиентах), LSTM очень нужны, когда анализируют последовательности (вроде истории платежей или действий в онлайн-банке), а трансформеры хороши, когда надо одновременно обрабатывать и очень глубоко изучать сложное поведение.
В банковской сфере трансформеры могут применяться для:
Но внедрить эти современные программы для анализа – это не только выбрать нужный алгоритм. Банки сталкиваются с несколькими серьезными трудностями:
Качество данных: часто бывает, что информация разбросана по разным системам, и собрать все это в одно целое – задача не из легких.
Прозрачность: если программа отказывает клиенту (например, в кредите), но не может объяснить, почему, то это может обернуться юридическими проблемами и подорвать доверие.
Затраты: чтобы научить сложные модели работать, нужно дорогое оборудование и толковые специалисты, а таких на рынке не так уж много.
Заключение.
Исследования показывают: новые программы намного точнее предсказывают спрос, чем старые способы. Если надо что-то рассортировать, по-прежнему впереди градиентный бустинг и MLP, а вот для изучения того, как меняется поведение клиентов, без LSTM и трансформеров уже не обойтись. Благодаря этим инструментам банки могут не только тратить меньше на рекламу, но и строить долгие и хорошие отношения с клиентами, предлагая им именно то, что им нужно.
Комментарии пользователей:
Оставить комментарий