Защита данных клиентов страховой компании
Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.
Задача
Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы.
Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.
Ноутбук
Выводы
В рамках данного проекта нам нужно было защитить данные клиентов страховой компании «Хоть потоп». Для этого требовалось разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
При этом нужно было защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требовалось.
Нам доступен файл с данными 5000 клиентов. Пропусков данных в файле нет. Было обнаружено 153 явных дупликата, которые мы отбросили. Было установлено, что в колонке Возраст
тип данных можно изменить на целочисленный.
Был проведён небольшой исследовательский анализ данных. После устранения незначительной проблемы с определением типа данных в столбце Возраст
было установлено следующее:
- в данных содержатся записи о клиентах-женщинах и клиентах-мужчинах, причём их примерно поровну
- в данных содержится информация о клиентах возрастом от 18 до 65 лет, при этом значительной части клиентов от 24 до 37 лет
- распределение зарплат клиентов похоже на нормальное со средним около 40000 и стандартным отклонением около 10000. При этом корреляции зарплаты и возраста клиента не наблюдается, что даёт основания предполагать, что данные — синтетические
- у большинства клиентов до 2 членов семьи
- большинство клиентов не получают страховых выплат — целевой признак не сбалансирован, что необходимо будет учесть при построении моделей
- наблюдается значительная корреляция между возрастом клиента и количеством страховых выплат.
В рамках выполнения проекта мы математически показали, что при умножении матрицы признаков $X$ на обратимую матрицу $P$ качество линейной регрессии не изменяется. Для этого мы продемонстрировали, что после умножения $X$ на $P$ вектор предсказаний модели не изменяется.
На основании этого мы предложили следующий алгоритм защиты данных:
- Данные разделяются на обучающие признаки и целевой признак
- Создаётся случайная обратимая матрица
- Матрица обучающих признаков умножается на новую матрицу
Для проверки предложенного алгоритма мы создали две модели линейной регрессии. Первую модель обучили на обучающих признаках без изменений, вторую — на обучающих признаках, умноженных на случайную обратимую матрицу. Мы показали, что метрика $R_2$ у обоих регрессий не отличается, а значит у нас нет оснований полагать, что предложенный алгоритм защиты данных не работает.