Определение наиболее выгодного региона нефтедобычи

Нам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Необходимо построить модель для определения региона, где добыча принесёт наибольшую прибыль.

Задача

Допустим, мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Нам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Построим модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируем возможную прибыль и риски техникой Bootstrap.

Ноутбук

(ноутбук проекта)

Выводы

В рамках данного проекта методы машинного обучения были применены для получения рекомендаций по выбору перспективного региона для разработки новых месторождений.

Выбор производился из трёх регионов. Для каждого региона были созданы и обучены модели, предсказывающие объём запасов по признакам $f_0$, $f_1$, $f_2$. Для регионов 0, 1, 2 были получены предсказания моделей для тестовых выборок. Средние предсказанные запасы сырья по регионам и корни среднеквадратичных ошибок (RMSE) представлены в таблице ниже:

Регион Среднее предсказанных запасов RMSE
0 92.5 37.7
1 68.3 0.9
2 94.9 40.2

Для региона 1 метрика RMSE довольно низка, что ожидаемо, если принять во внимание обнаруженную ранее сильную корреляцию переменных product и $f_2$.

Был рассчитан пороговый уровень объёма запасов в одной скважине, при котором разработка этой скважины становится экономически оправданной (прибыль покрывает все затраты на разработку). При этом было показано, что средние предсказанные объёмы запасов в регионах 0, 1, 2 меньше, чем рассчитанное пороговое значение. А следовательно, чтобы разработка новых скважин была экономически эффективна, необходимо тщательно отбирать кандидатов для разработки.

Мы также применили методику Bootstrap для прогнозирования прибыльности разработки месторождений в регионах 0, 1 и 2. Полученные выборки в соответствии с центральной предельной теоремой стремятся к нормальному распределению. В результате были получены следующее оценки средней прибыли и вероятности получения убытка при разработке 200 новых месторождений в регионе:

Регион Прогноз средней прибыли Прогноз вероятности убытка
0 0.41 млрд. руб. 7.4 %
1 0.44 млрд. руб. 2.2 %
2 0.38 млрд. руб. 7.8 %

Видно, что в регионе 1 прогноз средней прибыли выше, а прогноз вероятности получения убытка меньше. Исходя из этого можно рекомендовать регион 1 для разработки новых месторождений. Однако следует помнить, что на этапе исследовательского анализа данных мы обнаружили возможную «протечку» данных, что могло исказить разработанную модель, а также оценки прибыли и убытка.

На основе полученных данных рекомендуется выбрать для разработки новых месторождений регион 1, так как в нём вероятность получения убытка ниже, чем в регионах 0 и 2, а прогноз средней прибыли — выше.