Определение наиболее выгодного региона нефтедобычи
Нам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Необходимо построить модель для определения региона, где добыча принесёт наибольшую прибыль.
Задача
Допустим, мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.
Нам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Построим модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируем возможную прибыль и риски техникой Bootstrap.
Ноутбук
Выводы
В рамках данного проекта методы машинного обучения были применены для получения рекомендаций по выбору перспективного региона для разработки новых месторождений.
Выбор производился из трёх регионов. Для каждого региона были созданы и обучены модели, предсказывающие объём запасов по признакам $f_0$, $f_1$, $f_2$. Для регионов 0, 1, 2 были получены предсказания моделей для тестовых выборок. Средние предсказанные запасы сырья по регионам и корни среднеквадратичных ошибок (RMSE) представлены в таблице ниже:
Регион | Среднее предсказанных запасов | RMSE |
---|---|---|
0 | 92.5 | 37.7 |
1 | 68.3 | 0.9 |
2 | 94.9 | 40.2 |
Для региона 1 метрика RMSE довольно низка, что ожидаемо, если принять во внимание обнаруженную ранее сильную корреляцию переменных product и $f_2$.
Был рассчитан пороговый уровень объёма запасов в одной скважине, при котором разработка этой скважины становится экономически оправданной (прибыль покрывает все затраты на разработку). При этом было показано, что средние предсказанные объёмы запасов в регионах 0, 1, 2 меньше, чем рассчитанное пороговое значение. А следовательно, чтобы разработка новых скважин была экономически эффективна, необходимо тщательно отбирать кандидатов для разработки.
Мы также применили методику Bootstrap для прогнозирования прибыльности разработки месторождений в регионах 0, 1 и 2. Полученные выборки в соответствии с центральной предельной теоремой стремятся к нормальному распределению. В результате были получены следующее оценки средней прибыли и вероятности получения убытка при разработке 200 новых месторождений в регионе:
Регион | Прогноз средней прибыли | Прогноз вероятности убытка |
---|---|---|
0 | 0.41 млрд. руб. | 7.4 % |
1 | 0.44 млрд. руб. | 2.2 % |
2 | 0.38 млрд. руб. | 7.8 % |
Видно, что в регионе 1 прогноз средней прибыли выше, а прогноз вероятности получения убытка меньше. Исходя из этого можно рекомендовать регион 1 для разработки новых месторождений. Однако следует помнить, что на этапе исследовательского анализа данных мы обнаружили возможную «протечку» данных, что могло исказить разработанную модель, а также оценки прибыли и убытка.
На основе полученных данных рекомендуется выбрать для разработки новых месторождений регион 1, так как в нём вероятность получения убытка ниже, чем в регионах 0 и 2, а прогноз средней прибыли — выше.