Исследование технологического процесса очистки золота

Строится модель машинного обучения для промышленной компании, разрабатывающая решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Задача

Задача данного проекта — подготовить прототип модели машинного обучения для компании «Цифра». Компания разрабатывает решения для эффективной работы промышленных предприятий.

Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используются данные с параметрами добычи и очистки.

Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Ноутбук

(ноутбук проекта)

Выводы

Были получены данные по процессу восстановления золота из руды. В ходе предварительного анализа в данных были выявлены и исправлены незначительные проблемы.

Была проверена правильность расчёта в обучающей выборке эффективности обогащения золота после флотации.

Был проведён анализ полученных данных для выявления общих закономерностей технологического процесса и проверки готовности данных для моделирования. Нами установлено, что

  • концентрация золота на каждом последующем этапе обработки увеличивается
  • концентрация серебра увеличивается после флотации, но уменьшается после первичной и вторичной очистки
  • концентрация свинца увеличивается вплоть до вторичной очистки, вторичная очистка практически не влияет на концентрацию свинца
  • распределения размеров гранул сырья в обучающей и тестовой выборках не имеют существенных отличий
  • суммарная концентрация серебра, свинца и золота на протяжении всего технологического процесса понижается.

Наконец, были обучены пять моделей, предсказывающих значения целевых параметров. Для моделей были подобраны гипер-параметры, обеспечивающие наилучшие значения метрики на кросс-валидации. Затем для каждой модели была рассчитана метрика sMAPE на тестовых данных.

Модель Значение sMAPE
Случайный лес 8.26
$k$-ближайших соседей 7.40
Линейная регрессия 7.70
Лассо 6.37
CatBoost 7.02

Наилучшее значение метрики удалось получить для линейной модели Лассо, которую рекомендуется применять на производстве.