Михаил Васильев

Портфолио Data Science проектов

Project maintained by onixlas Hosted on GitHub Pages — Theme by mattgraham

Обо мне

Привет. Меня зовут Михаил Васильев. Я — Data Scientist. Здесь вы можете ознакомится с некоторыми моими учебными проектами.

Большой опыт применения моделей глубокого обучения для решения задач CV и NLP. Также обучал классические ML-модели для задач anomaly detection в различных контекстах.

Закончил Яндекс Практикум и Deep learning school ФПМИ МФТИ.

Мне нравится работать с данными, читать научные статьи, экспериментировать, пробовать различные подходы в обучении ML-моделей, строить графики.

Въедливый, умею замечать небольшие логические ошибки, обожаю интеллектуальные игры, с удовольствием изучаю иностранные языки.

Контакты:

Почта: gnu.xinm@gmail.com
Telegram: @LaHundo

Используемые технологии: python, transformers, EfficientNet, MobileNet, YOLO, PyOD, pandas, sklearn, pytorch, lightning, numpy, matplotlib, plotly, huggingface, onnx, fastapi, uvicorn, pyinstaller, pywin32, optimum, airflow, mlflow, cvat, natasha, deeppavlov, BERT, whisper, Ollama

Профессиональный опыт:

2023—н.в. Маквес, старший специалист по машинному обучению
2012—2023 ОКБ Сухого, ведущий инженер 3 класса

Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных

Задачи:

создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, повысил метрику mAP@.5 с .89 до .94
реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
реализовал поиск чувствительных данных в аудио-файлах
организовал сбор и разметку 8 датасетов для задач классификации и object detection

Выступления

Мероприятие	Тема
Moscow Python Meetup 91 (2024)	Опыт обучения и применения нейросетей в качестве модуля российской DCAP-системы

Статьи

Хабр: Опыт реализации нейросетевого модуля российской DCAP-системы

Подкасты со мной

Подкаст	Тема
Deep Learning Stories	Как войти в айти и создать коммьюнити (VK-видео) (Apple Podcasts)

Pet-проекты

Репозиторий	Описание
Телеграм-бот с ИИ модулем для контроля качества оформления документов	Телеграм-бот помогает пользователям проверить корректность и полноту оформления Актов проверки работоспособности системы автоматической пожарной сигнализации (АПС).

Хакатоны

Kaggle

ML for Big Derby (коллективный проект)

Дипломы и сертификаты

Проекты Школы глубокого обучения МФТИ

NLP и обработка аудио

Проект Задачи проекта

6. Языковое моделирование В данном проекте мы будем заниматься языковым моделированием. Обучим несколько нейросетевых моделей предсказывать слова на основе предыдущего текста. Такие модели можно использовать и для генерации новых текстов, что мы также продемонстрируем.

5. Классификация текстов На этот раз нам предстоит решить задачу классификации текстов. Мы будем использовать набор данных ag_news. Это датасет для классификации новостей на 4 темы: World, Sports, Business, Sci/Tech. Посмотрим, как с такой задачей справятся рекуррентные нейросети.

Проект	Задачи проекта
6. Языковое моделирование	В данном проекте мы будем заниматься языковым моделированием. Обучим несколько нейросетевых моделей предсказывать слова на основе предыдущего текста. Такие модели можно использовать и для генерации новых текстов, что мы также продемонстрируем.
5. Классификация текстов	На этот раз нам предстоит решить задачу классификации текстов. Мы будем использовать набор данных `ag_news`. Это датасет для классификации новостей на 4 темы: World, Sports, Business, Sci/Tech. Посмотрим, как с такой задачей справятся рекуррентные нейросети.

Computer Vision

Дипломный проект

Проект	Задачи проекта
Распознавание лиц	В этом проекте мы будем решать задачу распознавания лиц. Мы обучим нейросеть и поиграем с различными функциями потерь и метриками. Обучение будем производить на наборе данных CelebA dataset.

Учебные проекты

Проект	Задачи проекта
4. GAN	Мы обучим нейросеть генерировать лица людей и посмотрим на то, как можно оценивать качество генерации. В качестве обучающей выборки возьмём датасет Flickr-Faces.
3. Автокодировщики	В данном проекте наша задача — написать и обучить несколько вариантов автокодировщиков, оценить их свойства и применимость для различных задач. Для этого мы будем использовать датасеты лиц (LFW) и цифр (MNIST). Во всех случаях мы будем применять достаточно простые свёрточные архитектуры и латентные вектора малых размеров, чтобы полученные результаты были более наглядными.
2. Семантическая сегментация	Мы будем решить задачу сегментации медицинских снимков. В нашем распоряжении датасет ADDI project. В нём содержатся фотографии различных поражений кожи: меланомы и родинок. Однако мы будем заниматься не классификацией, а сегментацией изображений, т.е. разделением изображений на несколько сегментов для упрощения последующего анализа и обработки. Проще говоря, нам необходимо обучить модель, которая сможет для каждого пикселя исходного изображения определить: изображена на нём родинка, либо просто участок кожи.
1. Классификация изображений	Сегодня нам предстоить помочь телекомпании FOX в обработке их контента. Как известно, сериал «Симпсоны» идет на телеэкранах более 25 лет, и за это время скопилось очень много видеоматериала. Персоонажи менялись вместе с изменяющимися графическими технологиями, и Гомер Симпсон-2023 не очень похож на Гомера Симпсона-1989. В этом задании нам необходимо классифицировать персонажей, проживающих в Спрингфилде.

Проекты Яндекс-Практикума

Дипломный проект

Проект	Задачи проекта
Промышленная обработка стали	Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Нам предстоит построить модель, которая предскажет температуру стали.

Проект

Задачи проекта

Промышленная обработка стали

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Нам предстоит построить модель, которая предскажет температуру стали.

Портфолио ML- и DL-проектов

Проект	Задачи проекта
9. Определение возраста по фотографиям	Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста.
8. Обучение модели классификации комментариев	Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Требуется инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
7. Прогнозирование количества заказов такси на следующий час	Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания.
6. Построение модели определения стоимости автомобиля	Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. На основе исторические данные необходимо построить модель для определения стоимости автомобиля.
5. Защита данных клиентов страховой компании	Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.
4. Исследование технологического процесса очистки золота	Строится модель машинного обучения для промышленной компании, разрабатывающая решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
3. Определение наиболее выгодного региона нефтедобычи	Нам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Необходимо построить модель для определения региона, где добыча принесёт наибольшую прибыль.
2. Прогнозирование оттока клиента банка	Из банка стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
1. Классификаиция клиентов телеком компании	Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям один из новых тарифов.

Портфолио DA-проектов

Проект	Задачи проекта
5. Выявление закономерностей, влияющих на успешность игр	Используя файл с историческими данными о продажах игр, оценках пользователей и экспертов, жанрами и платформами (например, Xbox или PlayStation) выявить определяющие успешность игры закономерности
4. Определение выгодного тарифа для телеком компании	На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа
3. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости	Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир
2. Исследование надёжности заёмщиков — анализ банковских данных	На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок
1. Исследование данных сервиса “Яндекс.Музыка” — сравнение пользователей двух городов	На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга