Резюме
Основное
Имя | Михаил Васильев |
Специальность | Data Scientist |
gnu.xinm@gmail.com | |
Телефон | +7 (916) 198-81-83 |
Телеграм | @LaHundo |
Сайт | https://onixlas.github.io/ |
О себе | Deep learning инженер. NLP, CV, anomaly detection. Организатор DS-сообщества. Победитель хакатонов. Open source contributor |
Работа
-
2023.01 - н. в. Москва, Россия
старший специалист по машинному обучению
Маквес Групп
Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных
Инструменты: python, transformers, EfficientNet, MobileNet, YOLO, PyOD, pySAD, pandas, sklearn, pytorch, lightning, catboost, numpy, matplotlib, plotly, huggingface, onnx, fastapi, uvicorn, pyinstaller, pywin32, optimum, airflow, mlflow, cvat, natasha, deeppavlov, BERT, whisper, Ollama
- реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
- подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, mAP@.5 улучшен с .89 до .94
- реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
- создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
- реализовал поиск чувствительных данных в аудио-файлах
- собрал и организовал разметку 8 датасетов для задач классификации и object detection
Пет-проекты
- 2024.05 - 2024.10
CheckDocAI
Телеграм-бот с ИИ модулем для контроля качества оформления документов
Инструменты: aiogram, yolo, onnx, albumentations, cvat
- руководил командой из двух дата-сайнтистов и бекенд-разработчика
- проект завершён и внедрён в коммерческую эксплуатацию
- ежемесячная экономия — 40 человеко-часов
Технологии
Deep Learning | |
PyTorch | |
Lightning | |
ONNX | |
HuggingFace | |
Optimum |
NLP | |
Ollama | |
Label Studio | |
transformers | |
deeppavlov | |
natasha | |
yargy parser |
Computer Vision | |
object detection | |
segmentation | |
autoencoders | |
UNet | |
YOLO | |
CVAT | |
OpenCV | |
PIL |
Anomaly Detection | |
PyOD | |
PySAD | |
ECOD | |
HBOS | |
iForest | |
Exact-STORM | |
Half-space Trees | |
RRCF |
Machine Learning | |
scikit-learn | |
CatBoost | |
XGBoost | |
faiss |
Data analysis | |
python | |
SQL | |
PostgreSQL | |
MySQL | |
pandas | |
polars |
Audio | |
whisper | |
hubert | |
Common Voice |
Data visualisation | |
seaborn | |
matplotlib | |
plotly |
MLOps & Deployment | |
MLFlow | |
AirFlow | |
Docker | |
Linux | |
FastAPI | |
pywin32 | |
uvicorn | |
pyinstaller |
Выступления
-
2024.06.25 Опыт обучения и применения нейросетей в качестве модуля российской DCAP системы
Moscow Python Meetup
Компания Makves (входит в группу компаний «Гарда») разрабатывает российскую DCAP (data-centric audit and protection) систему для защиты корпоративных данных. Для анализа неструктурированных данных необходимо применять нейросети. В докладе я рассказал о проблемах, с которыми мы столкнулись при создании нейросетей, от этапа сбора и разметки данных и до создания нескольких микросервисов.
Образование
-
2024.07 - 2024.10 Москва, Россия
-
2022.09 - 2023.03 Москва, Россия
-
2022.03 - 2022.11 Москва, Россия
-
2021.10 - 2022.03 Москва, Россия
повышение квалификации
Московский Авиационный Институт
Deep Learning
- Введение в искусственный интеллект и нейросети для авиационных приложений
-
2005.09 - 2008.05 Москва, Россия
-
2003.09 - 2009.02 Москва, Россия
Сертификаты
Асинхронный Python | ||
Stepik | 2024-09-22 |
Поколение Python. Курс для профессионалов | ||
Stepik | 2024-06-30 |
MLOps Bootcamp | ||
ФКН НИУ ВШЭ | 2023-10-20 |
Добрый, добрый Python ООП | ||
Stepik | 2023-05-21 |
SQL для Анализа Данных с Глебом Михайловым | ||
Stepik | 2022-11-06 |
Data Science с Глебом Михайловым | ||
Stepik | 2022-09-16 |
Feature Engineering | ||
Kaggle | 2022-06-30 |
Data Visualization | ||
Kaggle | 2022-06-26 |
Intermediate Machine Learning | ||
Kaggle | 2022-06-02 |
Основы статистики | ||
Stepik | 2022-06-02 |
Intro to Machine Learning | ||
Kaggle | 2022-05-28 |
Введение в Data Science и машинное обучение | ||
Stepik | 2022-04-16 |
Поколение Python. Курс для продвинутых | ||
Stepik | 2022-04-02 |
Языки
русский | |
родной |
английский | |
B2 |
немецкий | |
B2 |
эсперанто | |
B2 |