Резюме
Основное
| Имя | Михаил Васильев |
| Специальность | Data Scientist |
| gnu.xinm@gmail.com | |
| Телефон | +7 (916) 198-81-83 |
| Телеграм | @LaHundo |
| Сайт | https://onixlas.github.io/ |
| О себе | Senior ML-инженер, специализируюсь на внедрении deep learning решений (NLP, CV, anomaly detection) в enterprise-среду. Создаю production-системы для защиты данных, автоматизации и анализа неструктурированной информации. Опыт в лидировании команд, организации DS-сообщества и публичной экспертизе (PHDays, Moscow Python Meetup). |
Работа
-
2025.07 - н. в. Москва, Россия
-
2023.01 - 2025.07 Москва, Россия
старший специалист по машинному обучению
Makves
Проект: разработка и внедрение RAG-системы
Инструменты: LangChain, Ollama, Saiga, GigaChat, HuggingFace, FastAPI, Ragas
- разработал и внедрил RAG-систему для автоматизации обработки запросов заказчиков
- оптимизировал гиперпараметры системы с использованием библиотеки Ragas и LLM GigaChat
Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных
Инструменты: HuggingFace, YOLO, PyOD, Pandas, Sklearn, PyTorch, Lightning, NumPy, ONNX, FastAPI, Uvicorn, PyInstaller, Optimum, CatBoost, CVAT, natasha, BERT
- реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
- подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, mAP@.5 улучшен с .89 до .94
- реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
- создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
- реализовал поиск чувствительных данных в аудио-файлах
- собрал и организовал разметку 8 датасетов для задач классификации и object detection
Пет-проекты
- 2024.05 - 2024.10
CheckDocAI
Телеграм-бот с ИИ модулем для контроля качества оформления документов для ООО «Гольфстрим», позволяет значительно сократить время на проверку и улучшить точность.
Инструменты: aiogram, YOLO, ONNX, Albumentations, CVAT
- Руководил командой из двух дата-сайентистов и бекенд-разработчика, отвечал за разработку и внедрение проекта.
- Проект успешно внедрён в коммерческую эксплуатацию, ежемесячная экономия — 40 человеко-часов.
Технологии
| Generative AI / LLM Engineering | |
| RAG | |
| LangChain | |
| Ollama | |
| GigaChat | |
| Qwen | |
| Ragas | |
| Prompt Engineering |
| Vector Databases & Semantic Search | |
| FAISS | |
| Qdrant | |
| Milvus | |
| sentence-transformers | |
| embedding models | |
| similarity search |
| Deep Learning & Transformers | |
| PyTorch | |
| Lightning | |
| Hugging Face Transformers | |
| BERT | |
| ONNX | |
| Optimum |
| Computer Vision | |
| YOLO | |
| U-Net | |
| OpenCV | |
| CVAT | |
| Albumentations |
| Anomaly Detection | |
| PyOD | |
| RRCF | |
| Isolation Forest | |
| ECOD | |
| HBOS | |
| PySAD |
| Machine Learning & Ensembles | |
| scikit-learn | |
| CatBoost | |
| XGBoost |
| Natural Language Processing (NLP) | |
| NER | |
| natasha | |
| text classification | |
| information extraction |
| Speech & Audio Processing | |
| Whisper | |
| HuBERT | |
| Common Voice |
| Data Engineering & Analysis | |
| pandas | |
| polars | |
| SQL | |
| PostgreSQL | |
| MySQL |
| MLOps & Production Deployment | |
| Docker | |
| FastAPI | |
| Uvicorn | |
| MLflow | |
| Airflow | |
| Linux | |
| PyInstaller |
Выступления
-
2025.05.24 Поиск аномалий с использованием Python: от теории к практике
Positive Hack Days
Доклад «Поиск аномалий с использованием Python: от теории к практике» представляет обзор ключевых алгоритмов обнаружения аномалий, их сильных и слабых сторон, и демонстрирует практическую ценность подхода на примере из области корпоративной безопасности.
-
2025 Серия докладов: Поиск аномалий в данных, алгоритмы
Moscow Python Meetup
В серии докладов наглядно описываются принципы работы основных алгоритмов поиска аномалий: HBOS, ECOD, Isolation Forest, PCA, kNN и LOF.
-
2024 NLP и CV нейросети в защите данных: опыт Makves DCAP
Moscow Python Meetup
В этом докладе я расскажу, как мы использовали алгоритмы CV и NLP для улучшения DCAP системы компании Makves, преодолевая вызовы обработки неструктурированных данных и продуктивизации моделей. Доклад будет полезен как пример реального внедрения нейросетей в работающий продукт.
Образование
-
2024.07 - 2024.10 Москва, Россия
-
2022.09 - 2023.03 Москва, Россия
-
2022.03 - 2022.11 Москва, Россия
-
2021.10 - 2022.03 Москва, Россия
повышение квалификации
Московский Авиационный Институт
Deep Learning
- Введение в искусственный интеллект и нейросети для авиационных приложений
-
2005.09 - 2008.05 Москва, Россия
-
2003.09 - 2009.02 Москва, Россия
Языки
| русский | |
| родной |
| английский | |
| B2 |
| немецкий | |
| B2 |
| эсперанто | |
| B2 |