Резюме

Основное

Имя Михаил Васильев
Специальность Data Scientist
Email gnu.xinm@gmail.com
Телефон +7 (916) 198-81-83
Телеграм @LaHundo
Сайт https://onixlas.github.io/
О себе Senior ML-инженер, специализируюсь на внедрении deep learning решений (NLP, CV, anomaly detection) в enterprise-среду. Создаю production-системы для защиты данных, автоматизации и анализа неструктурированной информации. Опыт в лидировании команд, организации DS-сообщества и публичной экспертизе (PHDays, Moscow Python Meetup).

Работа

  • 2025.07 - н. в.

    Москва, Россия

  • 2023.01 - 2025.07

    Москва, Россия

    старший специалист по машинному обучению
    Makves

    Проект: разработка и внедрение RAG-системы

    Инструменты: LangChain, Ollama, Saiga, GigaChat, HuggingFace, FastAPI, Ragas

    • разработал и внедрил RAG-систему для автоматизации обработки запросов заказчиков
    • оптимизировал гиперпараметры системы с использованием библиотеки Ragas и LLM GigaChat

    Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных

    Инструменты: HuggingFace, YOLO, PyOD, Pandas, Sklearn, PyTorch, Lightning, NumPy, ONNX, FastAPI, Uvicorn, PyInstaller, Optimum, CatBoost, CVAT, natasha, BERT

    • реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
    • подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, mAP@.5 улучшен с .89 до .94
    • реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
    • создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
    • реализовал поиск чувствительных данных в аудио-файлах
    • собрал и организовал разметку 8 датасетов для задач классификации и object detection

Пет-проекты

  • 2024.05 - 2024.10
    CheckDocAI

    Телеграм-бот с ИИ модулем для контроля качества оформления документов для ООО «Гольфстрим», позволяет значительно сократить время на проверку и улучшить точность.

    Инструменты: aiogram, YOLO, ONNX, Albumentations, CVAT

    • Руководил командой из двух дата-сайентистов и бекенд-разработчика, отвечал за разработку и внедрение проекта.
    • Проект успешно внедрён в коммерческую эксплуатацию, ежемесячная экономия — 40 человеко-часов.

Технологии

Generative AI / LLM Engineering
RAG
LangChain
Ollama
GigaChat
Qwen
Ragas
Prompt Engineering
Vector Databases & Semantic Search
FAISS
Qdrant
Milvus
sentence-transformers
embedding models
similarity search
Deep Learning & Transformers
PyTorch
Lightning
Hugging Face Transformers
BERT
ONNX
Optimum
Computer Vision
YOLO
U-Net
OpenCV
CVAT
Albumentations
Anomaly Detection
PyOD
RRCF
Isolation Forest
ECOD
HBOS
PySAD
Machine Learning & Ensembles
scikit-learn
CatBoost
XGBoost
Natural Language Processing (NLP)
NER
natasha
text classification
information extraction
Speech & Audio Processing
Whisper
HuBERT
Common Voice
Data Engineering & Analysis
pandas
polars
SQL
PostgreSQL
MySQL
MLOps & Production Deployment
Docker
FastAPI
Uvicorn
MLflow
Airflow
Linux
PyInstaller

Выступления

  • 2025.05.24
    Поиск аномалий с использованием Python: от теории к практике
    Positive Hack Days
    Доклад «Поиск аномалий с использованием Python: от теории к практике» представляет обзор ключевых алгоритмов обнаружения аномалий, их сильных и слабых сторон, и демонстрирует практическую ценность подхода на примере из области корпоративной безопасности.
  • 2025
    Серия докладов: Поиск аномалий в данных, алгоритмы
    Moscow Python Meetup
    В серии докладов наглядно описываются принципы работы основных алгоритмов поиска аномалий: HBOS, ECOD, Isolation Forest, PCA, kNN и LOF.
  • 2024
    NLP и CV нейросети в защите данных: опыт Makves DCAP
    Moscow Python Meetup
    В этом докладе я расскажу, как мы использовали алгоритмы CV и NLP для улучшения DCAP системы компании Makves, преодолевая вызовы обработки неструктурированных данных и продуктивизации моделей. Доклад будет полезен как пример реального внедрения нейросетей в работающий продукт.

Образование

  • 2024.07 - 2024.10

    Москва, Россия

    повышение квалификации
    УЦ «Специалист»
    Анализ данных
    • Анализ данных на языке SQL
  • 2022.09 - 2023.03

    Москва, Россия

    профессиональная переподготовка
    Deep Learning School ФПМИ МФТИ
    Deep Learning
    • Computer Vision
  • 2022.03 - 2022.11

    Москва, Россия

    профессиональная переподготовка
    Яндекс Практикум
    Машинное обучение
    • Специалист по Data Science
  • 2021.10 - 2022.03

    Москва, Россия

    повышение квалификации
    Московский Авиационный Институт
    Deep Learning
    • Введение в искусственный интеллект и нейросети для авиационных приложений
  • 2005.09 - 2008.05

    Москва, Россия

    специалитет
    Московский Авиационный Институт
    Лингвистика
    • Перевод и переводоведение
  • 2003.09 - 2009.02

    Москва, Россия

    специалитет
    Московский Авиационный Институт
    Физика
    • Авиационная и ракетно-космическая теплотехника

Языки

русский
родной
английский
B2
немецкий
B2
эсперанто
B2