Резюме

Основное

Имя Михаил Васильев
Специальность Data Scientist
Email gnu.xinm@gmail.com
Телефон +7 (916) 198-81-83
Телеграм @LaHundo
Сайт https://onixlas.github.io/
О себе Deep learning инженер. NLP, CV, anomaly detection. Организатор DS-сообщества. Победитель хакатонов. Open source contributor

Работа

  • 2023.01 - н. в.

    Москва, Россия

    старший специалист по машинному обучению
    Makves

    Проект: разработка и внедрение RAG-системы

    Инструменты: LangChain, Ollama, Saiga, GigaChat, Python, HuggingFace, PyTorch, FastAPI, Ragas

    • разработал и внедрил RAG-систему для автоматизации обработки запросов заказчиков
    • оптимизировал гиперпараметры системы с использованием библиотеки Ragas и LLM GigaChat

    Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных

    Инструменты: python, transformers, EfficientNet, MobileNet, YOLO, PyOD, pySAD, pandas, sklearn, pytorch, lightning, catboost, numpy, matplotlib, plotly, huggingface, onnx, fastapi, uvicorn, pyinstaller, pywin32, optimum, airflow, mlflow, cvat, natasha, deeppavlov, BERT, whisper, Ollama

    • реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
    • подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, mAP@.5 улучшен с .89 до .94
    • реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
    • создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
    • реализовал поиск чувствительных данных в аудио-файлах
    • собрал и организовал разметку 8 датасетов для задач классификации и object detection

Пет-проекты

  • 2024.05 - 2024.10
    CheckDocAI

    Телеграм-бот с ИИ модулем для контроля качества оформления документов для ООО «Гольфстрим», позволяет значительно сократить время на проверку и улучшить точность.

    Инструменты: aiogram, YOLO, ONNX, Albumentations, CVAT

    • Руководил командой из двух дата-сайентистов и бекенд-разработчика, отвечал за разработку и внедрение проекта.
    • Проект успешно внедрён в коммерческую эксплуатацию, ежемесячная экономия — 40 человеко-часов.

Технологии

Deep Learning
PyTorch
Lightning
ONNX
HuggingFace
Optimum
NLP
RAG
LLM
ragas
Ollama
Label Studio
transformers
natasha
Computer Vision
object detection
segmentation
autoencoders
UNet
YOLO
CVAT
OpenCV
PIL
Anomaly Detection
PyOD
PySAD
ECOD
HBOS
iForest
Exact-STORM
Half-space Trees
RRCF
Machine Learning
scikit-learn
CatBoost
XGBoost
faiss
Data analysis
python
SQL
PostgreSQL
MySQL
pandas
polars
Audio
whisper
hubert
Common Voice
Data visualisation
seaborn
matplotlib
plotly
MLOps & Deployment
MLFlow
AirFlow
Docker
Linux
FastAPI
pywin32
uvicorn
pyinstaller

Выступления

  • 2025.02.24
    Поиск аномалий в данных, алгоритмы HBOS и ECOD
    Moscow Python Meetup № 99
    В докладе рассматриваются два интересных подхода для поиска аномалий в данных: алгоритмы HBOS и ECOD. В докладе будут представлены основные принципы работы этих алгоритмов, их преимущества и ограничения.
  • 2025.01.29
    NLP нейросети в защите данных: опыт Makves DCAP
    Moscow Python Meetup № 98
    В этом докладе я расскажу, как мы использовали NLP для улучшения DCAP системы компании Makves, преодолевая вызовы обработки неструктурированных данных и продуктивизации моделей. Доклад будет полезен как пример реального внедрения NLP в работающий продукт.
  • 2024.06.25
    Опыт обучения и применения нейросетей в качестве модуля российской DCAP системы
    Moscow Python Meetup № 91
    Компания Makves (входит в группу компаний «Гарда») разрабатывает российскую DCAP (data-centric audit and protection) систему для защиты корпоративных данных. Для анализа неструктурированных данных необходимо применять нейросети. В докладе я рассказал о проблемах, с которыми мы столкнулись при создании нейросетей, от этапа сбора и разметки данных и до создания нескольких микросервисов.

Образование

  • 2024.07 - 2024.10

    Москва, Россия

    повышение квалификации
    УЦ «Специалист»
    Анализ данных
    • Анализ данных на языке SQL
  • 2022.09 - 2023.03

    Москва, Россия

    профессиональная переподготовка
    Deep Learning School ФПМИ МФТИ
    Deep Learning
    • Computer Vision
  • 2022.03 - 2022.11

    Москва, Россия

    профессиональная переподготовка
    Яндекс Практикум
    Машинное обучение
    • Специалист по Data Science
  • 2021.10 - 2022.03

    Москва, Россия

    повышение квалификации
    Московский Авиационный Институт
    Deep Learning
    • Введение в искусственный интеллект и нейросети для авиационных приложений
  • 2005.09 - 2008.05

    Москва, Россия

    специалитет
    Московский Авиационный Институт
    Лингвистика
    • Перевод и переводоведение
  • 2003.09 - 2009.02

    Москва, Россия

    специалитет
    Московский Авиационный Институт
    Физика
    • Авиационная и ракетно-космическая теплотехника

Языки

русский
родной
английский
B2
немецкий
B2
эсперанто
B2