VK HSE Data Hack (1 место)
Хакатон по классификации новостных статей на 21 класс. В нашем решении комбинируются результаты работы небольшого классификатора на базе трансформерной архитектуры и предсказания LLM
Задача
Разработать сервис для автоматической классификации новостей на 21 класс.
Команда проекта
Технологии
transformers, Saiga3 8b, taiga, streamlit
Решение
Обогатили датасет, добавив 56 000 новостных статей агентства «Интерфакс». Подготовили псевдо-разметку с использованием zero-shot классификации, обучили небольшую модель rubert-tiny2
в режиме multilabel классификации. Также использовали LLM Saiga3 8b
для оценки соответствия статей каждому из 21 тегов. На основе обоих подходов развернули сервис с REST API для классификации текстов.
Моя роль
- обогатил датасет
- подобрал zero-shot classification модель
- обучил модель-классификатор
- обеспечил координацию работы команды
- презентовал результаты