VK HSE Data Hack (1 место)
Хакатон по классификации новостных статей на 21 класс. В нашем решении комбинируются результаты работы небольшого классификатора на базе трансформерной архитектуры и предсказания LLM
Задача
Разработать сервис для автоматической классификации новостей на 21 класс.
Команда проекта
- Ольга Иванова
- data scientist
- open to work
- @oakarabut
- Никита Метелёв
- data scientist
- open to work
- @SciManNik
- Валентина Скорина
- data scientist
- open to work
- @valentina_lineyka
Технологии
transformers, Saiga3 8b, taiga dataset, streamlit
Решение
Обогатили датасет, добавив 56 000 новостных статей агентства «Интерфакс». Подготовили псевдо-разметку с использованием zero-shot классификации, обучили небольшую модель rubert-tiny2 в режиме multilabel классификации. Также использовали LLM Saiga3 8b для оценки соответствия статей каждому из 21 тегов. На основе обоих подходов развернули сервис с REST API для классификации текстов.
Моя роль
- обогатил датасет
- подобрал zero-shot classification модель
- обучил модель-классификатор
- обеспечил координацию работы команды
- презентовал результаты