VK HSE Data Hack (1 место)
Хакатон по классификации новостных статей на 21 класс. В нашем решении комбинируются результаты работы небольшого классификатора на базе трансформерной архитектуры и предсказания LLM
Задача

Разработать сервис для автоматической классификации новостей на 21 класс.
Команда проекта

- Ольга Иванова
- data scientist
- open to work
- @oakarabut

- Никита Метелёв
- data scientist
- open to work
- @SciManNik

- Валентина Скорина
- data scientist
- open to work
- @valentina_lineyka
Технологии
transformers
, Saiga3 8b
, taiga dataset
, streamlit
Решение
Обогатили датасет, добавив 56 000 новостных статей агентства «Интерфакс». Подготовили псевдо-разметку с использованием zero-shot классификации, обучили небольшую модель rubert-tiny2
в режиме multilabel классификации. Также использовали LLM Saiga3 8b
для оценки соответствия статей каждому из 21 тегов. На основе обоих подходов развернули сервис с REST API для классификации текстов.
Моя роль
- обогатил датасет
- подобрал zero-shot classification модель
- обучил модель-классификатор
- обеспечил координацию работы команды
- презентовал результаты