VK HSE Data Hack (1 место)

Хакатон по классификации новостных статей на 21 класс. В нашем решении комбинируются результаты работы небольшого классификатора на базе трансформерной архитектуры и предсказания LLM

Задача

Разработать сервис для автоматической классификации новостей на 21 класс.

Команда проекта

  • Михаил Васильев
  • старший специалист по машинному обучению
  • Маквес
  • @LaHundo
  • Александр Евдокимов
  • ведущий разработчик-лингвист
  • Эвотор
  • @snakerzr
  • Ольга Иванова
  • data scientist
  • open to work
  • @oakarabut
  • Никита Метелёв
  • data scientist
  • open to work
  • @SciManNik

Технологии

transformers, Saiga3 8b, taiga, streamlit

Решение

Обогатили датасет, добавив 56 000 новостных статей агентства «Интерфакс». Подготовили псевдо-разметку с использованием zero-shot классификации, обучили небольшую модель rubert-tiny2 в режиме multilabel классификации. Также использовали LLM Saiga3 8b для оценки соответствия статей каждому из 21 тегов. На основе обоих подходов развернули сервис с REST API для классификации текстов.

Моя роль

  • обогатил датасет
  • подобрал zero-shot classification модель
  • обучил модель-классификатор
  • обеспечил координацию работы команды
  • презентовал результаты

Презентация