Skip to content
ugapanyuk edited this page May 4, 2022 · 4 revisions

Рубежный контроль по курсу "Методы анализа данных"

Решение задачи классификации текстов.

Необходимо решить задачу классификации текстов на основе любого выбранного Вами датасета (кроме примера, который рассматривался на семинаре). Классификация может быть бинарной или многоклассовой. Целевой признак из выбранного Вами датасета может иметь любой физический смысл, примером является задача анализа тональности текста.

Необходимо сформировать два варианта векторизации признаков - на основе CountVectorizer и на основе TfidfVectorizer.

В качестве классификаторов необходимо использовать три произвольных классификатора, например:

Для каждого метода необходимо оценить качество классификации на основе двух произвольных метрик. Сделайте вывод о том, какой вариант векторизации признаков в паре с каким классификатором показал лучшее качество.

Clone this wiki locally