-
Notifications
You must be signed in to change notification settings - Fork 17
MAD_RK
ugapanyuk edited this page May 4, 2022
·
4 revisions
Необходимо решить задачу классификации текстов на основе любого выбранного Вами датасета (кроме примера, который рассматривался на семинаре). Классификация может быть бинарной или многоклассовой. Целевой признак из выбранного Вами датасета может иметь любой физический смысл, примером является задача анализа тональности текста.
Необходимо сформировать два варианта векторизации признаков - на основе CountVectorizer и на основе TfidfVectorizer.
В качестве классификаторов необходимо использовать три произвольных классификатора, например:
- KNeighborsClassifier
- LogisticRegression
- LinearSVC
- RandomForestClassifier
- Multinomial Naive Bayes
- Complement Naive Bayes
Для каждого метода необходимо оценить качество классификации на основе двух произвольных метрик. Сделайте вывод о том, какой вариант векторизации признаков в паре с каким классификатором показал лучшее качество.