В датасете представлен тональный словарь русского языка (слова и выражения русского языка, снабжённые метками полярности и силы эмоционально-оценочного заряда).
- term — слово или выражение (обобщённо «терм»)
- tag — оценка (PSTV, NEUT, NGTV)
- value — полярность в диапазоне [-3, 3]
Поле tag здесь избыточно и приведено для удобства. Оно генерируется автоматически по следующему принципу:
- value > 1: PSTV
- value ∈ [-1, 1]: NEUT
- value < -1: NGTV
Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.
Датасет очень простой и его можно изучать при помощи любого текстового редактора. Но также вы можете исследовать приведённые данные без необходимости скачивания в интерактивном навигаторе (проекция EMOTION).
NEUT 38791
NGTV 14557
PSTV 14044
Общий объём — 67392 записей (из них 55532 слов и 11860 выражений).
Данный датасет распространяется по лицензии CC BY-NC-SA 4.0. Простыми словами — вы можете свободно использовать его в личных, научных, исследовательских и любых других целях, не подразумевающих получения дохода коммерческим путём. При этом от вас требуется указать ссылку на лицензию и на этот репозиторий. Производные работы должны распространятся под аналогичной лицензией.
Будем признательны, если вы скинете несколько строк на [email protected] о том, как вы планируете использовать датасет — нам это интересно, как исследователям, и поможет сделать датасет лучше в будущем.
По вопросам использования датасета в коммерческих целях смотрите развёрнутый комментарий: использование данных в коммерческих целях.