Skip to content

Latest commit

 

History

History
46 lines (29 loc) · 3.23 KB

File metadata and controls

46 lines (29 loc) · 3.23 KB

Тональный словарь русского языка

В датасете представлен тональный словарь русского языка (слова и выражения русского языка, снабжённые метками полярности и силы эмоционально-оценочного заряда).

Структура записи и формат датасета

  • term — слово или выражение (обобщённо «терм»)
  • tag — оценка (PSTV, NEUT, NGTV)
  • value — полярность в диапазоне [-3, 3]

Поле tag здесь избыточно и приведено для удобства. Оно генерируется автоматически по следующему принципу:

  • value > 1: PSTV
  • value ∈ [-1, 1]: NEUT
  • value < -1: NGTV

Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.

Интерактивный навигатор

Датасет очень простой и его можно изучать при помощи любого текстового редактора. Но также вы можете исследовать приведённые данные без необходимости скачивания в интерактивном навигаторе (проекция EMOTION).

Объём датасета

NEUT    38791
NGTV    14557
PSTV    14044

Общий объём — 67392 записей (из них 55532 слов и 11860 выражений).

Распределение полярностей

GitHub Logo

Лицензия

Данный датасет распространяется по лицензии CC BY-NC-SA 4.0. Простыми словами — вы можете свободно использовать его в личных, научных, исследовательских и любых других целях, не подразумевающих получения дохода коммерческим путём. При этом от вас требуется указать ссылку на лицензию и на этот репозиторий. Производные работы должны распространятся под аналогичной лицензией.

Будем признательны, если вы скинете несколько строк на [email protected] о том, как вы планируете использовать датасет — нам это интересно, как исследователям, и поможет сделать датасет лучше в будущем.

По вопросам использования датасета в коммерческих целях смотрите развёрнутый комментарий: использование данных в коммерческих целях.