Skip to content

Latest commit

 

History

History

simple

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Открытая семантика русского языка. Облегчённая версия

Если вы хотите применить разметку в своей задаче, но пока не готовы разбираться с полным форматом, вам может быть полезна облегчённая версия. По сути это напоминает частеречную разметку, только по семантическим критериям.

Обратите внимание, что в настоящем датасете представлены только имена существительные.

Структура записи и формат датасета

В облегчённом датасете каждому терму (слову или выражению) соответствует ровно один тег. Проще не бывает.

Поле Комментарий
term слово или выражение (обобщённо «терм»)
tag тег
ratio уверенность
hmMatch есть ли совпадение с разметкой

Коэффициент уверенности и флаг совпадения нужны для фильтрации недостоверных вариантов. Для экпериментов можно сделать отсечение ratio >= 0.85 и hmMatch = 1. Затем подкручивать по необходимости. (Самый строгий вариант — ratio >= 0.99 и hmMatch = 1.)

Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.

Теги

Тег Комментарий
ABSTRACT абстрактная сущность
HUMAN человек, лицо, группа людей
THING предмет
ABSTRACT:ACTION событие, процесс, действие
PLACE место, локация
ANIMAL животное
FOOD еда и напитки
SUBSTANCE химическое вещество, материал
PLANT растение
TRANSPORT транспорт
ANATOMY анатомия
CONSTRUCTION конструкция, сооружение

Объём датасета

С наложением самого строгого фильтра, получаются следующие цифры:

             tag | count |
                 |       |
        ABSTRACT |  6020 |
           HUMAN |  4791 |
           THING |  1936 |
 ABSTRACT:ACTION |  1756 |
           PLACE |   982 |
          ANIMAL |   620 |
            FOOD |   359 |
       SUBSTANCE |   329 |
           PLANT |   185 |
       TRANSPORT |   177 |
         ANATOMY |   124 |
    CONSTRUCTION |   117 |

Общий объём — 17396 записей.