Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
semantics_simple.csv		semantics_simple.csv

README.md

Открытая семантика русского языка. Облегчённая версия

Если вы хотите применить разметку в своей задаче, но пока не готовы разбираться с полным форматом, вам может быть полезна облегчённая версия. По сути это напоминает частеречную разметку, только по семантическим критериям.

Обратите внимание, что в настоящем датасете представлены только имена существительные.

Структура записи и формат датасета

В облегчённом датасете каждому терму (слову или выражению) соответствует ровно один тег. Проще не бывает.

Поле	Комментарий
term	слово или выражение (обобщённо «терм»)
tag	тег
ratio	уверенность
hmMatch	есть ли совпадение с разметкой

Коэффициент уверенности и флаг совпадения нужны для фильтрации недостоверных вариантов. Для экпериментов можно сделать отсечение ratio >= 0.85 и hmMatch = 1. Затем подкручивать по необходимости. (Самый строгий вариант — ratio >= 0.99 и hmMatch = 1.)

Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.

Тег	Комментарий
ABSTRACT	абстрактная сущность
HUMAN	человек, лицо, группа людей
THING	предмет
ABSTRACT:ACTION	событие, процесс, действие
PLACE	место, локация
ANIMAL	животное
FOOD	еда и напитки
SUBSTANCE	химическое вещество, материал
PLANT	растение
TRANSPORT	транспорт
ANATOMY	анатомия
CONSTRUCTION	конструкция, сооружение

Объём датасета

С наложением самого строгого фильтра, получаются следующие цифры:

             tag | count |
                 |       |
        ABSTRACT |  6020 |
           HUMAN |  4791 |
           THING |  1936 |
 ABSTRACT:ACTION |  1756 |
           PLACE |   982 |
          ANIMAL |   620 |
            FOOD |   359 |
       SUBSTANCE |   329 |
           PLANT |   185 |
       TRANSPORT |   177 |
         ANATOMY |   124 |
    CONSTRUCTION |   117 |

Общий объём — 17396 записей.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

simple

simple

README.md

Открытая семантика русского языка. Облегчённая версия

Структура записи и формат датасета

Теги

Объём датасета

Files

simple

Directory actions

More options

Directory actions

More options

Latest commit

History

simple

Folders and files

parent directory

README.md

Открытая семантика русского языка. Облегчённая версия

Структура записи и формат датасета

Теги

Объём датасета