Если вы хотите применить разметку в своей задаче, но пока не готовы разбираться с полным форматом, вам может быть полезна облегчённая версия. По сути это напоминает частеречную разметку, только по семантическим критериям.
Обратите внимание, что в настоящем датасете представлены только имена существительные.
В облегчённом датасете каждому терму (слову или выражению) соответствует ровно один тег. Проще не бывает.
Поле | Комментарий |
---|---|
term | слово или выражение (обобщённо «терм») |
tag | тег |
ratio | уверенность |
hmMatch | есть ли совпадение с разметкой |
Коэффициент уверенности и флаг совпадения нужны для фильтрации недостоверных вариантов. Для экпериментов можно сделать отсечение ratio >= 0.85 и hmMatch = 1. Затем подкручивать по необходимости. (Самый строгий вариант — ratio >= 0.99 и hmMatch = 1.)
Все файлы имеют формат CSV, разделитель точка с запятой, кодировка UTF-8.
Тег | Комментарий |
---|---|
ABSTRACT | абстрактная сущность |
HUMAN | человек, лицо, группа людей |
THING | предмет |
ABSTRACT:ACTION | событие, процесс, действие |
PLACE | место, локация |
ANIMAL | животное |
FOOD | еда и напитки |
SUBSTANCE | химическое вещество, материал |
PLANT | растение |
TRANSPORT | транспорт |
ANATOMY | анатомия |
CONSTRUCTION | конструкция, сооружение |
С наложением самого строгого фильтра, получаются следующие цифры:
tag | count |
| |
ABSTRACT | 6020 |
HUMAN | 4791 |
THING | 1936 |
ABSTRACT:ACTION | 1756 |
PLACE | 982 |
ANIMAL | 620 |
FOOD | 359 |
SUBSTANCE | 329 |
PLANT | 185 |
TRANSPORT | 177 |
ANATOMY | 124 |
CONSTRUCTION | 117 |
Общий объём — 17396 записей.