Danske Sprogteknologi og Maskinlærings Termer

Denne GitHub indeholder anbefalede danske termer for sprogteknologi samt deres betydning. Dette er ikke ment som en standard for hvordan vi snakker om sprogteknologi, men den almenes parlør eller hjælp til daglig tale for at gøre debatten mere tilgængelig.

Oversigt

Udsagnsord

Udsagnsord	Foreslået brug	Betydning
benchmark	benchmarke	At evaluere og sammenligne modeller på fælles opgaver og datasæt
classify	klassificere	At kategorisere data i foruddefinerede grupper
cluster	gruppere	At gruppere data baseret på ligheder
disambiguate	entydiggøre	At fjerne tvetydighed ud fra konteksten. Eksempelvis kan "helt" referere til en "superhelt" eller "helt iorden"
encode	indkode	At repræsentere data i en specifik form
evaluate	evaluere	At vurdere en models evner til at løse en eller flere opgaver
extract	udtrække	At udtrække specifik information
fine-tune	fine-tune	At justere en models vægte til en specifik opgave
generate	generere	At skabe nyt indhold baseret på en model
interpret	fortolke	At forstå og forklare data eller output
paraphrase	omskrive	At parafrasere/omskrive tekst med samme betydning
pre-train	prætræne	Forudgående træning af en model på generelle data
predict	prædiktere	At lave en forudsigelse baseret på input
prompt	prompte	At give en model en specifik instruktion eller forespørgsel
rank	rangere	At rangere eller rangordne elementer - såsom dokumenter - efter relevans
retrieve	fremsøge	At hente relevant information fra en kilde eller database
segment	segmentere	At opdele data i mindre sektioner
summarize	sammenfatte/opsummere	At skabe en kort opsummering af tekst
tokenize	(tekst)segmentere	At opdele tekst i mindre dele (tokens)
translate	oversætte	At oversætte tekst

Navneord

Navneord	Foreslået brug	Betydning
annotation	annotering	Mærkning af data med metadata
attention mechanism	vægtningsmekanisme	En metode som bruges til at få modellen til at vægte vigtige dele af data
benchmark	benchmark	Et værktøj til sammenligning af sprogmodellers kvalitet
chatbot	chatbot	Et computerprogram, der kan kommunikere med mennesker gennem tekst eller tale
dataset	datasæt	En samling af data brugt til træning eller evaluering
embedding	indlejring/vektorrepræsentation	Numerisk repræsentation af data som muliggør beregning af (semantisk) lighed mellem sætninger, bileder og lignende
evaluation	evaluering	Evaluering af en models præstation
few-shot	few-shot	En tilgang, hvor en model løser en opgave baseret på meget få eksempler (typisk 1-20)
generative language lodel	generativ sprogmodel	En sprogmodel som er trænet til at generere tekst
Knowledge Base (KB)	vidensdatabase	En struktureret samling af viden
language model	sprogmodel	En sprogmodel er en model som har lært statistiske sammenhænge mellem ord og fraser
latent space	latent rum	En latent repræsentation i en model
Large Language Model (LLM)	stor sprogmodel (SSM)	En særlig stor sprogmodel, som i kraft af dens størrelse ofte producerer svar af bedre kvalitet
modality	modalitet	En modalitet er en type af data, eksempler på modaliteter er fritekst, billeder, video, lyd
multimodal (model)	multimodal	En model der kombinerer flere modaliteter, eksempelvis billeder og tekst
multilingual (model)	flersproglig (model)	En model som understøtter flere sprog
Natural Language Understanding (NLU)	sprogforståelse	At forstå (evt. statistisk) betydningen af tekst
Named Entity Recognition (NER)	entitetsgenkendelse	At identificere navngivne entiteter i tekst
prompt	prompt	En forklaring af en opgave givet til en (sprog)model
prompt engineering	promptoptimering	Processen af at finde den beskrivelse af opgaven som får en model til generelt at løse opgaven bedst
Retrieval-Augmented Generation (RAG)	fremsøgningsforstærket generering	En metode til at generere output ved at kombinere hentning og generation
synthetic (data)	syntetisk (data)	Data som er lavet via. algoritmer eller modeller, eksempelvis sprogmodeller
training	træning	Når en model lærer statistiske relationer mellem data med det formål at kunne producere eksempelvis prediktioner
zero-shot	zero-shot	En tilgang, hvor en model løser en opgave kun via. en forklaring. Dermed uden brug af eksempler (nul)

Disse kan naturligvis kombineres, eksempelvis:

Jeg trænede en flersproglig sprogmodel i går og evaluerede den efterfølgende ved at prompte den.

Note

Selvom strukturen er inspireret af git på dansk så er indholdet anderledes. Eksempelvis er fordanskninger af engelske ord accepteret da det ofte gør det nemmere at genbruge terminologien. Eksempelvis "at prompte" er helt acceptabelt.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Danske Sprogteknologi og Maskinlærings Termer

Oversigt

Udsagnsord

Navneord

About

Releases

Packages

License

MartinBernstorff/danske-sprogteknognologi-termer

Folders and files

Latest commit

History

Repository files navigation

Danske Sprogteknologi og Maskinlærings Termer

Oversigt

Udsagnsord

Navneord

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages