Denne GitHub indeholder anbefalede danske termer for sprogteknologi samt deres betydning. Dette er ikke ment som en standard for hvordan vi snakker om sprogteknologi, men den almenes parlør eller hjælp til daglig tale for at gøre debatten mere tilgængelig.
Udsagnsord | Foreslået brug | Betydning |
---|---|---|
benchmark | benchmarke | At evaluere og sammenligne modeller på fælles opgaver og datasæt |
classify | klassificere | At kategorisere data i foruddefinerede grupper |
cluster | gruppere | At gruppere data baseret på ligheder |
disambiguate | entydiggøre | At fjerne tvetydighed ud fra konteksten. Eksempelvis kan "helt" referere til en "superhelt" eller "helt iorden" |
encode | indkode | At repræsentere data i en specifik form |
evaluate | evaluere | At vurdere en models evner til at løse en eller flere opgaver |
extract | udtrække | At udtrække specifik information |
fine-tune | fine-tune | At justere en models vægte til en specifik opgave |
generate | generere | At skabe nyt indhold baseret på en model |
interpret | fortolke | At forstå og forklare data eller output |
paraphrase | omskrive | At parafrasere/omskrive tekst med samme betydning |
pre-train | prætræne | Forudgående træning af en model på generelle data |
predict | prædiktere | At lave en forudsigelse baseret på input |
prompt | prompte | At give en model en specifik instruktion eller forespørgsel |
rank | rangere | At rangere eller rangordne elementer - såsom dokumenter - efter relevans |
retrieve | fremsøge | At hente relevant information fra en kilde eller database |
segment | segmentere | At opdele data i mindre sektioner |
summarize | sammenfatte/opsummere | At skabe en kort opsummering af tekst |
tokenize | (tekst)segmentere | At opdele tekst i mindre dele (tokens) |
translate | oversætte | At oversætte tekst |
Navneord | Foreslået brug | Betydning |
---|---|---|
annotation | annotering | Mærkning af data med metadata |
attention mechanism | vægtningsmekanisme | En metode som bruges til at få modellen til at vægte vigtige dele af data |
benchmark | benchmark | Et værktøj til sammenligning af sprogmodellers kvalitet |
chatbot | chatbot | Et computerprogram, der kan kommunikere med mennesker gennem tekst eller tale |
dataset | datasæt | En samling af data brugt til træning eller evaluering |
embedding | indlejring/vektorrepræsentation | Numerisk repræsentation af data som muliggør beregning af (semantisk) lighed mellem sætninger, bileder og lignende |
evaluation | evaluering | Evaluering af en models præstation |
few-shot | few-shot | En tilgang, hvor en model løser en opgave baseret på meget få eksempler (typisk 1-20) |
generative language lodel | generativ sprogmodel | En sprogmodel som er trænet til at generere tekst |
Knowledge Base (KB) | vidensdatabase | En struktureret samling af viden |
language model | sprogmodel | En sprogmodel er en model som har lært statistiske sammenhænge mellem ord og fraser |
latent space | latent rum | En latent repræsentation i en model |
Large Language Model (LLM) | stor sprogmodel (SSM) | En særlig stor sprogmodel, som i kraft af dens størrelse ofte producerer svar af bedre kvalitet |
modality | modalitet | En modalitet er en type af data, eksempler på modaliteter er fritekst, billeder, video, lyd |
multimodal (model) | multimodal | En model der kombinerer flere modaliteter, eksempelvis billeder og tekst |
multilingual (model) | flersproglig (model) | En model som understøtter flere sprog |
Natural Language Understanding (NLU) | sprogforståelse | At forstå (evt. statistisk) betydningen af tekst |
Named Entity Recognition (NER) | entitetsgenkendelse | At identificere navngivne entiteter i tekst |
prompt | prompt | En forklaring af en opgave givet til en (sprog)model |
prompt engineering | promptoptimering | Processen af at finde den beskrivelse af opgaven som får en model til generelt at løse opgaven bedst |
Retrieval-Augmented Generation (RAG) | fremsøgningsforstærket generering | En metode til at generere output ved at kombinere hentning og generation |
synthetic (data) | syntetisk (data) | Data som er lavet via. algoritmer eller modeller, eksempelvis sprogmodeller |
training | træning | Når en model lærer statistiske relationer mellem data med det formål at kunne producere eksempelvis prediktioner |
zero-shot | zero-shot | En tilgang, hvor en model løser en opgave kun via. en forklaring. Dermed uden brug af eksempler (nul) |
Disse kan naturligvis kombineres, eksempelvis:
Jeg trænede en flersproglig sprogmodel i går og evaluerede den efterfølgende ved at prompte den.
Note
Selvom strukturen er inspireret af git på dansk så er indholdet anderledes. Eksempelvis er fordanskninger af engelske ord accepteret da det ofte gør det nemmere at genbruge terminologien. Eksempelvis "at prompte" er helt acceptabelt.