Pretrained language models #6

alisafaya · 2021-02-21T14:53:58Z

Egitilmis dil modelleri

Guncel dil modellerinin train edilmesi, Huggingface’teki transformer tabanli language modellerin Turkce icin egitilmesi ve hem TDD hem Huggingface uzerinden paylasilmasi.

Train edilecek modeller

Generic: Bu siniftaki modeller genel Turkce icin kullanilacak modeller, bu sekilde zaten var olan modeller bulunuyor.
Bu siniftaki modellerin egitilecegi data generic bir data olmali, benim onerim su sekilde (Turkish Wikipedia + Clean bir WebCrawl + Books) bir dili temsil etmek icin iyi bir kombinasyon olusturuyor.
Ilk asamada Turkce RoBERTa train edilebilir.

Specific domain: Bu siniftaki modeller ozel bir domain icin egitilmis olacak, ornegin, User generated noisy data (facebook, twitter gibi) icin modeller. Haberler icin modeller..

Tokenizers

Oncelikle tokenizer icin en iyi konfigurasyonu (vocab size/encoding method) bulmak icin, farkli turdeki tokenizerlari egitim karsilastirma yapmak iyi olacak.

Benchmarking data

Intrinsic evaluation platform

Data modellerini/tokenizerlari evaluate etmek icin kullanacagimiz bir dataseti belirlenmesi gerekiyor. Bu data cok buyuk olmak zorunda degil. Bunun train/dev/test halinde bolunmesi lazim, ve karsilastirma yapacagimiz metrigi modele gore sececegiz MLM modelleri icin accuracy, Autoregressive modeller icin perplexity.

Ornek dataset wiki-103

Extrinsic evaluation platform

Data modellerini birkac downstream datasi uzerinde performansinin olculmesi icin gerekli framework'u hazirlamak. Ornek benchmark GLUE

Generic domain icin datalarin toplanmasi
Benchmarking datanin olusturmasi
Var olan modellerin Benchmark uzerinde performansinin olculmesi
Turkish RoBERTa modelinin egitilmesi
GPT-2/SHALSTM gibi Autoregressive bir modelin egitilmesi
TDD'de ve Huggingface'te paylasilmasi
Specific domain modellerinin egitilmesi

alisafaya · 2021-07-01T15:08:57Z

@akalieren Buraya su ana kadar yaptiklarinin/bulduklarinin detaylarini ve yorumlarini yazabilir misin?

alierenak · 2021-07-01T15:43:15Z

Şu ana kadar BERT base cased ve uncased modelleri eğittim. Bu hafta BERT-Large'ı başlatmayı planlıyorum. BERT-Large ile birlikte vocabulary ve record'ları daha düzenli elde etmek için BERT-base'i tekrar eğiteceğim. Şu ana kadar eğittiğim modelleri sadece 27GB'lık OSCAR datasını kullanarak eğittim. Wikipedia ve ek generic dataset'er karşılaştırma elde etmek için eklenebilir. Benchmark için NER fine-tunning kullanmıştım. Hali hazırda HF'deki Electra-Large ve BERTurk ile karşılaştırdım sonuçlar ortalama aynıydı. Bu hafta hepsini tekrar eğittikten sonra, buraya ekleyeceğim.

BERT özelinde, orijinal BERT 16GB büyüklüğünde bir dataset ile eğitilmiş. Benim araştırdığım kadarıyla modelin büyüklüğünü arttırmadan dataset'i arttırmak çok verim sağlamıyor. Bu konuda elinizde experiment varsa tekrar gözden geçirebiliriz. Lakin Roberta-Large, XLNet, GPT2 gibi modelleri daha fazla datayla beslemek mantıklı olabilir. Orijinal Roberta-Large 200GB dataset ile eğitilmiş.

Roberta'yı küçük bir datasette eğittim lakin 27GB'lık dataset için şu anda hafıza problemini çözmek ile uğraşıyorum. TFRC'in sağladığı TPU VM'ler, modeli eğitmemiz için gereken tüm datayı hafızada yeterli alan olmadığı için yazamıyor. Dolayısıyla orijinal BERT repository'sinde olduğu gibi HF Datasets'in Google Cloud'tan datayı okuyacağı bir çözüm üzerinde çalışıyorum. Bu konuda başka bir öneriniz varsa değerlendirebiliriz.

alisafaya · 2021-07-04T19:59:28Z

Tesekkurler! yorumlarimi asagida bulabilirsin.

Şu ana kadar BERT base cased ve uncased modelleri eğittim. Bu hafta BERT-Large'ı başlatmayı planlıyorum. BERT-Large ile birlikte vocabulary ve record'ları daha düzenli elde etmek için BERT-base'i tekrar eğiteceğim. Şu ana kadar eğittiğim modelleri sadece 27GB'lık OSCAR datasını kullanarak eğittim. Wikipedia ve ek generic dataset'er karşılaştırma elde etmek için eklenebilir. Benchmark için NER fine-tunning kullanmıştım. Hali hazırda HF'deki Electra-Large ve BERTurk ile karşılaştırdım sonuçlar ortalama aynıydı. Bu hafta hepsini tekrar eğittikten sonra, buraya ekleyeceğim.

Dataset distribution hakkinda benim yorumum soyle; normalde OSCAR cok noisy bir dataset ozellikle de "deduplicated" versiyonudur, cunku hep tek satirlik metinler var, uzun context icin noisy oluyor. Onerim soyle: (Turkish Wikipedia + Clean bir WebCrawl + Books). Elimizde Turkish-Wiki yeni clean bir dump'i var, WebCrawl olarak OPUS/OSCAR kullanilabilir.
Turkish Books icin @reyyanyeniterzi hocam ve @denizyuret hocam sizde oyle bir corpus var mi ?

BERT özelinde, orijinal BERT 16GB büyüklüğünde bir dataset ile eğitilmiş. Benim araştırdığım kadarıyla modelin büyüklüğünü arttırmadan dataset'i arttırmak çok verim sağlamıyor. Bu konuda elinizde experiment varsa tekrar gözden geçirebiliriz. Lakin Roberta-Large, XLNet, GPT2 gibi modelleri daha fazla datayla beslemek mantıklı olabilir. Orijinal Roberta-Large 200GB dataset ile eğitilmiş.

Data 100 GB uzerinde olursa bir epoch tamamlayabilmek icin bile cok fazla computation harcariz. O yuzden final size 30-50GB range'inde olabilir.

Roberta'yı küçük bir datasette eğittim lakin 27GB'lık dataset için şu anda hafıza problemini çözmek ile uğraşıyorum. TFRC'in sağladığı TPU VM'ler, modeli eğitmemiz için gereken tüm datayı hafızada yeterli alan olmadığı için yazamıyor. Dolayısıyla orijinal BERT repository'sinde olduğu gibi HF Datasets'in Google Cloud'tan datayı okuyacağı bir çözüm üzerinde çalışıyorum. Bu konuda başka bir öneriniz varsa değerlendirebiliriz.

Bunun icin bir cozum olarak, batchleri onceden preprocess ederek google bucket'ine yukleyebiliriz. Ondan sonra TPU'lara dogrudan oradan veririz. Arabic BERT/ALBERT'i o sekilde train ettim.

Ayrica, tokenizer'in configuration'ini neye gore belirledin? default settings kullanarak mi ? yoksa Turkce'ye ozel bir arastirma mi yaptin? Bir de model/tokenizer config'lerini karsilastirirken yukarida yazdigim gibi intrinsic evaluation yaparak tek bir dataset uzerinden gidelim.

alisafaya · 2021-07-27T12:05:37Z

Progress plan

Models

MLM:
    - BERT
    - DeBERTa
    - RoBERTa

CLM:
    - GPT-2

Encoder-Decoder:
    - BART

Language modeling benchmark:

Create a benchmark similar to wiki-103, This will include a clean text.

Tokenization configuration:

Decide on few options:

32K  | Unigram | Wordpiece
48K  | Byte    | SentencePiece
64K  |         | BPE

TODO:

Creating benchmarking data (train/val/test split)
Collecting training data (cleaning, download, collection...) @alisafaya
Building different tokenizers @alisafaya @akalieren
GPT-2 Small ile tokenizer benchmarking

alisafaya · 2021-07-30T13:36:27Z

We created a language modeling benchmarking dataset based on a recent Turkish wikipedia dump. This dataset contains 67M words. We named it trwiki-67. more details can be found here.

alisafaya added the model label Feb 21, 2021

alisafaya assigned alisafaya, reyyanyeniterzi, ardofski and ekurtulus Feb 24, 2021

alisafaya assigned alierenak Jul 1, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pretrained language models #6

Pretrained language models #6

alisafaya commented Feb 21, 2021 •

edited

Loading

alisafaya commented Jul 1, 2021

alierenak commented Jul 1, 2021

alisafaya commented Jul 4, 2021

alisafaya commented Jul 27, 2021 •

edited

Loading

alisafaya commented Jul 30, 2021

Pretrained language models #6

Pretrained language models #6

Comments

alisafaya commented Feb 21, 2021 • edited Loading

Egitilmis dil modelleri

Train edilecek modeller

Tokenizers

Benchmarking data

Intrinsic evaluation platform

Extrinsic evaluation platform

alisafaya commented Jul 1, 2021

alierenak commented Jul 1, 2021

alisafaya commented Jul 4, 2021

alisafaya commented Jul 27, 2021 • edited Loading

Progress plan

Models

Language modeling benchmark:

Tokenization configuration:

alisafaya commented Jul 30, 2021

alisafaya commented Feb 21, 2021 •

edited

Loading

alisafaya commented Jul 27, 2021 •

edited

Loading