Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Tokenization #1

Open
3 tasks
alisafaya opened this issue Feb 17, 2021 · 0 comments
Open
3 tasks

Tokenization #1

alisafaya opened this issue Feb 17, 2021 · 0 comments

Comments

@alisafaya
Copy link
Member

alisafaya commented Feb 17, 2021

Tokenization

Ölçünlü Dil (Editörel Süreçten Geçmiş Metinler)

Gazete ve dergi gibi süreli yayınlar ile kitap, rapor vb. Yazılı metinlerin birimlendirilmesi.

  • Veri seti (1): Gazete, kitap ve raporlar için (ts).
  • Veri Seti (2): Kısaltmalar listesi

Hedef: Girdi olarak verilen metnin kısaltmalar, tarih ve saat bilgisi, noktalama işaretlerini kapsayacak şekilde her satıra bir sözcük gelecek şekilde (wpl) birimlendirilmesi.

Sosyal Medya

Twitter başta olmak üzere sosyal medya dilinin birimlendirilmesi.

  • Veri Seti (1): Tweetler (ts).
  • Veri Seti (2): OVV (Out ou vocabulary) sözcük listesi (ts)

Hedef: Sosyal medya dilinin, Emojiler, smileyler, hashtag, mention, URL adresi ve argo sözcükleri de kapsayacak biçimde her satıra bir sözcük gelecek biçimde (wpl) birimlendirilmesi.

Multi-Word

Bir metnin, içinde yer alan ek eylemle oluşturulmuş yapıları kapsayacak şekilde birimlendirilmesi

  • Veri Seti (1): Ek eylemle kurulan yapılar listesi. (çekmek ve etmek ile kuralan yapılar için (ts)).
  • Veri Seti (2): Ek eylemle kurulan yapıların extract edileceği ham metinler (dy, ts).

Hedef: Bir metin içinde geçen ek eylemle kurulmuş yapıların çıktıda aynı satırda, diğer sözcüklerin ayrı satırda olacağı biçimde girdi verinin birimlendirilmesi

  • Generic Tokenizer
  • Domain'e ozel tokenizers (yayinlar, social-media, multi-word)
  • Pipeline icin servis haline getirilmesi
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants