İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, cilt.24, sa.48, ss.686-724, 2025 (TRDizin)
Bu çalışma, son beş yılda Türkçe doğal dil işleme alanında gerçekleştirilen gelişmeleri, karşılaşılan metodolojik zorlukları ve geleceğe yönelik araştırma perspektiflerini kapsamlı bir şekilde ele almıştır. Türkçenin eklemeli dil yapısı ve morfolojik zenginliği, NLP alanında dilin yapısal karmaşıklığına uygun özgün yöntemlerin geliştirilmesini gerektirmektedir. Çalışmada, metin sınıflandırma, duygu analizi, soru-cevap sistemleri ve kelime gömme modelleri gibi yaygın NLP uygulamaları değerlendirilmektedir. Özellikle BERT ve GPT gibi transformer tabanlı modellerin Türkçe üzerindeki performansı ve uyarlama çalışmaları detaylandırılmıştır. Türkçe gibi düşük kaynaklı dillerde veri yetersizliğinin NLP modellerinin başarısını kısıtladığı belirtilmiş ve bu sorunun çözümüne yönelik olarak açık kaynak veri kümeleri ile veri artırma tekniklerinin sağladığı katkılar tartışılmıştır. Türkçe için geliştirilen BERTurk, BioBERTurk ve benzeri transformer tabanlı modellerin başarılı sonuçlar vermesine rağmen makine çevirisi, isim tanıma ve metin üretme gibi alanlarda daha fazla çalışmaya ihtiyaç duyulduğu belirtilmiştir. Çalışma, literatürdeki boşluklara işaret ederek Türkçeye özgü veri kaynaklarının ve NLP yöntemlerinin geliştirilmesinin, diğer eklemeli diller için de yol gösterici olabileceğini vurgulamaktadır. Sonuç olarak, bu derleme, Türkçe NLP alanında karşılaşılan mevcut zorlukları ve gelişmeleri ortaya koymakta; düşük kaynaklı dillerde etkin NLP çözümleri üretmeye yönelik öneriler sunmakta ve gelecekte yapılacak araştırmalar için kapsamlı bir yön belirlemektedir.
This study comprehensively addresses the developments in the field of Turkish natural language processing over the past five years, the methodological challenges encountered, and future research perspectives. The agglutinative structure and morphological richness of Turkish require the development of unique methods suitable for the structural complexity of the language in the NLP field. The study evaluates common NLP applications such as text classification, sentiment analysis, question-answer systems, and word embedding models. In particular, the performance of transformer- based models like BERT and GPT on Turkish and their adaptation studies are detailed. It is noted that data scarcity in low-resource languages like Turkish limits the success of NLP models, and discussions are provided on the contributions of open-source datasets and data augmentation techniques to address this problem. Despite the successful results of transformer-based models developed for Turkish, such as BERTurk and BioBERTurk, it is stated that further research is needed in areas such as machine translation, named entity recognition, and text generation. The study emphasizes that addressing the gaps in the literature and developing Turkish-specific data resources and NLP methods could also be informative for other agglutinative languages. In conclusion, this review highlights the current challenges and advancements encountered in the field of Turkish NLP and offers suggestions for producing effective NLP solutions in low-resource languages.