--- language: tr license: apache-2.0 library_name: transformers tags: - text-generation - turkish - deepseek - moe - mla - pytorch - causal-lm datasets: - tr_wikipedia widget: - text: "Merhaba dünya" example_title: "Turkish Greeting" - text: "Türkiye'nin başkenti" example_title: "Turkish Geography" - text: "Yapay zeka" example_title: "Turkish Technology" --- # Turkish DeepSeek Model Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir. ## Model Özellikleri - **Parametre Sayısı**: ~192M - **Kelime Hazinesi**: 50,256 token - **Bağlam Uzunluğu**: 256 token - **Dil**: Türkçe (tr) - **Mimarisi**: DeepSeek with MLA + MoE ## Teknik Detaylar - **Gizli Boyut**: 1024 - **Katman Sayısı**: 6 (1 yoğun + 5 MoE) - **Attention Head**: 8 - **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı - **Aktif Uzman**: 2 per token ## Kullanım ### Temel Kullanım ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM # Model ve tokenizer'ı yükle model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek") # Metin üretimi prompt = "Merhaba dünya" inputs = tokenizer(prompt, return_tensors="pt") with torch.no_grad(): outputs = model.generate( **inputs, max_length=50, temperature=0.7, do_sample=True, pad_token_id=tokenizer.pad_token_id ) generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_text) ``` ### Orijinal Implementation ile Kullanım ```python # Orijinal implementasyonu kullanmak için import torch import sentencepiece as spm # Tokenizer'ı yükle tokenizer = spm.SentencePieceProcessor() tokenizer.load("tokenizer.model") # Model checkpoint'ini yükle checkpoint = torch.load("pytorch_model.bin", map_location="cpu") # Orijinal model sınıfınızı kullanarak yükleyin # from your_original_implementation import Transformer, ModelArgs # model = Transformer(args) # model.load_state_dict(checkpoint) ``` ## Eğitim Verisi - **Kaynak**: Türkçe Wikipedia - **Tokenization**: SentencePiece BPE - **Kelime Hazinesi**: Türkçe diline optimize edilmiş ## Model Mimarisi ### Multi-head Latent Attention (MLA) - Sıkıştırılmış key-value temsilleri (rank 256) - Ayrı no-position ve position encoding bileşenleri - Uzun diziler için verimli bellek kullanımı ### Mixture of Experts (MoE) - Top-2 yönlendirme ve yük dengeleme - Ortak desenler için paylaşımlı uzmanlar - Seyrek aktivasyon ile azaltılmış hesaplama ### RoPE with YaRN Scaling - Frekans ölçekleme ile rotational position embedding - Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği - Temel frekans: 10000.0 ## Performans - **Çıkarım**: Türkçe metin üretimi için optimize edilmiş - **Bellek**: MLA, KV cache boyutunu azaltır - **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır ## Sınırlamalar - Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı) - Bağlam uzunluğu 256 token ile sınırlı - Eğitim verisinde mevcut önyargılar sergileyebilir ## Alıntı Bu modeli kullanırsanız, lütfen alıntı yapın: ```bibtex @misc{turkish-deepseek, title={Turkish DeepSeek Language Model}, author={Your Name}, year={2024}, url={https://huggingface.co/your-username/turkish-deepseek} } ``` ## Lisans Apache 2.0 License ## Model Card Authors [Your Name] --- ## English Summary This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data. ### Key Features - **Architecture**: DeepSeek with advanced MLA and MoE components - **Language**: Turkish (tr) - **Training**: Turkish Wikipedia corpus - **Vocabulary**: 50,256 tokens optimized for Turkish ### Usage Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.