crossroderick commited on
Commit
8a2143a
·
1 Parent(s): aab3f96

Readme and tokeniser update

Browse files
README.md CHANGED
@@ -121,7 +121,7 @@ print(output)
121
 
122
  KazParC деректер жинағын жүктеп алу үшін сізге Hugging Face есептік жазбасы қажет екенін ескеріңіз. Бұған қоса, жүктеп алуды бастау үшін өзіңізді аутентификациялау үшін «huggingface-cli» орнатуыңыз қажет. Бұл туралы толығырақ [мына жерден](https://huggingface.co/docs/huggingface_hub/en/guides/cli) оқыңыз / Please note that you'll need a Hugging Face account to download the KazParC dataset. Additionally, you'll need to install `huggingface-cli` to authenticate yourself for the download to commence. Read more about it [here](https://huggingface.co/docs/huggingface_hub/en/guides/cli).
123
 
124
- Егер сіз Windows жүйесінде болсаңыз, «get_data.sh» сценарийі жұмыс істемеуі мүмкін. Дегенмен, файлдағы сілтемелерді орындап, ондағы қадамдарды қолмен орындау арқылы әлі де деректерді алуға болады. Сол сияқты, «generate_clean_corpus.sh» файлында да қате пайда болады, бұл «kazakh_latin_corpus.json» файлындағы бос немесе бос жолдарды сүзу, сондай-ақ оны араластыру үшін Windows жүйесінің баламалы мүмкіндігін табуды талап етеді. Бұған қоса, `wikiextractor` бумасын алдын ала орнатқаныңызға сенімді болыңыз (нақты пайдаланылған нұсқаны `requirements.txt` файлынан табуға болады) / If you're on Windows, the `get_data.sh` script likely won't work. However, you can still get the data by following the links in the file and manually doing the steps in there. Likewise, `generate_clean_corpus.sh` will also error out, requiring you to find an equivalent Windows functionality to filter out blank or empty lines in the `kazakh_latin_corpus.json` file, as well as shuffle it. Additionally, be sure to install the `wikiextractor` package beforehand (the exact version used can be found in the `requirements.txt` file).
125
 
126
  ---
127
 
@@ -150,5 +150,4 @@ KazParC деректер жинағын жүктеп алу үшін сізге
150
  year = 2025,
151
  url = {https://huggingface.co/crossroderick/dalat5}
152
  }
153
- ```
154
-
 
121
 
122
  KazParC деректер жинағын жүктеп алу үшін сізге Hugging Face есептік жазбасы қажет екенін ескеріңіз. Бұған қоса, жүктеп алуды бастау үшін өзіңізді аутентификациялау үшін «huggingface-cli» орнатуыңыз қажет. Бұл туралы толығырақ [мына жерден](https://huggingface.co/docs/huggingface_hub/en/guides/cli) оқыңыз / Please note that you'll need a Hugging Face account to download the KazParC dataset. Additionally, you'll need to install `huggingface-cli` to authenticate yourself for the download to commence. Read more about it [here](https://huggingface.co/docs/huggingface_hub/en/guides/cli).
123
 
124
+ Егер сіз Windows жүйесінде болсаңыз, `get_data.sh` сценарийі жұмыс істемеуі мүмкін. Дегенмен, файлдағы сілтемелерді орындап, ондағы қадамдарды қолмен орындау арқылы әлі де деректерді алуға болады. Сол сияқты, `generate_clean_corpus.sh` файлында да қате пайда болады, бұл `kazakh_latin_corpus.json` файлындағы бос немесе бос жолдарды сүзу, сондай-ақ оны араластыру үшін Windows жүйесінің баламалы мүмкіндігін табуды талап етеді. Бұған қоса, `wikiextractor` бумасын алдын ала орнатқаныңызға сенімді болыңыз (нақты пайдаланылған нұсқаны `requirements.txt` файлынан табуға болады) / If you're on Windows, the `get_data.sh` script likely won't work. However, you can still get the data by following the links in the file and manually doing the steps in there. Likewise, `generate_clean_corpus.sh` will also error out, requiring you to find an equivalent Windows functionality to filter out blank or empty lines in the `kazakh_latin_corpus.json` file, as well as shuffle it. Additionally, be sure to install the `wikiextractor` package beforehand (the exact version used can be found in the `requirements.txt` file).
125
 
126
  ---
127
 
 
150
  year = 2025,
151
  url = {https://huggingface.co/crossroderick/dalat5}
152
  }
153
+ ```
 
src/data/generate_cyr_lat_pairs.py CHANGED
@@ -19,7 +19,7 @@ cyrillic_to_latin = {
19
  "Һ": "H", "һ": "h",
20
 
21
  "И": "I", "и": "i", # used for [и], [й]
22
- "І": "I", "і": "i", # distinct from И in sound, both map to 'I/i'
23
  "Ж": "J", "ж": "j",
24
 
25
  "К": "K", "к": "k",
 
19
  "Һ": "H", "һ": "h",
20
 
21
  "И": "I", "и": "i", # used for [и], [й]
22
+ "І": "I", "і": "ı", # distinct from И in sound, both map to 'I/i'
23
  "Ж": "J", "ж": "j",
24
 
25
  "К": "K", "к": "k",
src/tokeniser/tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff