Spaces:
Sleeping
Sleeping
READ ME update
Browse files- app.py +1 -1
- indi-lang.ipynb +24 -24
app.py
CHANGED
|
@@ -13,7 +13,7 @@ class DecodeRequest(BaseModel):
|
|
| 13 |
tokens: str
|
| 14 |
|
| 15 |
# Initialize the tokenizer
|
| 16 |
-
tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=
|
| 17 |
|
| 18 |
app = FastAPI()
|
| 19 |
|
|
|
|
| 13 |
tokens: str
|
| 14 |
|
| 15 |
# Initialize the tokenizer
|
| 16 |
+
tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=300000)
|
| 17 |
|
| 18 |
app = FastAPI()
|
| 19 |
|
indi-lang.ipynb
CHANGED
|
@@ -109,7 +109,7 @@
|
|
| 109 |
},
|
| 110 |
{
|
| 111 |
"cell_type": "code",
|
| 112 |
-
"execution_count":
|
| 113 |
"metadata": {},
|
| 114 |
"outputs": [
|
| 115 |
{
|
|
@@ -118,15 +118,15 @@
|
|
| 118 |
"text": [
|
| 119 |
"Before Training Vocab length 256\n",
|
| 120 |
"num_merges required 4744\n",
|
| 121 |
-
"Before training: ids length:
|
| 122 |
-
"Before training: tokens length:
|
| 123 |
"Before training: merges length: 0\n",
|
| 124 |
-
"After training: ids length:
|
| 125 |
-
"After training: tokens length:
|
| 126 |
"After training: merges length: 4744\n",
|
| 127 |
"After Training Vocab length 5000\n",
|
| 128 |
-
"compression ratio:
|
| 129 |
-
"Time taken to train:
|
| 130 |
"--------------------------------\n"
|
| 131 |
]
|
| 132 |
}
|
|
@@ -135,7 +135,7 @@
|
|
| 135 |
"import time\n",
|
| 136 |
"\n",
|
| 137 |
"start_time = time.time()\n",
|
| 138 |
-
"tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=
|
| 139 |
"end_time = time.time()\n",
|
| 140 |
"print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
|
| 141 |
"print(\"--------------------------------\")\n"
|
|
@@ -143,64 +143,64 @@
|
|
| 143 |
},
|
| 144 |
{
|
| 145 |
"cell_type": "code",
|
| 146 |
-
"execution_count":
|
| 147 |
"metadata": {},
|
| 148 |
"outputs": [
|
| 149 |
{
|
| 150 |
"name": "stdout",
|
| 151 |
"output_type": "stream",
|
| 152 |
"text": [
|
| 153 |
-
"[
|
| 154 |
-
"Time taken to encode: 0.
|
| 155 |
"--------------------------------\n",
|
| 156 |
"હું તને પ્રેમ કરું છું\n",
|
| 157 |
-
"Time taken to decode: 0.
|
| 158 |
"--------------------------------\n",
|
| 159 |
"original: હું આજે ખૂબ ખુશ છું.\n",
|
| 160 |
-
"encoded: [
|
| 161 |
"decoded: હું આજે ખૂબ ખુશ છું.\n",
|
| 162 |
"True\n",
|
| 163 |
"original: તું શું કરે છે? \n",
|
| 164 |
-
"encoded: [
|
| 165 |
"decoded: તું શું કરે છે? \n",
|
| 166 |
"True\n",
|
| 167 |
"original: મને ચા પીવી છે. \n",
|
| 168 |
-
"encoded: [274,
|
| 169 |
"decoded: મને ચા પીવી છે. \n",
|
| 170 |
"True\n",
|
| 171 |
"original: એ બધું સરસ છે. \n",
|
| 172 |
-
"encoded: [
|
| 173 |
"decoded: એ બધું સરસ છે. \n",
|
| 174 |
"True\n",
|
| 175 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
| 176 |
-
"encoded: [256,
|
| 177 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
| 178 |
"True\n",
|
| 179 |
"original: તારે ક્યારે આવવું છે? \n",
|
| 180 |
-
"encoded: [
|
| 181 |
"decoded: તારે ક્યારે આવવું છે? \n",
|
| 182 |
"True\n",
|
| 183 |
"original: આ મારો મિત્ર છે. \n",
|
| 184 |
-
"encoded: [256, 134,
|
| 185 |
"decoded: આ મારો મિત્ર છે. \n",
|
| 186 |
"True\n",
|
| 187 |
"original: હું શાકભાજી લઈ આવ્યો છું. \n",
|
| 188 |
-
"encoded: [
|
| 189 |
"decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
|
| 190 |
"True\n",
|
| 191 |
"original: આકાશ માં વાદળ છે. \n",
|
| 192 |
-
"encoded: [256, 134,
|
| 193 |
"decoded: આકાશ માં વાદળ છે. \n",
|
| 194 |
"True\n",
|
| 195 |
"original: શાળા ક્યારે ��રૂ થશે? \n",
|
| 196 |
-
"encoded: [
|
| 197 |
"decoded: શાળા ક્યારે શરૂ થશે? \n",
|
| 198 |
"True\n",
|
| 199 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
| 200 |
-
"encoded: [256,
|
| 201 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
| 202 |
"True\n",
|
| 203 |
-
"Time taken to decode: 0.
|
| 204 |
"--------------------------------\n"
|
| 205 |
]
|
| 206 |
}
|
|
|
|
| 109 |
},
|
| 110 |
{
|
| 111 |
"cell_type": "code",
|
| 112 |
+
"execution_count": 6,
|
| 113 |
"metadata": {},
|
| 114 |
"outputs": [
|
| 115 |
{
|
|
|
|
| 118 |
"text": [
|
| 119 |
"Before Training Vocab length 256\n",
|
| 120 |
"num_merges required 4744\n",
|
| 121 |
+
"Before training: ids length: 755940\n",
|
| 122 |
+
"Before training: tokens length: 755940\n",
|
| 123 |
"Before training: merges length: 0\n",
|
| 124 |
+
"After training: ids length: 76306\n",
|
| 125 |
+
"After training: tokens length: 755940\n",
|
| 126 |
"After training: merges length: 4744\n",
|
| 127 |
"After Training Vocab length 5000\n",
|
| 128 |
+
"compression ratio: 9.91X\n",
|
| 129 |
+
"Time taken to train: 199.02717900276184 seconds\n",
|
| 130 |
"--------------------------------\n"
|
| 131 |
]
|
| 132 |
}
|
|
|
|
| 135 |
"import time\n",
|
| 136 |
"\n",
|
| 137 |
"start_time = time.time()\n",
|
| 138 |
+
"tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=300000)\n",
|
| 139 |
"end_time = time.time()\n",
|
| 140 |
"print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
|
| 141 |
"print(\"--------------------------------\")\n"
|
|
|
|
| 143 |
},
|
| 144 |
{
|
| 145 |
"cell_type": "code",
|
| 146 |
+
"execution_count": 5,
|
| 147 |
"metadata": {},
|
| 148 |
"outputs": [
|
| 149 |
{
|
| 150 |
"name": "stdout",
|
| 151 |
"output_type": "stream",
|
| 152 |
"text": [
|
| 153 |
+
"[294, 307, 164, 292, 431, 325, 317, 3229, 444]\n",
|
| 154 |
+
"Time taken to encode: 0.0007619857788085938 seconds\n",
|
| 155 |
"--------------------------------\n",
|
| 156 |
"હું તને પ્રેમ કરું છું\n",
|
| 157 |
+
"Time taken to decode: 0.0004019737243652344 seconds\n",
|
| 158 |
"--------------------------------\n",
|
| 159 |
"original: હું આજે ખૂબ ખુશ છું.\n",
|
| 160 |
+
"encoded: [294, 307, 1414, 853, 928, 1793, 482, 444, 46]\n",
|
| 161 |
"decoded: હું આજે ખૂબ ખુશ છું.\n",
|
| 162 |
"True\n",
|
| 163 |
"original: તું શું કરે છે? \n",
|
| 164 |
+
"encoded: [3519, 182, 307, 391, 4339, 63, 32]\n",
|
| 165 |
"decoded: તું શું કરે છે? \n",
|
| 166 |
"True\n",
|
| 167 |
"original: મને ચા પીવી છે. \n",
|
| 168 |
+
"encoded: [274, 292, 154, 758, 519, 269, 296, 46, 32]\n",
|
| 169 |
"decoded: મને ચા પીવી છે. \n",
|
| 170 |
"True\n",
|
| 171 |
"original: એ બધું સરસ છે. \n",
|
| 172 |
+
"encoded: [512, 4222, 3997, 2296, 3648, 46, 32]\n",
|
| 173 |
"decoded: એ બધું સરસ છે. \n",
|
| 174 |
"True\n",
|
| 175 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
| 176 |
+
"encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46, 32]\n",
|
| 177 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
| 178 |
"True\n",
|
| 179 |
"original: તારે ક્યારે આવવું છે? \n",
|
| 180 |
+
"encoded: [2460, 335, 484, 340, 793, 296, 63, 32]\n",
|
| 181 |
"decoded: તારે ક્યારે આવવું છે? \n",
|
| 182 |
"True\n",
|
| 183 |
"original: આ મારો મિત્ર છે. \n",
|
| 184 |
+
"encoded: [256, 134, 309, 763, 4071, 3648, 46, 32]\n",
|
| 185 |
"decoded: આ મારો મિત્ર છે. \n",
|
| 186 |
"True\n",
|
| 187 |
"original: હું શાકભાજી લઈ આવ્યો છું. \n",
|
| 188 |
+
"encoded: [294, 307, 182, 533, 455, 397, 666, 451, 655, 2301, 444, 46, 32]\n",
|
| 189 |
"decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
|
| 190 |
"True\n",
|
| 191 |
"original: આકાશ માં વાદળ છે. \n",
|
| 192 |
+
"encoded: [256, 134, 290, 676, 1546, 181, 390, 343, 3648, 46, 32]\n",
|
| 193 |
"decoded: આકાશ માં વાદળ છે. \n",
|
| 194 |
"True\n",
|
| 195 |
"original: શાળા ક્યારે ��રૂ થશે? \n",
|
| 196 |
+
"encoded: [332, 547, 581, 484, 3680, 165, 1168, 63, 32]\n",
|
| 197 |
"decoded: શાળા ક્યારે શરૂ થશે? \n",
|
| 198 |
"True\n",
|
| 199 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
| 200 |
+
"encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46]\n",
|
| 201 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
| 202 |
"True\n",
|
| 203 |
+
"Time taken to decode: 0.009686946868896484 seconds\n",
|
| 204 |
"--------------------------------\n"
|
| 205 |
]
|
| 206 |
}
|