Spaces:
Sleeping
Sleeping
READ ME update
Browse files- app.py +1 -1
- indi-lang.ipynb +24 -24
app.py
CHANGED
@@ -13,7 +13,7 @@ class DecodeRequest(BaseModel):
|
|
13 |
tokens: str
|
14 |
|
15 |
# Initialize the tokenizer
|
16 |
-
tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=
|
17 |
|
18 |
app = FastAPI()
|
19 |
|
|
|
13 |
tokens: str
|
14 |
|
15 |
# Initialize the tokenizer
|
16 |
+
tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=300000)
|
17 |
|
18 |
app = FastAPI()
|
19 |
|
indi-lang.ipynb
CHANGED
@@ -109,7 +109,7 @@
|
|
109 |
},
|
110 |
{
|
111 |
"cell_type": "code",
|
112 |
-
"execution_count":
|
113 |
"metadata": {},
|
114 |
"outputs": [
|
115 |
{
|
@@ -118,15 +118,15 @@
|
|
118 |
"text": [
|
119 |
"Before Training Vocab length 256\n",
|
120 |
"num_merges required 4744\n",
|
121 |
-
"Before training: ids length:
|
122 |
-
"Before training: tokens length:
|
123 |
"Before training: merges length: 0\n",
|
124 |
-
"After training: ids length:
|
125 |
-
"After training: tokens length:
|
126 |
"After training: merges length: 4744\n",
|
127 |
"After Training Vocab length 5000\n",
|
128 |
-
"compression ratio:
|
129 |
-
"Time taken to train:
|
130 |
"--------------------------------\n"
|
131 |
]
|
132 |
}
|
@@ -135,7 +135,7 @@
|
|
135 |
"import time\n",
|
136 |
"\n",
|
137 |
"start_time = time.time()\n",
|
138 |
-
"tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=
|
139 |
"end_time = time.time()\n",
|
140 |
"print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
|
141 |
"print(\"--------------------------------\")\n"
|
@@ -143,64 +143,64 @@
|
|
143 |
},
|
144 |
{
|
145 |
"cell_type": "code",
|
146 |
-
"execution_count":
|
147 |
"metadata": {},
|
148 |
"outputs": [
|
149 |
{
|
150 |
"name": "stdout",
|
151 |
"output_type": "stream",
|
152 |
"text": [
|
153 |
-
"[
|
154 |
-
"Time taken to encode: 0.
|
155 |
"--------------------------------\n",
|
156 |
"હું તને પ્રેમ કરું છું\n",
|
157 |
-
"Time taken to decode: 0.
|
158 |
"--------------------------------\n",
|
159 |
"original: હું આજે ખૂબ ખુશ છું.\n",
|
160 |
-
"encoded: [
|
161 |
"decoded: હું આજે ખૂબ ખુશ છું.\n",
|
162 |
"True\n",
|
163 |
"original: તું શું કરે છે? \n",
|
164 |
-
"encoded: [
|
165 |
"decoded: તું શું કરે છે? \n",
|
166 |
"True\n",
|
167 |
"original: મને ચા પીવી છે. \n",
|
168 |
-
"encoded: [274,
|
169 |
"decoded: મને ચા પીવી છે. \n",
|
170 |
"True\n",
|
171 |
"original: એ બધું સરસ છે. \n",
|
172 |
-
"encoded: [
|
173 |
"decoded: એ બધું સરસ છે. \n",
|
174 |
"True\n",
|
175 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
176 |
-
"encoded: [256,
|
177 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
178 |
"True\n",
|
179 |
"original: તારે ક્યારે આવવું છે? \n",
|
180 |
-
"encoded: [
|
181 |
"decoded: તારે ક્યારે આવવું છે? \n",
|
182 |
"True\n",
|
183 |
"original: આ મારો મિત્ર છે. \n",
|
184 |
-
"encoded: [256, 134,
|
185 |
"decoded: આ મારો મિત્ર છે. \n",
|
186 |
"True\n",
|
187 |
"original: હું શાકભાજી લઈ આવ્યો છું. \n",
|
188 |
-
"encoded: [
|
189 |
"decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
|
190 |
"True\n",
|
191 |
"original: આકાશ માં વાદળ છે. \n",
|
192 |
-
"encoded: [256, 134,
|
193 |
"decoded: આકાશ માં વાદળ છે. \n",
|
194 |
"True\n",
|
195 |
"original: શાળા ક્યારે ��રૂ થશે? \n",
|
196 |
-
"encoded: [
|
197 |
"decoded: શાળા ક્યારે શરૂ થશે? \n",
|
198 |
"True\n",
|
199 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
200 |
-
"encoded: [256,
|
201 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
202 |
"True\n",
|
203 |
-
"Time taken to decode: 0.
|
204 |
"--------------------------------\n"
|
205 |
]
|
206 |
}
|
|
|
109 |
},
|
110 |
{
|
111 |
"cell_type": "code",
|
112 |
+
"execution_count": 6,
|
113 |
"metadata": {},
|
114 |
"outputs": [
|
115 |
{
|
|
|
118 |
"text": [
|
119 |
"Before Training Vocab length 256\n",
|
120 |
"num_merges required 4744\n",
|
121 |
+
"Before training: ids length: 755940\n",
|
122 |
+
"Before training: tokens length: 755940\n",
|
123 |
"Before training: merges length: 0\n",
|
124 |
+
"After training: ids length: 76306\n",
|
125 |
+
"After training: tokens length: 755940\n",
|
126 |
"After training: merges length: 4744\n",
|
127 |
"After Training Vocab length 5000\n",
|
128 |
+
"compression ratio: 9.91X\n",
|
129 |
+
"Time taken to train: 199.02717900276184 seconds\n",
|
130 |
"--------------------------------\n"
|
131 |
]
|
132 |
}
|
|
|
135 |
"import time\n",
|
136 |
"\n",
|
137 |
"start_time = time.time()\n",
|
138 |
+
"tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=300000)\n",
|
139 |
"end_time = time.time()\n",
|
140 |
"print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
|
141 |
"print(\"--------------------------------\")\n"
|
|
|
143 |
},
|
144 |
{
|
145 |
"cell_type": "code",
|
146 |
+
"execution_count": 5,
|
147 |
"metadata": {},
|
148 |
"outputs": [
|
149 |
{
|
150 |
"name": "stdout",
|
151 |
"output_type": "stream",
|
152 |
"text": [
|
153 |
+
"[294, 307, 164, 292, 431, 325, 317, 3229, 444]\n",
|
154 |
+
"Time taken to encode: 0.0007619857788085938 seconds\n",
|
155 |
"--------------------------------\n",
|
156 |
"હું તને પ્રેમ કરું છું\n",
|
157 |
+
"Time taken to decode: 0.0004019737243652344 seconds\n",
|
158 |
"--------------------------------\n",
|
159 |
"original: હું આજે ખૂબ ખુશ છું.\n",
|
160 |
+
"encoded: [294, 307, 1414, 853, 928, 1793, 482, 444, 46]\n",
|
161 |
"decoded: હું આજે ખૂબ ખુશ છું.\n",
|
162 |
"True\n",
|
163 |
"original: તું શું કરે છે? \n",
|
164 |
+
"encoded: [3519, 182, 307, 391, 4339, 63, 32]\n",
|
165 |
"decoded: તું શું કરે છે? \n",
|
166 |
"True\n",
|
167 |
"original: મને ચા પીવી છે. \n",
|
168 |
+
"encoded: [274, 292, 154, 758, 519, 269, 296, 46, 32]\n",
|
169 |
"decoded: મને ચા પીવી છે. \n",
|
170 |
"True\n",
|
171 |
"original: એ બધું સરસ છે. \n",
|
172 |
+
"encoded: [512, 4222, 3997, 2296, 3648, 46, 32]\n",
|
173 |
"decoded: એ બધું સરસ છે. \n",
|
174 |
"True\n",
|
175 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
176 |
+
"encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46, 32]\n",
|
177 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
|
178 |
"True\n",
|
179 |
"original: તારે ક્યારે આવવું છે? \n",
|
180 |
+
"encoded: [2460, 335, 484, 340, 793, 296, 63, 32]\n",
|
181 |
"decoded: તારે ક્યારે આવવું છે? \n",
|
182 |
"True\n",
|
183 |
"original: આ મારો મિત્ર છે. \n",
|
184 |
+
"encoded: [256, 134, 309, 763, 4071, 3648, 46, 32]\n",
|
185 |
"decoded: આ મારો મિત્ર છે. \n",
|
186 |
"True\n",
|
187 |
"original: હું શાકભાજી લઈ આવ્યો છું. \n",
|
188 |
+
"encoded: [294, 307, 182, 533, 455, 397, 666, 451, 655, 2301, 444, 46, 32]\n",
|
189 |
"decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
|
190 |
"True\n",
|
191 |
"original: આકાશ માં વાદળ છે. \n",
|
192 |
+
"encoded: [256, 134, 290, 676, 1546, 181, 390, 343, 3648, 46, 32]\n",
|
193 |
"decoded: આકાશ માં વાદળ છે. \n",
|
194 |
"True\n",
|
195 |
"original: શાળા ક્યારે ��રૂ થશે? \n",
|
196 |
+
"encoded: [332, 547, 581, 484, 3680, 165, 1168, 63, 32]\n",
|
197 |
"decoded: શાળા ક્યારે શરૂ થશે? \n",
|
198 |
"True\n",
|
199 |
"original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
200 |
+
"encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46]\n",
|
201 |
"decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
|
202 |
"True\n",
|
203 |
+
"Time taken to decode: 0.009686946868896484 seconds\n",
|
204 |
"--------------------------------\n"
|
205 |
]
|
206 |
}
|