crpatel commited on
Commit
46ec2e5
·
1 Parent(s): af91c4e

READ ME update

Browse files
Files changed (2) hide show
  1. app.py +1 -1
  2. indi-lang.ipynb +24 -24
app.py CHANGED
@@ -13,7 +13,7 @@ class DecodeRequest(BaseModel):
13
  tokens: str
14
 
15
  # Initialize the tokenizer
16
- tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=150000)
17
 
18
  app = FastAPI()
19
 
 
13
  tokens: str
14
 
15
  # Initialize the tokenizer
16
+ tokenizer = BPEGujaratiTokenizer(corpus_path="gu_corpus.txt", max_vocab_size=5000, sample_size=300000)
17
 
18
  app = FastAPI()
19
 
indi-lang.ipynb CHANGED
@@ -109,7 +109,7 @@
109
  },
110
  {
111
  "cell_type": "code",
112
- "execution_count": 4,
113
  "metadata": {},
114
  "outputs": [
115
  {
@@ -118,15 +118,15 @@
118
  "text": [
119
  "Before Training Vocab length 256\n",
120
  "num_merges required 4744\n",
121
- "Before training: ids length: 379218\n",
122
- "Before training: tokens length: 379218\n",
123
  "Before training: merges length: 0\n",
124
- "After training: ids length: 36290\n",
125
- "After training: tokens length: 379218\n",
126
  "After training: merges length: 4744\n",
127
  "After Training Vocab length 5000\n",
128
- "compression ratio: 10.45X\n",
129
- "Time taken to train: 96.17453122138977 seconds\n",
130
  "--------------------------------\n"
131
  ]
132
  }
@@ -135,7 +135,7 @@
135
  "import time\n",
136
  "\n",
137
  "start_time = time.time()\n",
138
- "tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=150000)\n",
139
  "end_time = time.time()\n",
140
  "print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
141
  "print(\"--------------------------------\")\n"
@@ -143,64 +143,64 @@
143
  },
144
  {
145
  "cell_type": "code",
146
- "execution_count": 15,
147
  "metadata": {},
148
  "outputs": [
149
  {
150
  "name": "stdout",
151
  "output_type": "stream",
152
  "text": [
153
- "[292, 310, 164, 290, 363, 329, 325, 310, 155, 600]\n",
154
- "Time taken to encode: 0.0006651878356933594 seconds\n",
155
  "--------------------------------\n",
156
  "હું તને પ્રેમ કરું છું\n",
157
- "Time taken to decode: 0.0004611015319824219 seconds\n",
158
  "--------------------------------\n",
159
  "original: હું આજે ખૂબ ખુશ છું.\n",
160
- "encoded: [292, 310, 1987, 150, 314, 172, 1804, 503, 600, 46]\n",
161
  "decoded: હું આજે ખૂબ ખુશ છું.\n",
162
  "True\n",
163
  "original: તું શું કરે છે? \n",
164
- "encoded: [279, 1700, 310, 412, 267, 155, 260, 63, 32]\n",
165
  "decoded: તું શું કરે છે? \n",
166
  "True\n",
167
  "original: મને ચા પીવી છે. \n",
168
- "encoded: [274, 290, 154, 553, 549, 269, 155, 260, 46, 32]\n",
169
  "decoded: મને ચા પીવી છે. \n",
170
  "True\n",
171
  "original: એ બધું સરસ છે. \n",
172
- "encoded: [479, 334, 343, 310, 184, 1538, 503, 260, 46, 32]\n",
173
  "decoded: એ બધું સરસ છે. \n",
174
  "True\n",
175
  "original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
176
- "encoded: [256, 134, 298, 280, 437, 294, 1990, 172, 316, 326, 1308, 361, 503, 260, 46, 32]\n",
177
  "decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
178
  "True\n",
179
  "original: તારે ક્યારે આવવું છે? \n",
180
- "encoded: [279, 344, 149, 482, 347, 1691, 155, 260, 63, 32]\n",
181
  "decoded: તારે ક્યારે આવવું છે? \n",
182
  "True\n",
183
  "original: આ મારો મિત્ર છે. \n",
184
- "encoded: [256, 134, 1803, 283, 174, 366, 288, 503, 260, 46, 32]\n",
185
  "decoded: આ મારો મિત્ર છે. \n",
186
  "True\n",
187
  "original: હું શાકભાજી લઈ આવ્યો છું. \n",
188
- "encoded: [292, 1700, 621, 418, 429, 1527, 388, 788, 413, 155, 600, 46, 32]\n",
189
  "decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
190
  "True\n",
191
  "original: આકાશ માં વાદળ છે. \n",
192
- "encoded: [256, 134, 294, 1089, 307, 285, 181, 405, 345, 503, 260, 46, 32]\n",
193
  "decoded: આકાશ માં વાદળ છે. \n",
194
  "True\n",
195
  "original: શાળા ક્યારે ��રૂ થશે? \n",
196
- "encoded: [330, 888, 391, 482, 182, 268, 1248, 165, 330, 260, 63, 32]\n",
197
  "decoded: શાળા ક્યારે શરૂ થશે? \n",
198
  "True\n",
199
  "original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
200
- "encoded: [256, 134, 298, 280, 437, 294, 1990, 172, 316, 326, 1308, 361, 503, 260, 46]\n",
201
  "decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
202
  "True\n",
203
- "Time taken to decode: 0.009427070617675781 seconds\n",
204
  "--------------------------------\n"
205
  ]
206
  }
 
109
  },
110
  {
111
  "cell_type": "code",
112
+ "execution_count": 6,
113
  "metadata": {},
114
  "outputs": [
115
  {
 
118
  "text": [
119
  "Before Training Vocab length 256\n",
120
  "num_merges required 4744\n",
121
+ "Before training: ids length: 755940\n",
122
+ "Before training: tokens length: 755940\n",
123
  "Before training: merges length: 0\n",
124
+ "After training: ids length: 76306\n",
125
+ "After training: tokens length: 755940\n",
126
  "After training: merges length: 4744\n",
127
  "After Training Vocab length 5000\n",
128
+ "compression ratio: 9.91X\n",
129
+ "Time taken to train: 199.02717900276184 seconds\n",
130
  "--------------------------------\n"
131
  ]
132
  }
 
135
  "import time\n",
136
  "\n",
137
  "start_time = time.time()\n",
138
+ "tokenizer = BPEGujaratiTokenizer(corpus_path=\"gu_corpus.txt\", max_vocab_size=5000, sample_size=300000)\n",
139
  "end_time = time.time()\n",
140
  "print(f\"Time taken to train: {end_time - start_time} seconds\")\n",
141
  "print(\"--------------------------------\")\n"
 
143
  },
144
  {
145
  "cell_type": "code",
146
+ "execution_count": 5,
147
  "metadata": {},
148
  "outputs": [
149
  {
150
  "name": "stdout",
151
  "output_type": "stream",
152
  "text": [
153
+ "[294, 307, 164, 292, 431, 325, 317, 3229, 444]\n",
154
+ "Time taken to encode: 0.0007619857788085938 seconds\n",
155
  "--------------------------------\n",
156
  "હું તને પ્રેમ કરું છું\n",
157
+ "Time taken to decode: 0.0004019737243652344 seconds\n",
158
  "--------------------------------\n",
159
  "original: હું આજે ખૂબ ખુશ છું.\n",
160
+ "encoded: [294, 307, 1414, 853, 928, 1793, 482, 444, 46]\n",
161
  "decoded: હું આજે ખૂબ ખુશ છું.\n",
162
  "True\n",
163
  "original: તું શું કરે છે? \n",
164
+ "encoded: [3519, 182, 307, 391, 4339, 63, 32]\n",
165
  "decoded: તું શું કરે છે? \n",
166
  "True\n",
167
  "original: મને ચા પીવી છે. \n",
168
+ "encoded: [274, 292, 154, 758, 519, 269, 296, 46, 32]\n",
169
  "decoded: મને ચા પીવી છે. \n",
170
  "True\n",
171
  "original: એ બધું સરસ છે. \n",
172
+ "encoded: [512, 4222, 3997, 2296, 3648, 46, 32]\n",
173
  "decoded: એ બધું સરસ છે. \n",
174
  "True\n",
175
  "original: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
176
+ "encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46, 32]\n",
177
  "decoded: આ પુસ્તક ખૂબ રસપ્રદ છે. \n",
178
  "True\n",
179
  "original: તારે ક્યારે આવવું છે? \n",
180
+ "encoded: [2460, 335, 484, 340, 793, 296, 63, 32]\n",
181
  "decoded: તારે ક્યારે આવવું છે? \n",
182
  "True\n",
183
  "original: આ મારો મિત્ર છે. \n",
184
+ "encoded: [256, 134, 309, 763, 4071, 3648, 46, 32]\n",
185
  "decoded: આ મારો મિત્ર છે. \n",
186
  "True\n",
187
  "original: હું શાકભાજી લઈ આવ્યો છું. \n",
188
+ "encoded: [294, 307, 182, 533, 455, 397, 666, 451, 655, 2301, 444, 46, 32]\n",
189
  "decoded: હું શાકભાજી લઈ આવ્યો છું. \n",
190
  "True\n",
191
  "original: આકાશ માં વાદળ છે. \n",
192
+ "encoded: [256, 134, 290, 676, 1546, 181, 390, 343, 3648, 46, 32]\n",
193
  "decoded: આકાશ માં વાદળ છે. \n",
194
  "True\n",
195
  "original: શાળા ક્યારે ��રૂ થશે? \n",
196
+ "encoded: [332, 547, 581, 484, 3680, 165, 1168, 63, 32]\n",
197
  "decoded: શાળા ક્યારે શરૂ થશે? \n",
198
  "True\n",
199
  "original: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
200
+ "encoded: [256, 4844, 2469, 290, 3227, 311, 4738, 345, 3648, 46]\n",
201
  "decoded: આ પુસ્તક ખૂબ રસપ્રદ છે.\n",
202
  "True\n",
203
+ "Time taken to decode: 0.009686946868896484 seconds\n",
204
  "--------------------------------\n"
205
  ]
206
  }