Explanation
A small experiment insipred by the Mistral playing DOOM experiment from the Mistral Hackathon
How it works?
Audio -> Waveform Visualization -> Waveform ASCII Art -> Finetune Mistral on ASCII Art to predict text from ASCII Art
Quick video explanation
Example Waveform
Example ASCII Art
y
x
x
x
ux
tx
dx
9 ex v
4 dr v
4 do s
1Y 6o e o5
x 1Y y 6o ze 7 iYY
e YYz r Ys Ym xd Y gYY
6 YYY r Ys Yl xd sY Y eYY Y
z 6 YYY y s k z Ys Yl xd sY Y m vYYY s 5Y z
Yh 6Y xfYYY y qq i 2m Ydu Y6 Y vd sYY Yz cq vYYY eY 5Y0 b z q
YYz 6Y xywYYYY ZzqYt f YY Ydu Y6 Y vd sYY Yl 6d iYYY YYz 5YY Y z 9 g il
YYx YYo gfwYYYY ZxkY6 wf Z9YY Ydu xz6 Y6 Yi8 v4 sYY z YY 6d 4YYY uYYu o 5YY f Y zkyY 0 1Y z
YYw YY7 hfwYYYY 7 ZYkYY 1 z 7Y yYYYY YdY 8zY Y6 Y78 v4 sYYyt Y YY 6d 4YYYz3YYY o 4YYx e Yzx0xY Z 1Y 8
YYw YYY 5dwYYYYeYmZYmYY Y Y YY sYYYYY YdYl x 50Yo 9 Y6 YYY4 v5 vYY3tpY YY 6d 4YYYyYYYY m 3YYq Y Yzg0iY Y 4ZY 98 p
YYsjYYYYz 5Y7YYYYYYdYYYYY Y Y YY YYYYYY YcYY 5lY8YYa1 Y6 YYY2 v7YYYYYYpYz YYY 6d ZYYYtYYYY Yg 3YYo Y Yz8YZY xw Y YYY Y5 p Y
YY6YYYYYa YY9YYYYYYYYYYYYrYyYz YYe YYYYYY YYYYv YsYYYYYYY uY5 YYYY0 vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvkt YYYYY Y4yo4 1Yay
3YYdYYYYY8 YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY YYYYn YeYYYYYYYZ uY5 YYYY0 uYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y58 3YYi6pY ZYz5YYY2e5 YYYYY Y2qeYz1YY9
YYY5YYYYY5 YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyrYYY 6YY YYYYYYYYY YYY 3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY
YYYYYYYYYY YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1 YYYY2YYYYYYYYYYY vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYYYYYYYYYYYY1YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYZY112YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY
YYY1YYYYYY YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4 YYYY2YYYYYYYYYYY vYYYYYYYY 7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYY6YYYYY6 YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyxYYY 6YY YYYYYYYYY YYY 3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY
cYYcYYYYY8 YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY YYYYn YfYYYYYYYZ uY5 YYYY0 vYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y5n 3YYi8pY 1Yz6YYY3g7 YYYYY Y2qkYz1YYa
YY9YYYYYf YY9YYYYYYYYYYYYrYyYz YYi YYYYYY Y1YYv YsYZYYYYY uY5 YYYYb vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvku YYYYY Y3zo6 1Yn
YYskYYYYz 5Y8YYYYYYdYY2YY Y Y YY YYYYYY YcYY 5lY8YYd3 Y6 YYY4 v9YYYYYYpYz YYY 6d 1YYYtYYYY Yg 3YYp Y Yz8Y1Y yw Y YYY Y5 q Y
YYw YYY 5dwYYYYhYpZYmYY Y Y YY wYYYYY YdYr z 50Yo 0 Y6 YYY5 v5 vYY4tpY YY 6d 4YYYzYYYY m 3YYq Y Yzh0iY Y 4ZY 98 o
YYw YY7 hfwYYYY b ZYkYY 4 cY yYYYY YdY dzY Y6 Y78 v4 sYYzt Y YY 6d 4YYY 7YYY o 5YYx f Yzy0yY 3 1Y 8
YYx ZYo hfwYYYY ZykY7 wf Z9YY Ydu xz7 Y6 Ykb v3 sYY YY 6d 9YYY uYYy o 5YY f Y zpyY b 1Y z
YY 6Y xywYYYY ZzqYy f YY Ydu Y6 Y vd sYY Yo 6d jYYY 1Yz 5YY Y z 9 g lm
Yi 6Y ygYYY y qq i 9m Ydu Y6 Y vd sYY Y cs vYYY rY 5Yp e z t
6 YYY y s o Ys Yl xd sY Y r vYYY y 5Y z
6 YYY r Ys Yl xd sY Y eYY Y
e YYz r Ys Ym xd Y gYY
x 1Y z 6o ze 8 mYY
14 6o e o5
4 do t
4 dv v
h ex v
dx
ux
ux
x
x
x
y
Models & Results
Mistral 7B 0.2 finetunes on ascii art. As seen in the results, experiment didn't amount to much
- 2 epochs - 0-hero/mistral-speech-to-text-preview - Loss pretty much flattened after this epoch
Metrics: rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178} rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992} rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536} length_correlation: 0.014470676120233311 avg_actual_length: 16.59 avg_pred_length: 21.46 exact_match_accuracy: 0.0
- 4 epochs - 0-hero/mistral-speech-to-text - (this)
Metrics: rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197} rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954} rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501} length_correlation: -0.1500200314034927 avg_actual_length: 16.59 avg_pred_length: 18.32 exact_match_accuracy: 0.0
Datasets
lj_speech dataset used to convert audio waveforms into ASCII Art
- 0-hero/lj_speech_with_spectogram_conversations - ShareGPT style finetuning dataset with train, test split
- 0-hero/lj_speech_with_spectogram - Raw dataset with ASCII Art
- Downloads last month
- 4
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.