0-hero/mistral-speech-to-text

Explanation

A small experiment insipred by the Mistral playing DOOM experiment from the Mistral Hackathon

How it works?

Audio -> Waveform Visualization -> Waveform ASCII Art -> Finetune Mistral on ASCII Art to predict text from ASCII Art

Quick video explanation

Example Waveform

Example ASCII Art

                                                                                                                                                                          
                                                                                y                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                               ux                                                                                         
                                                                               tx                                                                                         
                                                                               dx                                                                                         
                         9                                                     ex            v                                                                            
                         4                                                     dr            v                                                                            
                         4                                                     do            s                                                                            
                         1Y                                                    6o            e                 o5                                                         
            x            1Y      y                                             6o        ze  7                 iYY                                                        
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
        z   6            YYY   y s         k      z    Ys                      Yl        xd sY        Y   m   vYYY   s       5Y         z                                 
        Yh  6Y         xfYYY   y qq        i      2m   Ydu                     Y6 Y      vd sYY       Yz  cq  vYYY  eY       5Y0      b z            q                    
        YYz 6Y       xywYYYY   ZzqYt       f      YY   Ydu                     Y6 Y      vd sYY       Yl  6d  iYYY  YYz      5YY      Y z  9     g  il                    
        YYx YYo      gfwYYYY   ZxkY6      wf    Z9YY   Ydu     xz6             Y6 Yi8    v4 sYY   z   YY  6d  4YYY uYYu o    5YY   f  Y zkyY     0  1Y  z                 
        YYw YY7      hfwYYYY 7 ZYkYY 1 z  7Y   yYYYY   YdY     8zY             Y6 Y78    v4 sYYyt Y   YY  6d  4YYYz3YYY o    4YYx  e  Yzx0xY     Z  1Y  8                 
        YYw YYY      5dwYYYYeYmZYmYY Y Y  YY  sYYYYY   YdYl  x 50Yo 9          Y6 YYY4   v5 vYY3tpY   YY  6d  4YYYyYYYY m    3YYq  Y  Yzg0iY     Y 4ZY 98 p               
        YYsjYYYYz    5Y7YYYYYYdYYYYY Y Y  YY  YYYYYY   YcYY  5lY8YYa1          Y6 YYY2   v7YYYYYYpYz YYY  6d  ZYYYtYYYY Yg   3YYo  Y  Yz8YZY xw  Y YYY Y5 p   Y           
        YY6YYYYYa    YY9YYYYYYYYYYYYrYyYz YYe YYYYYY   YYYYv YsYYYYYYY        uY5 YYYY0  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvkt  YYYYY Y4yo4 1Yay         
       3YYdYYYYY8    YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY   YYYYn YeYYYYYYYZ       uY5 YYYY0  uYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y58  3YYi6pY ZYz5YYY2e5  YYYYY Y2qeYz1YY9         
       YYY5YYYYY5    YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyrYYY  6YY YYYYYYYYY YYY  3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY         
       YYYYYYYYYY    YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1  YYYY2YYYYYYYYYYY       vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYYYYYYYYYYYY1YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYZY112YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY       
       YYY1YYYYYY    YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4  YYYY2YYYYYYYYYYY       vYYYYYYYY  7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYY6YYYYY6    YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyxYYY  6YY YYYYYYYYY YYY  3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY         
       cYYcYYYYY8    YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY   YYYYn YfYYYYYYYZ       uY5 YYYY0  vYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y5n  3YYi8pY 1Yz6YYY3g7  YYYYY Y2qkYz1YYa         
        YY9YYYYYf    YY9YYYYYYYYYYYYrYyYz YYi YYYYYY   Y1YYv YsYZYYYYY        uY5 YYYYb  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvku  YYYYY Y3zo6 1Yn          
        YYskYYYYz    5Y8YYYYYYdYY2YY Y Y  YY  YYYYYY   YcYY  5lY8YYd3          Y6 YYY4   v9YYYYYYpYz YYY  6d  1YYYtYYYY Yg   3YYp  Y  Yz8Y1Y yw  Y YYY Y5 q   Y           
        YYw YYY      5dwYYYYhYpZYmYY Y Y  YY  wYYYYY   YdYr  z 50Yo 0          Y6 YYY5   v5 vYY4tpY   YY  6d  4YYYzYYYY m    3YYq  Y  Yzh0iY     Y 4ZY 98 o               
        YYw YY7      hfwYYYY b ZYkYY 4    cY   yYYYY   YdY     dzY             Y6 Y78    v4 sYYzt Y   YY  6d  4YYY 7YYY o    5YYx  f  Yzy0yY     3  1Y  8                 
        YYx ZYo      hfwYYYY   ZykY7      wf    Z9YY   Ydu     xz7             Y6 Ykb    v3 sYY       YY  6d  9YYY uYYy o    5YY   f  Y zpyY     b  1Y  z                 
        YY  6Y       xywYYYY   ZzqYy       f      YY   Ydu                     Y6 Y      vd sYY       Yo  6d  jYYY  1Yz      5YY      Y z  9     g  lm                    
        Yi  6Y         ygYYY   y qq        i      9m   Ydu                     Y6 Y      vd sYY       Y   cs  vYYY  rY       5Yp      e z            t                    
            6            YYY   y s         o           Ys                      Yl        xd sY        Y   r   vYYY   y       5Y         z                                 
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            x            1Y      z                                             6o        ze  8                 mYY                                                        
                         14                                                    6o            e                 o5                                                         
                         4                                                     do            t                                                                            
                         4                                                     dv            v                                                                            
                         h                                                     ex            v                                                                            
                                                                               dx                                                                                         
                                                                               ux                                                                                         
                                                                               ux                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                y

Models & Results

Mistral 7B 0.2 finetunes on ascii art. As seen in the results, experiment didn't amount to much

2 epochs - 0-hero/mistral-speech-to-text-preview - Loss pretty much flattened after this epoch

Metrics:
  rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178}
  rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992}
  rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536}
  length_correlation: 0.014470676120233311
  avg_actual_length: 16.59
  avg_pred_length: 21.46
  exact_match_accuracy: 0.0

4 epochs - 0-hero/mistral-speech-to-text - (this)

Metrics:
  rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197}
  rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954}
  rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501}
  length_correlation: -0.1500200314034927
  avg_actual_length: 16.59
  avg_pred_length: 18.32
  exact_match_accuracy: 0.0

Datasets

lj_speech dataset used to convert audio waveforms into ASCII Art

0-hero/lj_speech_with_spectogram_conversations - ShareGPT style finetuning dataset with train, test split
0-hero/lj_speech_with_spectogram - Raw dataset with ASCII Art

0-hero
/

mistral-speech-to-text

Explanation

Example Waveform

Example ASCII Art

Models & Results

Datasets

Datasets used to train 0-hero/mistral-speech-to-text