Spaces:

impresso-project
/

ocrqa-demo

Sleeping

App Files Files Community

maslionok commited on Sep 11

Commit

1f2982b

1 Parent(s): ac94924

fix

Browse files

Files changed (1) hide show

app.py +36 -17

app.py CHANGED Viewed

@@ -24,27 +24,46 @@ Jählings abbricht."""
 def process_ocr_qa(text):
     try:
-        result = pipeline(text)
         # Format the output for better readability
         if isinstance(result, dict):
             output_lines = []
             for key, value in result.items():
-                if key == 'corrections':
-                    output_lines.append(f"📝 **{key.replace('_', ' ').title()}:**")
-                    if isinstance(value, list) and value:
-                        for correction in value:
-                            output_lines.append(f"  • {correction}")
-                    elif isinstance(value, dict) and value:
-                        for sub_key, sub_value in value.items():
-                            output_lines.append(f"  • {sub_key}: {sub_value}")
-                    else:
-                        output_lines.append(f"  No corrections found")
-                elif key == 'quality_score':
-                    output_lines.append(f"⭐ **Quality Score:** {value}")
-                elif key == 'processed_text':
-                    output_lines.append(f"✨ **Processed Text:**\n{value}")
-                else:
                     output_lines.append(f"🔍 **{key.replace('_', ' ').title()}:** {value}")
             return "\n\n".join(output_lines)

 def process_ocr_qa(text):
     try:
+        result = pipeline(text, diagnostics=True)
         # Format the output for better readability
         if isinstance(result, dict):
             output_lines = []
+            # Language detection
+            if 'language' in result:
+                output_lines.append(f"🌍 **Language:** {result['language']}")
+            # Quality score
+            if 'score' in result:
+                score = result['score']
+                score_emoji = "🟢" if score >= 0.8 else "🟡" if score >= 0.5 else "🔴"
+                output_lines.append(f"{score_emoji} **Quality Score:** {score:.2f}")
+            # Diagnostics section
+            if 'diagnostics' in result and result['diagnostics']:
+                diagnostics = result['diagnostics']
+                output_lines.append("📊 **Detailed Analysis:**")
+                # Model information
+                if 'model_id' in diagnostics:
+                    output_lines.append(f"  🤖 Model: {diagnostics['model_id']}")
+                # Known tokens
+                if 'known_tokens' in diagnostics and diagnostics['known_tokens']:
+                    output_lines.append(f"  ✅ Known tokens ({len(diagnostics['known_tokens'])}): {', '.join(diagnostics['known_tokens'][:10])}")
+                    if len(diagnostics['known_tokens']) > 10:
+                        output_lines.append(f"      ... and {len(diagnostics['known_tokens']) - 10} more")
+                # Unknown tokens (potential OCR errors)
+                if 'unknown_tokens' in diagnostics and diagnostics['unknown_tokens']:
+                    output_lines.append(f"  ❌ Potential OCR errors ({len(diagnostics['unknown_tokens'])}): {', '.join(diagnostics['unknown_tokens'])}")
+                elif 'unknown_tokens' in diagnostics:
+                    output_lines.append("  ✨ No potential OCR errors detected!")
+            # Other fields
             for key, value in result.items():
+                if key not in ['language', 'score', 'diagnostics']:
                     output_lines.append(f"🔍 **{key.replace('_', ' ').title()}:** {value}")
             return "\n\n".join(output_lines)