Critical Errors in Quranic Texts - Urgent Review Required | أخطاء جوهرية في النصوص القرآنية - مراجعة عاجلة مطلوبة

#20
by jafari333 - opened

Screenshot_8-7-2025_231216_huggingface.co.jpeg

السلام عليكم ورحمة الله وبركاته،

في البداية - شكر وتقدير

أود أن أشكركم على الجهود المبذولة في تطوير منصة OALL ومحاولة النهوض بتقييم النماذج اللغوية العربية. هذا عمل مهم ونحن نقدر الوقت والجهد المستثمر في هذا المشروع.

اكتشاف صادم في معيار AlGhafa

أثناء مراجعتي لمعيار OALL AlGhafa، صُدمت باكتشاف أخطاء لا تُغتفر في النصوص القرآنية والدينية:

تحديد مواقع الأخطاء بدقة

مصدر البيانات:

  • Dataset: OALL/AlGhafa-Arabic-LLM-Benchmark-Native
  • Subset: mcq_exams_test_ar
  • العدد الإجمالي: 562 صف

الخطأ الأول - في القرآن الكريم

الموقع: Dataset Viewer - الصف الثاني في العرض
المكتوب في البيانات:
"قال تعالى ( فَلََدْعٌ نَادِيَهُ (17) سَنَدْع الدْبَانِيَةِ (18) )"

النص الصحيح:
"فَلْيَدْعُ نَادِيَهُ (17) سَنَدْعُ الزَّبَانِيَةَ (18)" - سورة العلق

تفصيل الأخطاء:

  • "فَلََدْعٌ" بدلاً من "فَلْيَدْعُ"
  • "الدْبَانِيَةِ" بدلاً من "الزَّبَانِيَةَ"
  • أخطاء في التشكيل والحروف

الخطأ الثاني - في المصطلحات الدينية

الموقع: Dataset Viewer - الصف الثالث في العرض
السؤال: "قال النَبِيّ صَلَى اللَّهُ عَلَيْهِ وَسَلَمَ..."
المشكلة: في sol3 مكتوب "حنة" بدلاً من "حسنة"

الخطأ الثالث - في ترقيم الإجابات

الموقع: Dataset Viewer - الصف الخامس في العرض
السؤال: "الملك الذي ينزل بالوحي من الله تعالى على أنبيائه هو"
المشكلة:

  • الإجابة الصحيحة "جبريل" في المكان الرابع (sol4)
  • لكن الـ label مكتوب "3"
  • يجب أن يكون "3" إذا كان العد يبدأ من 0، أو "4" إذا كان يبدأ من 1

حجم المشكلة الحقيقي

هذا مجرد ما اكتشفته في العرض المختصر للبيانات!

السؤال المقلق: إذا كان في 5 صفوف فقط يوجد 3 أخطاء جوهرية، فكم خطأ في الـ 562 صف الكاملة؟

  • كم حديث نبوي محرف؟
  • كم نص ديني مشوه؟
  • كم معلومة خاطئة تمرر كحقيقة؟

أسئلة تحتاج إجابات عاجلة

  1. كيف مرت هذه الأخطاء دون مراجعة؟
  2. أين كان فريق المراجعة اللغوية والشرعية؟
  3. كيف نثق في منصة تخطئ في القرآن الكريم؟
  4. هل تعتبرون هذا مقبولاً أخلاقياً ودينياً؟

تأثير على قراري الشخصي

كنت أعتزم تقييم النموذج الخاص بي على منصتكم، ولكن تراجعت عن الاستخدام بعد اكتشاف هذه الأخطاء الجوهرية.

المطلوب

يجب أن تقوموا بعمل مراجعة دقيقة وشاملة لجميع البيانات، خاصة:

  • النصوص القرآنية في mcq_exams_test_ar
  • الأحاديث النبوية في جميع الـ subsets
  • المصطلحات الدينية
  • ترقيم الإجابات في جميع الـ 562 صف

هذا ليس مجرد طلب تحسين - هذا ضرورة أخلاقية ودينية قبل أن تكون علمية.

الخلاصة

أقدر جهودكم في خدمة اللغة العربية والبحث العلمي، لكن دقة المحتوى - خاصة النصوص القرآنية - لا تقبل التهاون أو الأخطاء.

أرجو منكم إيلاء هذا الموضوع الأولوية القصوى والتعامل معه بالجدية التي يستحقها.

وشكراً لكم على تفهمكم واهتمامكم.

والسلام عليكم ورحمة الله وبركاته


Peace be upon you,

Initial Acknowledgment and Appreciation

I would like to thank you for the efforts made in developing the OALL platform and attempting to advance the evaluation of Arabic language models. This is important work and we appreciate the time and effort invested in this project.

Shocking Discovery in AlGhafa Benchmark

During my review of the OALL AlGhafa benchmark, I was shocked to discover unforgivable errors in Quranic and religious texts:

Precise Location of Errors

Data Source:

  • Dataset: OALL/AlGhafa-Arabic-LLM-Benchmark-Native
  • Subset: mcq_exams_test_ar
  • Total Count: 562 rows

First Error - In the Holy Quran

Location: Dataset Viewer - Second row in display
Written in the data:
"قال تعالى ( فَلََدْعٌ نَادِيَهُ (17) سَنَدْع الدْبَانِيَةِ (18) )"

Correct text:
"فَلْيَدْعُ نَادِيَهُ (17) سَنَدْعُ الزَّبَانِيَةَ (18)" - Surah Al-Alaq

Error details:

  • "فَلََدْعٌ" instead of "فَلْيَدْعُ"
  • "الدْبَانِيَةِ" instead of "الزَّبَانِيَةَ"
  • Errors in diacritics and letters

Second Error - In Religious Terminology

Location: Dataset Viewer - Third row in display
Question: "قال النَبِيّ صَلَى اللَّهُ عَلَيْهِ وَسَلَمَ..."
Problem: In sol3, "حنة" is written instead of "حسنة"

Third Error - In Answer Indexing

Location: Dataset Viewer - Fifth row in display
Question: "الملك الذي ينزل بالوحي من الله تعالى على أنبيائه هو"
Problem:

  • The correct answer "جبريل" is in the fourth position (sol4)
  • But the label is written as "3"
  • Should be "3" if counting starts from 0, or "4" if starting from 1

The Real Scale of the Problem

This is just what I discovered in the brief data preview!

Concerning question: If there are 3 fundamental errors in just 5 rows, how many errors exist in the complete 562 rows?

  • How many Prophet's hadiths are corrupted?
  • How many religious texts are distorted?
  • How many false pieces of information are passed as facts?

Questions Requiring Urgent Answers

  1. How did these errors pass without review?
  2. Where was the linguistic and religious review team?
  3. How can we trust a platform that makes errors in the Holy Quran?
  4. Do you consider this ethically and religiously acceptable?

Impact on My Personal Decision

I was planning to evaluate my model on your platform, but I withdrew from using it after discovering these fundamental errors.

What is Required

You must conduct a precise and comprehensive review of all data, especially:

  • Quranic texts in mcq_exams_test_ar
  • Prophet's hadiths in all subsets
  • Religious terminology
  • Answer indexing in all 562 rows

This is not merely a request for improvement - this is an ethical and religious necessity before it is a scientific one.

Conclusion

I appreciate your efforts in serving the Arabic language and scientific research, but content accuracy - especially Quranic texts - does not tolerate negligence or errors.

I urge you to give this matter the highest priority and deal with it with the seriousness it deserves.

Thank you for your understanding and attention.

Peace be upon you and God's mercy and blessings

Open Arabic LLM Leaderboard org

السلام عليكم السيد محمد الجعفري

Your detailed analysis is very much appreciated and we appreciate your acknowledgement regarding how hard the task at hand is (to serve and democratize access to the Arabic community)
I want to assure you that the the subset you have reviewed is not used as part of the leaderboard tasks, instead we use the original EXAMS benchmark (find link below)

https://huggingface.co/datasets/OALL/Arabic_EXAMS

Given the lack of expertise on my side and our small team behind oall, I would personally be very much grateful if you can put your mind machallah in reviewing the default 25 samples from the dataset linked above as well and let us know your feedback.

Note: we're not the developers of the benchmarks used in the leaderboard except ALRAGE, although we're open to all sorts of feedback on how we can make the leaderboard and its tasks better and more useful to the community.

Best,

Sign up or log in to comment