Spaces:
Running
Running
update
Browse files- compression_util.py +4 -1
- stats/README.md +0 -0
- stats/character_stats.json +0 -0
- stats/compression_rate.json +0 -0
- stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json +103 -103
- stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json +105 -105
- stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json +103 -103
- stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json +101 -101
- stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json +102 -102
- stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json +112 -112
- stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json +141 -141
- stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json +116 -116
- stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json +105 -105
- stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json +102 -102
- stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json +189 -189
- stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json +104 -104
- stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json +131 -131
- stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json +101 -101
- stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json +149 -149
- stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json +103 -103
- stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json +11 -11
- stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json +158 -158
- stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json +0 -0
- stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json +104 -104
- stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json +101 -101
- stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json +102 -102
- stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json +101 -101
- stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json +101 -101
- stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json +104 -104
- vocab.py +16 -1
compression_util.py
CHANGED
@@ -222,7 +222,9 @@ def tokenize_corpus(
|
|
222 |
"lossless": len(diff_details) == 0
|
223 |
}
|
224 |
|
225 |
-
if
|
|
|
|
|
226 |
logger.info(f"saving tokenization detail to '{detail_path}'")
|
227 |
with open(detail_path, "w", encoding="utf-8") as f:
|
228 |
f.write(json.dumps(diff_details, ensure_ascii=False, indent=2))
|
@@ -312,6 +314,7 @@ def main():
|
|
312 |
# tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/de"]
|
313 |
# tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/ja"] # oov 特别多
|
314 |
# tokenizer_filter, corpuses = "google-bert/bert-base-uncased", ["cc100/ja", "cc100/zh-Hans"] # oov 特别多
|
|
|
315 |
df = get_compression_leaderboard(corpuses, tokenizer_filter=tokenizer_filter)
|
316 |
# print(df.to_markdown(index=False, tablefmt='fancy_grid'))
|
317 |
logger.info(f"\n{df.to_markdown(index=False)}")
|
|
|
222 |
"lossless": len(diff_details) == 0
|
223 |
}
|
224 |
|
225 |
+
if not diff_details:
|
226 |
+
logger.info("no diff found")
|
227 |
+
elif detail_path:
|
228 |
logger.info(f"saving tokenization detail to '{detail_path}'")
|
229 |
with open(detail_path, "w", encoding="utf-8") as f:
|
230 |
f.write(json.dumps(diff_details, ensure_ascii=False, indent=2))
|
|
|
314 |
# tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/de"]
|
315 |
# tokenizer_filter, corpuses = "Qwen/Qwen1.5-14B", ["cc100/ja"] # oov 特别多
|
316 |
# tokenizer_filter, corpuses = "google-bert/bert-base-uncased", ["cc100/ja", "cc100/zh-Hans"] # oov 特别多
|
317 |
+
# tokenizer_filter, corpuses = "deepseek-ai/DeepSeek-R1", ["cc100/de"]
|
318 |
df = get_compression_leaderboard(corpuses, tokenizer_filter=tokenizer_filter)
|
319 |
# print(df.to_markdown(index=False, tablefmt='fancy_grid'))
|
320 |
logger.info(f"\n{df.to_markdown(index=False)}")
|
stats/README.md
DELETED
File without changes
|
stats/character_stats.json
CHANGED
The diff for this file is too large to render.
See raw diff
|
|
stats/compression_rate.json
CHANGED
The diff for this file is too large to render.
See raw diff
|
|
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json
CHANGED
@@ -1,104 +1,104 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
|
4 |
-
"decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
|
5 |
-
"diff": [
|
6 |
-
"delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
14 |
-
"decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
15 |
-
"diff": [
|
16 |
-
"insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
|
17 |
-
"delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
|
18 |
-
],
|
19 |
-
"n_oov_chars": 0,
|
20 |
-
"oov_ratio": 0.0,
|
21 |
-
"oov_charset": "[]"
|
22 |
-
},
|
23 |
-
{
|
24 |
-
"text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
|
25 |
-
"decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
|
26 |
-
"diff": [
|
27 |
-
"delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
|
28 |
-
],
|
29 |
-
"n_oov_chars": 0,
|
30 |
-
"oov_ratio": 0.0,
|
31 |
-
"oov_charset": "[]"
|
32 |
-
},
|
33 |
-
{
|
34 |
-
"text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
|
35 |
-
"decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
|
36 |
-
"diff": [
|
37 |
-
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
38 |
-
],
|
39 |
-
"n_oov_chars": 0,
|
40 |
-
"oov_ratio": 0.0,
|
41 |
-
"oov_charset": "[]"
|
42 |
-
},
|
43 |
-
{
|
44 |
-
"text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة
|
45 |
-
"decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
|
46 |
-
"diff": [
|
47 |
-
"delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
|
48 |
-
],
|
49 |
-
"n_oov_chars": 0,
|
50 |
-
"oov_ratio": 0.0,
|
51 |
-
"oov_charset": "[]"
|
52 |
-
},
|
53 |
-
{
|
54 |
-
"text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
|
55 |
-
"decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن
|
56 |
-
"diff": [
|
57 |
-
"delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
|
58 |
-
"delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
|
59 |
-
],
|
60 |
-
"n_oov_chars": 0,
|
61 |
-
"oov_ratio": 0.0,
|
62 |
-
"oov_charset": "[]"
|
63 |
-
},
|
64 |
-
{
|
65 |
-
"text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
|
66 |
-
"decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
|
67 |
-
"diff": [
|
68 |
-
"delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
|
69 |
-
],
|
70 |
-
"n_oov_chars": 0,
|
71 |
-
"oov_ratio": 0.0,
|
72 |
-
"oov_charset": "[]"
|
73 |
-
},
|
74 |
-
{
|
75 |
-
"text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
|
76 |
-
"decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
|
77 |
-
"diff": [
|
78 |
-
"replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
|
79 |
-
],
|
80 |
-
"n_oov_chars": 4,
|
81 |
-
"oov_ratio": 0.07017543859649122,
|
82 |
-
"oov_charset": "[\"C\", \"N\", \"B\"]"
|
83 |
-
},
|
84 |
-
{
|
85 |
-
"text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
|
86 |
-
"decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
|
87 |
-
"diff": [
|
88 |
-
"delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
|
89 |
-
],
|
90 |
-
"n_oov_chars": 0,
|
91 |
-
"oov_ratio": 0.0,
|
92 |
-
"oov_charset": "[]"
|
93 |
-
},
|
94 |
-
{
|
95 |
-
"text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
|
96 |
-
"decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
|
97 |
-
"diff": [
|
98 |
-
"delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
|
99 |
-
],
|
100 |
-
"n_oov_chars": 0,
|
101 |
-
"oov_ratio": 0.0,
|
102 |
-
"oov_charset": "[]"
|
103 |
-
}
|
104 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
|
4 |
+
"decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
|
5 |
+
"diff": [
|
6 |
+
"delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
14 |
+
"decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
15 |
+
"diff": [
|
16 |
+
"insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
|
17 |
+
"delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
|
18 |
+
],
|
19 |
+
"n_oov_chars": 0,
|
20 |
+
"oov_ratio": 0.0,
|
21 |
+
"oov_charset": "[]"
|
22 |
+
},
|
23 |
+
{
|
24 |
+
"text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
|
25 |
+
"decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
|
26 |
+
"diff": [
|
27 |
+
"delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
|
28 |
+
],
|
29 |
+
"n_oov_chars": 0,
|
30 |
+
"oov_ratio": 0.0,
|
31 |
+
"oov_charset": "[]"
|
32 |
+
},
|
33 |
+
{
|
34 |
+
"text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
|
35 |
+
"decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
|
36 |
+
"diff": [
|
37 |
+
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
38 |
+
],
|
39 |
+
"n_oov_chars": 0,
|
40 |
+
"oov_ratio": 0.0,
|
41 |
+
"oov_charset": "[]"
|
42 |
+
},
|
43 |
+
{
|
44 |
+
"text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة ا��ضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
|
45 |
+
"decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
|
46 |
+
"diff": [
|
47 |
+
"delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
|
48 |
+
],
|
49 |
+
"n_oov_chars": 0,
|
50 |
+
"oov_ratio": 0.0,
|
51 |
+
"oov_charset": "[]"
|
52 |
+
},
|
53 |
+
{
|
54 |
+
"text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
|
55 |
+
"decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أم�� ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
|
56 |
+
"diff": [
|
57 |
+
"delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
|
58 |
+
"delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
|
59 |
+
],
|
60 |
+
"n_oov_chars": 0,
|
61 |
+
"oov_ratio": 0.0,
|
62 |
+
"oov_charset": "[]"
|
63 |
+
},
|
64 |
+
{
|
65 |
+
"text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
|
66 |
+
"decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
|
67 |
+
"diff": [
|
68 |
+
"delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
|
69 |
+
],
|
70 |
+
"n_oov_chars": 0,
|
71 |
+
"oov_ratio": 0.0,
|
72 |
+
"oov_charset": "[]"
|
73 |
+
},
|
74 |
+
{
|
75 |
+
"text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
|
76 |
+
"decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
|
77 |
+
"diff": [
|
78 |
+
"replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
|
79 |
+
],
|
80 |
+
"n_oov_chars": 4,
|
81 |
+
"oov_ratio": 0.07017543859649122,
|
82 |
+
"oov_charset": "[\"C\", \"N\", \"B\"]"
|
83 |
+
},
|
84 |
+
{
|
85 |
+
"text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
|
86 |
+
"decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
|
87 |
+
"diff": [
|
88 |
+
"delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
|
89 |
+
],
|
90 |
+
"n_oov_chars": 0,
|
91 |
+
"oov_ratio": 0.0,
|
92 |
+
"oov_charset": "[]"
|
93 |
+
},
|
94 |
+
{
|
95 |
+
"text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
|
96 |
+
"decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
|
97 |
+
"diff": [
|
98 |
+
"delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
|
99 |
+
],
|
100 |
+
"n_oov_chars": 0,
|
101 |
+
"oov_ratio": 0.0,
|
102 |
+
"oov_charset": "[]"
|
103 |
+
}
|
104 |
]
|
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json
CHANGED
@@ -1,106 +1,106 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "el año natural a que correspondan.",
|
4 |
-
"decoded_text": "el a<unk>o natural a que correspondan.",
|
5 |
-
"diff": [
|
6 |
-
"replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 1,
|
9 |
-
"oov_ratio": 0.029411764705882353,
|
10 |
-
"oov_charset": "[\"ñ\"]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "a la Empresa el 50% del periodo restante en la fecha señalada",
|
14 |
-
"decoded_text": "a la Empresa el 50% del periodo restante en la fecha se<unk>alada",
|
15 |
-
"diff": [
|
16 |
-
"replace text[55:56] --> decoded_text[55:60] 'ñ' --> '<unk>'"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 1,
|
19 |
-
"oov_ratio": 0.01639344262295082,
|
20 |
-
"oov_charset": "[\"ñ\"]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.",
|
24 |
-
"decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los a<unk>os que están por venir.",
|
25 |
-
"diff": [
|
26 |
-
"replace text[76:77] --> decoded_text[76:81] 'ñ' --> '<unk>'"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 1,
|
29 |
-
"oov_ratio": 0.01,
|
30 |
-
"oov_charset": "[\"ñ\"]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
|
34 |
-
"decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
|
35 |
-
"diff": [
|
36 |
-
"replace text[77:78] --> decoded_text[77:80] '…' --> '...'",
|
37 |
-
"replace text[91:92] --> decoded_text[93:96] '…' --> '...'"
|
38 |
-
],
|
39 |
-
"n_oov_chars": 2,
|
40 |
-
"oov_ratio": 0.01098901098901099,
|
41 |
-
"oov_charset": "[\"…\"]"
|
42 |
-
},
|
43 |
-
{
|
44 |
-
"text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.",
|
45 |
-
"decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.",
|
46 |
-
"diff": [
|
47 |
-
"replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'"
|
48 |
-
],
|
49 |
-
"n_oov_chars": 1,
|
50 |
-
"oov_ratio": 0.0033444816053511705,
|
51 |
-
"oov_charset": "[\"…\"]"
|
52 |
-
},
|
53 |
-
{
|
54 |
-
"text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
|
55 |
-
"decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... <unk>Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un ni<unk>o pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
|
56 |
-
"diff": [
|
57 |
-
"delete text[206:207] --> decoded_text[206:206] '…' --> ''",
|
58 |
-
"replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... <unk>'",
|
59 |
-
"replace text[313:314] --> decoded_text[317:322] 'ñ' --> '<unk>'"
|
60 |
-
],
|
61 |
-
"n_oov_chars": 5,
|
62 |
-
"oov_ratio": 0.007246376811594203,
|
63 |
-
"oov_charset": "[\"…\", \"¡\", \"ñ\"]"
|
64 |
-
},
|
65 |
-
{
|
66 |
-
"text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
67 |
-
"decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.",
|
68 |
-
"diff": [
|
69 |
-
"replace text[80:81] --> decoded_text[80:83] '…' --> '...'",
|
70 |
-
"replace text[233:235] --> decoded_text[235:241] '……' --> '......'"
|
71 |
-
],
|
72 |
-
"n_oov_chars": 3,
|
73 |
-
"oov_ratio": 0.010526315789473684,
|
74 |
-
"oov_charset": "[\"…\"]"
|
75 |
-
},
|
76 |
-
{
|
77 |
-
"text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.",
|
78 |
-
"decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.",
|
79 |
-
"diff": [
|
80 |
-
"replace text[167:168] --> decoded_text[167:170] '…' --> '...'"
|
81 |
-
],
|
82 |
-
"n_oov_chars": 1,
|
83 |
-
"oov_ratio": 0.0049261083743842365,
|
84 |
-
"oov_charset": "[\"…\"]"
|
85 |
-
},
|
86 |
-
{
|
87 |
-
"text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.",
|
88 |
-
"decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.",
|
89 |
-
"diff": [
|
90 |
-
"replace text[66:67] --> decoded_text[66:69] '…' --> '...'"
|
91 |
-
],
|
92 |
-
"n_oov_chars": 1,
|
93 |
-
"oov_ratio": 0.01,
|
94 |
-
"oov_charset": "[\"…\"]"
|
95 |
-
},
|
96 |
-
{
|
97 |
-
"text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
|
98 |
-
"decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo a<unk>o, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
|
99 |
-
"diff": [
|
100 |
-
"replace text[63:64] --> decoded_text[63:68] 'ñ' --> '<unk>'"
|
101 |
-
],
|
102 |
-
"n_oov_chars": 1,
|
103 |
-
"oov_ratio": 0.003125,
|
104 |
-
"oov_charset": "[\"ñ\"]"
|
105 |
-
}
|
106 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "el año natural a que correspondan.",
|
4 |
+
"decoded_text": "el a<unk>o natural a que correspondan.",
|
5 |
+
"diff": [
|
6 |
+
"replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 1,
|
9 |
+
"oov_ratio": 0.029411764705882353,
|
10 |
+
"oov_charset": "[\"ñ\"]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "a la Empresa el 50% del periodo restante en la fecha señalada",
|
14 |
+
"decoded_text": "a la Empresa el 50% del periodo restante en la fecha se<unk>alada",
|
15 |
+
"diff": [
|
16 |
+
"replace text[55:56] --> decoded_text[55:60] 'ñ' --> '<unk>'"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 1,
|
19 |
+
"oov_ratio": 0.01639344262295082,
|
20 |
+
"oov_charset": "[\"ñ\"]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.",
|
24 |
+
"decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los a<unk>os que están por venir.",
|
25 |
+
"diff": [
|
26 |
+
"replace text[76:77] --> decoded_text[76:81] 'ñ' --> '<unk>'"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 1,
|
29 |
+
"oov_ratio": 0.01,
|
30 |
+
"oov_charset": "[\"ñ\"]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
|
34 |
+
"decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
|
35 |
+
"diff": [
|
36 |
+
"replace text[77:78] --> decoded_text[77:80] '…' --> '...'",
|
37 |
+
"replace text[91:92] --> decoded_text[93:96] '…' --> '...'"
|
38 |
+
],
|
39 |
+
"n_oov_chars": 2,
|
40 |
+
"oov_ratio": 0.01098901098901099,
|
41 |
+
"oov_charset": "[\"…\"]"
|
42 |
+
},
|
43 |
+
{
|
44 |
+
"text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.",
|
45 |
+
"decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.",
|
46 |
+
"diff": [
|
47 |
+
"replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'"
|
48 |
+
],
|
49 |
+
"n_oov_chars": 1,
|
50 |
+
"oov_ratio": 0.0033444816053511705,
|
51 |
+
"oov_charset": "[\"…\"]"
|
52 |
+
},
|
53 |
+
{
|
54 |
+
"text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
|
55 |
+
"decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... <unk>Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un ni<unk>o pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
|
56 |
+
"diff": [
|
57 |
+
"delete text[206:207] --> decoded_text[206:206] '…' --> ''",
|
58 |
+
"replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... <unk>'",
|
59 |
+
"replace text[313:314] --> decoded_text[317:322] 'ñ' --> '<unk>'"
|
60 |
+
],
|
61 |
+
"n_oov_chars": 5,
|
62 |
+
"oov_ratio": 0.007246376811594203,
|
63 |
+
"oov_charset": "[\"…\", \"¡\", \"ñ\"]"
|
64 |
+
},
|
65 |
+
{
|
66 |
+
"text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
67 |
+
"decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.",
|
68 |
+
"diff": [
|
69 |
+
"replace text[80:81] --> decoded_text[80:83] '…' --> '...'",
|
70 |
+
"replace text[233:235] --> decoded_text[235:241] '……' --> '......'"
|
71 |
+
],
|
72 |
+
"n_oov_chars": 3,
|
73 |
+
"oov_ratio": 0.010526315789473684,
|
74 |
+
"oov_charset": "[\"…\"]"
|
75 |
+
},
|
76 |
+
{
|
77 |
+
"text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.",
|
78 |
+
"decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.",
|
79 |
+
"diff": [
|
80 |
+
"replace text[167:168] --> decoded_text[167:170] '…' --> '...'"
|
81 |
+
],
|
82 |
+
"n_oov_chars": 1,
|
83 |
+
"oov_ratio": 0.0049261083743842365,
|
84 |
+
"oov_charset": "[\"…\"]"
|
85 |
+
},
|
86 |
+
{
|
87 |
+
"text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.",
|
88 |
+
"decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.",
|
89 |
+
"diff": [
|
90 |
+
"replace text[66:67] --> decoded_text[66:69] '…' --> '...'"
|
91 |
+
],
|
92 |
+
"n_oov_chars": 1,
|
93 |
+
"oov_ratio": 0.01,
|
94 |
+
"oov_charset": "[\"…\"]"
|
95 |
+
},
|
96 |
+
{
|
97 |
+
"text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
|
98 |
+
"decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo a<unk>o, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
|
99 |
+
"diff": [
|
100 |
+
"replace text[63:64] --> decoded_text[63:68] 'ñ' --> '<unk>'"
|
101 |
+
],
|
102 |
+
"n_oov_chars": 1,
|
103 |
+
"oov_ratio": 0.003125,
|
104 |
+
"oov_charset": "[\"ñ\"]"
|
105 |
+
}
|
106 |
]
|
stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json
CHANGED
@@ -1,104 +1,104 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
|
4 |
-
"decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
|
5 |
-
"diff": [
|
6 |
-
"delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
|
14 |
-
"decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
|
15 |
-
"diff": [
|
16 |
-
"delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
|
24 |
-
"decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
|
25 |
-
"diff": [
|
26 |
-
"delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
|
34 |
-
"decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
|
35 |
-
"diff": [
|
36 |
-
"delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
|
37 |
-
"delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
|
38 |
-
"delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
|
39 |
-
],
|
40 |
-
"n_oov_chars": 0,
|
41 |
-
"oov_ratio": 0.0,
|
42 |
-
"oov_charset": "[]"
|
43 |
-
},
|
44 |
-
{
|
45 |
-
"text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
|
46 |
-
"decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
|
47 |
-
"diff": [
|
48 |
-
"delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
|
49 |
-
],
|
50 |
-
"n_oov_chars": 0,
|
51 |
-
"oov_ratio": 0.0,
|
52 |
-
"oov_charset": "[]"
|
53 |
-
},
|
54 |
-
{
|
55 |
-
"text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
|
56 |
-
"decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
|
57 |
-
"diff": [
|
58 |
-
"delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
|
59 |
-
],
|
60 |
-
"n_oov_chars": 0,
|
61 |
-
"oov_ratio": 0.0,
|
62 |
-
"oov_charset": "[]"
|
63 |
-
},
|
64 |
-
{
|
65 |
-
"text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
|
66 |
-
"decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
|
67 |
-
"diff": [
|
68 |
-
"delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
|
69 |
-
],
|
70 |
-
"n_oov_chars": 0,
|
71 |
-
"oov_ratio": 0.0,
|
72 |
-
"oov_charset": "[]"
|
73 |
-
},
|
74 |
-
{
|
75 |
-
"text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
|
76 |
-
"decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
|
77 |
-
"diff": [
|
78 |
-
"delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
|
79 |
-
],
|
80 |
-
"n_oov_chars": 0,
|
81 |
-
"oov_ratio": 0.0,
|
82 |
-
"oov_charset": "[]"
|
83 |
-
},
|
84 |
-
{
|
85 |
-
"text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
|
86 |
-
"decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
|
87 |
-
"diff": [
|
88 |
-
"delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
|
89 |
-
],
|
90 |
-
"n_oov_chars": 0,
|
91 |
-
"oov_ratio": 0.0,
|
92 |
-
"oov_charset": "[]"
|
93 |
-
},
|
94 |
-
{
|
95 |
-
"text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
|
96 |
-
"decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
|
97 |
-
"diff": [
|
98 |
-
"delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
|
99 |
-
],
|
100 |
-
"n_oov_chars": 0,
|
101 |
-
"oov_ratio": 0.0,
|
102 |
-
"oov_charset": "[]"
|
103 |
-
}
|
104 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
|
4 |
+
"decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
|
5 |
+
"diff": [
|
6 |
+
"delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
|
14 |
+
"decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
|
15 |
+
"diff": [
|
16 |
+
"delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
|
24 |
+
"decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
|
25 |
+
"diff": [
|
26 |
+
"delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
|
34 |
+
"decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
|
35 |
+
"diff": [
|
36 |
+
"delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
|
37 |
+
"delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
|
38 |
+
"delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
|
39 |
+
],
|
40 |
+
"n_oov_chars": 0,
|
41 |
+
"oov_ratio": 0.0,
|
42 |
+
"oov_charset": "[]"
|
43 |
+
},
|
44 |
+
{
|
45 |
+
"text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
|
46 |
+
"decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
|
47 |
+
"diff": [
|
48 |
+
"delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
|
49 |
+
],
|
50 |
+
"n_oov_chars": 0,
|
51 |
+
"oov_ratio": 0.0,
|
52 |
+
"oov_charset": "[]"
|
53 |
+
},
|
54 |
+
{
|
55 |
+
"text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
|
56 |
+
"decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
|
57 |
+
"diff": [
|
58 |
+
"delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
|
59 |
+
],
|
60 |
+
"n_oov_chars": 0,
|
61 |
+
"oov_ratio": 0.0,
|
62 |
+
"oov_charset": "[]"
|
63 |
+
},
|
64 |
+
{
|
65 |
+
"text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
|
66 |
+
"decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
|
67 |
+
"diff": [
|
68 |
+
"delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
|
69 |
+
],
|
70 |
+
"n_oov_chars": 0,
|
71 |
+
"oov_ratio": 0.0,
|
72 |
+
"oov_charset": "[]"
|
73 |
+
},
|
74 |
+
{
|
75 |
+
"text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
|
76 |
+
"decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
|
77 |
+
"diff": [
|
78 |
+
"delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
|
79 |
+
],
|
80 |
+
"n_oov_chars": 0,
|
81 |
+
"oov_ratio": 0.0,
|
82 |
+
"oov_charset": "[]"
|
83 |
+
},
|
84 |
+
{
|
85 |
+
"text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
|
86 |
+
"decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
|
87 |
+
"diff": [
|
88 |
+
"delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
|
89 |
+
],
|
90 |
+
"n_oov_chars": 0,
|
91 |
+
"oov_ratio": 0.0,
|
92 |
+
"oov_charset": "[]"
|
93 |
+
},
|
94 |
+
{
|
95 |
+
"text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
|
96 |
+
"decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
|
97 |
+
"diff": [
|
98 |
+
"delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
|
99 |
+
],
|
100 |
+
"n_oov_chars": 0,
|
101 |
+
"oov_ratio": 0.0,
|
102 |
+
"oov_charset": "[]"
|
103 |
+
}
|
104 |
]
|
stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json
CHANGED
@@ -1,102 +1,102 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
-
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
-
"diff": [
|
6 |
-
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
-
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
-
"diff": [
|
16 |
-
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
-
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
-
"diff": [
|
26 |
-
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
-
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
-
"diff": [
|
36 |
-
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
-
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
-
"diff": [
|
46 |
-
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Quand les élus se réunissent-ils ?",
|
54 |
-
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
-
"diff": [
|
56 |
-
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
-
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
-
"diff": [
|
66 |
-
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
|
74 |
-
"decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
|
75 |
-
"diff": [
|
76 |
-
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 0,
|
79 |
-
"oov_ratio": 0.0,
|
80 |
-
"oov_charset": "[]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
|
84 |
-
"decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
|
85 |
-
"diff": [
|
86 |
-
"delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 0,
|
89 |
-
"oov_ratio": 0.0,
|
90 |
-
"oov_charset": "[]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
|
94 |
-
"decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
|
95 |
-
"diff": [
|
96 |
-
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 0,
|
99 |
-
"oov_ratio": 0.0,
|
100 |
-
"oov_charset": "[]"
|
101 |
-
}
|
102 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
+
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
+
"diff": [
|
6 |
+
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
+
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
+
"diff": [
|
16 |
+
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
+
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
+
"diff": [
|
26 |
+
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
+
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
+
"diff": [
|
36 |
+
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
+
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
+
"diff": [
|
46 |
+
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Quand les élus se réunissent-ils ?",
|
54 |
+
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
+
"diff": [
|
56 |
+
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
+
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
+
"diff": [
|
66 |
+
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
|
74 |
+
"decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
|
75 |
+
"diff": [
|
76 |
+
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 0,
|
79 |
+
"oov_ratio": 0.0,
|
80 |
+
"oov_charset": "[]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
|
84 |
+
"decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
|
85 |
+
"diff": [
|
86 |
+
"delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 0,
|
89 |
+
"oov_ratio": 0.0,
|
90 |
+
"oov_charset": "[]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
|
94 |
+
"decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
|
95 |
+
"diff": [
|
96 |
+
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 0,
|
99 |
+
"oov_ratio": 0.0,
|
100 |
+
"oov_charset": "[]"
|
101 |
+
}
|
102 |
]
|
stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json
CHANGED
@@ -1,103 +1,103 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
4 |
-
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
5 |
-
"diff": [
|
6 |
-
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
14 |
-
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
15 |
-
"diff": [
|
16 |
-
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
24 |
-
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
25 |
-
"diff": [
|
26 |
-
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
34 |
-
"decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
35 |
-
"diff": [
|
36 |
-
"replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 1,
|
39 |
-
"oov_ratio": 0.00392156862745098,
|
40 |
-
"oov_charset": "[\"¼\"]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.",
|
44 |
-
"decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.",
|
45 |
-
"diff": [
|
46 |
-
"replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 1,
|
49 |
-
"oov_ratio": 0.007194244604316547,
|
50 |
-
"oov_charset": "[\"¼\"]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
54 |
-
"decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
55 |
-
"diff": [
|
56 |
-
"replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 1,
|
59 |
-
"oov_ratio": 0.005847953216374269,
|
60 |
-
"oov_charset": "[\"¼\"]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,",
|
64 |
-
"decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,",
|
65 |
-
"diff": [
|
66 |
-
"replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'",
|
67 |
-
"replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'"
|
68 |
-
],
|
69 |
-
"n_oov_chars": 2,
|
70 |
-
"oov_ratio": 0.018018018018018018,
|
71 |
-
"oov_charset": "[\"¼\"]"
|
72 |
-
},
|
73 |
-
{
|
74 |
-
"text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.",
|
75 |
-
"decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.",
|
76 |
-
"diff": [
|
77 |
-
"replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'"
|
78 |
-
],
|
79 |
-
"n_oov_chars": 1,
|
80 |
-
"oov_ratio": 0.006060606060606061,
|
81 |
-
"oov_charset": "[\"¼\"]"
|
82 |
-
},
|
83 |
-
{
|
84 |
-
"text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.",
|
85 |
-
"decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.",
|
86 |
-
"diff": [
|
87 |
-
"replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'"
|
88 |
-
],
|
89 |
-
"n_oov_chars": 1,
|
90 |
-
"oov_ratio": 0.005917159763313609,
|
91 |
-
"oov_charset": "[\"¼\"]"
|
92 |
-
},
|
93 |
-
{
|
94 |
-
"text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.",
|
95 |
-
"decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.",
|
96 |
-
"diff": [
|
97 |
-
"replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'"
|
98 |
-
],
|
99 |
-
"n_oov_chars": 1,
|
100 |
-
"oov_ratio": 0.004629629629629629,
|
101 |
-
"oov_charset": "[\"¼\"]"
|
102 |
-
}
|
103 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
4 |
+
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
5 |
+
"diff": [
|
6 |
+
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
14 |
+
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
15 |
+
"diff": [
|
16 |
+
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
24 |
+
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
25 |
+
"diff": [
|
26 |
+
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
34 |
+
"decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
35 |
+
"diff": [
|
36 |
+
"replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 1,
|
39 |
+
"oov_ratio": 0.00392156862745098,
|
40 |
+
"oov_charset": "[\"¼\"]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.",
|
44 |
+
"decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.",
|
45 |
+
"diff": [
|
46 |
+
"replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 1,
|
49 |
+
"oov_ratio": 0.007194244604316547,
|
50 |
+
"oov_charset": "[\"¼\"]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
54 |
+
"decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
55 |
+
"diff": [
|
56 |
+
"replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 1,
|
59 |
+
"oov_ratio": 0.005847953216374269,
|
60 |
+
"oov_charset": "[\"¼\"]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,",
|
64 |
+
"decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,",
|
65 |
+
"diff": [
|
66 |
+
"replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'",
|
67 |
+
"replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'"
|
68 |
+
],
|
69 |
+
"n_oov_chars": 2,
|
70 |
+
"oov_ratio": 0.018018018018018018,
|
71 |
+
"oov_charset": "[\"¼\"]"
|
72 |
+
},
|
73 |
+
{
|
74 |
+
"text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.",
|
75 |
+
"decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.",
|
76 |
+
"diff": [
|
77 |
+
"replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'"
|
78 |
+
],
|
79 |
+
"n_oov_chars": 1,
|
80 |
+
"oov_ratio": 0.006060606060606061,
|
81 |
+
"oov_charset": "[\"¼\"]"
|
82 |
+
},
|
83 |
+
{
|
84 |
+
"text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.",
|
85 |
+
"decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.",
|
86 |
+
"diff": [
|
87 |
+
"replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'"
|
88 |
+
],
|
89 |
+
"n_oov_chars": 1,
|
90 |
+
"oov_ratio": 0.005917159763313609,
|
91 |
+
"oov_charset": "[\"¼\"]"
|
92 |
+
},
|
93 |
+
{
|
94 |
+
"text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.",
|
95 |
+
"decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.",
|
96 |
+
"diff": [
|
97 |
+
"replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'"
|
98 |
+
],
|
99 |
+
"n_oov_chars": 1,
|
100 |
+
"oov_ratio": 0.004629629629629629,
|
101 |
+
"oov_charset": "[\"¼\"]"
|
102 |
+
}
|
103 |
]
|
stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json
CHANGED
@@ -1,113 +1,113 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
4 |
-
"decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
5 |
-
"diff": [
|
6 |
-
"replace text[9:10] --> decoded_text[9:10] '(' --> '('"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
14 |
-
"decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
15 |
-
"diff": [
|
16 |
-
"replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
|
17 |
-
"replace text[112:113] --> decoded_text[112:113] '5' --> '5'"
|
18 |
-
],
|
19 |
-
"n_oov_chars": 2,
|
20 |
-
"oov_ratio": 0.016129032258064516,
|
21 |
-
"oov_charset": "[\"3\", \"5\"]"
|
22 |
-
},
|
23 |
-
{
|
24 |
-
"text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
25 |
-
"decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
26 |
-
"diff": [
|
27 |
-
"replace text[61:62] --> decoded_text[61:62] '(' --> '('",
|
28 |
-
"replace text[72:73] --> decoded_text[72:73] ')' --> ')'",
|
29 |
-
"replace text[111:112] --> decoded_text[111:112] '(' --> '('",
|
30 |
-
"replace text[124:125] --> decoded_text[124:125] ')' --> ')'"
|
31 |
-
],
|
32 |
-
"n_oov_chars": 0,
|
33 |
-
"oov_ratio": 0.0,
|
34 |
-
"oov_charset": "[]"
|
35 |
-
},
|
36 |
-
{
|
37 |
-
"text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
|
38 |
-
"decoded_text": "卡尔・斯利姆于2012
|
39 |
-
"diff": [
|
40 |
-
"replace text[110:111] --> decoded_text[110:111] '(' --> '('",
|
41 |
-
"replace text[114:115] --> decoded_text[114:115] ')' --> ')'"
|
42 |
-
],
|
43 |
-
"n_oov_chars": 0,
|
44 |
-
"oov_ratio": 0.0,
|
45 |
-
"oov_charset": "[]"
|
46 |
-
},
|
47 |
-
{
|
48 |
-
"text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。",
|
49 |
-
"decoded_text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。",
|
50 |
-
"diff": [
|
51 |
-
"replace text[38:39] --> decoded_text[38:39] '(' --> '('",
|
52 |
-
"replace text[43:44] --> decoded_text[43:44] ')' --> ')'"
|
53 |
-
],
|
54 |
-
"n_oov_chars": 0,
|
55 |
-
"oov_ratio": 0.0,
|
56 |
-
"oov_charset": "[]"
|
57 |
-
},
|
58 |
-
{
|
59 |
-
"text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)",
|
60 |
-
"decoded_text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)",
|
61 |
-
"diff": [
|
62 |
-
"replace text[85:86] --> decoded_text[85:86] '(' --> '('",
|
63 |
-
"replace text[87:88] --> decoded_text[87:88] ')' --> ')'",
|
64 |
-
"replace text[129:130] --> decoded_text[129:130] '(' --> '('",
|
65 |
-
"replace text[138:139] --> decoded_text[138:139] ')' --> ')'"
|
66 |
-
],
|
67 |
-
"n_oov_chars": 0,
|
68 |
-
"oov_ratio": 0.0,
|
69 |
-
"oov_charset": "[]"
|
70 |
-
},
|
71 |
-
{
|
72 |
-
"text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)",
|
73 |
-
"decoded_text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)",
|
74 |
-
"diff": [
|
75 |
-
"replace text[136:137] --> decoded_text[136:137] '(' --> '('",
|
76 |
-
"replace text[141:142] --> decoded_text[141:142] ')' --> ')'"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 0,
|
79 |
-
"oov_ratio": 0.0,
|
80 |
-
"oov_charset": "[]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。",
|
84 |
-
"decoded_text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。",
|
85 |
-
"diff": [
|
86 |
-
"replace text[74:75] --> decoded_text[74:75] ',' --> ','"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 0,
|
89 |
-
"oov_ratio": 0.0,
|
90 |
-
"oov_charset": "[]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28日在例行记者会上表示,叙利亚冲突双方首次坐到一起,是朝着政治解决叙问题迈出的重要一步,联合国发挥了主渠道作用,来之不易,值得珍惜。只要双方都抱有诚意和耐心,坚持政治解决叙问题的大方向,相信谈判进程就会山重水复疑无路,柳暗花明又一村。",
|
94 |
-
"decoded_text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28
|
95 |
-
"diff": [
|
96 |
-
"replace text[24:25] --> decoded_text[24:25] '(' --> '('"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 0,
|
99 |
-
"oov_ratio": 0.0,
|
100 |
-
"oov_charset": "[]"
|
101 |
-
},
|
102 |
-
{
|
103 |
-
"text": "
|
104 |
-
"decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。",
|
105 |
-
"diff": [
|
106 |
-
"replace text[36:37] --> decoded_text[36:37] ',' --> ','",
|
107 |
-
"replace text[41:42] --> decoded_text[41:42] ',' --> ','"
|
108 |
-
],
|
109 |
-
"n_oov_chars": 0,
|
110 |
-
"oov_ratio": 0.0,
|
111 |
-
"oov_charset": "[]"
|
112 |
-
}
|
113 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
4 |
+
"decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
5 |
+
"diff": [
|
6 |
+
"replace text[9:10] --> decoded_text[9:10] '(' --> '('"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
14 |
+
"decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
15 |
+
"diff": [
|
16 |
+
"replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
|
17 |
+
"replace text[112:113] --> decoded_text[112:113] '5' --> '5'"
|
18 |
+
],
|
19 |
+
"n_oov_chars": 2,
|
20 |
+
"oov_ratio": 0.016129032258064516,
|
21 |
+
"oov_charset": "[\"3\", \"5\"]"
|
22 |
+
},
|
23 |
+
{
|
24 |
+
"text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
25 |
+
"decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
26 |
+
"diff": [
|
27 |
+
"replace text[61:62] --> decoded_text[61:62] '(' --> '('",
|
28 |
+
"replace text[72:73] --> decoded_text[72:73] ')' --> ')'",
|
29 |
+
"replace text[111:112] --> decoded_text[111:112] '(' --> '('",
|
30 |
+
"replace text[124:125] --> decoded_text[124:125] ')' --> ')'"
|
31 |
+
],
|
32 |
+
"n_oov_chars": 0,
|
33 |
+
"oov_ratio": 0.0,
|
34 |
+
"oov_charset": "[]"
|
35 |
+
},
|
36 |
+
{
|
37 |
+
"text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
|
38 |
+
"decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学���毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
|
39 |
+
"diff": [
|
40 |
+
"replace text[110:111] --> decoded_text[110:111] '(' --> '('",
|
41 |
+
"replace text[114:115] --> decoded_text[114:115] ')' --> ')'"
|
42 |
+
],
|
43 |
+
"n_oov_chars": 0,
|
44 |
+
"oov_ratio": 0.0,
|
45 |
+
"oov_charset": "[]"
|
46 |
+
},
|
47 |
+
{
|
48 |
+
"text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。",
|
49 |
+
"decoded_text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。",
|
50 |
+
"diff": [
|
51 |
+
"replace text[38:39] --> decoded_text[38:39] '(' --> '('",
|
52 |
+
"replace text[43:44] --> decoded_text[43:44] ')' --> ')'"
|
53 |
+
],
|
54 |
+
"n_oov_chars": 0,
|
55 |
+
"oov_ratio": 0.0,
|
56 |
+
"oov_charset": "[]"
|
57 |
+
},
|
58 |
+
{
|
59 |
+
"text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)",
|
60 |
+
"decoded_text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)",
|
61 |
+
"diff": [
|
62 |
+
"replace text[85:86] --> decoded_text[85:86] '(' --> '('",
|
63 |
+
"replace text[87:88] --> decoded_text[87:88] ')' --> ')'",
|
64 |
+
"replace text[129:130] --> decoded_text[129:130] '(' --> '('",
|
65 |
+
"replace text[138:139] --> decoded_text[138:139] ')' --> ')'"
|
66 |
+
],
|
67 |
+
"n_oov_chars": 0,
|
68 |
+
"oov_ratio": 0.0,
|
69 |
+
"oov_charset": "[]"
|
70 |
+
},
|
71 |
+
{
|
72 |
+
"text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)",
|
73 |
+
"decoded_text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)",
|
74 |
+
"diff": [
|
75 |
+
"replace text[136:137] --> decoded_text[136:137] '(' --> '('",
|
76 |
+
"replace text[141:142] --> decoded_text[141:142] ')' --> ')'"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 0,
|
79 |
+
"oov_ratio": 0.0,
|
80 |
+
"oov_charset": "[]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。",
|
84 |
+
"decoded_text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。",
|
85 |
+
"diff": [
|
86 |
+
"replace text[74:75] --> decoded_text[74:75] ',' --> ','"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 0,
|
89 |
+
"oov_ratio": 0.0,
|
90 |
+
"oov_charset": "[]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28日在例行记者会上表示,叙利亚冲突双方首次坐到一起,是朝着政治解决叙问题迈出的重要一步,联合国发挥了主渠道作用,来之不易,值得珍惜。只要双方都抱有诚意和耐心,坚持政治解决叙问题的大方向,相信谈判进程就会山重水复疑无路,柳暗花明又一村。",
|
94 |
+
"decoded_text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28日在例行记者会上表示,叙利亚冲突双方首次坐到一起,是朝着政治解决叙问题迈出的重要一步,联合国发挥了主��道作用,来之不易,值得珍惜。只要双方都抱有诚意和耐心,坚持政治解决叙问题的大方向,相信谈判进程就会山重水复疑无路,柳暗花明又一村。",
|
95 |
+
"diff": [
|
96 |
+
"replace text[24:25] --> decoded_text[24:25] '(' --> '('"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 0,
|
99 |
+
"oov_ratio": 0.0,
|
100 |
+
"oov_charset": "[]"
|
101 |
+
},
|
102 |
+
{
|
103 |
+
"text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。",
|
104 |
+
"decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。",
|
105 |
+
"diff": [
|
106 |
+
"replace text[36:37] --> decoded_text[36:37] ',' --> ','",
|
107 |
+
"replace text[41:42] --> decoded_text[41:42] ',' --> ','"
|
108 |
+
],
|
109 |
+
"n_oov_chars": 0,
|
110 |
+
"oov_ratio": 0.0,
|
111 |
+
"oov_charset": "[]"
|
112 |
+
}
|
113 |
]
|
stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json
CHANGED
@@ -1,142 +1,142 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
|
4 |
-
"decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
|
5 |
-
"diff": [
|
6 |
-
"replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
|
7 |
-
"replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
|
8 |
-
"replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
|
9 |
-
"replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
|
10 |
-
"replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
|
11 |
-
],
|
12 |
-
"n_oov_chars": 0,
|
13 |
-
"oov_ratio": 0.0,
|
14 |
-
"oov_charset": "[]"
|
15 |
-
},
|
16 |
-
{
|
17 |
-
"text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
|
18 |
-
"decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
|
19 |
-
"diff": [
|
20 |
-
"replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
|
21 |
-
"replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
|
22 |
-
"replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
|
23 |
-
"replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
|
24 |
-
"replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
|
25 |
-
"replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
|
26 |
-
"replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
|
27 |
-
"replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
|
28 |
-
],
|
29 |
-
"n_oov_chars": 0,
|
30 |
-
"oov_ratio": 0.0,
|
31 |
-
"oov_charset": "[]"
|
32 |
-
},
|
33 |
-
{
|
34 |
-
"text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
|
35 |
-
"decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
|
36 |
-
"diff": [
|
37 |
-
"replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
|
38 |
-
"replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
|
39 |
-
"replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
|
40 |
-
"replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
|
41 |
-
"replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
|
42 |
-
"replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
|
43 |
-
"replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
|
44 |
-
],
|
45 |
-
"n_oov_chars": 0,
|
46 |
-
"oov_ratio": 0.0,
|
47 |
-
"oov_charset": "[]"
|
48 |
-
},
|
49 |
-
{
|
50 |
-
"text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
|
51 |
-
"decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
|
52 |
-
"diff": [
|
53 |
-
"replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
|
54 |
-
"replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
|
55 |
-
"replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
|
56 |
-
"replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
|
57 |
-
"replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
|
58 |
-
"replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
|
59 |
-
],
|
60 |
-
"n_oov_chars": 0,
|
61 |
-
"oov_ratio": 0.0,
|
62 |
-
"oov_charset": "[]"
|
63 |
-
},
|
64 |
-
{
|
65 |
-
"text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
|
66 |
-
"decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
|
67 |
-
"diff": [
|
68 |
-
"replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
|
69 |
-
"replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
|
70 |
-
"replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
|
71 |
-
"replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
|
72 |
-
"replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
|
73 |
-
"replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
|
74 |
-
"replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
|
75 |
-
],
|
76 |
-
"n_oov_chars": 0,
|
77 |
-
"oov_ratio": 0.0,
|
78 |
-
"oov_charset": "[]"
|
79 |
-
},
|
80 |
-
{
|
81 |
-
"text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
|
82 |
-
"decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
|
83 |
-
"diff": [
|
84 |
-
"replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
|
85 |
-
"replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
|
86 |
-
"replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
|
87 |
-
"replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
|
88 |
-
],
|
89 |
-
"n_oov_chars": 0,
|
90 |
-
"oov_ratio": 0.0,
|
91 |
-
"oov_charset": "[]"
|
92 |
-
},
|
93 |
-
{
|
94 |
-
"text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
|
95 |
-
"decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
|
96 |
-
"diff": [
|
97 |
-
"replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
|
98 |
-
"replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
|
99 |
-
"replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
|
100 |
-
"replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
|
101 |
-
"replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
|
102 |
-
],
|
103 |
-
"n_oov_chars": 0,
|
104 |
-
"oov_ratio": 0.0,
|
105 |
-
"oov_charset": "[]"
|
106 |
-
},
|
107 |
-
{
|
108 |
-
"text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
|
109 |
-
"decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
|
110 |
-
"diff": [
|
111 |
-
"replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
|
112 |
-
"replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
|
113 |
-
"replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
|
114 |
-
],
|
115 |
-
"n_oov_chars": 0,
|
116 |
-
"oov_ratio": 0.0,
|
117 |
-
"oov_charset": "[]"
|
118 |
-
},
|
119 |
-
{
|
120 |
-
"text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
|
121 |
-
"decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
|
122 |
-
"diff": [
|
123 |
-
"replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
|
124 |
-
"replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
|
125 |
-
"replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
|
126 |
-
],
|
127 |
-
"n_oov_chars": 0,
|
128 |
-
"oov_ratio": 0.0,
|
129 |
-
"oov_charset": "[]"
|
130 |
-
},
|
131 |
-
{
|
132 |
-
"text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
|
133 |
-
"decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
|
134 |
-
"diff": [
|
135 |
-
"replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
|
136 |
-
"replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
|
137 |
-
],
|
138 |
-
"n_oov_chars": 0,
|
139 |
-
"oov_ratio": 0.0,
|
140 |
-
"oov_charset": "[]"
|
141 |
-
}
|
142 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
|
4 |
+
"decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
|
5 |
+
"diff": [
|
6 |
+
"replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
|
7 |
+
"replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
|
8 |
+
"replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
|
9 |
+
"replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
|
10 |
+
"replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
|
11 |
+
],
|
12 |
+
"n_oov_chars": 0,
|
13 |
+
"oov_ratio": 0.0,
|
14 |
+
"oov_charset": "[]"
|
15 |
+
},
|
16 |
+
{
|
17 |
+
"text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
|
18 |
+
"decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
|
19 |
+
"diff": [
|
20 |
+
"replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
|
21 |
+
"replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
|
22 |
+
"replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
|
23 |
+
"replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
|
24 |
+
"replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
|
25 |
+
"replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
|
26 |
+
"replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
|
27 |
+
"replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
|
28 |
+
],
|
29 |
+
"n_oov_chars": 0,
|
30 |
+
"oov_ratio": 0.0,
|
31 |
+
"oov_charset": "[]"
|
32 |
+
},
|
33 |
+
{
|
34 |
+
"text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
|
35 |
+
"decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
|
36 |
+
"diff": [
|
37 |
+
"replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
|
38 |
+
"replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
|
39 |
+
"replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
|
40 |
+
"replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
|
41 |
+
"replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
|
42 |
+
"replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
|
43 |
+
"replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
|
44 |
+
],
|
45 |
+
"n_oov_chars": 0,
|
46 |
+
"oov_ratio": 0.0,
|
47 |
+
"oov_charset": "[]"
|
48 |
+
},
|
49 |
+
{
|
50 |
+
"text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
|
51 |
+
"decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
|
52 |
+
"diff": [
|
53 |
+
"replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
|
54 |
+
"replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
|
55 |
+
"replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
|
56 |
+
"replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
|
57 |
+
"replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
|
58 |
+
"replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
|
59 |
+
],
|
60 |
+
"n_oov_chars": 0,
|
61 |
+
"oov_ratio": 0.0,
|
62 |
+
"oov_charset": "[]"
|
63 |
+
},
|
64 |
+
{
|
65 |
+
"text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
|
66 |
+
"decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
|
67 |
+
"diff": [
|
68 |
+
"replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
|
69 |
+
"replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
|
70 |
+
"replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
|
71 |
+
"replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
|
72 |
+
"replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
|
73 |
+
"replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
|
74 |
+
"replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
|
75 |
+
],
|
76 |
+
"n_oov_chars": 0,
|
77 |
+
"oov_ratio": 0.0,
|
78 |
+
"oov_charset": "[]"
|
79 |
+
},
|
80 |
+
{
|
81 |
+
"text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
|
82 |
+
"decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
|
83 |
+
"diff": [
|
84 |
+
"replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
|
85 |
+
"replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
|
86 |
+
"replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
|
87 |
+
"replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
|
88 |
+
],
|
89 |
+
"n_oov_chars": 0,
|
90 |
+
"oov_ratio": 0.0,
|
91 |
+
"oov_charset": "[]"
|
92 |
+
},
|
93 |
+
{
|
94 |
+
"text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
|
95 |
+
"decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
|
96 |
+
"diff": [
|
97 |
+
"replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
|
98 |
+
"replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
|
99 |
+
"replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
|
100 |
+
"replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
|
101 |
+
"replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
|
102 |
+
],
|
103 |
+
"n_oov_chars": 0,
|
104 |
+
"oov_ratio": 0.0,
|
105 |
+
"oov_charset": "[]"
|
106 |
+
},
|
107 |
+
{
|
108 |
+
"text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
|
109 |
+
"decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
|
110 |
+
"diff": [
|
111 |
+
"replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
|
112 |
+
"replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
|
113 |
+
"replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
|
114 |
+
],
|
115 |
+
"n_oov_chars": 0,
|
116 |
+
"oov_ratio": 0.0,
|
117 |
+
"oov_charset": "[]"
|
118 |
+
},
|
119 |
+
{
|
120 |
+
"text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
|
121 |
+
"decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
|
122 |
+
"diff": [
|
123 |
+
"replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
|
124 |
+
"replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
|
125 |
+
"replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
|
126 |
+
],
|
127 |
+
"n_oov_chars": 0,
|
128 |
+
"oov_ratio": 0.0,
|
129 |
+
"oov_charset": "[]"
|
130 |
+
},
|
131 |
+
{
|
132 |
+
"text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
|
133 |
+
"decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
|
134 |
+
"diff": [
|
135 |
+
"replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
|
136 |
+
"replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
|
137 |
+
],
|
138 |
+
"n_oov_chars": 0,
|
139 |
+
"oov_ratio": 0.0,
|
140 |
+
"oov_charset": "[]"
|
141 |
+
}
|
142 |
]
|
stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json
CHANGED
@@ -1,117 +1,117 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
4 |
-
"decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
5 |
-
"diff": [
|
6 |
-
"insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
|
7 |
-
"delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
|
8 |
-
],
|
9 |
-
"n_oov_chars": 0,
|
10 |
-
"oov_ratio": 0.0,
|
11 |
-
"oov_charset": "[]"
|
12 |
-
},
|
13 |
-
{
|
14 |
-
"text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
|
15 |
-
"decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
|
16 |
-
"diff": [
|
17 |
-
"insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'",
|
18 |
-
"delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''",
|
19 |
-
"insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
|
20 |
-
"delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
|
21 |
-
],
|
22 |
-
"n_oov_chars": 0,
|
23 |
-
"oov_ratio": 0.0,
|
24 |
-
"oov_charset": "[]"
|
25 |
-
},
|
26 |
-
{
|
27 |
-
"text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
|
28 |
-
"decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول
|
29 |
-
"diff": [
|
30 |
-
"insert text[326:326] --> decoded_text[326:327] '' --> 'َ'",
|
31 |
-
"delete text[327:328] --> decoded_text[328:328] 'َ' --> ''"
|
32 |
-
],
|
33 |
-
"n_oov_chars": 0,
|
34 |
-
"oov_ratio": 0.0,
|
35 |
-
"oov_charset": "[]"
|
36 |
-
},
|
37 |
-
{
|
38 |
-
"text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
|
39 |
-
"decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
|
40 |
-
"diff": [
|
41 |
-
"insert text[497:497] --> decoded_text[497:498] '' --> 'َ'",
|
42 |
-
"delete text[498:499] --> decoded_text[499:499] 'َ' --> ''"
|
43 |
-
],
|
44 |
-
"n_oov_chars": 0,
|
45 |
-
"oov_ratio": 0.0,
|
46 |
-
"oov_charset": "[]"
|
47 |
-
},
|
48 |
-
{
|
49 |
-
"text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
|
50 |
-
"decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
|
51 |
-
"diff": [
|
52 |
-
"insert text[825:825] --> decoded_text[825:826] '' --> 'َ'",
|
53 |
-
"delete text[826:827] --> decoded_text[827:827] 'َ' --> ''"
|
54 |
-
],
|
55 |
-
"n_oov_chars": 0,
|
56 |
-
"oov_ratio": 0.0,
|
57 |
-
"oov_charset": "[]"
|
58 |
-
},
|
59 |
-
{
|
60 |
-
"text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
|
61 |
-
"decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
|
62 |
-
"diff": [
|
63 |
-
"insert text[286:286] --> decoded_text[286:287] '' --> 'َ'",
|
64 |
-
"replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'",
|
65 |
-
"delete text[296:297] --> decoded_text[297:297] 'َ' --> ''",
|
66 |
-
"insert text[333:333] --> decoded_text[333:334] '' --> 'َ'",
|
67 |
-
"delete text[334:335] --> decoded_text[335:335] 'َ' --> ''"
|
68 |
-
],
|
69 |
-
"n_oov_chars": 0,
|
70 |
-
"oov_ratio": 0.0,
|
71 |
-
"oov_charset": "[]"
|
72 |
-
},
|
73 |
-
{
|
74 |
-
"text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
|
75 |
-
"decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
|
76 |
-
"diff": [
|
77 |
-
"insert text[2:2] --> decoded_text[2:3] '' --> 'َ'",
|
78 |
-
"delete text[3:4] --> decoded_text[4:4] 'َ' --> ''"
|
79 |
-
],
|
80 |
-
"n_oov_chars": 0,
|
81 |
-
"oov_ratio": 0.0,
|
82 |
-
"oov_charset": "[]"
|
83 |
-
},
|
84 |
-
{
|
85 |
-
"text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
|
86 |
-
"decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
|
87 |
-
"diff": [
|
88 |
-
"insert text[23:23] --> decoded_text[23:24] '' --> 'َ'",
|
89 |
-
"delete text[24:25] --> decoded_text[25:25] 'َ' --> ''"
|
90 |
-
],
|
91 |
-
"n_oov_chars": 0,
|
92 |
-
"oov_ratio": 0.0,
|
93 |
-
"oov_charset": "[]"
|
94 |
-
},
|
95 |
-
{
|
96 |
-
"text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
|
97 |
-
"decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
|
98 |
-
"diff": [
|
99 |
-
"insert text[13:13] --> decoded_text[13:14] '' --> 'َ'",
|
100 |
-
"delete text[14:15] --> decoded_text[15:15] 'َ' --> ''"
|
101 |
-
],
|
102 |
-
"n_oov_chars": 0,
|
103 |
-
"oov_ratio": 0.0,
|
104 |
-
"oov_charset": "[]"
|
105 |
-
},
|
106 |
-
{
|
107 |
-
"text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
|
108 |
-
"decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود:
|
109 |
-
"diff": [
|
110 |
-
"insert text[50:50] --> decoded_text[50:51] '' --> 'َ'",
|
111 |
-
"delete text[51:52] --> decoded_text[52:52] 'َ' --> ''"
|
112 |
-
],
|
113 |
-
"n_oov_chars": 0,
|
114 |
-
"oov_ratio": 0.0,
|
115 |
-
"oov_charset": "[]"
|
116 |
-
}
|
117 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
4 |
+
"decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
5 |
+
"diff": [
|
6 |
+
"insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
|
7 |
+
"delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
|
8 |
+
],
|
9 |
+
"n_oov_chars": 0,
|
10 |
+
"oov_ratio": 0.0,
|
11 |
+
"oov_charset": "[]"
|
12 |
+
},
|
13 |
+
{
|
14 |
+
"text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
|
15 |
+
"decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
|
16 |
+
"diff": [
|
17 |
+
"insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'",
|
18 |
+
"delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''",
|
19 |
+
"insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
|
20 |
+
"delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
|
21 |
+
],
|
22 |
+
"n_oov_chars": 0,
|
23 |
+
"oov_ratio": 0.0,
|
24 |
+
"oov_charset": "[]"
|
25 |
+
},
|
26 |
+
{
|
27 |
+
"text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
|
28 |
+
"decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
|
29 |
+
"diff": [
|
30 |
+
"insert text[326:326] --> decoded_text[326:327] '' --> 'َ'",
|
31 |
+
"delete text[327:328] --> decoded_text[328:328] 'َ' --> ''"
|
32 |
+
],
|
33 |
+
"n_oov_chars": 0,
|
34 |
+
"oov_ratio": 0.0,
|
35 |
+
"oov_charset": "[]"
|
36 |
+
},
|
37 |
+
{
|
38 |
+
"text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
|
39 |
+
"decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
|
40 |
+
"diff": [
|
41 |
+
"insert text[497:497] --> decoded_text[497:498] '' --> 'َ'",
|
42 |
+
"delete text[498:499] --> decoded_text[499:499] 'َ' --> ''"
|
43 |
+
],
|
44 |
+
"n_oov_chars": 0,
|
45 |
+
"oov_ratio": 0.0,
|
46 |
+
"oov_charset": "[]"
|
47 |
+
},
|
48 |
+
{
|
49 |
+
"text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
|
50 |
+
"decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
|
51 |
+
"diff": [
|
52 |
+
"insert text[825:825] --> decoded_text[825:826] '' --> 'َ'",
|
53 |
+
"delete text[826:827] --> decoded_text[827:827] 'َ' --> ''"
|
54 |
+
],
|
55 |
+
"n_oov_chars": 0,
|
56 |
+
"oov_ratio": 0.0,
|
57 |
+
"oov_charset": "[]"
|
58 |
+
},
|
59 |
+
{
|
60 |
+
"text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
|
61 |
+
"decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
|
62 |
+
"diff": [
|
63 |
+
"insert text[286:286] --> decoded_text[286:287] '' --> 'َ'",
|
64 |
+
"replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'",
|
65 |
+
"delete text[296:297] --> decoded_text[297:297] 'َ' --> ''",
|
66 |
+
"insert text[333:333] --> decoded_text[333:334] '' --> 'َ'",
|
67 |
+
"delete text[334:335] --> decoded_text[335:335] 'َ' --> ''"
|
68 |
+
],
|
69 |
+
"n_oov_chars": 0,
|
70 |
+
"oov_ratio": 0.0,
|
71 |
+
"oov_charset": "[]"
|
72 |
+
},
|
73 |
+
{
|
74 |
+
"text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
|
75 |
+
"decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
|
76 |
+
"diff": [
|
77 |
+
"insert text[2:2] --> decoded_text[2:3] '' --> 'َ'",
|
78 |
+
"delete text[3:4] --> decoded_text[4:4] 'َ' --> ''"
|
79 |
+
],
|
80 |
+
"n_oov_chars": 0,
|
81 |
+
"oov_ratio": 0.0,
|
82 |
+
"oov_charset": "[]"
|
83 |
+
},
|
84 |
+
{
|
85 |
+
"text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
|
86 |
+
"decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
|
87 |
+
"diff": [
|
88 |
+
"insert text[23:23] --> decoded_text[23:24] '' --> 'َ'",
|
89 |
+
"delete text[24:25] --> decoded_text[25:25] 'َ' --> ''"
|
90 |
+
],
|
91 |
+
"n_oov_chars": 0,
|
92 |
+
"oov_ratio": 0.0,
|
93 |
+
"oov_charset": "[]"
|
94 |
+
},
|
95 |
+
{
|
96 |
+
"text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
|
97 |
+
"decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
|
98 |
+
"diff": [
|
99 |
+
"insert text[13:13] --> decoded_text[13:14] '' --> 'َ'",
|
100 |
+
"delete text[14:15] --> decoded_text[15:15] 'َ' --> ''"
|
101 |
+
],
|
102 |
+
"n_oov_chars": 0,
|
103 |
+
"oov_ratio": 0.0,
|
104 |
+
"oov_charset": "[]"
|
105 |
+
},
|
106 |
+
{
|
107 |
+
"text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
|
108 |
+
"decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دو��ء يُصَبّ في أحد",
|
109 |
+
"diff": [
|
110 |
+
"insert text[50:50] --> decoded_text[50:51] '' --> 'َ'",
|
111 |
+
"delete text[51:52] --> decoded_text[52:52] 'َ' --> ''"
|
112 |
+
],
|
113 |
+
"n_oov_chars": 0,
|
114 |
+
"oov_ratio": 0.0,
|
115 |
+
"oov_charset": "[]"
|
116 |
+
}
|
117 |
]
|
stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json
CHANGED
@@ -1,106 +1,106 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
|
4 |
-
"decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
|
5 |
-
"diff": [
|
6 |
-
"delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
|
7 |
-
"delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
|
8 |
-
],
|
9 |
-
"n_oov_chars": 0,
|
10 |
-
"oov_ratio": 0.0,
|
11 |
-
"oov_charset": "[]"
|
12 |
-
},
|
13 |
-
{
|
14 |
-
"text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
|
15 |
-
"decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
|
16 |
-
"diff": [
|
17 |
-
"delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
|
18 |
-
],
|
19 |
-
"n_oov_chars": 0,
|
20 |
-
"oov_ratio": 0.0,
|
21 |
-
"oov_charset": "[]"
|
22 |
-
},
|
23 |
-
{
|
24 |
-
"text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
|
25 |
-
"decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
|
26 |
-
"diff": [
|
27 |
-
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
|
28 |
-
"delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
|
29 |
-
],
|
30 |
-
"n_oov_chars": 0,
|
31 |
-
"oov_ratio": 0.0,
|
32 |
-
"oov_charset": "[]"
|
33 |
-
},
|
34 |
-
{
|
35 |
-
"text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
|
36 |
-
"decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의
|
37 |
-
"diff": [
|
38 |
-
"delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
|
39 |
-
"delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
|
40 |
-
],
|
41 |
-
"n_oov_chars": 0,
|
42 |
-
"oov_ratio": 0.0,
|
43 |
-
"oov_charset": "[]"
|
44 |
-
},
|
45 |
-
{
|
46 |
-
"text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
|
47 |
-
"decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
|
48 |
-
"diff": [
|
49 |
-
"delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
|
50 |
-
],
|
51 |
-
"n_oov_chars": 0,
|
52 |
-
"oov_ratio": 0.0,
|
53 |
-
"oov_charset": "[]"
|
54 |
-
},
|
55 |
-
{
|
56 |
-
"text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
|
57 |
-
"decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
|
58 |
-
"diff": [
|
59 |
-
"delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
|
60 |
-
],
|
61 |
-
"n_oov_chars": 0,
|
62 |
-
"oov_ratio": 0.0,
|
63 |
-
"oov_charset": "[]"
|
64 |
-
},
|
65 |
-
{
|
66 |
-
"text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
|
67 |
-
"decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
|
68 |
-
"diff": [
|
69 |
-
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
|
70 |
-
"delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
|
71 |
-
],
|
72 |
-
"n_oov_chars": 0,
|
73 |
-
"oov_ratio": 0.0,
|
74 |
-
"oov_charset": "[]"
|
75 |
-
},
|
76 |
-
{
|
77 |
-
"text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
|
78 |
-
"decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
|
79 |
-
"diff": [
|
80 |
-
"delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
|
81 |
-
],
|
82 |
-
"n_oov_chars": 0,
|
83 |
-
"oov_ratio": 0.0,
|
84 |
-
"oov_charset": "[]"
|
85 |
-
},
|
86 |
-
{
|
87 |
-
"text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
|
88 |
-
"decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
|
89 |
-
"diff": [
|
90 |
-
"delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
|
91 |
-
],
|
92 |
-
"n_oov_chars": 0,
|
93 |
-
"oov_ratio": 0.0,
|
94 |
-
"oov_charset": "[]"
|
95 |
-
},
|
96 |
-
{
|
97 |
-
"text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
|
98 |
-
"decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
|
99 |
-
"diff": [
|
100 |
-
"delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
|
101 |
-
],
|
102 |
-
"n_oov_chars": 0,
|
103 |
-
"oov_ratio": 0.0,
|
104 |
-
"oov_charset": "[]"
|
105 |
-
}
|
106 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
|
4 |
+
"decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
|
5 |
+
"diff": [
|
6 |
+
"delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
|
7 |
+
"delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
|
8 |
+
],
|
9 |
+
"n_oov_chars": 0,
|
10 |
+
"oov_ratio": 0.0,
|
11 |
+
"oov_charset": "[]"
|
12 |
+
},
|
13 |
+
{
|
14 |
+
"text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
|
15 |
+
"decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
|
16 |
+
"diff": [
|
17 |
+
"delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
|
18 |
+
],
|
19 |
+
"n_oov_chars": 0,
|
20 |
+
"oov_ratio": 0.0,
|
21 |
+
"oov_charset": "[]"
|
22 |
+
},
|
23 |
+
{
|
24 |
+
"text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
|
25 |
+
"decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
|
26 |
+
"diff": [
|
27 |
+
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
|
28 |
+
"delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
|
29 |
+
],
|
30 |
+
"n_oov_chars": 0,
|
31 |
+
"oov_ratio": 0.0,
|
32 |
+
"oov_charset": "[]"
|
33 |
+
},
|
34 |
+
{
|
35 |
+
"text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
|
36 |
+
"decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 ���할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
|
37 |
+
"diff": [
|
38 |
+
"delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
|
39 |
+
"delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
|
40 |
+
],
|
41 |
+
"n_oov_chars": 0,
|
42 |
+
"oov_ratio": 0.0,
|
43 |
+
"oov_charset": "[]"
|
44 |
+
},
|
45 |
+
{
|
46 |
+
"text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
|
47 |
+
"decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
|
48 |
+
"diff": [
|
49 |
+
"delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
|
50 |
+
],
|
51 |
+
"n_oov_chars": 0,
|
52 |
+
"oov_ratio": 0.0,
|
53 |
+
"oov_charset": "[]"
|
54 |
+
},
|
55 |
+
{
|
56 |
+
"text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
|
57 |
+
"decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
|
58 |
+
"diff": [
|
59 |
+
"delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
|
60 |
+
],
|
61 |
+
"n_oov_chars": 0,
|
62 |
+
"oov_ratio": 0.0,
|
63 |
+
"oov_charset": "[]"
|
64 |
+
},
|
65 |
+
{
|
66 |
+
"text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
|
67 |
+
"decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
|
68 |
+
"diff": [
|
69 |
+
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
|
70 |
+
"delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
|
71 |
+
],
|
72 |
+
"n_oov_chars": 0,
|
73 |
+
"oov_ratio": 0.0,
|
74 |
+
"oov_charset": "[]"
|
75 |
+
},
|
76 |
+
{
|
77 |
+
"text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
|
78 |
+
"decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
|
79 |
+
"diff": [
|
80 |
+
"delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
|
81 |
+
],
|
82 |
+
"n_oov_chars": 0,
|
83 |
+
"oov_ratio": 0.0,
|
84 |
+
"oov_charset": "[]"
|
85 |
+
},
|
86 |
+
{
|
87 |
+
"text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
|
88 |
+
"decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
|
89 |
+
"diff": [
|
90 |
+
"delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
|
91 |
+
],
|
92 |
+
"n_oov_chars": 0,
|
93 |
+
"oov_ratio": 0.0,
|
94 |
+
"oov_charset": "[]"
|
95 |
+
},
|
96 |
+
{
|
97 |
+
"text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
|
98 |
+
"decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
|
99 |
+
"diff": [
|
100 |
+
"delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
|
101 |
+
],
|
102 |
+
"n_oov_chars": 0,
|
103 |
+
"oov_ratio": 0.0,
|
104 |
+
"oov_charset": "[]"
|
105 |
+
}
|
106 |
]
|
stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json
CHANGED
@@ -1,103 +1,103 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
|
4 |
-
"decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
|
5 |
-
"diff": [
|
6 |
-
"delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "Laut dieser Studie sind es ....",
|
14 |
-
"decoded_text": "Laut dieser Studie sind es....",
|
15 |
-
"diff": [
|
16 |
-
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
|
24 |
-
"decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
|
25 |
-
"diff": [
|
26 |
-
"delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
34 |
-
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
35 |
-
"diff": [
|
36 |
-
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
44 |
-
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
45 |
-
"diff": [
|
46 |
-
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
54 |
-
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
55 |
-
"diff": [
|
56 |
-
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
|
64 |
-
"decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
|
65 |
-
"diff": [
|
66 |
-
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
|
74 |
-
"decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
|
75 |
-
"diff": [
|
76 |
-
"delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 0,
|
79 |
-
"oov_ratio": 0.0,
|
80 |
-
"oov_charset": "[]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
|
84 |
-
"decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
|
85 |
-
"diff": [
|
86 |
-
"delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
|
87 |
-
"delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
|
88 |
-
],
|
89 |
-
"n_oov_chars": 0,
|
90 |
-
"oov_ratio": 0.0,
|
91 |
-
"oov_charset": "[]"
|
92 |
-
},
|
93 |
-
{
|
94 |
-
"text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
|
95 |
-
"decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
|
96 |
-
"diff": [
|
97 |
-
"delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
|
98 |
-
],
|
99 |
-
"n_oov_chars": 0,
|
100 |
-
"oov_ratio": 0.0,
|
101 |
-
"oov_charset": "[]"
|
102 |
-
}
|
103 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
|
4 |
+
"decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
|
5 |
+
"diff": [
|
6 |
+
"delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "Laut dieser Studie sind es ....",
|
14 |
+
"decoded_text": "Laut dieser Studie sind es....",
|
15 |
+
"diff": [
|
16 |
+
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
|
24 |
+
"decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
|
25 |
+
"diff": [
|
26 |
+
"delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
34 |
+
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
35 |
+
"diff": [
|
36 |
+
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
44 |
+
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
45 |
+
"diff": [
|
46 |
+
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
54 |
+
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
55 |
+
"diff": [
|
56 |
+
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
|
64 |
+
"decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
|
65 |
+
"diff": [
|
66 |
+
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
|
74 |
+
"decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
|
75 |
+
"diff": [
|
76 |
+
"delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 0,
|
79 |
+
"oov_ratio": 0.0,
|
80 |
+
"oov_charset": "[]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
|
84 |
+
"decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
|
85 |
+
"diff": [
|
86 |
+
"delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
|
87 |
+
"delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
|
88 |
+
],
|
89 |
+
"n_oov_chars": 0,
|
90 |
+
"oov_ratio": 0.0,
|
91 |
+
"oov_charset": "[]"
|
92 |
+
},
|
93 |
+
{
|
94 |
+
"text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
|
95 |
+
"decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
|
96 |
+
"diff": [
|
97 |
+
"delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
|
98 |
+
],
|
99 |
+
"n_oov_chars": 0,
|
100 |
+
"oov_ratio": 0.0,
|
101 |
+
"oov_charset": "[]"
|
102 |
+
}
|
103 |
]
|
stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json
CHANGED
@@ -1,190 +1,190 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
|
4 |
-
"decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
|
5 |
-
"diff": [
|
6 |
-
"delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
|
7 |
-
"insert text[49:49] --> decoded_text[48:49] '' --> ' '"
|
8 |
-
],
|
9 |
-
"n_oov_chars": 0,
|
10 |
-
"oov_ratio": 0.0,
|
11 |
-
"oov_charset": "[]"
|
12 |
-
},
|
13 |
-
{
|
14 |
-
"text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
|
15 |
-
"decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تاكيد قد تنهدت من اعماق اعماقها الما واسى لما وصل اليه حال ابنايها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض ابنايها لاملاءات الغير ولحساباتهم.. ووسط هذه الماساة لم تعدم هذه الارض الطيبة من بقايا امل, ومن بقايا حكمة مازالت تميز ابناء هذا الشعب الطيب لان اليمانيين في العام 1990م فاجاوا العالم بوحدتهم حين كان العالم منغمسا في الانقسام, وحينما كانت الانظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنايية.. وكان اندفاع اليمنيين شمالا وجنوبا نحو الوحدة طوعيا وبمستوى عال من الحكمة ونكران الذات وتغليب المصلحة العليا عن اية مصالح اخرى سواء كانت ذاتية او حسابات جهوية او اية مصالح اخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الايثار ونحن نعتقد ان مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
|
16 |
-
"diff": [
|
17 |
-
"replace text[159:198] --> decoded_text[159:197] 'أكيد قد تنهدت من أعماق أعماقها ألماً وأ' --> 'اكيد قد تنهدت من اعماق اعماقها الما وا'",
|
18 |
-
"delete text[200:201] --> decoded_text[199:199] 'ً' --> ''",
|
19 |
-
"replace text[210:224] --> decoded_text[208:222] 'إليه حال أبنائ' --> 'اليه حال ابناي'",
|
20 |
-
"replace text[299:309] --> decoded_text[297:307] 'أبنائها لإ' --> 'ابنايها لا'",
|
21 |
-
"replace text[347:348] --> decoded_text[345:346] 'أ' --> 'ا'",
|
22 |
-
"replace text[366:367] --> decoded_text[364:365] 'أ' --> 'ا'",
|
23 |
-
"replace text[386:387] --> decoded_text[384:385] 'أ' --> 'ا'",
|
24 |
-
"replace text[418:419] --> decoded_text[416:417] 'أ' --> 'ا'",
|
25 |
-
"replace text[441:442] --> decoded_text[439:440] 'أ' --> 'ا'",
|
26 |
-
"replace text[472:473] --> decoded_text[470:471] 'أ' --> 'ا'",
|
27 |
-
"delete text[512:513] --> decoded_text[510:510] 'ً' --> ''",
|
28 |
-
"replace text[541:542] --> decoded_text[538:539] 'أ' --> 'ا'",
|
29 |
-
"replace text[599:600] --> decoded_text[596:597] 'ئ' --> 'ي'",
|
30 |
-
"delete text[631:632] --> decoded_text[628:628] 'ً' --> ''",
|
31 |
-
"delete text[639:640] --> decoded_text[635:635] 'ً' --> ''",
|
32 |
-
"delete text[657:658] --> decoded_text[652:652] 'ً' --> ''",
|
33 |
-
"delete text[670:671] --> decoded_text[664:664] 'ٍ' --> ''",
|
34 |
-
"replace text[720:721] --> decoded_text[713:714] 'أ' --> 'ا'",
|
35 |
-
"replace text[730:731] --> decoded_text[723:724] 'أ' --> 'ا'",
|
36 |
-
"delete text[739:740] --> decoded_text[732:732] 'ً' --> ''",
|
37 |
-
"replace text[752:753] --> decoded_text[744:745] 'أ' --> 'ا'",
|
38 |
-
"replace text[768:772] --> decoded_text[760:764] 'أو أ' --> 'او ا'",
|
39 |
-
"replace text[781:782] --> decoded_text[773:774] 'أ' --> 'ا'",
|
40 |
-
"replace text[827:828] --> decoded_text[819:820] 'إ' --> 'ا'",
|
41 |
-
"replace text[844:845] --> decoded_text[836:837] 'أ' --> 'ا'",
|
42 |
-
"replace text[886:890] --> decoded_text[878:884] 'تردف' --> ' تردف '"
|
43 |
-
],
|
44 |
-
"n_oov_chars": 35,
|
45 |
-
"oov_ratio": 0.036231884057971016,
|
46 |
-
"oov_charset": "[\"أ\", \"ً\", \"إ\", \"ئ\", \"ٍ\"]"
|
47 |
-
},
|
48 |
-
{
|
49 |
-
"text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
|
50 |
-
"decoded_text": "واليوم وبعد ان جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فان الحكمة اليمانية توجب على ابناء اليمن ايا كانت تياراتهم السياسية, او انتماءاتهم المناطقية او القبلية او الجهوية, ان يستذكروا جيدا ما وصفهم به رسول العالمين محمد بن عبدالله عليه افضل الصلوات والتسليم وعلى اله الاخيار الاطهار بانهم اهل حكمة واهل ايمان..",
|
51 |
-
"diff": [
|
52 |
-
"replace text[12:13] --> decoded_text[12:13] 'أ' --> 'ا'",
|
53 |
-
"replace text[84:85] --> decoded_text[84:85] 'إ' --> 'ا'",
|
54 |
-
"replace text[112:113] --> decoded_text[112:113] 'أ' --> 'ا'",
|
55 |
-
"replace text[124:128] --> decoded_text[124:127] 'أياً' --> 'ايا'",
|
56 |
-
"replace text[153:154] --> decoded_text[152:153] 'أ' --> 'ا'",
|
57 |
-
"replace text[177:178] --> decoded_text[176:177] 'أ' --> 'ا'",
|
58 |
-
"replace text[188:189] --> decoded_text[187:188] 'أ' --> 'ا'",
|
59 |
-
"replace text[200:201] --> decoded_text[199:200] 'أ' --> 'ا'",
|
60 |
-
"delete text[216:217] --> decoded_text[215:215] 'ً' --> ''",
|
61 |
-
"replace text[265:266] --> decoded_text[263:264] 'أ' --> 'ا'",
|
62 |
-
"replace text[292:299] --> decoded_text[290:297] 'آله الأ' --> 'اله الا'",
|
63 |
-
"replace text[306:307] --> decoded_text[304:305] 'أ' --> 'ا'",
|
64 |
-
"replace text[313:319] --> decoded_text[311:317] 'أنهم أ' --> 'انهم ا'",
|
65 |
-
"replace text[328:333] --> decoded_text[326:331] 'أهل إ' --> 'اهل ا'"
|
66 |
-
],
|
67 |
-
"n_oov_chars": 18,
|
68 |
-
"oov_ratio": 0.05309734513274336,
|
69 |
-
"oov_charset": "[\"أ\", \"إ\", \"ً\", \"آ\"]"
|
70 |
-
},
|
71 |
-
{
|
72 |
-
"text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
|
73 |
-
"decoded_text": "وكلام الرسول واحاديثه ما هي الا وحي من الله.. بمعنى ان العمل بما قاله الرسول الاعظم هو مسوولية اخلاقية ودينية ومسوولية سياسية..",
|
74 |
-
"diff": [
|
75 |
-
"replace text[14:15] --> decoded_text[14:15] 'أ' --> 'ا'",
|
76 |
-
"replace text[28:29] --> decoded_text[28:29] 'إ' --> 'ا'",
|
77 |
-
"replace text[52:53] --> decoded_text[52:53] 'أ' --> 'ا'",
|
78 |
-
"replace text[79:80] --> decoded_text[79:80] 'أ' --> 'ا'",
|
79 |
-
"replace text[89:90] --> decoded_text[89:90] 'ؤ' --> 'و'",
|
80 |
-
"replace text[95:96] --> decoded_text[95:96] 'أ' --> 'ا'",
|
81 |
-
"replace text[113:114] --> decoded_text[113:114] 'ؤ' --> 'و'"
|
82 |
-
],
|
83 |
-
"n_oov_chars": 7,
|
84 |
-
"oov_ratio": 0.05511811023622047,
|
85 |
-
"oov_charset": "[\"أ\", \"إ\", \"ؤ\"]"
|
86 |
-
},
|
87 |
-
{
|
88 |
-
"text": "فهل أوضاع اليمنيين القائمة هي
|
89 |
-
"decoded_text": "فهل اوضاع اليمنيين القايمة هي نتاج حكمة, وهل من الحكمة ان تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن ابناء هذا البلد العظيم..",
|
90 |
-
"diff": [
|
91 |
-
"replace text[4:5] --> decoded_text[4:5] 'أ' --> 'ا'",
|
92 |
-
"replace text[23:24] --> decoded_text[23:24] 'ئ' --> 'ي'",
|
93 |
-
"replace text[55:56] --> decoded_text[55:56] 'أ' --> 'ا'",
|
94 |
-
"replace text[119:120] --> decoded_text[119:120] 'أ' --> 'ا'"
|
95 |
-
],
|
96 |
-
"n_oov_chars": 4,
|
97 |
-
"oov_ratio": 0.027972027972027972,
|
98 |
-
"oov_charset": "[\"أ\", \"ئ\"]"
|
99 |
-
},
|
100 |
-
{
|
101 |
-
"text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
|
102 |
-
"decoded_text": "وهل الانسياق نحو مزيد من العناد ومزيد من الاحتقان, ومزيد من الاحتراب بين ابناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى اله..",
|
103 |
-
"diff": [
|
104 |
-
"delete text[21:22] --> decoded_text[21:21] 'ٍ' --> ''",
|
105 |
-
"delete text[38:39] --> decoded_text[37:37] 'ٍ' --> ''",
|
106 |
-
"delete text[58:59] --> decoded_text[56:56] 'ٍ' --> ''",
|
107 |
-
"replace text[76:77] --> decoded_text[73:74] 'أ' --> 'ا'",
|
108 |
-
"replace text[152:153] --> decoded_text[149:150] 'آ' --> 'ا'"
|
109 |
-
],
|
110 |
-
"n_oov_chars": 5,
|
111 |
-
"oov_ratio": 0.03184713375796178,
|
112 |
-
"oov_charset": "[\"ٍ\", \"أ\", \"آ\"]"
|
113 |
-
},
|
114 |
-
{
|
115 |
-
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
116 |
-
"decoded_text": "انا لا اعتقد ان عاقلا من بناء هذا البلد يقبل او يستسيغ ما يجري فيه.. ان يتحول اليمن - وهو بلد ولاد بالخير, الى اطلال, وان يتعرض ابناوه الاحرار الى قطيع من الذياب تنهش ببعضها, بل والاشد نكاية والما ان يكون ذلك خدمة لاعدايه..",
|
117 |
-
"diff": [
|
118 |
-
"replace text[0:22] --> decoded_text[0:21] 'أنا لا اعتقد أن عاقلاً' --> 'انا لا اعتقد ان عاقلا'",
|
119 |
-
"replace text[46:47] --> decoded_text[45:46] 'أ' --> 'ا'",
|
120 |
-
"replace text[70:71] --> decoded_text[69:70] 'أ' --> 'ا'",
|
121 |
-
"insert text[84:84] --> decoded_text[83:84] '' --> ' '",
|
122 |
-
"delete text[97:99] --> decoded_text[97:97] 'َّ' --> ''",
|
123 |
-
"replace text[109:110] --> decoded_text[107:108] 'إ' --> 'ا'",
|
124 |
-
"replace text[113:114] --> decoded_text[111:112] 'أ' --> 'ا'",
|
125 |
-
"replace text[121:122] --> decoded_text[119:120] 'أ' --> 'ا'",
|
126 |
-
"replace text[130:140] --> decoded_text[128:138] 'أبناؤه الأ' --> 'ابناوه الا'",
|
127 |
-
"replace text[145:146] --> decoded_text[143:144] 'إ' --> 'ا'",
|
128 |
-
"replace text[160:161] --> decoded_text[158:159] 'ئ' --> 'ي'",
|
129 |
-
"replace text[183:184] --> decoded_text[181:182] 'أ' --> 'ا'",
|
130 |
-
"replace text[194:201] --> decoded_text[192:198] 'ألماً أ' --> 'الما ا'",
|
131 |
-
"replace text[218:226] --> decoded_text[215:223] 'أعدائه..' --> 'اعدايه..'"
|
132 |
-
],
|
133 |
-
"n_oov_chars": 21,
|
134 |
-
"oov_ratio": 0.09292035398230089,
|
135 |
-
"oov_charset": "[\"أ\", \"ً\", \"ّ\", \"َ\", \"إ\", \"ؤ\", \"ئ\"]"
|
136 |
-
},
|
137 |
-
{
|
138 |
-
"text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
|
139 |
-
"decoded_text": "اليمن انهك من العدوان ومن الحصار حتى اوليك الذين يظنون انهم بعيدون عن التاثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والاعباء والمتاعب طالت الجميع, وان ظل الصمت والانجرار خلف مواقف تخدم اعداء هذا الشعب فان المستقبل سيكون قاتما واضراره ستظل تلاحق الاجيال اليمنية جيلا بعد جيل, وسيكون اعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون ادوات بايدي الرياض او الدوحة, او ابوظبي.. ؟!",
|
140 |
-
"diff": [
|
141 |
-
"replace text[6:7] --> decoded_text[6:7] 'أ' --> 'ا'",
|
142 |
-
"replace text[37:41] --> decoded_text[37:41] 'أولئ' --> 'اولي'",
|
143 |
-
"replace text[55:74] --> decoded_text[55:74] 'أنهم بعيدون عن التأ' --> 'انهم بعيدون عن التا'",
|
144 |
-
"replace text[124:125] --> decoded_text[124:125] 'أ' --> 'ا'",
|
145 |
-
"replace text[153:154] --> decoded_text[153:154] 'إ' --> 'ا'",
|
146 |
-
"replace text[190:191] --> decoded_text[190:191] 'أ' --> 'ا'",
|
147 |
-
"replace text[207:208] --> decoded_text[207:208] 'إ' --> 'ا'",
|
148 |
-
"replace text[230:234] --> decoded_text[230:233] 'ً وأ' --> ' وا'",
|
149 |
-
"replace text[253:254] --> decoded_text[252:253] 'أ' --> 'ا'",
|
150 |
-
"delete text[271:272] --> decoded_text[270:270] 'ً' --> ''",
|
151 |
-
"replace text[289:290] --> decoded_text[287:288] 'أ' --> 'ا'",
|
152 |
-
"replace text[364:372] --> decoded_text[362:370] 'أدوات بأ' --> 'ادوات با'",
|
153 |
-
"replace text[383:384] --> decoded_text[381:382] 'أ' --> 'ا'",
|
154 |
-
"replace text[394:398] --> decoded_text[392:396] 'أو أ' --> 'او ا'",
|
155 |
-
"insert text[405:405] --> decoded_text[403:404] '' --> ' '"
|
156 |
-
],
|
157 |
-
"n_oov_chars": 19,
|
158 |
-
"oov_ratio": 0.04668304668304668,
|
159 |
-
"oov_charset": "[\"أ\", \"ئ\", \"إ\", \"ً\"]"
|
160 |
-
},
|
161 |
-
{
|
162 |
-
"text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
|
163 |
-
"decoded_text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت ان تكون خادمة لاجندة غير عربية وغير اسلامية.. اجندة تباع فيها الضماير وتباع فيها المواقف من اجل عين اصحاب البقرة الصفراء ومن اجل رضا اجهزة المخابرات في واشنطن وفي تل ابيب!!",
|
164 |
-
"diff": [
|
165 |
-
"replace text[75:76] --> decoded_text[75:76] 'أ' --> 'ا'",
|
166 |
-
"replace text[90:91] --> decoded_text[90:91] 'أ' --> 'ا'",
|
167 |
-
"replace text[111:112] --> decoded_text[111:112] 'إ' --> 'ا'",
|
168 |
-
"replace text[121:122] --> decoded_text[121:122] 'أ' --> 'ا'",
|
169 |
-
"replace text[142:176] --> decoded_text[142:176] 'ئر وتباع فيها المواقف من أجل عين أ' --> 'ير وتباع فيها المواقف من اجل عين ا'",
|
170 |
-
"replace text[200:201] --> decoded_text[200:201] 'أ' --> 'ا'",
|
171 |
-
"replace text[208:209] --> decoded_text[208:209] 'أ' --> 'ا'",
|
172 |
-
"replace text[241:242] --> decoded_text[241:242] 'أ' --> 'ا'"
|
173 |
-
],
|
174 |
-
"n_oov_chars": 10,
|
175 |
-
"oov_ratio": 0.04048582995951417,
|
176 |
-
"oov_charset": "[\"أ\", \"إ\", \"ئ\"]"
|
177 |
-
},
|
178 |
-
{
|
179 |
-
"text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
|
180 |
-
"decoded_text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد اهلها وساكنوها.. اليمن اصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب ابو ظبي, وصوب الرياض, وصوب واشنطن..",
|
181 |
-
"diff": [
|
182 |
-
"replace text[77:78] --> decoded_text[77:78] 'أ' --> 'ا'",
|
183 |
-
"replace text[100:101] --> decoded_text[100:101] 'أ' --> 'ا'",
|
184 |
-
"replace text[159:160] --> decoded_text[159:160] 'أ' --> 'ا'"
|
185 |
-
],
|
186 |
-
"n_oov_chars": 3,
|
187 |
-
"oov_ratio": 0.015463917525773196,
|
188 |
-
"oov_charset": "[\"أ\"]"
|
189 |
-
}
|
190 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
|
4 |
+
"decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
|
5 |
+
"diff": [
|
6 |
+
"delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
|
7 |
+
"insert text[49:49] --> decoded_text[48:49] '' --> ' '"
|
8 |
+
],
|
9 |
+
"n_oov_chars": 0,
|
10 |
+
"oov_ratio": 0.0,
|
11 |
+
"oov_charset": "[]"
|
12 |
+
},
|
13 |
+
{
|
14 |
+
"text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
|
15 |
+
"decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تاكيد قد تنهدت من اعماق اعماقها الما واسى لما وصل اليه حال ابنايها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض ابنايها لاملاءات الغير ولحساباتهم.. ووسط هذه الماساة لم تعدم هذه الارض الطيبة من بقايا امل, ومن بقايا حكمة مازالت تميز ابناء هذا الشعب الطيب لان اليمانيين في العام 1990م فاجاوا العالم بوحدتهم حين كان العالم منغمسا في الانقسام, وحينما كانت الانظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنايية.. وكان اندفاع اليمنيين شمالا وجنوبا نحو الوحدة طوعيا وبمستوى عال من الحكمة ونكران الذات وتغليب المصلحة العليا عن اية مصالح اخرى سواء كانت ذاتية او حسابات جهوية او اية مصالح اخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الايثار ونحن نعتقد ان مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
|
16 |
+
"diff": [
|
17 |
+
"replace text[159:198] --> decoded_text[159:197] 'أكيد قد تنهدت من أعماق أعماقها ألماً وأ' --> 'اكيد قد تنهدت من اعماق اعماقها الما وا'",
|
18 |
+
"delete text[200:201] --> decoded_text[199:199] 'ً' --> ''",
|
19 |
+
"replace text[210:224] --> decoded_text[208:222] 'إليه حال أبنائ' --> 'اليه حال ابناي'",
|
20 |
+
"replace text[299:309] --> decoded_text[297:307] 'أبنائها لإ' --> 'ابنايها لا'",
|
21 |
+
"replace text[347:348] --> decoded_text[345:346] 'أ' --> 'ا'",
|
22 |
+
"replace text[366:367] --> decoded_text[364:365] 'أ' --> 'ا'",
|
23 |
+
"replace text[386:387] --> decoded_text[384:385] 'أ' --> 'ا'",
|
24 |
+
"replace text[418:419] --> decoded_text[416:417] 'أ' --> 'ا'",
|
25 |
+
"replace text[441:442] --> decoded_text[439:440] 'أ' --> 'ا'",
|
26 |
+
"replace text[472:473] --> decoded_text[470:471] 'أ' --> 'ا'",
|
27 |
+
"delete text[512:513] --> decoded_text[510:510] 'ً' --> ''",
|
28 |
+
"replace text[541:542] --> decoded_text[538:539] 'أ' --> 'ا'",
|
29 |
+
"replace text[599:600] --> decoded_text[596:597] 'ئ' --> 'ي'",
|
30 |
+
"delete text[631:632] --> decoded_text[628:628] 'ً' --> ''",
|
31 |
+
"delete text[639:640] --> decoded_text[635:635] 'ً' --> ''",
|
32 |
+
"delete text[657:658] --> decoded_text[652:652] 'ً' --> ''",
|
33 |
+
"delete text[670:671] --> decoded_text[664:664] 'ٍ' --> ''",
|
34 |
+
"replace text[720:721] --> decoded_text[713:714] 'أ' --> 'ا'",
|
35 |
+
"replace text[730:731] --> decoded_text[723:724] 'أ' --> 'ا'",
|
36 |
+
"delete text[739:740] --> decoded_text[732:732] 'ً' --> ''",
|
37 |
+
"replace text[752:753] --> decoded_text[744:745] 'أ' --> 'ا'",
|
38 |
+
"replace text[768:772] --> decoded_text[760:764] 'أو أ' --> 'او ا'",
|
39 |
+
"replace text[781:782] --> decoded_text[773:774] 'أ' --> 'ا'",
|
40 |
+
"replace text[827:828] --> decoded_text[819:820] 'إ' --> 'ا'",
|
41 |
+
"replace text[844:845] --> decoded_text[836:837] 'أ' --> 'ا'",
|
42 |
+
"replace text[886:890] --> decoded_text[878:884] 'تردف' --> ' تردف '"
|
43 |
+
],
|
44 |
+
"n_oov_chars": 35,
|
45 |
+
"oov_ratio": 0.036231884057971016,
|
46 |
+
"oov_charset": "[\"أ\", \"ً\", \"إ\", \"ئ\", \"ٍ\"]"
|
47 |
+
},
|
48 |
+
{
|
49 |
+
"text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
|
50 |
+
"decoded_text": "واليوم وبعد ان جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فان الحكمة اليمانية توجب على ابناء اليمن ايا كانت تياراتهم السياسية, او انتماءاتهم المناطقية او القبلية او الجهوية, ان يستذكروا جيدا ما وصفهم به رسول العالمين محمد بن عبدالله عليه افضل الصلوات والتسليم وعلى اله الاخيار الاطهار بانهم اهل حكمة واهل ايمان..",
|
51 |
+
"diff": [
|
52 |
+
"replace text[12:13] --> decoded_text[12:13] 'أ' --> 'ا'",
|
53 |
+
"replace text[84:85] --> decoded_text[84:85] 'إ' --> 'ا'",
|
54 |
+
"replace text[112:113] --> decoded_text[112:113] 'أ' --> 'ا'",
|
55 |
+
"replace text[124:128] --> decoded_text[124:127] 'أياً' --> 'ايا'",
|
56 |
+
"replace text[153:154] --> decoded_text[152:153] 'أ' --> 'ا'",
|
57 |
+
"replace text[177:178] --> decoded_text[176:177] 'أ' --> 'ا'",
|
58 |
+
"replace text[188:189] --> decoded_text[187:188] 'أ' --> 'ا'",
|
59 |
+
"replace text[200:201] --> decoded_text[199:200] 'أ' --> 'ا'",
|
60 |
+
"delete text[216:217] --> decoded_text[215:215] 'ً' --> ''",
|
61 |
+
"replace text[265:266] --> decoded_text[263:264] 'أ' --> 'ا'",
|
62 |
+
"replace text[292:299] --> decoded_text[290:297] 'آله الأ' --> 'اله الا'",
|
63 |
+
"replace text[306:307] --> decoded_text[304:305] 'أ' --> 'ا'",
|
64 |
+
"replace text[313:319] --> decoded_text[311:317] 'أنهم أ' --> 'انهم ا'",
|
65 |
+
"replace text[328:333] --> decoded_text[326:331] 'أهل إ' --> 'اهل ا'"
|
66 |
+
],
|
67 |
+
"n_oov_chars": 18,
|
68 |
+
"oov_ratio": 0.05309734513274336,
|
69 |
+
"oov_charset": "[\"أ\", \"إ\", \"ً\", \"آ\"]"
|
70 |
+
},
|
71 |
+
{
|
72 |
+
"text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
|
73 |
+
"decoded_text": "وكلام الرسول واحاديثه ما هي الا وحي من الله.. بمعنى ان العمل بما قاله الرسول الاعظم هو مسوولية اخلاقية ودينية ومسوولية سياسية..",
|
74 |
+
"diff": [
|
75 |
+
"replace text[14:15] --> decoded_text[14:15] 'أ' --> 'ا'",
|
76 |
+
"replace text[28:29] --> decoded_text[28:29] 'إ' --> 'ا'",
|
77 |
+
"replace text[52:53] --> decoded_text[52:53] 'أ' --> 'ا'",
|
78 |
+
"replace text[79:80] --> decoded_text[79:80] 'أ' --> 'ا'",
|
79 |
+
"replace text[89:90] --> decoded_text[89:90] 'ؤ' --> 'و'",
|
80 |
+
"replace text[95:96] --> decoded_text[95:96] 'أ' --> 'ا'",
|
81 |
+
"replace text[113:114] --> decoded_text[113:114] 'ؤ' --> 'و'"
|
82 |
+
],
|
83 |
+
"n_oov_chars": 7,
|
84 |
+
"oov_ratio": 0.05511811023622047,
|
85 |
+
"oov_charset": "[\"أ\", \"إ\", \"ؤ\"]"
|
86 |
+
},
|
87 |
+
{
|
88 |
+
"text": "فهل أوضاع اليمنيين القائمة هي نتا�� حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
|
89 |
+
"decoded_text": "فهل اوضاع اليمنيين القايمة هي نتاج حكمة, وهل من الحكمة ان تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن ابناء هذا البلد العظيم..",
|
90 |
+
"diff": [
|
91 |
+
"replace text[4:5] --> decoded_text[4:5] 'أ' --> 'ا'",
|
92 |
+
"replace text[23:24] --> decoded_text[23:24] 'ئ' --> 'ي'",
|
93 |
+
"replace text[55:56] --> decoded_text[55:56] 'أ' --> 'ا'",
|
94 |
+
"replace text[119:120] --> decoded_text[119:120] 'أ' --> 'ا'"
|
95 |
+
],
|
96 |
+
"n_oov_chars": 4,
|
97 |
+
"oov_ratio": 0.027972027972027972,
|
98 |
+
"oov_charset": "[\"أ\", \"ئ\"]"
|
99 |
+
},
|
100 |
+
{
|
101 |
+
"text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
|
102 |
+
"decoded_text": "وهل الانسياق نحو مزيد من العناد ومزيد من الاحتقان, ومزيد من الاحتراب بين ابناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى اله..",
|
103 |
+
"diff": [
|
104 |
+
"delete text[21:22] --> decoded_text[21:21] 'ٍ' --> ''",
|
105 |
+
"delete text[38:39] --> decoded_text[37:37] 'ٍ' --> ''",
|
106 |
+
"delete text[58:59] --> decoded_text[56:56] 'ٍ' --> ''",
|
107 |
+
"replace text[76:77] --> decoded_text[73:74] 'أ' --> 'ا'",
|
108 |
+
"replace text[152:153] --> decoded_text[149:150] 'آ' --> 'ا'"
|
109 |
+
],
|
110 |
+
"n_oov_chars": 5,
|
111 |
+
"oov_ratio": 0.03184713375796178,
|
112 |
+
"oov_charset": "[\"ٍ\", \"أ\", \"آ\"]"
|
113 |
+
},
|
114 |
+
{
|
115 |
+
"text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
|
116 |
+
"decoded_text": "انا لا اعتقد ان عاقلا من بناء هذا البلد يقبل او يستسيغ ما يجري فيه.. ان يتحول اليمن - وهو بلد ولاد بالخير, الى اطلال, وان يتعرض ابناوه الاحرار الى قطيع من الذياب تنهش ببعضها, بل والاشد نكاية والما ان يكون ذلك خدمة لاعدايه..",
|
117 |
+
"diff": [
|
118 |
+
"replace text[0:22] --> decoded_text[0:21] 'أنا لا اعتقد أن عاقلاً' --> 'انا لا اعتقد ان عاقلا'",
|
119 |
+
"replace text[46:47] --> decoded_text[45:46] 'أ' --> 'ا'",
|
120 |
+
"replace text[70:71] --> decoded_text[69:70] 'أ' --> 'ا'",
|
121 |
+
"insert text[84:84] --> decoded_text[83:84] '' --> ' '",
|
122 |
+
"delete text[97:99] --> decoded_text[97:97] 'َّ' --> ''",
|
123 |
+
"replace text[109:110] --> decoded_text[107:108] 'إ' --> 'ا'",
|
124 |
+
"replace text[113:114] --> decoded_text[111:112] 'أ' --> 'ا'",
|
125 |
+
"replace text[121:122] --> decoded_text[119:120] 'أ' --> 'ا'",
|
126 |
+
"replace text[130:140] --> decoded_text[128:138] 'أبناؤه الأ' --> 'ابناوه الا'",
|
127 |
+
"replace text[145:146] --> decoded_text[143:144] 'إ' --> 'ا'",
|
128 |
+
"replace text[160:161] --> decoded_text[158:159] 'ئ' --> 'ي'",
|
129 |
+
"replace text[183:184] --> decoded_text[181:182] 'أ' --> 'ا'",
|
130 |
+
"replace text[194:201] --> decoded_text[192:198] 'ألماً أ' --> 'الما ا'",
|
131 |
+
"replace text[218:226] --> decoded_text[215:223] 'أعدائه..' --> 'اعدايه..'"
|
132 |
+
],
|
133 |
+
"n_oov_chars": 21,
|
134 |
+
"oov_ratio": 0.09292035398230089,
|
135 |
+
"oov_charset": "[\"أ\", \"ً\", \"ّ\", \"َ\", \"إ\", \"ؤ\", \"ئ\"]"
|
136 |
+
},
|
137 |
+
{
|
138 |
+
"text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
|
139 |
+
"decoded_text": "اليمن انهك من العدوان ومن الحصار حتى اوليك الذين يظنون انهم بعيدون عن التاثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والاعباء والمتاعب طالت الجميع, وان ظل الصمت والانجرار خلف مواقف تخدم اعداء هذا الشعب فان المستقبل سيكون قاتما واضراره ستظل تلاحق الاجيال اليمنية جيلا بعد جيل, وسيكون اعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون ادوات بايدي الرياض او الدوحة, او ابوظبي.. ؟!",
|
140 |
+
"diff": [
|
141 |
+
"replace text[6:7] --> decoded_text[6:7] 'أ' --> 'ا'",
|
142 |
+
"replace text[37:41] --> decoded_text[37:41] 'أولئ' --> 'اولي'",
|
143 |
+
"replace text[55:74] --> decoded_text[55:74] 'أنهم بعيدون عن التأ' --> 'انهم بعيدون عن التا'",
|
144 |
+
"replace text[124:125] --> decoded_text[124:125] 'أ' --> 'ا'",
|
145 |
+
"replace text[153:154] --> decoded_text[153:154] 'إ' --> 'ا'",
|
146 |
+
"replace text[190:191] --> decoded_text[190:191] 'أ' --> 'ا'",
|
147 |
+
"replace text[207:208] --> decoded_text[207:208] 'إ' --> 'ا'",
|
148 |
+
"replace text[230:234] --> decoded_text[230:233] 'ً وأ' --> ' وا'",
|
149 |
+
"replace text[253:254] --> decoded_text[252:253] 'أ' --> 'ا'",
|
150 |
+
"delete text[271:272] --> decoded_text[270:270] 'ً' --> ''",
|
151 |
+
"replace text[289:290] --> decoded_text[287:288] 'أ' --> 'ا'",
|
152 |
+
"replace text[364:372] --> decoded_text[362:370] 'أدوات بأ' --> 'ادوات با'",
|
153 |
+
"replace text[383:384] --> decoded_text[381:382] 'أ' --> 'ا'",
|
154 |
+
"replace text[394:398] --> decoded_text[392:396] 'أو أ' --> 'او ا'",
|
155 |
+
"insert text[405:405] --> decoded_text[403:404] '' --> ' '"
|
156 |
+
],
|
157 |
+
"n_oov_chars": 19,
|
158 |
+
"oov_ratio": 0.04668304668304668,
|
159 |
+
"oov_charset": "[\"أ\", \"ئ\", \"إ\", \"ً\"]"
|
160 |
+
},
|
161 |
+
{
|
162 |
+
"text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
|
163 |
+
"decoded_text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت ان تكون خادمة لاجندة غير عربية وغير اسلامية.. اجندة تباع فيها الضماير وتباع فيها المواقف من اجل عين اصحاب البقرة الصفراء ومن اجل رضا اجهزة المخابرات في واشنطن وفي تل ابيب!!",
|
164 |
+
"diff": [
|
165 |
+
"replace text[75:76] --> decoded_text[75:76] 'أ' --> 'ا'",
|
166 |
+
"replace text[90:91] --> decoded_text[90:91] 'أ' --> 'ا'",
|
167 |
+
"replace text[111:112] --> decoded_text[111:112] 'إ' --> 'ا'",
|
168 |
+
"replace text[121:122] --> decoded_text[121:122] 'أ' --> 'ا'",
|
169 |
+
"replace text[142:176] --> decoded_text[142:176] 'ئر وتباع فيها المواقف من أجل عين أ' --> 'ير وتباع فيها المواقف من اجل عين ا'",
|
170 |
+
"replace text[200:201] --> decoded_text[200:201] 'أ' --> 'ا'",
|
171 |
+
"replace text[208:209] --> decoded_text[208:209] 'أ' --> 'ا'",
|
172 |
+
"replace text[241:242] --> decoded_text[241:242] 'أ' --> 'ا'"
|
173 |
+
],
|
174 |
+
"n_oov_chars": 10,
|
175 |
+
"oov_ratio": 0.04048582995951417,
|
176 |
+
"oov_charset": "[\"أ\", \"إ\", \"ئ\"]"
|
177 |
+
},
|
178 |
+
{
|
179 |
+
"text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
|
180 |
+
"decoded_text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد اهلها وساكنوها.. اليمن اصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب ابو ظبي, وصوب الرياض, وصوب واشنطن..",
|
181 |
+
"diff": [
|
182 |
+
"replace text[77:78] --> decoded_text[77:78] 'أ' --> 'ا'",
|
183 |
+
"replace text[100:101] --> decoded_text[100:101] 'أ' --> 'ا'",
|
184 |
+
"replace text[159:160] --> decoded_text[159:160] 'أ' --> 'ا'"
|
185 |
+
],
|
186 |
+
"n_oov_chars": 3,
|
187 |
+
"oov_ratio": 0.015463917525773196,
|
188 |
+
"oov_charset": "[\"أ\"]"
|
189 |
+
}
|
190 |
]
|
stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json
CHANGED
@@ -1,105 +1,105 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
|
4 |
-
"decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest",
|
5 |
-
"diff": [
|
6 |
-
"replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
|
7 |
-
"replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '",
|
8 |
-
"replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '",
|
9 |
-
"replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '"
|
10 |
-
],
|
11 |
-
"n_oov_chars": 4,
|
12 |
-
"oov_ratio": 0.030534351145038167,
|
13 |
-
"oov_charset": "[\"\", \"\"]"
|
14 |
-
},
|
15 |
-
{
|
16 |
-
"text": "برچسبها: شیرینی ها",
|
17 |
-
"decoded_text": "برچسب ها: شیرینی ها",
|
18 |
-
"diff": [
|
19 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
20 |
-
],
|
21 |
-
"n_oov_chars": 1,
|
22 |
-
"oov_ratio": 0.05263157894736842,
|
23 |
-
"oov_charset": "[\"\"]"
|
24 |
-
},
|
25 |
-
{
|
26 |
-
"text": "برچسبها: امریکایی, انجیر, شیرینی ها, کوکی ها",
|
27 |
-
"decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها",
|
28 |
-
"diff": [
|
29 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
30 |
-
],
|
31 |
-
"n_oov_chars": 1,
|
32 |
-
"oov_ratio": 0.022222222222222223,
|
33 |
-
"oov_charset": "[\"\"]"
|
34 |
-
},
|
35 |
-
{
|
36 |
-
"text": "برچسبها: توت فرنگی, کیک ها",
|
37 |
-
"decoded_text": "برچسب ها: توت فرنگی, کیک ها",
|
38 |
-
"diff": [
|
39 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
40 |
-
],
|
41 |
-
"n_oov_chars": 1,
|
42 |
-
"oov_ratio": 0.037037037037037035,
|
43 |
-
"oov_charset": "[\"\"]"
|
44 |
-
},
|
45 |
-
{
|
46 |
-
"text": "برچسبها: انواع سوپ و اش, جو",
|
47 |
-
"decoded_text": "برچسب ها: انواع سوپ و اش, جو",
|
48 |
-
"diff": [
|
49 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
50 |
-
],
|
51 |
-
"n_oov_chars": 1,
|
52 |
-
"oov_ratio": 0.03571428571428571,
|
53 |
-
"oov_charset": "[\"\"]"
|
54 |
-
},
|
55 |
-
{
|
56 |
-
"text": "برچسبها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
|
57 |
-
"decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
|
58 |
-
"diff": [
|
59 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
60 |
-
],
|
61 |
-
"n_oov_chars": 1,
|
62 |
-
"oov_ratio": 0.020833333333333332,
|
63 |
-
"oov_charset": "[\"\"]"
|
64 |
-
},
|
65 |
-
{
|
66 |
-
"text": "برچسبها: شکلات, کیک ها",
|
67 |
-
"decoded_text": "برچسب ها: شکلات, کیک ها",
|
68 |
-
"diff": [
|
69 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
70 |
-
],
|
71 |
-
"n_oov_chars": 1,
|
72 |
-
"oov_ratio": 0.043478260869565216,
|
73 |
-
"oov_charset": "[\"\"]"
|
74 |
-
},
|
75 |
-
{
|
76 |
-
"text": "برچسبها: انواع سوپ و اش, تره فرنگی",
|
77 |
-
"decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی",
|
78 |
-
"diff": [
|
79 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
80 |
-
],
|
81 |
-
"n_oov_chars": 1,
|
82 |
-
"oov_ratio": 0.02857142857142857,
|
83 |
-
"oov_charset": "[\"\"]"
|
84 |
-
},
|
85 |
-
{
|
86 |
-
"text": "برچسبها: کوکی ها",
|
87 |
-
"decoded_text": "برچسب ها: کوکی ها",
|
88 |
-
"diff": [
|
89 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
90 |
-
],
|
91 |
-
"n_oov_chars": 1,
|
92 |
-
"oov_ratio": 0.058823529411764705,
|
93 |
-
"oov_charset": "[\"\"]"
|
94 |
-
},
|
95 |
-
{
|
96 |
-
"text": "برچسبها: دسرها, موز",
|
97 |
-
"decoded_text": "برچسب ها: دسرها, موز",
|
98 |
-
"diff": [
|
99 |
-
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
100 |
-
],
|
101 |
-
"n_oov_chars": 1,
|
102 |
-
"oov_ratio": 0.05,
|
103 |
-
"oov_charset": "[\"\"]"
|
104 |
-
}
|
105 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
|
4 |
+
"decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest",
|
5 |
+
"diff": [
|
6 |
+
"replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
|
7 |
+
"replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '",
|
8 |
+
"replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '",
|
9 |
+
"replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '"
|
10 |
+
],
|
11 |
+
"n_oov_chars": 4,
|
12 |
+
"oov_ratio": 0.030534351145038167,
|
13 |
+
"oov_charset": "[\"\", \"\"]"
|
14 |
+
},
|
15 |
+
{
|
16 |
+
"text": "برچسبها: شیرینی ها",
|
17 |
+
"decoded_text": "برچسب ها: شیرینی ها",
|
18 |
+
"diff": [
|
19 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
20 |
+
],
|
21 |
+
"n_oov_chars": 1,
|
22 |
+
"oov_ratio": 0.05263157894736842,
|
23 |
+
"oov_charset": "[\"\"]"
|
24 |
+
},
|
25 |
+
{
|
26 |
+
"text": "برچسبها: امریکایی, انجیر, شیرینی ها, کوکی ها",
|
27 |
+
"decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها",
|
28 |
+
"diff": [
|
29 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
30 |
+
],
|
31 |
+
"n_oov_chars": 1,
|
32 |
+
"oov_ratio": 0.022222222222222223,
|
33 |
+
"oov_charset": "[\"\"]"
|
34 |
+
},
|
35 |
+
{
|
36 |
+
"text": "برچسبها: توت فرنگی, کیک ها",
|
37 |
+
"decoded_text": "برچسب ها: توت فرنگی, کیک ها",
|
38 |
+
"diff": [
|
39 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
40 |
+
],
|
41 |
+
"n_oov_chars": 1,
|
42 |
+
"oov_ratio": 0.037037037037037035,
|
43 |
+
"oov_charset": "[\"\"]"
|
44 |
+
},
|
45 |
+
{
|
46 |
+
"text": "برچسبها: انواع سوپ و اش, جو",
|
47 |
+
"decoded_text": "برچسب ها: انواع سوپ و اش, جو",
|
48 |
+
"diff": [
|
49 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
50 |
+
],
|
51 |
+
"n_oov_chars": 1,
|
52 |
+
"oov_ratio": 0.03571428571428571,
|
53 |
+
"oov_charset": "[\"\"]"
|
54 |
+
},
|
55 |
+
{
|
56 |
+
"text": "برچسبها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
|
57 |
+
"decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
|
58 |
+
"diff": [
|
59 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
60 |
+
],
|
61 |
+
"n_oov_chars": 1,
|
62 |
+
"oov_ratio": 0.020833333333333332,
|
63 |
+
"oov_charset": "[\"\"]"
|
64 |
+
},
|
65 |
+
{
|
66 |
+
"text": "برچسبها: شکلات, کیک ها",
|
67 |
+
"decoded_text": "برچسب ها: شکلات, کیک ها",
|
68 |
+
"diff": [
|
69 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
70 |
+
],
|
71 |
+
"n_oov_chars": 1,
|
72 |
+
"oov_ratio": 0.043478260869565216,
|
73 |
+
"oov_charset": "[\"\"]"
|
74 |
+
},
|
75 |
+
{
|
76 |
+
"text": "برچسبها: انواع سوپ و اش, تره فرنگی",
|
77 |
+
"decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی",
|
78 |
+
"diff": [
|
79 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
80 |
+
],
|
81 |
+
"n_oov_chars": 1,
|
82 |
+
"oov_ratio": 0.02857142857142857,
|
83 |
+
"oov_charset": "[\"\"]"
|
84 |
+
},
|
85 |
+
{
|
86 |
+
"text": "برچسبها: کوکی ها",
|
87 |
+
"decoded_text": "برچسب ها: کوکی ها",
|
88 |
+
"diff": [
|
89 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
90 |
+
],
|
91 |
+
"n_oov_chars": 1,
|
92 |
+
"oov_ratio": 0.058823529411764705,
|
93 |
+
"oov_charset": "[\"\"]"
|
94 |
+
},
|
95 |
+
{
|
96 |
+
"text": "برچسبها: دسرها, موز",
|
97 |
+
"decoded_text": "برچسب ها: دسرها, موز",
|
98 |
+
"diff": [
|
99 |
+
"replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
|
100 |
+
],
|
101 |
+
"n_oov_chars": 1,
|
102 |
+
"oov_ratio": 0.05,
|
103 |
+
"oov_charset": "[\"\"]"
|
104 |
+
}
|
105 |
]
|
stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json
CHANGED
@@ -1,132 +1,132 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
|
4 |
-
"decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.",
|
5 |
-
"diff": [
|
6 |
-
"replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'",
|
7 |
-
"replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'",
|
8 |
-
"replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'",
|
9 |
-
"replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'",
|
10 |
-
"insert text[135:135] --> decoded_text[137:138] '' --> ' '",
|
11 |
-
"replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'",
|
12 |
-
"replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'",
|
13 |
-
"replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'",
|
14 |
-
"insert text[206:206] --> decoded_text[209:210] '' --> ' '",
|
15 |
-
"replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'"
|
16 |
-
],
|
17 |
-
"n_oov_chars": 11,
|
18 |
-
"oov_ratio": 0.049107142857142856,
|
19 |
-
"oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]"
|
20 |
-
},
|
21 |
-
{
|
22 |
-
"text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
|
23 |
-
"decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.",
|
24 |
-
"diff": [
|
25 |
-
"replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'",
|
26 |
-
"replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 2,
|
29 |
-
"oov_ratio": 0.02564102564102564,
|
30 |
-
"oov_charset": "[\"H\", \"ó\"]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
|
34 |
-
"decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
|
35 |
-
"diff": [
|
36 |
-
"replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
|
37 |
-
"replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'",
|
38 |
-
"replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'",
|
39 |
-
"insert text[35:35] --> decoded_text[36:37] '' --> ' '"
|
40 |
-
],
|
41 |
-
"n_oov_chars": 5,
|
42 |
-
"oov_ratio": 0.022222222222222223,
|
43 |
-
"oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
|
44 |
-
},
|
45 |
-
{
|
46 |
-
"text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
47 |
-
"decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.",
|
48 |
-
"diff": [
|
49 |
-
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
|
50 |
-
"replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
|
51 |
-
"replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
|
52 |
-
"replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
|
53 |
-
"replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'",
|
54 |
-
"replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
|
55 |
-
],
|
56 |
-
"n_oov_chars": 6,
|
57 |
-
"oov_ratio": 0.03225806451612903,
|
58 |
-
"oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]"
|
59 |
-
},
|
60 |
-
{
|
61 |
-
"text": "1. El período de vacaciones anuales retribuidas, no sustituible",
|
62 |
-
"decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible",
|
63 |
-
"diff": [
|
64 |
-
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'",
|
65 |
-
"replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'"
|
66 |
-
],
|
67 |
-
"n_oov_chars": 2,
|
68 |
-
"oov_ratio": 0.031746031746031744,
|
69 |
-
"oov_charset": "[\"E\", \"í\"]"
|
70 |
-
},
|
71 |
-
{
|
72 |
-
"text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
|
73 |
-
"decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada",
|
74 |
-
"diff": [
|
75 |
-
"replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'",
|
76 |
-
"replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'",
|
77 |
-
"replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'",
|
78 |
-
"insert text[15:15] --> decoded_text[19:20] '' --> ' '",
|
79 |
-
"insert text[16:16] --> decoded_text[21:22] '' --> ' '",
|
80 |
-
"replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'"
|
81 |
-
],
|
82 |
-
"n_oov_chars": 4,
|
83 |
-
"oov_ratio": 0.06349206349206349,
|
84 |
-
"oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]"
|
85 |
-
},
|
86 |
-
{
|
87 |
-
"text": "2. El período o períodos de su disfrute se fijará de común",
|
88 |
-
"decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun",
|
89 |
-
"diff": [
|
90 |
-
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'",
|
91 |
-
"replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'",
|
92 |
-
"replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'",
|
93 |
-
"replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'",
|
94 |
-
"replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'"
|
95 |
-
],
|
96 |
-
"n_oov_chars": 5,
|
97 |
-
"oov_ratio": 0.08620689655172414,
|
98 |
-
"oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]"
|
99 |
-
},
|
100 |
-
{
|
101 |
-
"text": "con lo establecido en su caso en los Convenios Colectivos",
|
102 |
-
"decoded_text": "con lo establecido en su caso en los convenios colectivos",
|
103 |
-
"diff": [
|
104 |
-
"replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
|
105 |
-
"replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
|
106 |
-
],
|
107 |
-
"n_oov_chars": 2,
|
108 |
-
"oov_ratio": 0.03508771929824561,
|
109 |
-
"oov_charset": "[\"C\"]"
|
110 |
-
},
|
111 |
-
{
|
112 |
-
"text": "sobre planificación anual de las vacaciones.",
|
113 |
-
"decoded_text": "sobre planificacion anual de las vacaciones.",
|
114 |
-
"diff": [
|
115 |
-
"replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'"
|
116 |
-
],
|
117 |
-
"n_oov_chars": 1,
|
118 |
-
"oov_ratio": 0.022727272727272728,
|
119 |
-
"oov_charset": "[\"ó\"]"
|
120 |
-
},
|
121 |
-
{
|
122 |
-
"text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
|
123 |
-
"decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente",
|
124 |
-
"diff": [
|
125 |
-
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
|
126 |
-
"replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'"
|
127 |
-
],
|
128 |
-
"n_oov_chars": 2,
|
129 |
-
"oov_ratio": 0.030303030303030304,
|
130 |
-
"oov_charset": "[\"E\", \"ó\"]"
|
131 |
-
}
|
132 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
|
4 |
+
"decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.",
|
5 |
+
"diff": [
|
6 |
+
"replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'",
|
7 |
+
"replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'",
|
8 |
+
"replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'",
|
9 |
+
"replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'",
|
10 |
+
"insert text[135:135] --> decoded_text[137:138] '' --> ' '",
|
11 |
+
"replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'",
|
12 |
+
"replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'",
|
13 |
+
"replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'",
|
14 |
+
"insert text[206:206] --> decoded_text[209:210] '' --> ' '",
|
15 |
+
"replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'"
|
16 |
+
],
|
17 |
+
"n_oov_chars": 11,
|
18 |
+
"oov_ratio": 0.049107142857142856,
|
19 |
+
"oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]"
|
20 |
+
},
|
21 |
+
{
|
22 |
+
"text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
|
23 |
+
"decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.",
|
24 |
+
"diff": [
|
25 |
+
"replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'",
|
26 |
+
"replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 2,
|
29 |
+
"oov_ratio": 0.02564102564102564,
|
30 |
+
"oov_charset": "[\"H\", \"ó\"]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
|
34 |
+
"decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
|
35 |
+
"diff": [
|
36 |
+
"replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
|
37 |
+
"replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'",
|
38 |
+
"replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'",
|
39 |
+
"insert text[35:35] --> decoded_text[36:37] '' --> ' '"
|
40 |
+
],
|
41 |
+
"n_oov_chars": 5,
|
42 |
+
"oov_ratio": 0.022222222222222223,
|
43 |
+
"oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
|
44 |
+
},
|
45 |
+
{
|
46 |
+
"text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
47 |
+
"decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.",
|
48 |
+
"diff": [
|
49 |
+
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
|
50 |
+
"replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
|
51 |
+
"replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
|
52 |
+
"replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
|
53 |
+
"replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'",
|
54 |
+
"replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
|
55 |
+
],
|
56 |
+
"n_oov_chars": 6,
|
57 |
+
"oov_ratio": 0.03225806451612903,
|
58 |
+
"oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]"
|
59 |
+
},
|
60 |
+
{
|
61 |
+
"text": "1. El período de vacaciones anuales retribuidas, no sustituible",
|
62 |
+
"decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible",
|
63 |
+
"diff": [
|
64 |
+
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'",
|
65 |
+
"replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'"
|
66 |
+
],
|
67 |
+
"n_oov_chars": 2,
|
68 |
+
"oov_ratio": 0.031746031746031744,
|
69 |
+
"oov_charset": "[\"E\", \"í\"]"
|
70 |
+
},
|
71 |
+
{
|
72 |
+
"text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
|
73 |
+
"decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada",
|
74 |
+
"diff": [
|
75 |
+
"replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'",
|
76 |
+
"replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'",
|
77 |
+
"replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'",
|
78 |
+
"insert text[15:15] --> decoded_text[19:20] '' --> ' '",
|
79 |
+
"insert text[16:16] --> decoded_text[21:22] '' --> ' '",
|
80 |
+
"replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'"
|
81 |
+
],
|
82 |
+
"n_oov_chars": 4,
|
83 |
+
"oov_ratio": 0.06349206349206349,
|
84 |
+
"oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]"
|
85 |
+
},
|
86 |
+
{
|
87 |
+
"text": "2. El período o períodos de su disfrute se fijará de común",
|
88 |
+
"decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun",
|
89 |
+
"diff": [
|
90 |
+
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'",
|
91 |
+
"replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'",
|
92 |
+
"replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'",
|
93 |
+
"replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'",
|
94 |
+
"replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'"
|
95 |
+
],
|
96 |
+
"n_oov_chars": 5,
|
97 |
+
"oov_ratio": 0.08620689655172414,
|
98 |
+
"oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]"
|
99 |
+
},
|
100 |
+
{
|
101 |
+
"text": "con lo establecido en su caso en los Convenios Colectivos",
|
102 |
+
"decoded_text": "con lo establecido en su caso en los convenios colectivos",
|
103 |
+
"diff": [
|
104 |
+
"replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
|
105 |
+
"replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
|
106 |
+
],
|
107 |
+
"n_oov_chars": 2,
|
108 |
+
"oov_ratio": 0.03508771929824561,
|
109 |
+
"oov_charset": "[\"C\"]"
|
110 |
+
},
|
111 |
+
{
|
112 |
+
"text": "sobre planificación anual de las vacaciones.",
|
113 |
+
"decoded_text": "sobre planificacion anual de las vacaciones.",
|
114 |
+
"diff": [
|
115 |
+
"replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'"
|
116 |
+
],
|
117 |
+
"n_oov_chars": 1,
|
118 |
+
"oov_ratio": 0.022727272727272728,
|
119 |
+
"oov_charset": "[\"ó\"]"
|
120 |
+
},
|
121 |
+
{
|
122 |
+
"text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
|
123 |
+
"decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente",
|
124 |
+
"diff": [
|
125 |
+
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
|
126 |
+
"replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'"
|
127 |
+
],
|
128 |
+
"n_oov_chars": 2,
|
129 |
+
"oov_ratio": 0.030303030303030304,
|
130 |
+
"oov_charset": "[\"E\", \"ó\"]"
|
131 |
+
}
|
132 |
]
|
stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json
CHANGED
@@ -1,102 +1,102 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
|
4 |
-
"decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
|
5 |
-
"diff": [
|
6 |
-
"delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "Laut dieser Studie sind es ....",
|
14 |
-
"decoded_text": "Laut dieser Studie sind es....",
|
15 |
-
"diff": [
|
16 |
-
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
|
24 |
-
"decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
|
25 |
-
"diff": [
|
26 |
-
"delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
34 |
-
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
35 |
-
"diff": [
|
36 |
-
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
44 |
-
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
45 |
-
"diff": [
|
46 |
-
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
54 |
-
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
55 |
-
"diff": [
|
56 |
-
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
|
64 |
-
"decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
|
65 |
-
"diff": [
|
66 |
-
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
74 |
-
"decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
75 |
-
"diff": [
|
76 |
-
"replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 1,
|
79 |
-
"oov_ratio": 0.00392156862745098,
|
80 |
-
"oov_charset": "[\"¼\"]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.",
|
84 |
-
"decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.",
|
85 |
-
"diff": [
|
86 |
-
"replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 1,
|
89 |
-
"oov_ratio": 0.007194244604316547,
|
90 |
-
"oov_charset": "[\"¼\"]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
94 |
-
"decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
95 |
-
"diff": [
|
96 |
-
"replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 1,
|
99 |
-
"oov_ratio": 0.005847953216374269,
|
100 |
-
"oov_charset": "[\"¼\"]"
|
101 |
-
}
|
102 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
|
4 |
+
"decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
|
5 |
+
"diff": [
|
6 |
+
"delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "Laut dieser Studie sind es ....",
|
14 |
+
"decoded_text": "Laut dieser Studie sind es....",
|
15 |
+
"diff": [
|
16 |
+
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
|
24 |
+
"decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
|
25 |
+
"diff": [
|
26 |
+
"delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
34 |
+
"decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
|
35 |
+
"diff": [
|
36 |
+
"replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
44 |
+
"decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
|
45 |
+
"diff": [
|
46 |
+
"replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
54 |
+
"decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
|
55 |
+
"diff": [
|
56 |
+
"replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
|
64 |
+
"decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
|
65 |
+
"diff": [
|
66 |
+
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
74 |
+
"decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
|
75 |
+
"diff": [
|
76 |
+
"replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 1,
|
79 |
+
"oov_ratio": 0.00392156862745098,
|
80 |
+
"oov_charset": "[\"¼\"]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.",
|
84 |
+
"decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.",
|
85 |
+
"diff": [
|
86 |
+
"replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 1,
|
89 |
+
"oov_ratio": 0.007194244604316547,
|
90 |
+
"oov_charset": "[\"¼\"]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
94 |
+
"decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
|
95 |
+
"diff": [
|
96 |
+
"replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 1,
|
99 |
+
"oov_ratio": 0.005847953216374269,
|
100 |
+
"oov_charset": "[\"¼\"]"
|
101 |
+
}
|
102 |
]
|
stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json
CHANGED
@@ -1,150 +1,150 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
4 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4s [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]",
|
5 |
-
"diff": [
|
6 |
-
"replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
7 |
-
"insert text[10:10] --> decoded_text[55:56] '' --> ' '",
|
8 |
-
"insert text[14:14] --> decoded_text[60:61] '' --> ' '",
|
9 |
-
"insert text[26:26] --> decoded_text[73:74] '' --> ' '",
|
10 |
-
"insert text[29:29] --> decoded_text[77:78] '' --> ' '",
|
11 |
-
"replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
12 |
-
"replace text[41:131] --> decoded_text[126:667] '
|
13 |
-
"replace text[132:159] --> decoded_text[668:826] 'S店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> 's [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
14 |
-
"replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
15 |
-
"replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '",
|
16 |
-
"replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 170,
|
19 |
-
"oov_ratio": 0.794392523364486,
|
20 |
-
"oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"S\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
24 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
25 |
-
"diff": [
|
26 |
-
"replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 124,
|
29 |
-
"oov_ratio": 1.0,
|
30 |
-
"oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
|
34 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
35 |
-
"diff": [
|
36 |
-
"replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 80,
|
39 |
-
"oov_ratio": 1.0,
|
40 |
-
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
|
44 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
45 |
-
"diff": [
|
46 |
-
"replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
47 |
-
"replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
48 |
-
],
|
49 |
-
"n_oov_chars": 74,
|
50 |
-
"oov_ratio": 0.9487179487179487,
|
51 |
-
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"
|
52 |
-
},
|
53 |
-
{
|
54 |
-
"text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
55 |
-
"decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] queenieeye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
56 |
-
"diff": [
|
57 |
-
"replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '",
|
58 |
-
"replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
59 |
-
"replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
60 |
-
"replace text[62:63] --> decoded_text[345:347] 'R' --> ' r'",
|
61 |
-
"replace text[67:68] --> decoded_text[351:352] 'S' --> 's'",
|
62 |
-
"insert text[72:72] --> decoded_text[356:357] '' --> ' '",
|
63 |
-
"replace text[73:106] --> decoded_text[358:557] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
64 |
-
"insert text[107:107] --> decoded_text[558:559] '' --> ' '",
|
65 |
-
"replace text[108:111] --> decoded_text[560:579] '罗伯茨' --> ' [UNK] [UNK] [UNK] '",
|
66 |
-
"replace text[112:113] --> decoded_text[580:582] 'J' --> ' j'",
|
67 |
-
"replace text[117:118] --> decoded_text[586:587] 'R' --> 'r'",
|
68 |
-
"insert text[124:124] --> decoded_text[593:594] '' --> ' '",
|
69 |
-
"replace text[125:153] --> decoded_text[595:759] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《Q' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] q'",
|
70 |
-
"replace text[159:160] --> decoded_text[765:766] 'E' --> 'e'",
|
71 |
-
"replace text[162:176] --> decoded_text[768:848] '》,然后轮到后者演绎旧作《P' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] p'",
|
72 |
-
"replace text[185:201] --> decoded_text[857:953] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
73 |
-
],
|
74 |
-
"n_oov_chars": 155,
|
75 |
-
"oov_ratio": 0.7711442786069652,
|
76 |
-
"oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]"
|
77 |
-
},
|
78 |
-
{
|
79 |
-
"text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
|
80 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]",
|
81 |
-
"diff": [
|
82 |
-
"replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
83 |
-
"replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
84 |
-
"replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
85 |
-
"replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
86 |
-
"replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
87 |
-
"replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
88 |
-
"replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'"
|
89 |
-
],
|
90 |
-
"n_oov_chars": 70,
|
91 |
-
"oov_ratio": 0.8860759493670886,
|
92 |
-
"oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"
|
93 |
-
},
|
94 |
-
{
|
95 |
-
"text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
|
96 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )",
|
97 |
-
"diff": [
|
98 |
-
"replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
99 |
-
"replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
100 |
-
"replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '"
|
101 |
-
],
|
102 |
-
"n_oov_chars": 109,
|
103 |
-
"oov_ratio": 0.9478260869565217,
|
104 |
-
"oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]"
|
105 |
-
},
|
106 |
-
{
|
107 |
-
"text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
|
108 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
109 |
-
"diff": [
|
110 |
-
"replace text[0:70] --> decoded_text[0:420] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
111 |
-
"replace text[71:88] --> decoded_text[421:524] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
112 |
-
"replace text[89:96] --> decoded_text[525:568] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
113 |
-
"replace text[97:111] --> decoded_text[569:654] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
114 |
-
"replace text[112:137] --> decoded_text[655:805] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
115 |
-
],
|
116 |
-
"n_oov_chars": 133,
|
117 |
-
"oov_ratio": 0.9708029197080292,
|
118 |
-
"oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]"
|
119 |
-
},
|
120 |
-
{
|
121 |
-
"text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
|
122 |
-
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
123 |
-
"diff": [
|
124 |
-
"replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
125 |
-
"replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
126 |
-
"replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
127 |
-
"replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
128 |
-
],
|
129 |
-
"n_oov_chars": 80,
|
130 |
-
"oov_ratio": 0.9195402298850575,
|
131 |
-
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]"
|
132 |
-
},
|
133 |
-
{
|
134 |
-
"text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
|
135 |
-
"decoded_text": "“ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
136 |
-
"diff": [
|
137 |
-
"replace text[1:19] --> decoded_text[1:110] '金庸的小说《连城诀》里有一个反派人物' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
138 |
-
"replace text[20:24] --> decoded_text[111:136] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '",
|
139 |
-
"replace text[25:72] --> decoded_text[137:420] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
140 |
-
"replace text[73:115] --> decoded_text[421:674] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
141 |
-
"replace text[116:120] --> decoded_text[675:700] '拾金而昧' --> ' [UNK] [UNK] [UNK] [UNK] '",
|
142 |
-
"replace text[121:123] --> decoded_text[701:714] ',还' --> ' [UNK] [UNK] '",
|
143 |
-
"replace text[124:125] --> decoded_text[715:722] '昧' --> ' [UNK] '",
|
144 |
-
"replace text[126:132] --> decoded_text[723:759] '得理直气壮。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
145 |
-
],
|
146 |
-
"n_oov_chars": 124,
|
147 |
-
"oov_ratio": 0.9393939393939394,
|
148 |
-
"oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]"
|
149 |
-
}
|
150 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
|
4 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4s [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]",
|
5 |
+
"diff": [
|
6 |
+
"replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
7 |
+
"insert text[10:10] --> decoded_text[55:56] '' --> ' '",
|
8 |
+
"insert text[14:14] --> decoded_text[60:61] '' --> ' '",
|
9 |
+
"insert text[26:26] --> decoded_text[73:74] '' --> ' '",
|
10 |
+
"insert text[29:29] --> decoded_text[77:78] '' --> ' '",
|
11 |
+
"replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
12 |
+
"replace text[41:131] --> decoded_text[126:667] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和��虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
13 |
+
"replace text[132:159] --> decoded_text[668:826] 'S店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> 's [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
14 |
+
"replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
15 |
+
"replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '",
|
16 |
+
"replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 170,
|
19 |
+
"oov_ratio": 0.794392523364486,
|
20 |
+
"oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"S\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
|
24 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
25 |
+
"diff": [
|
26 |
+
"replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 124,
|
29 |
+
"oov_ratio": 1.0,
|
30 |
+
"oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
|
34 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
35 |
+
"diff": [
|
36 |
+
"replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 80,
|
39 |
+
"oov_ratio": 1.0,
|
40 |
+
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
|
44 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
45 |
+
"diff": [
|
46 |
+
"replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
47 |
+
"replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
48 |
+
],
|
49 |
+
"n_oov_chars": 74,
|
50 |
+
"oov_ratio": 0.9487179487179487,
|
51 |
+
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"��\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]"
|
52 |
+
},
|
53 |
+
{
|
54 |
+
"text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
|
55 |
+
"decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] queenieeye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
56 |
+
"diff": [
|
57 |
+
"replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '",
|
58 |
+
"replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
59 |
+
"replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
60 |
+
"replace text[62:63] --> decoded_text[345:347] 'R' --> ' r'",
|
61 |
+
"replace text[67:68] --> decoded_text[351:352] 'S' --> 's'",
|
62 |
+
"insert text[72:72] --> decoded_text[356:357] '' --> ' '",
|
63 |
+
"replace text[73:106] --> decoded_text[358:557] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
64 |
+
"insert text[107:107] --> decoded_text[558:559] '' --> ' '",
|
65 |
+
"replace text[108:111] --> decoded_text[560:579] '罗伯茨' --> ' [UNK] [UNK] [UNK] '",
|
66 |
+
"replace text[112:113] --> decoded_text[580:582] 'J' --> ' j'",
|
67 |
+
"replace text[117:118] --> decoded_text[586:587] 'R' --> 'r'",
|
68 |
+
"insert text[124:124] --> decoded_text[593:594] '' --> ' '",
|
69 |
+
"replace text[125:153] --> decoded_text[595:759] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《Q' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] q'",
|
70 |
+
"replace text[159:160] --> decoded_text[765:766] 'E' --> 'e'",
|
71 |
+
"replace text[162:176] --> decoded_text[768:848] '》,然后轮到后者演绎旧作《P' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] p'",
|
72 |
+
"replace text[185:201] --> decoded_text[857:953] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
73 |
+
],
|
74 |
+
"n_oov_chars": 155,
|
75 |
+
"oov_ratio": 0.7711442786069652,
|
76 |
+
"oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]"
|
77 |
+
},
|
78 |
+
{
|
79 |
+
"text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
|
80 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]",
|
81 |
+
"diff": [
|
82 |
+
"replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
83 |
+
"replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
84 |
+
"replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
85 |
+
"replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
86 |
+
"replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
87 |
+
"replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
88 |
+
"replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'"
|
89 |
+
],
|
90 |
+
"n_oov_chars": 70,
|
91 |
+
"oov_ratio": 0.8860759493670886,
|
92 |
+
"oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]"
|
93 |
+
},
|
94 |
+
{
|
95 |
+
"text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
|
96 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )",
|
97 |
+
"diff": [
|
98 |
+
"replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
99 |
+
"replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
100 |
+
"replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '"
|
101 |
+
],
|
102 |
+
"n_oov_chars": 109,
|
103 |
+
"oov_ratio": 0.9478260869565217,
|
104 |
+
"oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]"
|
105 |
+
},
|
106 |
+
{
|
107 |
+
"text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
|
108 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
109 |
+
"diff": [
|
110 |
+
"replace text[0:70] --> decoded_text[0:420] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
111 |
+
"replace text[71:88] --> decoded_text[421:524] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
112 |
+
"replace text[89:96] --> decoded_text[525:568] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
113 |
+
"replace text[97:111] --> decoded_text[569:654] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
114 |
+
"replace text[112:137] --> decoded_text[655:805] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
115 |
+
],
|
116 |
+
"n_oov_chars": 133,
|
117 |
+
"oov_ratio": 0.9708029197080292,
|
118 |
+
"oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]"
|
119 |
+
},
|
120 |
+
{
|
121 |
+
"text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
|
122 |
+
"decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
123 |
+
"diff": [
|
124 |
+
"replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
125 |
+
"replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
126 |
+
"replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
127 |
+
"replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
128 |
+
],
|
129 |
+
"n_oov_chars": 80,
|
130 |
+
"oov_ratio": 0.9195402298850575,
|
131 |
+
"oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]"
|
132 |
+
},
|
133 |
+
{
|
134 |
+
"text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
|
135 |
+
"decoded_text": "“ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
|
136 |
+
"diff": [
|
137 |
+
"replace text[1:19] --> decoded_text[1:110] '金庸的小说《连城诀》里有一个反派人物' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
138 |
+
"replace text[20:24] --> decoded_text[111:136] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '",
|
139 |
+
"replace text[25:72] --> decoded_text[137:420] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
140 |
+
"replace text[73:115] --> decoded_text[421:674] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
|
141 |
+
"replace text[116:120] --> decoded_text[675:700] '拾金而昧' --> ' [UNK] [UNK] [UNK] [UNK] '",
|
142 |
+
"replace text[121:123] --> decoded_text[701:714] ',还' --> ' [UNK] [UNK] '",
|
143 |
+
"replace text[124:125] --> decoded_text[715:722] '昧' --> ' [UNK] '",
|
144 |
+
"replace text[126:132] --> decoded_text[723:759] '得理直气壮。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
|
145 |
+
],
|
146 |
+
"n_oov_chars": 124,
|
147 |
+
"oov_ratio": 0.9393939393939394,
|
148 |
+
"oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]"
|
149 |
+
}
|
150 |
]
|
stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json
CHANGED
@@ -1,104 +1,104 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
|
4 |
-
"decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)",
|
5 |
-
"diff": [
|
6 |
-
"replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'",
|
7 |
-
"replace text[164:165] --> decoded_text[164:165] 'û' --> '�'"
|
8 |
-
],
|
9 |
-
"n_oov_chars": 2,
|
10 |
-
"oov_ratio": 0.008695652173913044,
|
11 |
-
"oov_charset": "[\"ù\", \"û\"]"
|
12 |
-
},
|
13 |
-
{
|
14 |
-
"text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)",
|
15 |
-
"decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)",
|
16 |
-
"diff": [
|
17 |
-
"replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'"
|
18 |
-
],
|
19 |
-
"n_oov_chars": 1,
|
20 |
-
"oov_ratio": 0.005025125628140704,
|
21 |
-
"oov_charset": "[\"ù\"]"
|
22 |
-
},
|
23 |
-
{
|
24 |
-
"text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.",
|
25 |
-
"decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.",
|
26 |
-
"diff": [
|
27 |
-
"replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'"
|
28 |
-
],
|
29 |
-
"n_oov_chars": 1,
|
30 |
-
"oov_ratio": 0.005,
|
31 |
-
"oov_charset": "[\"ù\"]"
|
32 |
-
},
|
33 |
-
{
|
34 |
-
"text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h",
|
35 |
-
"decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h",
|
36 |
-
"diff": [
|
37 |
-
"replace text[49:50] --> decoded_text[49:50] 'û' --> '�'"
|
38 |
-
],
|
39 |
-
"n_oov_chars": 1,
|
40 |
-
"oov_ratio": 0.016666666666666666,
|
41 |
-
"oov_charset": "[\"û\"]"
|
42 |
-
},
|
43 |
-
{
|
44 |
-
"text": "-Une passion…le dessin, et les poneys bien sûr...",
|
45 |
-
"decoded_text": "-Une passion…le dessin, et les poneys bien s�r...",
|
46 |
-
"diff": [
|
47 |
-
"replace text[44:45] --> decoded_text[44:45] 'û' --> '�'"
|
48 |
-
],
|
49 |
-
"n_oov_chars": 1,
|
50 |
-
"oov_ratio": 0.02040816326530612,
|
51 |
-
"oov_charset": "[\"û\"]"
|
52 |
-
},
|
53 |
-
{
|
54 |
-
"text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô",
|
55 |
-
"decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô",
|
56 |
-
"diff": [
|
57 |
-
"replace text[25:26] --> decoded_text[25:26] 'û' --> '�'"
|
58 |
-
],
|
59 |
-
"n_oov_chars": 1,
|
60 |
-
"oov_ratio": 0.01818181818181818,
|
61 |
-
"oov_charset": "[\"û\"]"
|
62 |
-
},
|
63 |
-
{
|
64 |
-
"text": "-Une personne qui te dégoûte… une sal*pe",
|
65 |
-
"decoded_text": "-Une personne qui te dégo�te… une sal*pe",
|
66 |
-
"diff": [
|
67 |
-
"replace text[25:26] --> decoded_text[25:26] 'û' --> '�'"
|
68 |
-
],
|
69 |
-
"n_oov_chars": 1,
|
70 |
-
"oov_ratio": 0.025,
|
71 |
-
"oov_charset": "[\"û\"]"
|
72 |
-
},
|
73 |
-
{
|
74 |
-
"text": "-Un jouet des 80’s… un petit poney bien sûr..",
|
75 |
-
"decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..",
|
76 |
-
"diff": [
|
77 |
-
"replace text[41:42] --> decoded_text[41:42] 'û' --> '�'"
|
78 |
-
],
|
79 |
-
"n_oov_chars": 1,
|
80 |
-
"oov_ratio": 0.022222222222222223,
|
81 |
-
"oov_charset": "[\"û\"]"
|
82 |
-
},
|
83 |
-
{
|
84 |
-
"text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.",
|
85 |
-
"decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.",
|
86 |
-
"diff": [
|
87 |
-
"replace text[26:27] --> decoded_text[26:27] 'û' --> '�'",
|
88 |
-
"replace text[82:83] --> decoded_text[82:83] 'û' --> '�'"
|
89 |
-
],
|
90 |
-
"n_oov_chars": 2,
|
91 |
-
"oov_ratio": 0.02,
|
92 |
-
"oov_charset": "[\"û\"]"
|
93 |
-
},
|
94 |
-
{
|
95 |
-
"text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//",
|
96 |
-
"decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//",
|
97 |
-
"diff": [
|
98 |
-
"replace text[63:64] --> decoded_text[63:64] 'û' --> '�'"
|
99 |
-
],
|
100 |
-
"n_oov_chars": 1,
|
101 |
-
"oov_ratio": 0.007246376811594203,
|
102 |
-
"oov_charset": "[\"û\"]"
|
103 |
-
}
|
104 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
|
4 |
+
"decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)",
|
5 |
+
"diff": [
|
6 |
+
"replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'",
|
7 |
+
"replace text[164:165] --> decoded_text[164:165] 'û' --> '�'"
|
8 |
+
],
|
9 |
+
"n_oov_chars": 2,
|
10 |
+
"oov_ratio": 0.008695652173913044,
|
11 |
+
"oov_charset": "[\"ù\", \"û\"]"
|
12 |
+
},
|
13 |
+
{
|
14 |
+
"text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)",
|
15 |
+
"decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)",
|
16 |
+
"diff": [
|
17 |
+
"replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'"
|
18 |
+
],
|
19 |
+
"n_oov_chars": 1,
|
20 |
+
"oov_ratio": 0.005025125628140704,
|
21 |
+
"oov_charset": "[\"ù\"]"
|
22 |
+
},
|
23 |
+
{
|
24 |
+
"text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.",
|
25 |
+
"decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.",
|
26 |
+
"diff": [
|
27 |
+
"replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'"
|
28 |
+
],
|
29 |
+
"n_oov_chars": 1,
|
30 |
+
"oov_ratio": 0.005,
|
31 |
+
"oov_charset": "[\"ù\"]"
|
32 |
+
},
|
33 |
+
{
|
34 |
+
"text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h",
|
35 |
+
"decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h",
|
36 |
+
"diff": [
|
37 |
+
"replace text[49:50] --> decoded_text[49:50] 'û' --> '�'"
|
38 |
+
],
|
39 |
+
"n_oov_chars": 1,
|
40 |
+
"oov_ratio": 0.016666666666666666,
|
41 |
+
"oov_charset": "[\"û\"]"
|
42 |
+
},
|
43 |
+
{
|
44 |
+
"text": "-Une passion…le dessin, et les poneys bien sûr...",
|
45 |
+
"decoded_text": "-Une passion…le dessin, et les poneys bien s�r...",
|
46 |
+
"diff": [
|
47 |
+
"replace text[44:45] --> decoded_text[44:45] 'û' --> '�'"
|
48 |
+
],
|
49 |
+
"n_oov_chars": 1,
|
50 |
+
"oov_ratio": 0.02040816326530612,
|
51 |
+
"oov_charset": "[\"û\"]"
|
52 |
+
},
|
53 |
+
{
|
54 |
+
"text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô",
|
55 |
+
"decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô",
|
56 |
+
"diff": [
|
57 |
+
"replace text[25:26] --> decoded_text[25:26] 'û' --> '�'"
|
58 |
+
],
|
59 |
+
"n_oov_chars": 1,
|
60 |
+
"oov_ratio": 0.01818181818181818,
|
61 |
+
"oov_charset": "[\"û\"]"
|
62 |
+
},
|
63 |
+
{
|
64 |
+
"text": "-Une personne qui te dégoûte… une sal*pe",
|
65 |
+
"decoded_text": "-Une personne qui te dégo�te… une sal*pe",
|
66 |
+
"diff": [
|
67 |
+
"replace text[25:26] --> decoded_text[25:26] 'û' --> '�'"
|
68 |
+
],
|
69 |
+
"n_oov_chars": 1,
|
70 |
+
"oov_ratio": 0.025,
|
71 |
+
"oov_charset": "[\"û\"]"
|
72 |
+
},
|
73 |
+
{
|
74 |
+
"text": "-Un jouet des 80’s… un petit poney bien sûr..",
|
75 |
+
"decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..",
|
76 |
+
"diff": [
|
77 |
+
"replace text[41:42] --> decoded_text[41:42] 'û' --> '�'"
|
78 |
+
],
|
79 |
+
"n_oov_chars": 1,
|
80 |
+
"oov_ratio": 0.022222222222222223,
|
81 |
+
"oov_charset": "[\"û\"]"
|
82 |
+
},
|
83 |
+
{
|
84 |
+
"text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.",
|
85 |
+
"decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.",
|
86 |
+
"diff": [
|
87 |
+
"replace text[26:27] --> decoded_text[26:27] 'û' --> '�'",
|
88 |
+
"replace text[82:83] --> decoded_text[82:83] 'û' --> '�'"
|
89 |
+
],
|
90 |
+
"n_oov_chars": 2,
|
91 |
+
"oov_ratio": 0.02,
|
92 |
+
"oov_charset": "[\"û\"]"
|
93 |
+
},
|
94 |
+
{
|
95 |
+
"text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//",
|
96 |
+
"decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//",
|
97 |
+
"diff": [
|
98 |
+
"replace text[63:64] --> decoded_text[63:64] 'û' --> '�'"
|
99 |
+
],
|
100 |
+
"n_oov_chars": 1,
|
101 |
+
"oov_ratio": 0.007246376811594203,
|
102 |
+
"oov_charset": "[\"û\"]"
|
103 |
+
}
|
104 |
]
|
stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json
CHANGED
@@ -1,12 +1,12 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……",
|
4 |
-
"decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……",
|
5 |
-
"diff": [
|
6 |
-
"replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 1,
|
9 |
-
"oov_ratio": 0.018518518518518517,
|
10 |
-
"oov_charset": "[\"ù\"]"
|
11 |
-
}
|
12 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……",
|
4 |
+
"decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……",
|
5 |
+
"diff": [
|
6 |
+
"replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 1,
|
9 |
+
"oov_ratio": 0.018518518518518517,
|
10 |
+
"oov_charset": "[\"ù\"]"
|
11 |
+
}
|
12 |
]
|
stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json
CHANGED
@@ -1,159 +1,159 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
|
4 |
-
"decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.",
|
5 |
-
"diff": [
|
6 |
-
"insert text[37:37] --> decoded_text[37:38] '' --> ' '",
|
7 |
-
"insert text[70:70] --> decoded_text[71:72] '' --> ' '",
|
8 |
-
"insert text[140:140] --> decoded_text[142:143] '' --> ' '",
|
9 |
-
"insert text[200:200] --> decoded_text[203:204] '' --> ' '",
|
10 |
-
"insert text[201:201] --> decoded_text[205:206] '' --> ' '",
|
11 |
-
"insert text[229:229] --> decoded_text[234:235] '' --> ' '",
|
12 |
-
"insert text[230:230] --> decoded_text[236:237] '' --> ' '"
|
13 |
-
],
|
14 |
-
"n_oov_chars": 0,
|
15 |
-
"oov_ratio": 0.0,
|
16 |
-
"oov_charset": "[]"
|
17 |
-
},
|
18 |
-
{
|
19 |
-
"text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
|
20 |
-
"decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.",
|
21 |
-
"diff": [
|
22 |
-
"insert text[1:1] --> decoded_text[1:2] '' --> ' '",
|
23 |
-
"insert text[19:19] --> decoded_text[20:21] '' --> ' '",
|
24 |
-
"insert text[20:20] --> decoded_text[22:23] '' --> ' '",
|
25 |
-
"insert text[53:53] --> decoded_text[56:57] '' --> ' '",
|
26 |
-
"insert text[66:66] --> decoded_text[70:71] '' --> ' '",
|
27 |
-
"insert text[79:79] --> decoded_text[84:85] '' --> ' '",
|
28 |
-
"insert text[140:140] --> decoded_text[146:147] '' --> ' '",
|
29 |
-
"insert text[181:181] --> decoded_text[188:189] '' --> ' '",
|
30 |
-
"insert text[182:182] --> decoded_text[190:191] '' --> ' '"
|
31 |
-
],
|
32 |
-
"n_oov_chars": 0,
|
33 |
-
"oov_ratio": 0.0,
|
34 |
-
"oov_charset": "[]"
|
35 |
-
},
|
36 |
-
{
|
37 |
-
"text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
|
38 |
-
"decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.",
|
39 |
-
"diff": [
|
40 |
-
"insert text[9:9] --> decoded_text[9:10] '' --> ' '",
|
41 |
-
"insert text[10:10] --> decoded_text[11:12] '' --> ' '",
|
42 |
-
"insert text[173:173] --> decoded_text[175:176] '' --> ' '",
|
43 |
-
"insert text[174:174] --> decoded_text[177:178] '' --> ' '",
|
44 |
-
"insert text[339:339] --> decoded_text[343:344] '' --> ' '",
|
45 |
-
"replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '",
|
46 |
-
"replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '",
|
47 |
-
"insert text[381:381] --> decoded_text[390:391] '' --> ' '"
|
48 |
-
],
|
49 |
-
"n_oov_chars": 0,
|
50 |
-
"oov_ratio": 0.0,
|
51 |
-
"oov_charset": "[]"
|
52 |
-
},
|
53 |
-
{
|
54 |
-
"text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
|
55 |
-
"decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.",
|
56 |
-
"diff": [
|
57 |
-
"insert text[40:40] --> decoded_text[40:41] '' --> ' '",
|
58 |
-
"insert text[41:41] --> decoded_text[42:43] '' --> ' '",
|
59 |
-
"insert text[128:128] --> decoded_text[130:131] '' --> ' '",
|
60 |
-
"insert text[166:166] --> decoded_text[169:170] '' --> ' '",
|
61 |
-
"insert text[167:167] --> decoded_text[171:172] '' --> ' '"
|
62 |
-
],
|
63 |
-
"n_oov_chars": 0,
|
64 |
-
"oov_ratio": 0.0,
|
65 |
-
"oov_charset": "[]"
|
66 |
-
},
|
67 |
-
{
|
68 |
-
"text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
|
69 |
-
"decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls, ” says Frosch.",
|
70 |
-
"diff": [
|
71 |
-
"insert text[1:1] --> decoded_text[1:2] '' --> ' '",
|
72 |
-
"insert text[41:41] --> decoded_text[42:43] '' --> ' '",
|
73 |
-
"insert text[42:42] --> decoded_text[44:45] '' --> ' '",
|
74 |
-
"insert text[67:67] --> decoded_text[70:71] '' --> ' '",
|
75 |
-
"insert text[68:68] --> decoded_text[72:73] '' --> ' '",
|
76 |
-
"insert text[76:76] --> decoded_text[81:82] '' --> ' '",
|
77 |
-
"insert text[77:77] --> decoded_text[83:84] '' --> ' '",
|
78 |
-
"insert text[109:109] --> decoded_text[116:117] '' --> ' '"
|
79 |
-
],
|
80 |
-
"n_oov_chars": 0,
|
81 |
-
"oov_ratio": 0.0,
|
82 |
-
"oov_charset": "[]"
|
83 |
-
},
|
84 |
-
{
|
85 |
-
"text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
|
86 |
-
"decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.",
|
87 |
-
"diff": [
|
88 |
-
"insert text[18:18] --> decoded_text[18:19] '' --> ' '",
|
89 |
-
"insert text[19:19] --> decoded_text[20:21] '' --> ' '",
|
90 |
-
"insert text[57:57] --> decoded_text[59:60] '' --> ' '",
|
91 |
-
"replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '",
|
92 |
-
"replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '",
|
93 |
-
"insert text[139:139] --> decoded_text[146:147] '' --> ' '",
|
94 |
-
"insert text[140:140] --> decoded_text[148:149] '' --> ' '",
|
95 |
-
"insert text[144:144] --> decoded_text[153:154] '' --> ' '",
|
96 |
-
"insert text[145:145] --> decoded_text[155:156] '' --> ' '"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 0,
|
99 |
-
"oov_ratio": 0.0,
|
100 |
-
"oov_charset": "[]"
|
101 |
-
},
|
102 |
-
{
|
103 |
-
"text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
|
104 |
-
"decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :",
|
105 |
-
"diff": [
|
106 |
-
"insert text[79:79] --> decoded_text[79:80] '' --> ' '",
|
107 |
-
"insert text[101:101] --> decoded_text[102:103] '' --> ' '",
|
108 |
-
"insert text[205:205] --> decoded_text[207:208] '' --> ' '"
|
109 |
-
],
|
110 |
-
"n_oov_chars": 0,
|
111 |
-
"oov_ratio": 0.0,
|
112 |
-
"oov_charset": "[]"
|
113 |
-
},
|
114 |
-
{
|
115 |
-
"text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
|
116 |
-
"decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111",
|
117 |
-
"diff": [
|
118 |
-
"insert text[8:8] --> decoded_text[8:9] '' --> ' '",
|
119 |
-
"insert text[50:50] --> decoded_text[51:52] '' --> ' '",
|
120 |
-
"insert text[64:64] --> decoded_text[66:67] '' --> ' '",
|
121 |
-
"insert text[95:95] --> decoded_text[98:99] '' --> ' '",
|
122 |
-
"insert text[102:102] --> decoded_text[106:107] '' --> ' '",
|
123 |
-
"insert text[112:112] --> decoded_text[117:118] '' --> ' '",
|
124 |
-
"insert text[113:113] --> decoded_text[119:120] '' --> ' '",
|
125 |
-
"insert text[116:116] --> decoded_text[123:124] '' --> ' '",
|
126 |
-
"insert text[117:117] --> decoded_text[125:126] '' --> ' '"
|
127 |
-
],
|
128 |
-
"n_oov_chars": 0,
|
129 |
-
"oov_ratio": 0.0,
|
130 |
-
"oov_charset": "[]"
|
131 |
-
},
|
132 |
-
{
|
133 |
-
"text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)",
|
134 |
-
"decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )",
|
135 |
-
"diff": [
|
136 |
-
"insert text[22:22] --> decoded_text[22:23] '' --> ' '",
|
137 |
-
"insert text[116:116] --> decoded_text[117:118] '' --> ' '",
|
138 |
-
"insert text[121:121] --> decoded_text[123:124] '' --> ' '"
|
139 |
-
],
|
140 |
-
"n_oov_chars": 0,
|
141 |
-
"oov_ratio": 0.0,
|
142 |
-
"oov_charset": "[]"
|
143 |
-
},
|
144 |
-
{
|
145 |
-
"text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)",
|
146 |
-
"decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )",
|
147 |
-
"diff": [
|
148 |
-
"insert text[37:37] --> decoded_text[37:38] '' --> ' '",
|
149 |
-
"insert text[38:38] --> decoded_text[39:40] '' --> ' '",
|
150 |
-
"insert text[39:39] --> decoded_text[41:42] '' --> ' '",
|
151 |
-
"insert text[42:42] --> decoded_text[45:46] '' --> ' '",
|
152 |
-
"insert text[72:72] --> decoded_text[76:77] '' --> ' '",
|
153 |
-
"insert text[107:107] --> decoded_text[112:113] '' --> ' '"
|
154 |
-
],
|
155 |
-
"n_oov_chars": 0,
|
156 |
-
"oov_ratio": 0.0,
|
157 |
-
"oov_charset": "[]"
|
158 |
-
}
|
159 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
|
4 |
+
"decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.",
|
5 |
+
"diff": [
|
6 |
+
"insert text[37:37] --> decoded_text[37:38] '' --> ' '",
|
7 |
+
"insert text[70:70] --> decoded_text[71:72] '' --> ' '",
|
8 |
+
"insert text[140:140] --> decoded_text[142:143] '' --> ' '",
|
9 |
+
"insert text[200:200] --> decoded_text[203:204] '' --> ' '",
|
10 |
+
"insert text[201:201] --> decoded_text[205:206] '' --> ' '",
|
11 |
+
"insert text[229:229] --> decoded_text[234:235] '' --> ' '",
|
12 |
+
"insert text[230:230] --> decoded_text[236:237] '' --> ' '"
|
13 |
+
],
|
14 |
+
"n_oov_chars": 0,
|
15 |
+
"oov_ratio": 0.0,
|
16 |
+
"oov_charset": "[]"
|
17 |
+
},
|
18 |
+
{
|
19 |
+
"text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
|
20 |
+
"decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.",
|
21 |
+
"diff": [
|
22 |
+
"insert text[1:1] --> decoded_text[1:2] '' --> ' '",
|
23 |
+
"insert text[19:19] --> decoded_text[20:21] '' --> ' '",
|
24 |
+
"insert text[20:20] --> decoded_text[22:23] '' --> ' '",
|
25 |
+
"insert text[53:53] --> decoded_text[56:57] '' --> ' '",
|
26 |
+
"insert text[66:66] --> decoded_text[70:71] '' --> ' '",
|
27 |
+
"insert text[79:79] --> decoded_text[84:85] '' --> ' '",
|
28 |
+
"insert text[140:140] --> decoded_text[146:147] '' --> ' '",
|
29 |
+
"insert text[181:181] --> decoded_text[188:189] '' --> ' '",
|
30 |
+
"insert text[182:182] --> decoded_text[190:191] '' --> ' '"
|
31 |
+
],
|
32 |
+
"n_oov_chars": 0,
|
33 |
+
"oov_ratio": 0.0,
|
34 |
+
"oov_charset": "[]"
|
35 |
+
},
|
36 |
+
{
|
37 |
+
"text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
|
38 |
+
"decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.",
|
39 |
+
"diff": [
|
40 |
+
"insert text[9:9] --> decoded_text[9:10] '' --> ' '",
|
41 |
+
"insert text[10:10] --> decoded_text[11:12] '' --> ' '",
|
42 |
+
"insert text[173:173] --> decoded_text[175:176] '' --> ' '",
|
43 |
+
"insert text[174:174] --> decoded_text[177:178] '' --> ' '",
|
44 |
+
"insert text[339:339] --> decoded_text[343:344] '' --> ' '",
|
45 |
+
"replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '",
|
46 |
+
"replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '",
|
47 |
+
"insert text[381:381] --> decoded_text[390:391] '' --> ' '"
|
48 |
+
],
|
49 |
+
"n_oov_chars": 0,
|
50 |
+
"oov_ratio": 0.0,
|
51 |
+
"oov_charset": "[]"
|
52 |
+
},
|
53 |
+
{
|
54 |
+
"text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
|
55 |
+
"decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.",
|
56 |
+
"diff": [
|
57 |
+
"insert text[40:40] --> decoded_text[40:41] '' --> ' '",
|
58 |
+
"insert text[41:41] --> decoded_text[42:43] '' --> ' '",
|
59 |
+
"insert text[128:128] --> decoded_text[130:131] '' --> ' '",
|
60 |
+
"insert text[166:166] --> decoded_text[169:170] '' --> ' '",
|
61 |
+
"insert text[167:167] --> decoded_text[171:172] '' --> ' '"
|
62 |
+
],
|
63 |
+
"n_oov_chars": 0,
|
64 |
+
"oov_ratio": 0.0,
|
65 |
+
"oov_charset": "[]"
|
66 |
+
},
|
67 |
+
{
|
68 |
+
"text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
|
69 |
+
"decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls, ” says Frosch.",
|
70 |
+
"diff": [
|
71 |
+
"insert text[1:1] --> decoded_text[1:2] '' --> ' '",
|
72 |
+
"insert text[41:41] --> decoded_text[42:43] '' --> ' '",
|
73 |
+
"insert text[42:42] --> decoded_text[44:45] '' --> ' '",
|
74 |
+
"insert text[67:67] --> decoded_text[70:71] '' --> ' '",
|
75 |
+
"insert text[68:68] --> decoded_text[72:73] '' --> ' '",
|
76 |
+
"insert text[76:76] --> decoded_text[81:82] '' --> ' '",
|
77 |
+
"insert text[77:77] --> decoded_text[83:84] '' --> ' '",
|
78 |
+
"insert text[109:109] --> decoded_text[116:117] '' --> ' '"
|
79 |
+
],
|
80 |
+
"n_oov_chars": 0,
|
81 |
+
"oov_ratio": 0.0,
|
82 |
+
"oov_charset": "[]"
|
83 |
+
},
|
84 |
+
{
|
85 |
+
"text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
|
86 |
+
"decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.",
|
87 |
+
"diff": [
|
88 |
+
"insert text[18:18] --> decoded_text[18:19] '' --> ' '",
|
89 |
+
"insert text[19:19] --> decoded_text[20:21] '' --> ' '",
|
90 |
+
"insert text[57:57] --> decoded_text[59:60] '' --> ' '",
|
91 |
+
"replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '",
|
92 |
+
"replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '",
|
93 |
+
"insert text[139:139] --> decoded_text[146:147] '' --> ' '",
|
94 |
+
"insert text[140:140] --> decoded_text[148:149] '' --> ' '",
|
95 |
+
"insert text[144:144] --> decoded_text[153:154] '' --> ' '",
|
96 |
+
"insert text[145:145] --> decoded_text[155:156] '' --> ' '"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 0,
|
99 |
+
"oov_ratio": 0.0,
|
100 |
+
"oov_charset": "[]"
|
101 |
+
},
|
102 |
+
{
|
103 |
+
"text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
|
104 |
+
"decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :",
|
105 |
+
"diff": [
|
106 |
+
"insert text[79:79] --> decoded_text[79:80] '' --> ' '",
|
107 |
+
"insert text[101:101] --> decoded_text[102:103] '' --> ' '",
|
108 |
+
"insert text[205:205] --> decoded_text[207:208] '' --> ' '"
|
109 |
+
],
|
110 |
+
"n_oov_chars": 0,
|
111 |
+
"oov_ratio": 0.0,
|
112 |
+
"oov_charset": "[]"
|
113 |
+
},
|
114 |
+
{
|
115 |
+
"text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
|
116 |
+
"decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111",
|
117 |
+
"diff": [
|
118 |
+
"insert text[8:8] --> decoded_text[8:9] '' --> ' '",
|
119 |
+
"insert text[50:50] --> decoded_text[51:52] '' --> ' '",
|
120 |
+
"insert text[64:64] --> decoded_text[66:67] '' --> ' '",
|
121 |
+
"insert text[95:95] --> decoded_text[98:99] '' --> ' '",
|
122 |
+
"insert text[102:102] --> decoded_text[106:107] '' --> ' '",
|
123 |
+
"insert text[112:112] --> decoded_text[117:118] '' --> ' '",
|
124 |
+
"insert text[113:113] --> decoded_text[119:120] '' --> ' '",
|
125 |
+
"insert text[116:116] --> decoded_text[123:124] '' --> ' '",
|
126 |
+
"insert text[117:117] --> decoded_text[125:126] '' --> ' '"
|
127 |
+
],
|
128 |
+
"n_oov_chars": 0,
|
129 |
+
"oov_ratio": 0.0,
|
130 |
+
"oov_charset": "[]"
|
131 |
+
},
|
132 |
+
{
|
133 |
+
"text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)",
|
134 |
+
"decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )",
|
135 |
+
"diff": [
|
136 |
+
"insert text[22:22] --> decoded_text[22:23] '' --> ' '",
|
137 |
+
"insert text[116:116] --> decoded_text[117:118] '' --> ' '",
|
138 |
+
"insert text[121:121] --> decoded_text[123:124] '' --> ' '"
|
139 |
+
],
|
140 |
+
"n_oov_chars": 0,
|
141 |
+
"oov_ratio": 0.0,
|
142 |
+
"oov_charset": "[]"
|
143 |
+
},
|
144 |
+
{
|
145 |
+
"text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)",
|
146 |
+
"decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )",
|
147 |
+
"diff": [
|
148 |
+
"insert text[37:37] --> decoded_text[37:38] '' --> ' '",
|
149 |
+
"insert text[38:38] --> decoded_text[39:40] '' --> ' '",
|
150 |
+
"insert text[39:39] --> decoded_text[41:42] '' --> ' '",
|
151 |
+
"insert text[42:42] --> decoded_text[45:46] '' --> ' '",
|
152 |
+
"insert text[72:72] --> decoded_text[76:77] '' --> ' '",
|
153 |
+
"insert text[107:107] --> decoded_text[112:113] '' --> ' '"
|
154 |
+
],
|
155 |
+
"n_oov_chars": 0,
|
156 |
+
"oov_ratio": 0.0,
|
157 |
+
"oov_charset": "[]"
|
158 |
+
}
|
159 |
]
|
stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json
CHANGED
The diff for this file is too large to render.
See raw diff
|
|
stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json
CHANGED
@@ -1,105 +1,105 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
|
4 |
-
"decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico il<unk>cito de drogas.\", explicó Medina.",
|
5 |
-
"diff": [
|
6 |
-
"replace text[190:191] --> decoded_text[190:195] 'í' --> '<unk>'"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 1,
|
9 |
-
"oov_ratio": 0.004464285714285714,
|
10 |
-
"oov_charset": "[\"í\"]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
14 |
-
"decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 veh<unk>culos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
15 |
-
"diff": [
|
16 |
-
"replace text[133:134] --> decoded_text[133:138] 'í' --> '<unk>'"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 1,
|
19 |
-
"oov_ratio": 0.005376344086021506,
|
20 |
-
"oov_charset": "[\"í\"]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "1. El período de vacaciones anuales retribuidas, no sustituible",
|
24 |
-
"decoded_text": "1. El per<unk>odo de vacaciones anuales retribuidas, no sustituible",
|
25 |
-
"diff": [
|
26 |
-
"replace text[9:10] --> decoded_text[9:14] 'í' --> '<unk>'"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 1,
|
29 |
-
"oov_ratio": 0.015873015873015872,
|
30 |
-
"oov_charset": "[\"í\"]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "2. El período o períodos de su disfrute se fijará de común",
|
34 |
-
"decoded_text": "2. El per<unk>odo o per<unk>odos de su disfrute se fijará de com<unk>n",
|
35 |
-
"diff": [
|
36 |
-
"replace text[9:10] --> decoded_text[9:14] 'í' --> '<unk>'",
|
37 |
-
"replace text[19:20] --> decoded_text[23:28] 'í' --> '<unk>'",
|
38 |
-
"replace text[56:57] --> decoded_text[64:66] 'ú' --> '<u'",
|
39 |
-
"insert text[58:58] --> decoded_text[67:70] '' --> 'k>n'"
|
40 |
-
],
|
41 |
-
"n_oov_chars": 3,
|
42 |
-
"oov_ratio": 0.05172413793103448,
|
43 |
-
"oov_charset": "[\"í\", \"ú\"]"
|
44 |
-
},
|
45 |
-
{
|
46 |
-
"text": "determinados artículos del Estatuto de los Trabajadores,",
|
47 |
-
"decoded_text": "determinados art<unk>culos del Estatuto de los Trabajadores,",
|
48 |
-
"diff": [
|
49 |
-
"replace text[16:17] --> decoded_text[16:21] 'í' --> '<unk>'"
|
50 |
-
],
|
51 |
-
"n_oov_chars": 1,
|
52 |
-
"oov_ratio": 0.017857142857142856,
|
53 |
-
"oov_charset": "[\"í\"]"
|
54 |
-
},
|
55 |
-
{
|
56 |
-
"text": "Cuando el período de vacaciones fijado en el calendario de",
|
57 |
-
"decoded_text": "Cuando el per<unk>odo de vacaciones fijado en el calendario de",
|
58 |
-
"diff": [
|
59 |
-
"replace text[13:14] --> decoded_text[13:18] 'í' --> '<unk>'"
|
60 |
-
],
|
61 |
-
"n_oov_chars": 1,
|
62 |
-
"oov_ratio": 0.017241379310344827,
|
63 |
-
"oov_charset": "[\"í\"]"
|
64 |
-
},
|
65 |
-
{
|
66 |
-
"text": "del embarazo, el parto o la lactancia natural o con el período de",
|
67 |
-
"decoded_text": "del embarazo, el parto o la lactancia natural o con el per<unk>odo de",
|
68 |
-
"diff": [
|
69 |
-
"replace text[58:59] --> decoded_text[58:63] 'í' --> '<unk>'"
|
70 |
-
],
|
71 |
-
"n_oov_chars": 1,
|
72 |
-
"oov_ratio": 0.015384615384615385,
|
73 |
-
"oov_charset": "[\"í\"]"
|
74 |
-
},
|
75 |
-
{
|
76 |
-
"text": "suspensión del contrato de trabajo previsto en el artículo 48.4",
|
77 |
-
"decoded_text": "suspensión del contrato de trabajo previsto en el art<unk>culo 48.4",
|
78 |
-
"diff": [
|
79 |
-
"replace text[53:54] --> decoded_text[53:58] 'í' --> '<unk>'"
|
80 |
-
],
|
81 |
-
"n_oov_chars": 1,
|
82 |
-
"oov_ratio": 0.015873015873015872,
|
83 |
-
"oov_charset": "[\"í\"]"
|
84 |
-
},
|
85 |
-
{
|
86 |
-
"text": "al finalizar el período de suspensión, aunque haya terminado",
|
87 |
-
"decoded_text": "al finalizar el per<unk>odo de suspensión, aunque haya terminado",
|
88 |
-
"diff": [
|
89 |
-
"replace text[19:20] --> decoded_text[19:24] 'í' --> '<unk>'"
|
90 |
-
],
|
91 |
-
"n_oov_chars": 1,
|
92 |
-
"oov_ratio": 0.016666666666666666,
|
93 |
-
"oov_charset": "[\"í\"]"
|
94 |
-
},
|
95 |
-
{
|
96 |
-
"text": "el año natural a que correspondan.",
|
97 |
-
"decoded_text": "el a<unk>o natural a que correspondan.",
|
98 |
-
"diff": [
|
99 |
-
"replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
|
100 |
-
],
|
101 |
-
"n_oov_chars": 1,
|
102 |
-
"oov_ratio": 0.029411764705882353,
|
103 |
-
"oov_charset": "[\"ñ\"]"
|
104 |
-
}
|
105 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
|
4 |
+
"decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico il<unk>cito de drogas.\", explicó Medina.",
|
5 |
+
"diff": [
|
6 |
+
"replace text[190:191] --> decoded_text[190:195] 'í' --> '<unk>'"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 1,
|
9 |
+
"oov_ratio": 0.004464285714285714,
|
10 |
+
"oov_charset": "[\"í\"]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
14 |
+
"decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 veh<unk>culos. Asimismo, e los 47 detenidos, 10 son mujeres.",
|
15 |
+
"diff": [
|
16 |
+
"replace text[133:134] --> decoded_text[133:138] 'í' --> '<unk>'"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 1,
|
19 |
+
"oov_ratio": 0.005376344086021506,
|
20 |
+
"oov_charset": "[\"í\"]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "1. El período de vacaciones anuales retribuidas, no sustituible",
|
24 |
+
"decoded_text": "1. El per<unk>odo de vacaciones anuales retribuidas, no sustituible",
|
25 |
+
"diff": [
|
26 |
+
"replace text[9:10] --> decoded_text[9:14] 'í' --> '<unk>'"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 1,
|
29 |
+
"oov_ratio": 0.015873015873015872,
|
30 |
+
"oov_charset": "[\"í\"]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "2. El período o períodos de su disfrute se fijará de común",
|
34 |
+
"decoded_text": "2. El per<unk>odo o per<unk>odos de su disfrute se fijará de com<unk>n",
|
35 |
+
"diff": [
|
36 |
+
"replace text[9:10] --> decoded_text[9:14] 'í' --> '<unk>'",
|
37 |
+
"replace text[19:20] --> decoded_text[23:28] 'í' --> '<unk>'",
|
38 |
+
"replace text[56:57] --> decoded_text[64:66] 'ú' --> '<u'",
|
39 |
+
"insert text[58:58] --> decoded_text[67:70] '' --> 'k>n'"
|
40 |
+
],
|
41 |
+
"n_oov_chars": 3,
|
42 |
+
"oov_ratio": 0.05172413793103448,
|
43 |
+
"oov_charset": "[\"í\", \"ú\"]"
|
44 |
+
},
|
45 |
+
{
|
46 |
+
"text": "determinados artículos del Estatuto de los Trabajadores,",
|
47 |
+
"decoded_text": "determinados art<unk>culos del Estatuto de los Trabajadores,",
|
48 |
+
"diff": [
|
49 |
+
"replace text[16:17] --> decoded_text[16:21] 'í' --> '<unk>'"
|
50 |
+
],
|
51 |
+
"n_oov_chars": 1,
|
52 |
+
"oov_ratio": 0.017857142857142856,
|
53 |
+
"oov_charset": "[\"í\"]"
|
54 |
+
},
|
55 |
+
{
|
56 |
+
"text": "Cuando el período de vacaciones fijado en el calendario de",
|
57 |
+
"decoded_text": "Cuando el per<unk>odo de vacaciones fijado en el calendario de",
|
58 |
+
"diff": [
|
59 |
+
"replace text[13:14] --> decoded_text[13:18] 'í' --> '<unk>'"
|
60 |
+
],
|
61 |
+
"n_oov_chars": 1,
|
62 |
+
"oov_ratio": 0.017241379310344827,
|
63 |
+
"oov_charset": "[\"í\"]"
|
64 |
+
},
|
65 |
+
{
|
66 |
+
"text": "del embarazo, el parto o la lactancia natural o con el período de",
|
67 |
+
"decoded_text": "del embarazo, el parto o la lactancia natural o con el per<unk>odo de",
|
68 |
+
"diff": [
|
69 |
+
"replace text[58:59] --> decoded_text[58:63] 'í' --> '<unk>'"
|
70 |
+
],
|
71 |
+
"n_oov_chars": 1,
|
72 |
+
"oov_ratio": 0.015384615384615385,
|
73 |
+
"oov_charset": "[\"í\"]"
|
74 |
+
},
|
75 |
+
{
|
76 |
+
"text": "suspensión del contrato de trabajo previsto en el artículo 48.4",
|
77 |
+
"decoded_text": "suspensión del contrato de trabajo previsto en el art<unk>culo 48.4",
|
78 |
+
"diff": [
|
79 |
+
"replace text[53:54] --> decoded_text[53:58] 'í' --> '<unk>'"
|
80 |
+
],
|
81 |
+
"n_oov_chars": 1,
|
82 |
+
"oov_ratio": 0.015873015873015872,
|
83 |
+
"oov_charset": "[\"í\"]"
|
84 |
+
},
|
85 |
+
{
|
86 |
+
"text": "al finalizar el período de suspensión, aunque haya terminado",
|
87 |
+
"decoded_text": "al finalizar el per<unk>odo de suspensión, aunque haya terminado",
|
88 |
+
"diff": [
|
89 |
+
"replace text[19:20] --> decoded_text[19:24] 'í' --> '<unk>'"
|
90 |
+
],
|
91 |
+
"n_oov_chars": 1,
|
92 |
+
"oov_ratio": 0.016666666666666666,
|
93 |
+
"oov_charset": "[\"í\"]"
|
94 |
+
},
|
95 |
+
{
|
96 |
+
"text": "el año natural a que correspondan.",
|
97 |
+
"decoded_text": "el a<unk>o natural a que correspondan.",
|
98 |
+
"diff": [
|
99 |
+
"replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
|
100 |
+
],
|
101 |
+
"n_oov_chars": 1,
|
102 |
+
"oov_ratio": 0.029411764705882353,
|
103 |
+
"oov_charset": "[\"ñ\"]"
|
104 |
+
}
|
105 |
]
|
stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json
CHANGED
@@ -1,102 +1,102 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
-
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
-
"diff": [
|
6 |
-
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
-
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
-
"diff": [
|
16 |
-
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
-
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
-
"diff": [
|
26 |
-
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
-
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
-
"diff": [
|
36 |
-
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
-
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
-
"diff": [
|
46 |
-
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Quand les élus se réunissent-ils ?",
|
54 |
-
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
-
"diff": [
|
56 |
-
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
-
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
-
"diff": [
|
66 |
-
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
|
74 |
-
"decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
|
75 |
-
"diff": [
|
76 |
-
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 0,
|
79 |
-
"oov_ratio": 0.0,
|
80 |
-
"oov_charset": "[]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
|
84 |
-
"decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
|
85 |
-
"diff": [
|
86 |
-
"delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 0,
|
89 |
-
"oov_ratio": 0.0,
|
90 |
-
"oov_charset": "[]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
|
94 |
-
"decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
|
95 |
-
"diff": [
|
96 |
-
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 0,
|
99 |
-
"oov_ratio": 0.0,
|
100 |
-
"oov_charset": "[]"
|
101 |
-
}
|
102 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
+
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
+
"diff": [
|
6 |
+
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
+
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
+
"diff": [
|
16 |
+
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
+
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
+
"diff": [
|
26 |
+
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
+
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
+
"diff": [
|
36 |
+
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
+
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
+
"diff": [
|
46 |
+
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Quand les élus se réunissent-ils ?",
|
54 |
+
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
+
"diff": [
|
56 |
+
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
+
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
+
"diff": [
|
66 |
+
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
|
74 |
+
"decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
|
75 |
+
"diff": [
|
76 |
+
"delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 0,
|
79 |
+
"oov_ratio": 0.0,
|
80 |
+
"oov_charset": "[]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
|
84 |
+
"decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
|
85 |
+
"diff": [
|
86 |
+
"delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 0,
|
89 |
+
"oov_ratio": 0.0,
|
90 |
+
"oov_charset": "[]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
|
94 |
+
"decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
|
95 |
+
"diff": [
|
96 |
+
"delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 0,
|
99 |
+
"oov_ratio": 0.0,
|
100 |
+
"oov_charset": "[]"
|
101 |
+
}
|
102 |
]
|
stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json
CHANGED
@@ -1,103 +1,103 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
|
4 |
-
"decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
|
5 |
-
"diff": [
|
6 |
-
"delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
|
14 |
-
"decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
|
15 |
-
"diff": [
|
16 |
-
"delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
|
24 |
-
"decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
|
25 |
-
"diff": [
|
26 |
-
"delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
|
34 |
-
"decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
|
35 |
-
"diff": [
|
36 |
-
"delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
|
44 |
-
"decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
|
45 |
-
"diff": [
|
46 |
-
"replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
|
54 |
-
"decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
|
55 |
-
"diff": [
|
56 |
-
"replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
|
64 |
-
"decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
|
65 |
-
"diff": [
|
66 |
-
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
|
74 |
-
"decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
|
75 |
-
"diff": [
|
76 |
-
"delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
|
77 |
-
"delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
|
78 |
-
],
|
79 |
-
"n_oov_chars": 0,
|
80 |
-
"oov_ratio": 0.0,
|
81 |
-
"oov_charset": "[]"
|
82 |
-
},
|
83 |
-
{
|
84 |
-
"text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.",
|
85 |
-
"decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.",
|
86 |
-
"diff": [
|
87 |
-
"delete text[328:329] --> decoded_text[328:328] ' ' --> ''"
|
88 |
-
],
|
89 |
-
"n_oov_chars": 0,
|
90 |
-
"oov_ratio": 0.0,
|
91 |
-
"oov_charset": "[]"
|
92 |
-
},
|
93 |
-
{
|
94 |
-
"text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..",
|
95 |
-
"decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..",
|
96 |
-
"diff": [
|
97 |
-
"delete text[99:100] --> decoded_text[99:99] ' ' --> ''"
|
98 |
-
],
|
99 |
-
"n_oov_chars": 0,
|
100 |
-
"oov_ratio": 0.0,
|
101 |
-
"oov_charset": "[]"
|
102 |
-
}
|
103 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
|
4 |
+
"decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
|
5 |
+
"diff": [
|
6 |
+
"delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
|
14 |
+
"decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
|
15 |
+
"diff": [
|
16 |
+
"delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
|
24 |
+
"decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
|
25 |
+
"diff": [
|
26 |
+
"delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
|
34 |
+
"decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
|
35 |
+
"diff": [
|
36 |
+
"delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
|
44 |
+
"decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
|
45 |
+
"diff": [
|
46 |
+
"replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
|
54 |
+
"decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
|
55 |
+
"diff": [
|
56 |
+
"replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
|
64 |
+
"decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
|
65 |
+
"diff": [
|
66 |
+
"delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
|
74 |
+
"decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
|
75 |
+
"diff": [
|
76 |
+
"delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
|
77 |
+
"delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
|
78 |
+
],
|
79 |
+
"n_oov_chars": 0,
|
80 |
+
"oov_ratio": 0.0,
|
81 |
+
"oov_charset": "[]"
|
82 |
+
},
|
83 |
+
{
|
84 |
+
"text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.",
|
85 |
+
"decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.",
|
86 |
+
"diff": [
|
87 |
+
"delete text[328:329] --> decoded_text[328:328] ' ' --> ''"
|
88 |
+
],
|
89 |
+
"n_oov_chars": 0,
|
90 |
+
"oov_ratio": 0.0,
|
91 |
+
"oov_charset": "[]"
|
92 |
+
},
|
93 |
+
{
|
94 |
+
"text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..",
|
95 |
+
"decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..",
|
96 |
+
"diff": [
|
97 |
+
"delete text[99:100] --> decoded_text[99:99] ' ' --> ''"
|
98 |
+
],
|
99 |
+
"n_oov_chars": 0,
|
100 |
+
"oov_ratio": 0.0,
|
101 |
+
"oov_charset": "[]"
|
102 |
+
}
|
103 |
]
|
stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json
CHANGED
@@ -1,102 +1,102 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
|
4 |
-
"decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
|
5 |
-
"diff": [
|
6 |
-
"delete text[56:57] --> decoded_text[56:56] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
|
14 |
-
"decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
|
15 |
-
"diff": [
|
16 |
-
"delete text[12:13] --> decoded_text[12:12] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
|
24 |
-
"decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
|
25 |
-
"diff": [
|
26 |
-
"delete text[94:95] --> decoded_text[94:94] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...",
|
34 |
-
"decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...",
|
35 |
-
"diff": [
|
36 |
-
"delete text[103:104] --> decoded_text[103:103] ' ' --> ''"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱",
|
44 |
-
"decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱",
|
45 |
-
"diff": [
|
46 |
-
"delete text[16:17] --> decoded_text[16:16] ' ' --> ''"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v",
|
54 |
-
"decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v",
|
55 |
-
"diff": [
|
56 |
-
"delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
|
64 |
-
"decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
|
65 |
-
"diff": [
|
66 |
-
"delete text[80:81] --> decoded_text[80:80] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M",
|
74 |
-
"decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M",
|
75 |
-
"diff": [
|
76 |
-
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 0,
|
79 |
-
"oov_ratio": 0.0,
|
80 |
-
"oov_charset": "[]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
|
84 |
-
"decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
|
85 |
-
"diff": [
|
86 |
-
"delete text[1:2] --> decoded_text[1:1] ' ' --> ''"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 0,
|
89 |
-
"oov_ratio": 0.0,
|
90 |
-
"oov_charset": "[]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
|
94 |
-
"decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
|
95 |
-
"diff": [
|
96 |
-
"delete text[24:25] --> decoded_text[24:24] ' ' --> ''"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 0,
|
99 |
-
"oov_ratio": 0.0,
|
100 |
-
"oov_charset": "[]"
|
101 |
-
}
|
102 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
|
4 |
+
"decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
|
5 |
+
"diff": [
|
6 |
+
"delete text[56:57] --> decoded_text[56:56] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
|
14 |
+
"decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
|
15 |
+
"diff": [
|
16 |
+
"delete text[12:13] --> decoded_text[12:12] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
|
24 |
+
"decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
|
25 |
+
"diff": [
|
26 |
+
"delete text[94:95] --> decoded_text[94:94] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...",
|
34 |
+
"decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...",
|
35 |
+
"diff": [
|
36 |
+
"delete text[103:104] --> decoded_text[103:103] ' ' --> ''"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱",
|
44 |
+
"decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱",
|
45 |
+
"diff": [
|
46 |
+
"delete text[16:17] --> decoded_text[16:16] ' ' --> ''"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v",
|
54 |
+
"decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v",
|
55 |
+
"diff": [
|
56 |
+
"delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
|
64 |
+
"decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
|
65 |
+
"diff": [
|
66 |
+
"delete text[80:81] --> decoded_text[80:80] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M",
|
74 |
+
"decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M",
|
75 |
+
"diff": [
|
76 |
+
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 0,
|
79 |
+
"oov_ratio": 0.0,
|
80 |
+
"oov_charset": "[]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
|
84 |
+
"decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
|
85 |
+
"diff": [
|
86 |
+
"delete text[1:2] --> decoded_text[1:1] ' ' --> ''"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 0,
|
89 |
+
"oov_ratio": 0.0,
|
90 |
+
"oov_charset": "[]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
|
94 |
+
"decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
|
95 |
+
"diff": [
|
96 |
+
"delete text[24:25] --> decoded_text[24:24] ' ' --> ''"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 0,
|
99 |
+
"oov_ratio": 0.0,
|
100 |
+
"oov_charset": "[]"
|
101 |
+
}
|
102 |
]
|
stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json
CHANGED
@@ -1,102 +1,102 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
-
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
-
"diff": [
|
6 |
-
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
-
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
-
"diff": [
|
16 |
-
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
-
],
|
18 |
-
"n_oov_chars": 0,
|
19 |
-
"oov_ratio": 0.0,
|
20 |
-
"oov_charset": "[]"
|
21 |
-
},
|
22 |
-
{
|
23 |
-
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
-
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
-
"diff": [
|
26 |
-
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
-
],
|
28 |
-
"n_oov_chars": 0,
|
29 |
-
"oov_ratio": 0.0,
|
30 |
-
"oov_charset": "[]"
|
31 |
-
},
|
32 |
-
{
|
33 |
-
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
-
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
-
"diff": [
|
36 |
-
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
-
],
|
38 |
-
"n_oov_chars": 0,
|
39 |
-
"oov_ratio": 0.0,
|
40 |
-
"oov_charset": "[]"
|
41 |
-
},
|
42 |
-
{
|
43 |
-
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
-
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
-
"diff": [
|
46 |
-
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
-
],
|
48 |
-
"n_oov_chars": 0,
|
49 |
-
"oov_ratio": 0.0,
|
50 |
-
"oov_charset": "[]"
|
51 |
-
},
|
52 |
-
{
|
53 |
-
"text": "Quand les élus se réunissent-ils ?",
|
54 |
-
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
-
"diff": [
|
56 |
-
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
-
],
|
58 |
-
"n_oov_chars": 0,
|
59 |
-
"oov_ratio": 0.0,
|
60 |
-
"oov_charset": "[]"
|
61 |
-
},
|
62 |
-
{
|
63 |
-
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
-
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
-
"diff": [
|
66 |
-
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
-
],
|
68 |
-
"n_oov_chars": 0,
|
69 |
-
"oov_ratio": 0.0,
|
70 |
-
"oov_charset": "[]"
|
71 |
-
},
|
72 |
-
{
|
73 |
-
"text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici",
|
74 |
-
"decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici",
|
75 |
-
"diff": [
|
76 |
-
"replace text[36:37] --> decoded_text[36:39] '…' --> '...'"
|
77 |
-
],
|
78 |
-
"n_oov_chars": 1,
|
79 |
-
"oov_ratio": 0.015873015873015872,
|
80 |
-
"oov_charset": "[\"…\"]"
|
81 |
-
},
|
82 |
-
{
|
83 |
-
"text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici",
|
84 |
-
"decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici",
|
85 |
-
"diff": [
|
86 |
-
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
|
87 |
-
],
|
88 |
-
"n_oov_chars": 1,
|
89 |
-
"oov_ratio": 0.016129032258064516,
|
90 |
-
"oov_charset": "[\"…\"]"
|
91 |
-
},
|
92 |
-
{
|
93 |
-
"text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici",
|
94 |
-
"decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici",
|
95 |
-
"diff": [
|
96 |
-
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
|
97 |
-
],
|
98 |
-
"n_oov_chars": 1,
|
99 |
-
"oov_ratio": 0.016129032258064516,
|
100 |
-
"oov_charset": "[\"…\"]"
|
101 |
-
}
|
102 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
|
4 |
+
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
|
5 |
+
"diff": [
|
6 |
+
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
|
14 |
+
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
|
15 |
+
"diff": [
|
16 |
+
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
|
17 |
+
],
|
18 |
+
"n_oov_chars": 0,
|
19 |
+
"oov_ratio": 0.0,
|
20 |
+
"oov_charset": "[]"
|
21 |
+
},
|
22 |
+
{
|
23 |
+
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
|
24 |
+
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
|
25 |
+
"diff": [
|
26 |
+
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
|
27 |
+
],
|
28 |
+
"n_oov_chars": 0,
|
29 |
+
"oov_ratio": 0.0,
|
30 |
+
"oov_charset": "[]"
|
31 |
+
},
|
32 |
+
{
|
33 |
+
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
|
34 |
+
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
|
35 |
+
"diff": [
|
36 |
+
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
|
37 |
+
],
|
38 |
+
"n_oov_chars": 0,
|
39 |
+
"oov_ratio": 0.0,
|
40 |
+
"oov_charset": "[]"
|
41 |
+
},
|
42 |
+
{
|
43 |
+
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
|
44 |
+
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
|
45 |
+
"diff": [
|
46 |
+
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
|
47 |
+
],
|
48 |
+
"n_oov_chars": 0,
|
49 |
+
"oov_ratio": 0.0,
|
50 |
+
"oov_charset": "[]"
|
51 |
+
},
|
52 |
+
{
|
53 |
+
"text": "Quand les élus se réunissent-ils ?",
|
54 |
+
"decoded_text": "Quand les élus se réunissent-ils?",
|
55 |
+
"diff": [
|
56 |
+
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
|
57 |
+
],
|
58 |
+
"n_oov_chars": 0,
|
59 |
+
"oov_ratio": 0.0,
|
60 |
+
"oov_charset": "[]"
|
61 |
+
},
|
62 |
+
{
|
63 |
+
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
|
64 |
+
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
|
65 |
+
"diff": [
|
66 |
+
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
|
67 |
+
],
|
68 |
+
"n_oov_chars": 0,
|
69 |
+
"oov_ratio": 0.0,
|
70 |
+
"oov_charset": "[]"
|
71 |
+
},
|
72 |
+
{
|
73 |
+
"text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici",
|
74 |
+
"decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici",
|
75 |
+
"diff": [
|
76 |
+
"replace text[36:37] --> decoded_text[36:39] '…' --> '...'"
|
77 |
+
],
|
78 |
+
"n_oov_chars": 1,
|
79 |
+
"oov_ratio": 0.015873015873015872,
|
80 |
+
"oov_charset": "[\"…\"]"
|
81 |
+
},
|
82 |
+
{
|
83 |
+
"text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici",
|
84 |
+
"decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici",
|
85 |
+
"diff": [
|
86 |
+
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
|
87 |
+
],
|
88 |
+
"n_oov_chars": 1,
|
89 |
+
"oov_ratio": 0.016129032258064516,
|
90 |
+
"oov_charset": "[\"…\"]"
|
91 |
+
},
|
92 |
+
{
|
93 |
+
"text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici",
|
94 |
+
"decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici",
|
95 |
+
"diff": [
|
96 |
+
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
|
97 |
+
],
|
98 |
+
"n_oov_chars": 1,
|
99 |
+
"oov_ratio": 0.016129032258064516,
|
100 |
+
"oov_charset": "[\"…\"]"
|
101 |
+
}
|
102 |
]
|
stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json
CHANGED
@@ -1,105 +1,105 @@
|
|
1 |
-
[
|
2 |
-
{
|
3 |
-
"text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
4 |
-
"decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
5 |
-
"diff": [
|
6 |
-
"replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '"
|
7 |
-
],
|
8 |
-
"n_oov_chars": 0,
|
9 |
-
"oov_ratio": 0.0,
|
10 |
-
"oov_charset": "[]"
|
11 |
-
},
|
12 |
-
{
|
13 |
-
"text": "Actividad física , Deporte , Salud",
|
14 |
-
"decoded_text": "Actividad física, Deporte, Salud",
|
15 |
-
"diff": [
|
16 |
-
"delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
|
17 |
-
"delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
|
18 |
-
],
|
19 |
-
"n_oov_chars": 0,
|
20 |
-
"oov_ratio": 0.0,
|
21 |
-
"oov_charset": "[]"
|
22 |
-
},
|
23 |
-
{
|
24 |
-
"text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
|
25 |
-
"decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
|
26 |
-
"diff": [
|
27 |
-
"delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
|
28 |
-
],
|
29 |
-
"n_oov_chars": 0,
|
30 |
-
"oov_ratio": 0.0,
|
31 |
-
"oov_charset": "[]"
|
32 |
-
},
|
33 |
-
{
|
34 |
-
"text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
|
35 |
-
"decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
|
36 |
-
"diff": [
|
37 |
-
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
|
38 |
-
"delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
|
39 |
-
],
|
40 |
-
"n_oov_chars": 0,
|
41 |
-
"oov_ratio": 0.0,
|
42 |
-
"oov_charset": "[]"
|
43 |
-
},
|
44 |
-
{
|
45 |
-
"text": "Si , podría hacerte un precio. La medida va desde el exterior.",
|
46 |
-
"decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
|
47 |
-
"diff": [
|
48 |
-
"delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
|
49 |
-
],
|
50 |
-
"n_oov_chars": 0,
|
51 |
-
"oov_ratio": 0.0,
|
52 |
-
"oov_charset": "[]"
|
53 |
-
},
|
54 |
-
{
|
55 |
-
"text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).",
|
56 |
-
"decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).",
|
57 |
-
"diff": [
|
58 |
-
"replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '"
|
59 |
-
],
|
60 |
-
"n_oov_chars": 0,
|
61 |
-
"oov_ratio": 0.0,
|
62 |
-
"oov_charset": "[]"
|
63 |
-
},
|
64 |
-
{
|
65 |
-
"text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
|
66 |
-
"decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
|
67 |
-
"diff": [
|
68 |
-
"delete text[415:416] --> decoded_text[415:415] ' ' --> ''"
|
69 |
-
],
|
70 |
-
"n_oov_chars": 0,
|
71 |
-
"oov_ratio": 0.0,
|
72 |
-
"oov_charset": "[]"
|
73 |
-
},
|
74 |
-
{
|
75 |
-
"text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...",
|
76 |
-
"decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...",
|
77 |
-
"diff": [
|
78 |
-
"insert text[6:6] --> decoded_text[6:7] '' --> ' '",
|
79 |
-
"insert text[9:9] --> decoded_text[10:11] '' --> ' '"
|
80 |
-
],
|
81 |
-
"n_oov_chars": 0,
|
82 |
-
"oov_ratio": 0.0,
|
83 |
-
"oov_charset": "[]"
|
84 |
-
},
|
85 |
-
{
|
86 |
-
"text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .",
|
87 |
-
"decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.",
|
88 |
-
"diff": [
|
89 |
-
"delete text[138:139] --> decoded_text[138:138] ' ' --> ''"
|
90 |
-
],
|
91 |
-
"n_oov_chars": 0,
|
92 |
-
"oov_ratio": 0.0,
|
93 |
-
"oov_charset": "[]"
|
94 |
-
},
|
95 |
-
{
|
96 |
-
"text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .",
|
97 |
-
"decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.",
|
98 |
-
"diff": [
|
99 |
-
"delete text[220:221] --> decoded_text[220:220] ' ' --> ''"
|
100 |
-
],
|
101 |
-
"n_oov_chars": 0,
|
102 |
-
"oov_ratio": 0.0,
|
103 |
-
"oov_charset": "[]"
|
104 |
-
}
|
105 |
]
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
4 |
+
"decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
|
5 |
+
"diff": [
|
6 |
+
"replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '"
|
7 |
+
],
|
8 |
+
"n_oov_chars": 0,
|
9 |
+
"oov_ratio": 0.0,
|
10 |
+
"oov_charset": "[]"
|
11 |
+
},
|
12 |
+
{
|
13 |
+
"text": "Actividad física , Deporte , Salud",
|
14 |
+
"decoded_text": "Actividad física, Deporte, Salud",
|
15 |
+
"diff": [
|
16 |
+
"delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
|
17 |
+
"delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
|
18 |
+
],
|
19 |
+
"n_oov_chars": 0,
|
20 |
+
"oov_ratio": 0.0,
|
21 |
+
"oov_charset": "[]"
|
22 |
+
},
|
23 |
+
{
|
24 |
+
"text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
|
25 |
+
"decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
|
26 |
+
"diff": [
|
27 |
+
"delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
|
28 |
+
],
|
29 |
+
"n_oov_chars": 0,
|
30 |
+
"oov_ratio": 0.0,
|
31 |
+
"oov_charset": "[]"
|
32 |
+
},
|
33 |
+
{
|
34 |
+
"text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
|
35 |
+
"decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
|
36 |
+
"diff": [
|
37 |
+
"delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
|
38 |
+
"delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
|
39 |
+
],
|
40 |
+
"n_oov_chars": 0,
|
41 |
+
"oov_ratio": 0.0,
|
42 |
+
"oov_charset": "[]"
|
43 |
+
},
|
44 |
+
{
|
45 |
+
"text": "Si , podría hacerte un precio. La medida va desde el exterior.",
|
46 |
+
"decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
|
47 |
+
"diff": [
|
48 |
+
"delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
|
49 |
+
],
|
50 |
+
"n_oov_chars": 0,
|
51 |
+
"oov_ratio": 0.0,
|
52 |
+
"oov_charset": "[]"
|
53 |
+
},
|
54 |
+
{
|
55 |
+
"text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).",
|
56 |
+
"decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).",
|
57 |
+
"diff": [
|
58 |
+
"replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '"
|
59 |
+
],
|
60 |
+
"n_oov_chars": 0,
|
61 |
+
"oov_ratio": 0.0,
|
62 |
+
"oov_charset": "[]"
|
63 |
+
},
|
64 |
+
{
|
65 |
+
"text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
|
66 |
+
"decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
|
67 |
+
"diff": [
|
68 |
+
"delete text[415:416] --> decoded_text[415:415] ' ' --> ''"
|
69 |
+
],
|
70 |
+
"n_oov_chars": 0,
|
71 |
+
"oov_ratio": 0.0,
|
72 |
+
"oov_charset": "[]"
|
73 |
+
},
|
74 |
+
{
|
75 |
+
"text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...",
|
76 |
+
"decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...",
|
77 |
+
"diff": [
|
78 |
+
"insert text[6:6] --> decoded_text[6:7] '' --> ' '",
|
79 |
+
"insert text[9:9] --> decoded_text[10:11] '' --> ' '"
|
80 |
+
],
|
81 |
+
"n_oov_chars": 0,
|
82 |
+
"oov_ratio": 0.0,
|
83 |
+
"oov_charset": "[]"
|
84 |
+
},
|
85 |
+
{
|
86 |
+
"text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .",
|
87 |
+
"decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.",
|
88 |
+
"diff": [
|
89 |
+
"delete text[138:139] --> decoded_text[138:138] ' ' --> ''"
|
90 |
+
],
|
91 |
+
"n_oov_chars": 0,
|
92 |
+
"oov_ratio": 0.0,
|
93 |
+
"oov_charset": "[]"
|
94 |
+
},
|
95 |
+
{
|
96 |
+
"text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .",
|
97 |
+
"decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.",
|
98 |
+
"diff": [
|
99 |
+
"delete text[220:221] --> decoded_text[220:220] ' ' --> ''"
|
100 |
+
],
|
101 |
+
"n_oov_chars": 0,
|
102 |
+
"oov_ratio": 0.0,
|
103 |
+
"oov_charset": "[]"
|
104 |
+
}
|
105 |
]
|
vocab.py
CHANGED
@@ -240,6 +240,8 @@ _all_tokenizer_config = [
|
|
240 |
TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
241 |
TokenizerConfig("Qwen/Qwen2-0.5B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
242 |
TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
|
|
|
|
243 |
TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
|
244 |
|
245 |
####### google/sentencepiece tokenizer:
|
@@ -259,7 +261,14 @@ _all_tokenizer_config = [
|
|
259 |
|
260 |
# byte-level BPE
|
261 |
# '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
|
262 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
263 |
org="Meta"),
|
264 |
TokenizerConfig("NousResearch/Hermes-3-Llama-3.1-405B", impl=TokenizerImpl.SentencePiece,
|
265 |
org="NousResearch"),
|
@@ -368,6 +377,12 @@ _all_tokenizer_config = [
|
|
368 |
TokenizerConfig("deepseek-ai/deepseek-coder-33b-instruct", org="DeepSeek"),
|
369 |
TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
|
370 |
TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
|
|
|
|
|
|
|
|
|
|
|
|
|
371 |
TokenizerConfig("google/gemma-7b", org="Google"),
|
372 |
TokenizerConfig("google/gemma-2-9b", org="Google"),
|
373 |
TokenizerConfig("allenai/OLMo-7B-hf", org="Allen AI"),
|
|
|
240 |
TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
241 |
TokenizerConfig("Qwen/Qwen2-0.5B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
242 |
TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
243 |
+
TokenizerConfig("Qwen/Qwen2.5-0.5B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
244 |
+
TokenizerConfig("Qwen/Qwen2.5-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
245 |
TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
|
246 |
|
247 |
####### google/sentencepiece tokenizer:
|
|
|
261 |
|
262 |
# byte-level BPE
|
263 |
# '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
|
264 |
+
#
|
265 |
+
TokenizerConfig("meta-llama/Llama-3.2-1B-Instruct", impl=TokenizerImpl.SentencePiece,
|
266 |
+
org="Meta"),
|
267 |
+
TokenizerConfig("meta-llama/Llama-3.2-3B-Instruct", impl=TokenizerImpl.SentencePiece,
|
268 |
+
org="Meta"),
|
269 |
+
# TokenizerConfig("meta-llama/Llama-3.3-70B-Instruct", impl=TokenizerImpl.SentencePiece,
|
270 |
+
# org="Meta"),
|
271 |
+
TokenizerConfig("meta-llama/Meta-Llama-3.1-405B", impl=TokenizerImpl.SentencePiece,
|
272 |
org="Meta"),
|
273 |
TokenizerConfig("NousResearch/Hermes-3-Llama-3.1-405B", impl=TokenizerImpl.SentencePiece,
|
274 |
org="NousResearch"),
|
|
|
377 |
TokenizerConfig("deepseek-ai/deepseek-coder-33b-instruct", org="DeepSeek"),
|
378 |
TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
|
379 |
TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
|
380 |
+
TokenizerConfig("deepseek-ai/DeepSeek-V3", org="DeepSeek"),
|
381 |
+
TokenizerConfig("deepseek-ai/DeepSeek-R1", org="DeepSeek"),
|
382 |
+
TokenizerConfig("deepseek-ai/DeepSeek-R1-Zero", org="DeepSeek"),
|
383 |
+
TokenizerConfig("deepseek-ai/DeepSeek-R1-Distill-Llama-70B", org="DeepSeek"),
|
384 |
+
|
385 |
+
|
386 |
TokenizerConfig("google/gemma-7b", org="Google"),
|
387 |
TokenizerConfig("google/gemma-2-9b", org="Google"),
|
388 |
TokenizerConfig("allenai/OLMo-7B-hf", org="Allen AI"),
|