Nattapong Tapachoom commited on
Commit
ae45e81
·
1 Parent(s): 2087372

Update README.md with comprehensive features and installation instructions for DekData

Browse files
Files changed (1) hide show
  1. README.md +170 -5
README.md CHANGED
@@ -1,13 +1,178 @@
1
  ---
2
- title: DekData
3
- emoji: 🦀
4
- colorFrom: gray
5
- colorTo: blue
6
  sdk: gradio
7
  sdk_version: 5.33.1
8
  app_file: app.py
9
  pinned: false
10
  license: cc-by-nc-nd-4.0
 
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: DekData - AI Dataset Generator
3
+ emoji: 🤖
4
+ colorFrom: blue
5
+ colorTo: purple
6
  sdk: gradio
7
  sdk_version: 5.33.1
8
  app_file: app.py
9
  pinned: false
10
  license: cc-by-nc-nd-4.0
11
+ short_description: "Comprehensive AI-powered dataset generation system with multi-language support and advanced post-processing capabilities"
12
  ---
13
 
14
+ # 🤖 DekData - AI Dataset Generator
15
+
16
+ **ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning**
17
+
18
+ DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง
19
+
20
+ ## ✨ คุณสมบัติหลัก
21
+
22
+ ### 🔧 การโหลดข้อมูล
23
+ - รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
24
+ - โหลด dataset จาก Hugging Face Hub
25
+ - รองรับ HF Dataset directories ที่สร้างแล้ว
26
+ - ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล
27
+
28
+ ### 🤖 ผู้ให้บริการ LLM
29
+ - **Ollama**: Local LLM server (รองรับ auto-detect models)
30
+ - **DeepSeek API**: deepseek-chat, deepseek-reasoner
31
+ - **Hugging Face**: API inference
32
+ - **HF Local**: โหลดโมเดลใช้งานในเครื่อง
33
+
34
+ ### ✨ การสร้างข้อมูลใหม่
35
+ - **Augment**: ขยายข้อมูลจากตัวอย่างเดิม
36
+ - **Roleplay**: สร้างมุมมองจากบทบาทต่างๆ
37
+ - **Topic Conditioning**: สร้างสถานการณ์ใหม่ตามหัวข้อ
38
+ - **Self Critique**: วิเคราะห์และปรับปรุงเหตุผล
39
+ - **Custom Prompt**: ใช้ prompt ที่กำหนดเอง
40
+
41
+ ### 🌍 รองรับหลายภาษา
42
+ - การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
43
+ - การแปลภาษาอัตโนมัติ
44
+ - รักษาบริบททางวัฒนธรรมในการแปล
45
+
46
+ ### 🔧 การประมวลผลหลัง
47
+ - **ลบข้อมูลซ้ำ**: ใช้ MD5 hashing
48
+ - **ตรวจสอบไวยากรณ์**: กรองข้อมูลที่มีปัญหา
49
+ - **ประเมินความยาก**: easy, medium, hard
50
+ - **สร้าง Multiple Choice**: เพิ่มตัวเลือกอัตโนมัติ
51
+
52
+ ### 💾 การส่งออกข้อมูล
53
+ - **CSV**: สำหรับ Excel/Spreadsheet
54
+ - **JSONL**: สำหรับ machine learning
55
+ - **Parquet**: รูปแบบคอลัมน์ประสิทธิภาพสูง
56
+ - **HF Dataset**: Hugging Face Dataset (Parquet format)
57
+
58
+ ## 🚀 การติดตั้งและใช้งาน
59
+
60
+ ### ความต้องการระบบ
61
+ ```bash
62
+ Python 3.8+
63
+ ```
64
+
65
+ ### การติดตั้ง Dependencies
66
+ ```bash
67
+ pip install -r requirements.txt
68
+ ```
69
+
70
+ ### การรันแอปพลิเคชัน
71
+ ```bash
72
+ python app.py
73
+ ```
74
+
75
+ แอปพลิเคชันจะทำงานที่: `http://localhost:7860`
76
+
77
+ ## 📋 Schema ของ Dataset
78
+
79
+ ```json
80
+ {
81
+ "id": "string",
82
+ "context": "string",
83
+ "question": "string",
84
+ "options": ["string"] | null,
85
+ "answer": "string",
86
+ "rationale": "string",
87
+ "category": "string",
88
+ "difficulty": "easy|medium|hard",
89
+ "source": "string",
90
+ "language": "th|en|zh|ja"
91
+ }
92
+ ```
93
+
94
+ ## 📝 ตัวอย่างการใช้งาน
95
+
96
+ ### 1. โหลดข้อมูลจากไฟล์ CSV
97
+ 1. เลือก "local" ในประเภทแหล่งข้อมูล
98
+ 2. อัปโหลดไฟล์ CSV หรือใส่ path
99
+ 3. กดปุ่ม "ดูตัวอย่างข้อมูล"
100
+
101
+ ### 2. Generate ข้อมูลใหม่ด้วย Ollama
102
+ 1. เลือก "ollama" ใน LLM Provider
103
+ 2. เลือกโมเดลที่ต้องการ
104
+ 3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
105
+ 4. รันเวิร์กโฟลว์
106
+
107
+ ### 3. ส่งออกเป็น Parquet
108
+ 1. เลือก "parquet" ในรูปแบบ Export
109
+ 2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp
110
+
111
+ ## 🔧 การก���หนดค่า
112
+
113
+ ### Ollama Setup
114
+ ```bash
115
+ # ติดตั้ง Ollama
116
+ curl -fsSL https://ollama.ai/install.sh | sh
117
+
118
+ # ดาวน์โหลดโมเดล
119
+ ollama pull llama3.2
120
+ ollama pull gemma2
121
+ ```
122
+
123
+ ### DeepSeek API
124
+ 1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
125
+ 2. รับ API Key
126
+ 3. ใส่ API Key ในช่อง "API Key"
127
+
128
+ ## 📊 ตัวอย่างผลลัพธ์
129
+
130
+ ระบบจะแสดงสถิติ Dataset:
131
+ - จำนวนข้อมูลทั้งหมด
132
+ - การกระจายตามหมวดหมู่
133
+ - ระดับความยาก
134
+ - ภาษาที่ใช้
135
+ - จำนวนที่มี Multiple Choice
136
+
137
+ ## 🛠️ Development
138
+
139
+ ### โครงสร้างโค้ด
140
+ ```
141
+ app.py # แอปพลิเคชันหลัก
142
+ requirements.txt # Dependencies
143
+ sample_data.csv # ตัวอย่างข้อมูล
144
+ README.md # เอกสารนี้
145
+ ```
146
+
147
+ ### การพัฒนาต่อ
148
+ 1. Fork repository
149
+ 2. สร้าง feature branch
150
+ 3. Implement changes
151
+ 4. Submit pull request
152
+
153
+ ## ⚠️ ข้อจำกัดและคำเตือน
154
+
155
+ ### การใช้งาน
156
+ - ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
157
+ - การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
158
+ - ต้องมี API Key สำหรับบริการภายนอก
159
+
160
+ ### ทรัพย์สินทางปัญญา
161
+ - ระบบนี้เป็นทรัพย์สินทางปัญญา
162
+ - ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
163
+ - อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น
164
+
165
+ ## 📞 การสนับสนุน
166
+
167
+ สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
168
+ - ตรวจสอบ Issues ใน repository
169
+ - อ่านเอกสารประกอบ
170
+ - ติดต่อผู้พัฒนา
171
+
172
+ ## 📄 License
173
+
174
+ CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025
175
+
176
+ ---
177
+
178
+ **สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI**