Nattapong Tapachoom
commited on
Commit
·
ae45e81
1
Parent(s):
2087372
Update README.md with comprehensive features and installation instructions for DekData
Browse files
README.md
CHANGED
@@ -1,13 +1,178 @@
|
|
1 |
---
|
2 |
-
title: DekData
|
3 |
-
emoji:
|
4 |
-
colorFrom:
|
5 |
-
colorTo:
|
6 |
sdk: gradio
|
7 |
sdk_version: 5.33.1
|
8 |
app_file: app.py
|
9 |
pinned: false
|
10 |
license: cc-by-nc-nd-4.0
|
|
|
11 |
---
|
12 |
|
13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
title: DekData - AI Dataset Generator
|
3 |
+
emoji: 🤖
|
4 |
+
colorFrom: blue
|
5 |
+
colorTo: purple
|
6 |
sdk: gradio
|
7 |
sdk_version: 5.33.1
|
8 |
app_file: app.py
|
9 |
pinned: false
|
10 |
license: cc-by-nc-nd-4.0
|
11 |
+
short_description: "Comprehensive AI-powered dataset generation system with multi-language support and advanced post-processing capabilities"
|
12 |
---
|
13 |
|
14 |
+
# 🤖 DekData - AI Dataset Generator
|
15 |
+
|
16 |
+
**ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning**
|
17 |
+
|
18 |
+
DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง
|
19 |
+
|
20 |
+
## ✨ คุณสมบัติหลัก
|
21 |
+
|
22 |
+
### 🔧 การโหลดข้อมูล
|
23 |
+
- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
|
24 |
+
- โหลด dataset จาก Hugging Face Hub
|
25 |
+
- รองรับ HF Dataset directories ที่สร้างแล้ว
|
26 |
+
- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล
|
27 |
+
|
28 |
+
### 🤖 ผู้ให้บริการ LLM
|
29 |
+
- **Ollama**: Local LLM server (รองรับ auto-detect models)
|
30 |
+
- **DeepSeek API**: deepseek-chat, deepseek-reasoner
|
31 |
+
- **Hugging Face**: API inference
|
32 |
+
- **HF Local**: โหลดโมเดลใช้งานในเครื่อง
|
33 |
+
|
34 |
+
### ✨ การสร้างข้อมูลใหม่
|
35 |
+
- **Augment**: ขยายข้อมูลจากตัวอย่างเดิม
|
36 |
+
- **Roleplay**: สร้างมุมมองจากบทบาทต่างๆ
|
37 |
+
- **Topic Conditioning**: สร้างสถานการณ์ใหม่ตามหัวข้อ
|
38 |
+
- **Self Critique**: วิเคราะห์และปรับปรุงเหตุผล
|
39 |
+
- **Custom Prompt**: ใช้ prompt ที่กำหนดเอง
|
40 |
+
|
41 |
+
### 🌍 รองรับหลายภาษา
|
42 |
+
- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
|
43 |
+
- การแปลภาษาอัตโนมัติ
|
44 |
+
- รักษาบริบททางวัฒนธรรมในการแปล
|
45 |
+
|
46 |
+
### 🔧 การประมวลผลหลัง
|
47 |
+
- **ลบข้อมูลซ้ำ**: ใช้ MD5 hashing
|
48 |
+
- **ตรวจสอบไวยากรณ์**: กรองข้อมูลที่มีปัญหา
|
49 |
+
- **ประเมินความยาก**: easy, medium, hard
|
50 |
+
- **สร้าง Multiple Choice**: เพิ่มตัวเลือกอัตโนมัติ
|
51 |
+
|
52 |
+
### 💾 การส่งออกข้อมูล
|
53 |
+
- **CSV**: สำหรับ Excel/Spreadsheet
|
54 |
+
- **JSONL**: สำหรับ machine learning
|
55 |
+
- **Parquet**: รูปแบบคอลัมน์ประสิทธิภาพสูง
|
56 |
+
- **HF Dataset**: Hugging Face Dataset (Parquet format)
|
57 |
+
|
58 |
+
## 🚀 การติดตั้งและใช้งาน
|
59 |
+
|
60 |
+
### ความต้องการระบบ
|
61 |
+
```bash
|
62 |
+
Python 3.8+
|
63 |
+
```
|
64 |
+
|
65 |
+
### การติดตั้ง Dependencies
|
66 |
+
```bash
|
67 |
+
pip install -r requirements.txt
|
68 |
+
```
|
69 |
+
|
70 |
+
### การรันแอปพลิเคชัน
|
71 |
+
```bash
|
72 |
+
python app.py
|
73 |
+
```
|
74 |
+
|
75 |
+
แอปพลิเคชันจะทำงานที่: `http://localhost:7860`
|
76 |
+
|
77 |
+
## 📋 Schema ของ Dataset
|
78 |
+
|
79 |
+
```json
|
80 |
+
{
|
81 |
+
"id": "string",
|
82 |
+
"context": "string",
|
83 |
+
"question": "string",
|
84 |
+
"options": ["string"] | null,
|
85 |
+
"answer": "string",
|
86 |
+
"rationale": "string",
|
87 |
+
"category": "string",
|
88 |
+
"difficulty": "easy|medium|hard",
|
89 |
+
"source": "string",
|
90 |
+
"language": "th|en|zh|ja"
|
91 |
+
}
|
92 |
+
```
|
93 |
+
|
94 |
+
## 📝 ตัวอย่างการใช้งาน
|
95 |
+
|
96 |
+
### 1. โหลดข้อมูลจากไฟล์ CSV
|
97 |
+
1. เลือก "local" ในประเภทแหล่งข้อมูล
|
98 |
+
2. อัปโหลดไฟล์ CSV หรือใส่ path
|
99 |
+
3. กดปุ่ม "ดูตัวอย่างข้อมูล"
|
100 |
+
|
101 |
+
### 2. Generate ข้อมูลใหม่ด้วย Ollama
|
102 |
+
1. เลือก "ollama" ใน LLM Provider
|
103 |
+
2. เลือกโมเดลที่ต้องการ
|
104 |
+
3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
|
105 |
+
4. รันเวิร์กโฟลว์
|
106 |
+
|
107 |
+
### 3. ส่งออกเป็น Parquet
|
108 |
+
1. เลือก "parquet" ในรูปแบบ Export
|
109 |
+
2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp
|
110 |
+
|
111 |
+
## 🔧 การก���หนดค่า
|
112 |
+
|
113 |
+
### Ollama Setup
|
114 |
+
```bash
|
115 |
+
# ติดตั้ง Ollama
|
116 |
+
curl -fsSL https://ollama.ai/install.sh | sh
|
117 |
+
|
118 |
+
# ดาวน์โหลดโมเดล
|
119 |
+
ollama pull llama3.2
|
120 |
+
ollama pull gemma2
|
121 |
+
```
|
122 |
+
|
123 |
+
### DeepSeek API
|
124 |
+
1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
|
125 |
+
2. รับ API Key
|
126 |
+
3. ใส่ API Key ในช่อง "API Key"
|
127 |
+
|
128 |
+
## 📊 ตัวอย่างผลลัพธ์
|
129 |
+
|
130 |
+
ระบบจะแสดงสถิติ Dataset:
|
131 |
+
- จำนวนข้อมูลทั้งหมด
|
132 |
+
- การกระจายตามหมวดหมู่
|
133 |
+
- ระดับความยาก
|
134 |
+
- ภาษาที่ใช้
|
135 |
+
- จำนวนที่มี Multiple Choice
|
136 |
+
|
137 |
+
## 🛠️ Development
|
138 |
+
|
139 |
+
### โครงสร้างโค้ด
|
140 |
+
```
|
141 |
+
app.py # แอปพลิเคชันหลัก
|
142 |
+
requirements.txt # Dependencies
|
143 |
+
sample_data.csv # ตัวอย่างข้อมูล
|
144 |
+
README.md # เอกสารนี้
|
145 |
+
```
|
146 |
+
|
147 |
+
### การพัฒนาต่อ
|
148 |
+
1. Fork repository
|
149 |
+
2. สร้าง feature branch
|
150 |
+
3. Implement changes
|
151 |
+
4. Submit pull request
|
152 |
+
|
153 |
+
## ⚠️ ข้อจำกัดและคำเตือน
|
154 |
+
|
155 |
+
### การใช้งาน
|
156 |
+
- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
|
157 |
+
- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
|
158 |
+
- ต้องมี API Key สำหรับบริการภายนอก
|
159 |
+
|
160 |
+
### ทรัพย์สินทางปัญญา
|
161 |
+
- ระบบนี้เป็นทรัพย์สินทางปัญญา
|
162 |
+
- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
|
163 |
+
- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น
|
164 |
+
|
165 |
+
## 📞 การสนับสนุน
|
166 |
+
|
167 |
+
สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
|
168 |
+
- ตรวจสอบ Issues ใน repository
|
169 |
+
- อ่านเอกสารประกอบ
|
170 |
+
- ติดต่อผู้พัฒนา
|
171 |
+
|
172 |
+
## 📄 License
|
173 |
+
|
174 |
+
CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025
|
175 |
+
|
176 |
+
---
|
177 |
+
|
178 |
+
**สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI**
|