DekData / README.md
Nattapong Tapachoom
Fix metadata and add IP protection
a6e31da
---
title: DekData - AI Dataset Generator
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.33.1
app_file: app.py
pinned: false
license: cc-by-nc-nd-4.0
short_description: "AI-powered dataset generator with multi-language support"
---
# 🤖 DekData - AI Dataset Generator
**ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning**
DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง
## ✨ คุณสมบัติหลัก
### 🔧 การโหลดข้อมูล
- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
- โหลด dataset จาก Hugging Face Hub
- รองรับ HF Dataset directories ที่สร้างแล้ว
- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล
### 🤖 ผู้ให้บริการ LLM
- **Ollama**: Local LLM server (รองรับ auto-detect models)
- **DeepSeek API**: deepseek-chat, deepseek-reasoner
- **Hugging Face**: API inference
- **HF Local**: โหลดโมเดลใช้งานในเครื่อง
### ✨ การสร้างข้อมูลใหม่
- **Augment**: ขยายข้อมูลจากตัวอย่างเดิม
- **Roleplay**: สร้างมุมมองจากบทบาทต่างๆ
- **Topic Conditioning**: สร้างสถานการณ์ใหม่ตามหัวข้อ
- **Self Critique**: วิเคราะห์และปรับปรุงเหตุผล
- **Custom Prompt**: ใช้ prompt ที่กำหนดเอง
### 🌍 รองรับหลายภาษา
- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
- การแปลภาษาอัตโนมัติ
- รักษาบริบททางวัฒนธรรมในการแปล
### 🔧 การประมวลผลหลัง
- **ลบข้อมูลซ้ำ**: ใช้ MD5 hashing
- **ตรวจสอบไวยากรณ์**: กรองข้อมูลที่มีปัญหา
- **ประเมินความยาก**: easy, medium, hard
- **สร้าง Multiple Choice**: เพิ่มตัวเลือกอัตโนมัติ
### 💾 การส่งออกข้อมูล
- **CSV**: สำหรับ Excel/Spreadsheet
- **JSONL**: สำหรับ machine learning
- **Parquet**: รูปแบบคอลัมน์ประสิทธิภาพสูง
- **HF Dataset**: Hugging Face Dataset (Parquet format)
## 🚀 การติดตั้งและใช้งาน
### ความต้องการระบบ
```bash
Python 3.8+
```
### การติดตั้ง Dependencies
```bash
pip install -r requirements.txt
```
### การรันแอปพลิเคชัน
```bash
python app.py
```
แอปพลิเคชันจะทำงานที่: `http://localhost:7860`
## 📋 Schema ของ Dataset
```json
{
"id": "string",
"context": "string",
"question": "string",
"options": ["string"] | null,
"answer": "string",
"rationale": "string",
"category": "string",
"difficulty": "easy|medium|hard",
"source": "string",
"language": "th|en|zh|ja"
}
```
## 📝 ตัวอย่างการใช้งาน
### 1. โหลดข้อมูลจากไฟล์ CSV
1. เลือก "local" ในประเภทแหล่งข้อมูล
2. อัปโหลดไฟล์ CSV หรือใส่ path
3. กดปุ่ม "ดูตัวอย่างข้อมูล"
### 2. Generate ข้อมูลใหม่ด้วย Ollama
1. เลือก "ollama" ใน LLM Provider
2. เลือกโมเดลที่ต้องการ
3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
4. รันเวิร์กโฟลว์
### 3. ส่งออกเป็น Parquet
1. เลือก "parquet" ในรูปแบบ Export
2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp
## 🔧 การกำหนดค่า
### Ollama Setup
```bash
# ติดตั้ง Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# ดาวน์โหลดโมเดล
ollama pull llama3.2
ollama pull gemma2
```
### DeepSeek API
1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
2. รับ API Key
3. ใส่ API Key ในช่อง "API Key"
## 📊 ตัวอย่างผลลัพธ์
ระบบจะแสดงสถิติ Dataset:
- จำนวนข้อมูลทั้งหมด
- การกระจายตามหมวดหมู่
- ระดับความยาก
- ภาษาที่ใช้
- จำนวนที่มี Multiple Choice
## 🛠️ Development
### โครงสร้างโค้ด
```
app.py # แอปพลิเคชันหลัก
requirements.txt # Dependencies
sample_data.csv # ตัวอย่างข้อมูล
README.md # เอกสารนี้
```
### การพัฒนาต่อ
1. Fork repository
2. สร้าง feature branch
3. Implement changes
4. Submit pull request
## ⚠️ ข้อจำกัดและคำเตือน
### การใช้งาน
- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
- ต้องมี API Key สำหรับบริการภายนอก
### ทรัพย์สินทางปัญญา
- ระบบนี้เป็นทรัพย์สินทางปัญญา
- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น
## 📞 การสนับสนุน
สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
- ตรวจสอบ Issues ใน repository
- อ่านเอกสารประกอบ
- ติดต่อผู้พัฒนา
## 📄 License
CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025
---
**สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI**