Spaces:

ZombitX64
/

DekData

Running

File size: 7,246 Bytes

cdd261c
ae45e81
 
 
 
cdd261c
 
 
 
 
a6e31da
cdd261c
 
ae45e81

---
title: DekData - AI Dataset Generator
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.33.1
app_file: app.py
pinned: false
license: cc-by-nc-nd-4.0
short_description: "AI-powered dataset generator with multi-language support"
---

# 🤖 DekData - AI Dataset Generator

**ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning**

DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง

## ✨ คุณสมบัติหลัก

### 🔧 การโหลดข้อมูล
- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
- โหลด dataset จาก Hugging Face Hub
- รองรับ HF Dataset directories ที่สร้างแล้ว
- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล

### 🤖 ผู้ให้บริการ LLM
- **Ollama**: Local LLM server (รองรับ auto-detect models)
- **DeepSeek API**: deepseek-chat, deepseek-reasoner
- **Hugging Face**: API inference
- **HF Local**: โหลดโมเดลใช้งานในเครื่อง

### ✨ การสร้างข้อมูลใหม่
- **Augment**: ขยายข้อมูลจากตัวอย่างเดิม
- **Roleplay**: สร้างมุมมองจากบทบาทต่างๆ
- **Topic Conditioning**: สร้างสถานการณ์ใหม่ตามหัวข้อ
- **Self Critique**: วิเคราะห์และปรับปรุงเหตุผล
- **Custom Prompt**: ใช้ prompt ที่กำหนดเอง

### 🌍 รองรับหลายภาษา
- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
- การแปลภาษาอัตโนมัติ
- รักษาบริบททางวัฒนธรรมในการแปล

### 🔧 การประมวลผลหลัง
- **ลบข้อมูลซ้ำ**: ใช้ MD5 hashing
- **ตรวจสอบไวยากรณ์**: กรองข้อมูลที่มีปัญหา
- **ประเมินความยาก**: easy, medium, hard
- **สร้าง Multiple Choice**: เพิ่มตัวเลือกอัตโนมัติ

### 💾 การส่งออกข้อมูล
- **CSV**: สำหรับ Excel/Spreadsheet
- **JSONL**: สำหรับ machine learning
- **Parquet**: รูปแบบคอลัมน์ประสิทธิภาพสูง
- **HF Dataset**: Hugging Face Dataset (Parquet format)

## 🚀 การติดตั้งและใช้งาน

### ความต้องการระบบ
```bash
Python 3.8+
```

### การติดตั้ง Dependencies
```bash
pip install -r requirements.txt
```

### การรันแอปพลิเคชัน
```bash
python app.py
```

แอปพลิเคชันจะทำงานที่: `http://localhost:7860`

## 📋 Schema ของ Dataset

```json
{
  "id": "string",
  "context": "string", 
  "question": "string",
  "options": ["string"] | null,
  "answer": "string",
  "rationale": "string",
  "category": "string",
  "difficulty": "easy|medium|hard",
  "source": "string",
  "language": "th|en|zh|ja"
}
```

## 📝 ตัวอย่างการใช้งาน

### 1. โหลดข้อมูลจากไฟล์ CSV
1. เลือก "local" ในประเภทแหล่งข้อมูล
2. อัปโหลดไฟล์ CSV หรือใส่ path
3. กดปุ่ม "ดูตัวอย่างข้อมูล"

### 2. Generate ข้อมูลใหม่ด้วย Ollama
1. เลือก "ollama" ใน LLM Provider
2. เลือกโมเดลที่ต้องการ
3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
4. รันเวิร์กโฟลว์

### 3. ส่งออกเป็น Parquet
1. เลือก "parquet" ในรูปแบบ Export
2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp

## 🔧 การกำหนดค่า

### Ollama Setup
```bash
# ติดตั้ง Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# ดาวน์โหลดโมเดล
ollama pull llama3.2
ollama pull gemma2
```

### DeepSeek API
1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
2. รับ API Key
3. ใส่ API Key ในช่อง "API Key"

## 📊 ตัวอย่างผลลัพธ์

ระบบจะแสดงสถิติ Dataset:
- จำนวนข้อมูลทั้งหมด
- การกระจายตามหมวดหมู่
- ระดับความยาก
- ภาษาที่ใช้
- จำนวนที่มี Multiple Choice

## 🛠️ Development

### โครงสร้างโค้ด
```
app.py              # แอปพลิเคชันหลัก
requirements.txt    # Dependencies
sample_data.csv     # ตัวอย่างข้อมูล
README.md          # เอกสารนี้
```

### การพัฒนาต่อ
1. Fork repository
2. สร้าง feature branch
3. Implement changes
4. Submit pull request

## ⚠️ ข้อจำกัดและคำเตือน

### การใช้งาน
- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
- ต้องมี API Key สำหรับบริการภายนอก

### ทรัพย์สินทางปัญญา
- ระบบนี้เป็นทรัพย์สินทางปัญญา
- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น

## 📞 การสนับสนุน

สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
- ตรวจสอบ Issues ใน repository
- อ่านเอกสารประกอบ
- ติดต่อผู้พัฒนา

## 📄 License

CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025

---

**สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI**