Spaces:

ZombitX64
/

DekData

Running

App Files Files Community

DekData / README.md

Nattapong Tapachoom

Fix metadata and add IP protection

a6e31da 11 days ago

preview code

raw

history blame contribute delete

7.25 kB

	---
	title: DekData - AI Dataset Generator
	emoji: 🤖
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdk_version: 5.33.1
	app_file: app.py
	pinned: false
	license: cc-by-nc-nd-4.0
	short_description: "AI-powered dataset generator with multi-language support"
	---

	# 🤖 DekData - AI Dataset Generator

	ระบบสร้าง Dataset อัจฉริยะด้วย AI สำหรับงานวิจัยและพัฒนาโมเดล Machine Learning

	DekData เป็นระบบที่ครอบคลุมสำหรับการสร้าง ขยาย และประมวลผล dataset โดยใช้ AI models ต่างๆ รองรับการทำงานกับหลายภาษาและมีความสามารถในการประมวลผลหลังขั้นสูง

	## ✨ คุณสมบัติหลัก

	### 🔧 การโหลดข้อมูล
	- รองรับไฟล์หลายรูปแบบ: CSV, JSONL, JSON, Parquet
	- โหลด dataset จาก Hugging Face Hub
	- รองรับ HF Dataset directories ที่สร้างแล้ว
	- ฟีเจอร์ตัวอย่างข้อมูลก่อนประมวลผล

	### 🤖 ผู้ให้บริการ LLM
	- Ollama: Local LLM server (รองรับ auto-detect models)
	- DeepSeek API: deepseek-chat, deepseek-reasoner
	- Hugging Face: API inference
	- HF Local: โหลดโมเดลใช้งานในเครื่อง

	### ✨ การสร้างข้อมูลใหม่
	- Augment: ขยายข้อมูลจากตัวอย่างเดิม
	- Roleplay: สร้างมุมมองจากบทบาทต่างๆ
	- Topic Conditioning: สร้างสถานการณ์ใหม่ตามหัวข้อ
	- Self Critique: วิเคราะห์และปรับปรุงเหตุผล
	- Custom Prompt: ใช้ prompt ที่กำหนดเอง

	### 🌍 รองรับหลายภาษา
	- การ generate ในภาษาต่างๆ: ไทย, อังกฤษ, จีน, ญี่ปุ่น
	- การแปลภาษาอัตโนมัติ
	- รักษาบริบททางวัฒนธรรมในการแปล

	### 🔧 การประมวลผลหลัง
	- ลบข้อมูลซ้ำ: ใช้ MD5 hashing
	- ตรวจสอบไวยากรณ์: กรองข้อมูลที่มีปัญหา
	- ประเมินความยาก: easy, medium, hard
	- สร้าง Multiple Choice: เพิ่มตัวเลือกอัตโนมัติ

	### 💾 การส่งออกข้อมูล
	- CSV: สำหรับ Excel/Spreadsheet
	- JSONL: สำหรับ machine learning
	- Parquet: รูปแบบคอลัมน์ประสิทธิภาพสูง
	- HF Dataset: Hugging Face Dataset (Parquet format)

	## 🚀 การติดตั้งและใช้งาน

	### ความต้องการระบบ
	```bash
	Python 3.8+
	```

	### การติดตั้ง Dependencies
	```bash
	pip install -r requirements.txt
	```

	### การรันแอปพลิเคชัน
	```bash
	python app.py
	```

	แอปพลิเคชันจะทำงานที่: `http://localhost:7860`

	## 📋 Schema ของ Dataset

	```json
	{
	"id": "string",
	"context": "string",
	"question": "string",
	"options": ["string"] \| null,
	"answer": "string",
	"rationale": "string",
	"category": "string",
	"difficulty": "easy\|medium\|hard",
	"source": "string",
	"language": "th\|en\|zh\|ja"
	}
	```

	## 📝 ตัวอย่างการใช้งาน

	### 1. โหลดข้อมูลจากไฟล์ CSV
	1. เลือก "local" ในประเภทแหล่งข้อมูล
	2. อัปโหลดไฟล์ CSV หรือใส่ path
	3. กดปุ่ม "ดูตัวอย่างข้อมูล"

	### 2. Generate ข้อมูลใหม่ด้วย Ollama
	1. เลือก "ollama" ใน LLM Provider
	2. เลือกโมเดลที่ต้องการ
	3. ตั้งค่าการ generate (ประเภท, จำนวน, ภาษา)
	4. รันเวิร์กโฟลว์

	### 3. ส่งออกเป็น Parquet
	1. เลือก "parquet" ในรูปแบบ Export
	2. ไฟล์จะถูกสร้างด้วยชื่อที่มี timestamp

	## 🔧 การกำหนดค่า

	### Ollama Setup
	```bash
	# ติดตั้ง Ollama
	curl -fsSL https://ollama.ai/install.sh \| sh

	# ดาวน์โหลดโมเดล
	ollama pull llama3.2
	ollama pull gemma2
	```

	### DeepSeek API
	1. สมัครบัญชีที่ [DeepSeek](https://www.deepseek.com)
	2. รับ API Key
	3. ใส่ API Key ในช่อง "API Key"

	## 📊 ตัวอย่างผลลัพธ์

	ระบบจะแสดงสถิติ Dataset:
	- จำนวนข้อมูลทั้งหมด
	- การกระจายตามหมวดหมู่
	- ระดับความยาก
	- ภาษาที่ใช้
	- จำนวนที่มี Multiple Choice

	## 🛠️ Development

	### โครงสร้างโค้ด
	```
	app.py # แอปพลิเคชันหลัก
	requirements.txt # Dependencies
	sample_data.csv # ตัวอย่างข้อมูล
	README.md # เอกสารนี้
	```

	### การพัฒนาต่อ
	1. Fork repository
	2. สร้าง feature branch
	3. Implement changes
	4. Submit pull request

	## ⚠️ ข้อจำกัดและคำเตือน

	### การใช้งาน
	- ระบบจำกัดการประมวลผลเพื่อประสิทธิภาพ
	- การ generate ขึ้นอยู่กับคุณภาพของโมเดล AI
	- ต้องมี API Key สำหรับบริการภายนอก

	### ทรัพย์สินทางปัญญา
	- ระบบนี้เป็นทรัพย์สินทางปัญญา
	- ห้ามคัดลอกหรือใช้เชิงพาณิชย์โดยไม่ได้รับอนุญาต
	- อนุญาตให้ใช้เพื่อการศึกษาและวิจัยเท่านั้น

	## 📞 การสนับสนุน

	สำหรับข้อสงสัยหรือปัญหาการใช้งาน:
	- ตรวจสอบ Issues ใน repository
	- อ่านเอกสารประกอบ
	- ติดต่อผู้พัฒนา

	## 📄 License

	CC BY-NC-ND 4.0 - สงวนลิขสิทธิ์ © 2025

	---

	สร้างด้วย ❤️ สำหรับชุมชนนักวิจัยและนักพัฒนา AI