Spaces:

nananie143
/

advanced-reasoning

Runtime error

App Files Files Community

advanced-reasoning / reasoning /learning.py

nananie143

Upload folder using huggingface_hub

dcb2a99 verified 10 months ago

raw

history blame

15.1 kB

	"""Enhanced learning mechanisms for reasoning strategies."""

	import logging
	from typing import Dict, Any, List, Optional, Set, Union, Type, Tuple
	import json
	from dataclasses import dataclass, field
	from enum import Enum
	from datetime import datetime
	import numpy as np
	from collections import defaultdict

	@dataclass
	class LearningEvent:
	"""Event for strategy learning."""
	strategy_type: str
	event_type: str
	data: Dict[str, Any]
	outcome: Optional[float]
	timestamp: datetime = field(default_factory=datetime.now)

	class LearningMode(Enum):
	"""Types of learning modes."""
	SUPERVISED = "supervised"
	REINFORCEMENT = "reinforcement"
	ACTIVE = "active"
	TRANSFER = "transfer"
	META = "meta"
	ENSEMBLE = "ensemble"

	@dataclass
	class LearningState:
	"""State for learning process."""
	mode: LearningMode
	parameters: Dict[str, Any]
	history: List[LearningEvent]
	metrics: Dict[str, float]
	metadata: Dict[str, Any] = field(default_factory=dict)

	class EnhancedLearningManager:
	"""
	Advanced learning manager that:
	1. Implements multiple learning modes
	2. Tracks learning progress
	3. Adapts learning parameters
	4. Optimizes strategy performance
	5. Transfers knowledge between strategies
	"""

	def __init__(self,
	learning_rate: float = 0.1,
	exploration_rate: float = 0.2,
	memory_size: int = 1000):
	self.learning_rate = learning_rate
	self.exploration_rate = exploration_rate
	self.memory_size = memory_size

	# Learning states
	self.states: Dict[str, LearningState] = {}

	# Performance tracking
	self.performance_history: List[Dict[str, Any]] = []
	self.strategy_metrics: Dict[str, List[float]] = defaultdict(list)

	# Knowledge transfer
	self.knowledge_base: Dict[str, Any] = {}
	self.transfer_history: List[Dict[str, Any]] = []

	async def learn(self,
	strategy_type: str,
	event: LearningEvent,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Learn from strategy execution event."""
	try:
	# Initialize or get learning state
	state = self._get_learning_state(strategy_type)

	# Select learning mode
	mode = await self._select_learning_mode(event, state, context)

	# Execute learning
	if mode == LearningMode.SUPERVISED:
	result = await self._supervised_learning(event, state, context)
	elif mode == LearningMode.REINFORCEMENT:
	result = await self._reinforcement_learning(event, state, context)
	elif mode == LearningMode.ACTIVE:
	result = await self._active_learning(event, state, context)
	elif mode == LearningMode.TRANSFER:
	result = await self._transfer_learning(event, state, context)
	elif mode == LearningMode.META:
	result = await self._meta_learning(event, state, context)
	elif mode == LearningMode.ENSEMBLE:
	result = await self._ensemble_learning(event, state, context)
	else:
	raise ValueError(f"Unsupported learning mode: {mode}")

	# Update state
	self._update_learning_state(state, result)

	# Record performance
	self._record_performance(strategy_type, result)

	return result

	except Exception as e:
	logging.error(f"Error in learning: {str(e)}")
	return {
	"success": False,
	"error": str(e),
	"mode": mode.value if 'mode' in locals() else None
	}

	async def _supervised_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement supervised learning."""
	# Extract features and labels
	features = await self._extract_features(event.data, context)
	labels = event.outcome if event.outcome is not None else 0.0

	# Train model
	model_update = await self._update_model(features, labels, state, context)

	# Validate performance
	validation = await self._validate_model(model_update, state, context)

	return {
	"success": True,
	"mode": LearningMode.SUPERVISED.value,
	"model_update": model_update,
	"validation": validation,
	"metrics": {
	"accuracy": validation.get("accuracy", 0.0),
	"loss": validation.get("loss", 0.0)
	}
	}

	async def _reinforcement_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement reinforcement learning."""
	# Extract state and action
	current_state = await self._extract_state(event.data, context)
	action = event.data.get("action")
	reward = event.outcome if event.outcome is not None else 0.0

	# Update policy
	policy_update = await self._update_policy(
	current_state, action, reward, state, context)

	# Optimize value function
	value_update = await self._update_value_function(
	current_state, reward, state, context)

	return {
	"success": True,
	"mode": LearningMode.REINFORCEMENT.value,
	"policy_update": policy_update,
	"value_update": value_update,
	"metrics": {
	"reward": reward,
	"value_error": value_update.get("error", 0.0)
	}
	}

	async def _active_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement active learning."""
	# Query selection
	query = await self._select_query(event.data, state, context)

	# Get feedback
	feedback = await self._get_feedback(query, context)

	# Update model
	model_update = await self._update_model_active(
	query, feedback, state, context)

	return {
	"success": True,
	"mode": LearningMode.ACTIVE.value,
	"query": query,
	"feedback": feedback,
	"model_update": model_update,
	"metrics": {
	"uncertainty": query.get("uncertainty", 0.0),
	"feedback_quality": feedback.get("quality", 0.0)
	}
	}

	async def _transfer_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement transfer learning."""
	# Source task selection
	source_task = await self._select_source_task(event.data, state, context)

	# Knowledge extraction
	knowledge = await self._extract_knowledge(source_task, context)

	# Transfer adaptation
	adaptation = await self._adapt_knowledge(
	knowledge, event.data, state, context)

	# Apply transfer
	transfer = await self._apply_transfer(adaptation, state, context)

	return {
	"success": True,
	"mode": LearningMode.TRANSFER.value,
	"source_task": source_task,
	"knowledge": knowledge,
	"adaptation": adaptation,
	"transfer": transfer,
	"metrics": {
	"transfer_efficiency": transfer.get("efficiency", 0.0),
	"adaptation_quality": adaptation.get("quality", 0.0)
	}
	}

	async def _meta_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement meta-learning."""
	# Task characterization
	task_char = await self._characterize_task(event.data, context)

	# Strategy selection
	strategy = await self._select_strategy(task_char, state, context)

	# Parameter optimization
	optimization = await self._optimize_parameters(
	strategy, task_char, state, context)

	# Apply meta-learning
	meta_update = await self._apply_meta_learning(
	optimization, state, context)

	return {
	"success": True,
	"mode": LearningMode.META.value,
	"task_characterization": task_char,
	"strategy": strategy,
	"optimization": optimization,
	"meta_update": meta_update,
	"metrics": {
	"strategy_fit": strategy.get("fit_score", 0.0),
	"optimization_improvement": optimization.get("improvement", 0.0)
	}
	}

	async def _ensemble_learning(self,
	event: LearningEvent,
	state: LearningState,
	context: Dict[str, Any]) -> Dict[str, Any]:
	"""Implement ensemble learning."""
	# Member selection
	members = await self._select_members(event.data, state, context)

	# Weight optimization
	weights = await self._optimize_weights(members, state, context)

	# Combine predictions
	combination = await self._combine_predictions(
	members, weights, event.data, context)

	return {
	"success": True,
	"mode": LearningMode.ENSEMBLE.value,
	"members": members,
	"weights": weights,
	"combination": combination,
	"metrics": {
	"ensemble_diversity": weights.get("diversity", 0.0),
	"combination_strength": combination.get("strength", 0.0)
	}
	}

	def _get_learning_state(self, strategy_type: str) -> LearningState:
	"""Get or initialize learning state for strategy."""
	if strategy_type not in self.states:
	self.states[strategy_type] = LearningState(
	mode=LearningMode.SUPERVISED,
	parameters={
	"learning_rate": self.learning_rate,
	"exploration_rate": self.exploration_rate
	},
	history=[],
	metrics={}
	)
	return self.states[strategy_type]

	def _update_learning_state(self, state: LearningState, result: Dict[str, Any]):
	"""Update learning state with result."""
	# Update history
	state.history.append(LearningEvent(
	strategy_type=result.get("strategy_type", "unknown"),
	event_type="learning_update",
	data=result,
	outcome=result.get("metrics", {}).get("accuracy", 0.0),
	timestamp=datetime.now()
	))

	# Update metrics
	for metric, value in result.get("metrics", {}).items():
	if metric in state.metrics:
	state.metrics[metric] = (
	0.9 * state.metrics[metric] + 0.1 * value # Exponential moving average
	)
	else:
	state.metrics[metric] = value

	# Adapt parameters
	self._adapt_parameters(state, result)

	def _record_performance(self, strategy_type: str, result: Dict[str, Any]):
	"""Record learning performance."""
	self.performance_history.append({
	"timestamp": datetime.now().isoformat(),
	"strategy_type": strategy_type,
	"mode": result.get("mode"),
	"metrics": result.get("metrics", {}),
	"success": result.get("success", False)
	})

	# Update strategy metrics
	for metric, value in result.get("metrics", {}).items():
	self.strategy_metrics[f"{strategy_type}_{metric}"].append(value)

	# Maintain memory size
	if len(self.performance_history) > self.memory_size:
	self.performance_history = self.performance_history[-self.memory_size:]

	def _adapt_parameters(self, state: LearningState, result: Dict[str, Any]):
	"""Adapt learning parameters based on performance."""
	# Adapt learning rate
	if "accuracy" in result.get("metrics", {}):
	accuracy = result["metrics"]["accuracy"]
	if accuracy > 0.8:
	state.parameters["learning_rate"] *= 0.95 # Decrease if performing well
	elif accuracy < 0.6:
	state.parameters["learning_rate"] *= 1.05 # Increase if performing poorly

	# Adapt exploration rate
	if "reward" in result.get("metrics", {}):
	reward = result["metrics"]["reward"]
	if reward > 0:
	state.parameters["exploration_rate"] *= 0.95 # Decrease if getting rewards
	else:
	state.parameters["exploration_rate"] *= 1.05 # Increase if not getting rewards

	# Clip parameters to reasonable ranges
	state.parameters["learning_rate"] = np.clip(
	state.parameters["learning_rate"], 0.001, 0.5)
	state.parameters["exploration_rate"] = np.clip(
	state.parameters["exploration_rate"], 0.01, 0.5)

	def get_performance_metrics(self) -> Dict[str, Any]:
	"""Get comprehensive performance metrics."""
	return {
	"learning_states": {
	strategy_type: {
	"mode": state.mode.value,
	"parameters": state.parameters,
	"metrics": state.metrics
	}
	for strategy_type, state in self.states.items()
	},
	"strategy_performance": {
	metric: {
	"mean": np.mean(values) if values else 0.0,
	"std": np.std(values) if values else 0.0,
	"min": min(values) if values else 0.0,
	"max": max(values) if values else 0.0
	}
	for metric, values in self.strategy_metrics.items()
	},
	"transfer_metrics": {
	"total_transfers": len(self.transfer_history),
	"success_rate": sum(1 for t in self.transfer_history if t.get("success", False)) / len(self.transfer_history) if self.transfer_history else 0
	}
	}

	def clear_history(self):
	"""Clear learning history and reset states."""
	self.states.clear()
	self.performance_history.clear()
	self.strategy_metrics.clear()
	self.transfer_history.clear()