Spaces:

maaroufabousaleh
/

advisorai-data-enhanced

Sleeping

advisorai-data-enhanced / src /merge /full_report.py

Maaroufabousaleh

c49b21b about 1 month ago

15.8 kB

	"""
	Unified report generator for merged features - generates all 3 reports with automatic column discovery.
	Supports merged, crypto, and stocks feature files with dynamic schema detection.

	Usage:
	# Generate all 3 reports
	python unified_report_generator.py --generate-all

	# Generate specific reports
	python unified_report_generator.py --merged-input data/merged/features/merged_features.parquet
	python unified_report_generator.py --crypto-input data/merged/features/crypto_features.parquet
	python unified_report_generator.py --stocks-input data/merged/features/stocks_features.parquet

	# Custom paths
	python unified_report_generator.py \
	--merged-input path/to/merged.parquet \
	--crypto-input path/to/crypto.parquet \
	--stocks-input path/to/stocks.parquet \
	--output-dir reports/ \
	--baseline-schema schemas/baseline.json
	"""

	import argparse
	import pandas as pd
	import json
	import os
	from datetime import datetime
	from typing import Dict, List, Set, Optional
	from pathlib import Path

	def categorize_column_by_name(col_name: str) -> str:
	"""Automatically categorize columns based on naming patterns."""
	col_lower = col_name.lower()

	# Exchange-related
	if col_name.startswith(('symbols.', 'exchangePrices.')):
	return "Exchange Data"

	# Performance metrics
	if col_name.startswith(('performance.', 'rankDiffs.')):
	return "Performance Metrics"

	# Technical indicators
	if col_lower in ['rsi', 'macd', 'macd_signal', 'macd_histogram', 'atr', 'bb_width',
	'bb_position', 'stoch_k', 'stoch_d', 'cci', 'mfi'] or col_name.startswith('roc_'):
	return "Technical Indicators"

	# Price-related
	if any(word in col_lower for word in ['price', 'open', 'volume', 'marketcap', 'volatility']):
	return "Price & Volume"

	# On-chain/blockchain
	if any(word in col_lower for word in ['transaction', 'gas', 'fees', 'tx_', 'blockchain']):
	return "On-chain Features"

	# Sentiment
	if any(word in col_lower for word in ['sentiment', 'social', 'confidence']):
	return "Sentiment Features"

	# Temporal
	if any(word in col_lower for word in ['timestamp', 'hour', 'day', 'weekend', 'trading_hours']):
	return "Temporal Features"

	# Completeness metrics
	if 'completeness' in col_lower or 'data_quality' in col_lower:
	return "Data Quality Metrics"

	# Market/Exchange info
	if col_lower in ['dominance', 'rank', 'stable', 'cg_id']:
	return "Market Metrics"

	# Flags
	if col_name.startswith('is_') or col_lower in ['stable']:
	return "Asset Flags"

	# Metadata
	if col_name.startswith('_') or col_lower in ['backup_id', 'stock_market', 'blockchain_network']:
	return "Metadata"

	# Links
	if col_name.startswith('links.'):
	return "External Links"

	# Interaction features
	if any(word in col_lower for word in ['correlation', 'convergence', 'alignment', 'trend']):
	return "Interaction Features"

	# Default for unknown
	return "Other Features"

	def load_baseline_schema(baseline_path: str) -> Set[str]:
	"""Load baseline schema if it exists."""
	if os.path.exists(baseline_path):
	try:
	with open(baseline_path, 'r') as f:
	baseline = json.load(f)
	return set(baseline.get('columns', []))
	except (json.JSONDecodeError, KeyError):
	print(f"Warning: Could not load baseline schema from {baseline_path}")
	return set()

	def save_baseline_schema(columns: List[str], baseline_path: str):
	"""Save current columns as baseline schema."""
	os.makedirs(os.path.dirname(baseline_path), exist_ok=True)
	schema = {
	"generated_at": datetime.utcnow().isoformat() + "Z",
	"total_columns": len(columns),
	"columns": sorted(columns)
	}
	with open(baseline_path, 'w') as f:
	json.dump(schema, f, indent=2)

	def detect_asset_type(df: pd.DataFrame, all_columns: List[str]) -> str:
	"""Detect asset type based on column patterns."""
	if any(col.startswith('symbols.') for col in all_columns):
	return "crypto"
	elif "stock_market" in all_columns:
	return "stocks"
	elif "is_crypto" in all_columns and "is_stock" in all_columns:
	return "mixed"
	else:
	return "unknown"

	def get_asset_specific_stats(df: pd.DataFrame, asset_type: str, all_columns: List[str]) -> Dict:
	"""Get asset-specific statistics."""
	stats = {"asset_type": asset_type}

	if asset_type == "crypto":
	# Crypto-specific stats
	if "stable" in df.columns:
	stats["stable_coins_count"] = int(df["stable"].sum())

	if "cg_id" in df.columns or "symbol" in df.columns:
	symbol_col = "symbol" if "symbol" in df.columns else "cg_id"
	stats["unique_crypto_assets"] = df[symbol_col].nunique()

	# Exchange coverage
	exchange_columns = [col for col in all_columns if col.startswith(("symbols.", "exchangePrices."))]
	if exchange_columns:
	exchange_coverage = {}
	for col in exchange_columns[:10]: # Limit to avoid huge reports
	coverage = (df[col].notna().sum() / len(df)) * 100
	exchange_coverage[col] = round(coverage, 2)
	stats["exchange_coverage"] = exchange_coverage

	elif asset_type == "stocks":
	# Stock-specific stats
	if "symbol" in df.columns:
	stats["unique_stock_symbols"] = df["symbol"].nunique()

	if "stock_market" in df.columns:
	stats["stock_market_distribution"] = df["stock_market"].value_counts().to_dict()

	if "is_trading_hours" in df.columns:
	trading_hours_pct = (df["is_trading_hours"].sum() / len(df)) * 100
	stats["trading_hours_coverage_pct"] = round(trading_hours_pct, 2)

	elif asset_type == "mixed":
	# Mixed dataset stats
	if "is_crypto" in df.columns:
	stats["crypto_records"] = int(df["is_crypto"].sum())
	if "is_stock" in df.columns:
	stats["stock_records"] = int(df["is_stock"].sum())
	if "symbol" in df.columns:
	stats["total_unique_symbols"] = df["symbol"].nunique()

	return stats

	def generate_report(input_path: str, output_path: str, baseline_schema_path: Optional[str] = None, report_type: str = "auto") -> bool:
	"""Generate a feature report for any dataset type."""

	# Check if input file exists
	if not os.path.exists(input_path):
	print(f"Warning: Input file not found: {input_path}")
	return False

	try:
	# Load the dataset
	df = pd.read_parquet(input_path)
	all_columns = list(df.columns)

	print(f"Processing {input_path}...")
	print(f" - Shape: {df.shape}")
	print(f" - Columns: {len(all_columns)}")

	# Load baseline schema for comparison
	baseline_columns = set()
	if baseline_schema_path:
	baseline_columns = load_baseline_schema(baseline_schema_path)

	# Identify new columns
	current_columns = set(all_columns)
	new_columns = current_columns - baseline_columns if baseline_columns else set()

	# Auto-categorize all columns
	categories = {}
	new_features_by_category = {}

	for col in all_columns:
	category = categorize_column_by_name(col)

	if category not in categories:
	categories[category] = {"count": 0, "features": []}
	new_features_by_category[category] = []

	categories[category]["features"].append(col)
	categories[category]["count"] += 1

	# Track if it's a new feature
	if col in new_columns:
	new_features_by_category[category].append(col)

	# Clean up empty new feature lists
	new_features_by_category = {k: v for k, v in new_features_by_category.items() if v}

	# Basic dataset stats
	ts_col = df["interval_timestamp"] if "interval_timestamp" in df.columns else df.iloc[:, 0]
	if pd.api.types.is_datetime64_any_dtype(ts_col):
	start_ts = int(ts_col.min().timestamp() * 1000)
	end_ts = int(ts_col.max().timestamp() * 1000)
	else:
	start_ts = int(ts_col.min())
	end_ts = int(ts_col.max())

	memory_mb = df.memory_usage(deep=True).sum() / 1024**2

	# Data quality
	missing = df.isna().sum().to_dict()
	total_cells = df.size
	non_missing = int(df.notna().sum().sum())
	completeness_pct = (non_missing / total_cells) * 100
	avg_dq_score = df.get("data_quality_score", pd.Series(dtype=float)).mean()

	# Detect asset type and get specific stats
	asset_type = detect_asset_type(df, all_columns)
	asset_stats = get_asset_specific_stats(df, asset_type, all_columns)

	# Build the report
	report = {
	"generated_at_utc": datetime.utcnow().isoformat() + "Z",
	"report_type": report_type,
	"schema_version": "unified_v1.0",
	"source_file": os.path.basename(input_path),
	"dataset_info": {
	"shape": list(df.shape),
	"memory_usage_mb": round(memory_mb, 2),
	"time_range": {"start": start_ts, "end": end_ts},
	"total_columns": len(all_columns),
	"total_categories": len(categories),
	"new_columns_count": len(new_columns),
	**asset_stats
	},
	"feature_categories": categories,
	"data_quality": {
	"overall_completeness_pct": round(completeness_pct, 2),
	"missing_values_by_column": missing,
	"average_data_quality_score": None if pd.isna(avg_dq_score) else round(avg_dq_score, 4)
	}
	}

	# Add new features section if any exist
	if new_columns:
	report["new_features"] = {
	"total_new_features": len(new_columns),
	"new_features_by_category": new_features_by_category,
	"all_new_features": sorted(list(new_columns))
	}

	# Add baseline comparison if available
	if baseline_columns:
	removed_columns = baseline_columns - current_columns
	if removed_columns:
	report["removed_features"] = sorted(list(removed_columns))

	# Ensure output directory exists
	os.makedirs(os.path.dirname(output_path), exist_ok=True)

	# Write report
	with open(output_path, "w") as f:
	json.dump(report, f, indent=2)

	print(f" Report generated: {output_path}")
	print(f" - {len(categories)} categories")
	if new_columns:
	print(f" - {len(new_columns)} new features detected")

	return True

	except Exception as e:
	print(f" Error processing {input_path}: {str(e)}")
	return False

	def main():
	parser = argparse.ArgumentParser(description=__doc__)

	# Input files
	parser.add_argument("--merged-input", default="data/merged/features/merged_features.parquet", help="Path to merged_features.parquet")
	parser.add_argument("--crypto-input", default="data/merged/features/crypto_features.parquet", help="Path to crypto_features.parquet")
	parser.add_argument("--stocks-input", default="data/merged/features/stocks_features.parquet", help="Path to stocks_features.parquet")

	# Output settings
	parser.add_argument("--output-dir", default="data/merged/features/", help="Output directory for reports")
	parser.add_argument("--baseline-schema", default="schemas/baseline.json", help="Path to baseline schema JSON")

	# Convenience flags
	parser.add_argument("--generate-all", action="store_true", help="Generate all reports using default paths")

	args = parser.parse_args()

	# Default paths for --generate-all
	if args.generate_all:
	default_paths = {
	"merged": "data/merged/features/merged_features.parquet",
	"crypto": "data/merged/features/crypto_features.parquet",
	"stocks": "data/merged/features/stocks_features.parquet"
	}

	print("Generating all feature reports...")
	success_count = 0

	for report_type, input_path in default_paths.items():
	output_dir = args.output_dir if args.output_dir else "data/merged/features/"
	output_path = os.path.join(output_dir, f"{report_type}_report.json")
	baseline_path = args.baseline_schema if args.baseline_schema else f"schemas/{report_type}_baseline.json"

	if generate_report(input_path, output_path, baseline_path, report_type):
	success_count += 1

	print(f"\nGenerated {success_count}/3 reports successfully!")

	# Update baseline schema with merged features if it exists
	if args.baseline_schema and os.path.exists(default_paths["merged"]):
	df = pd.read_parquet(default_paths["merged"])
	save_baseline_schema(list(df.columns), args.baseline_schema)
	print(f"Updated baseline schema: {args.baseline_schema}")

	return

	# Individual file processing
	reports_generated = 0

	if args.merged_input:
	output_dir = args.output_dir if args.output_dir else "data/merged/features/"
	output_path = os.path.join(output_dir, "merged_report.json")
	if generate_report(args.merged_input, output_path, args.baseline_schema, "merged"):
	reports_generated += 1

	if args.crypto_input:
	output_dir = args.output_dir if args.output_dir else "data/merged/features/"
	output_path = os.path.join(output_dir, "crypto_report.json")
	if generate_report(args.crypto_input, output_path, args.baseline_schema, "crypto"):
	reports_generated += 1
	# Print crypto count and data quality
	try:
	with open(output_path, "r") as f:
	report = json.load(f)
	count = report.get("dataset_info", {}).get("shape", [None])[0]
	dq = report.get("data_quality", {}).get("overall_completeness_pct", None)
	print(f"[CRYPTO] Count: {count}, Data Quality: {dq}%")
	except Exception as e:
	print(f"[CRYPTO] Error reading report for stats: {e}")

	if args.stocks_input:
	output_dir = args.output_dir if args.output_dir else "data/merged/features/"
	output_path = os.path.join(output_dir, "stocks_report.json")
	if generate_report(args.stocks_input, output_path, args.baseline_schema, "stocks"):
	reports_generated += 1
	# Print stocks count and data quality
	try:
	with open(output_path, "r") as f:
	report = json.load(f)
	count = report.get("dataset_info", {}).get("shape", [None])[0]
	dq = report.get("data_quality", {}).get("overall_completeness_pct", None)
	print(f"[STOCKS] Count: {count}, Data Quality: {dq}%")
	except Exception as e:
	print(f"[STOCKS] Error reading report for stats: {e}")

	if reports_generated == 0:
	print("No input files specified. Use --generate-all or specify input files.")
	parser.print_help()
	else:
	print(f"\nGenerated {reports_generated} report(s) successfully!")

	if __name__ == "__main__":
	main()