adgw
/

quality_classifier_pl

Joblib

Model card Files Files and versions

xet

Community

adgw commited on Jul 10

Commit

aa2da0e

verified ·

1 Parent(s): 45d102e

fix

Browse files

Files changed (3) hide show

dummy.py +13 -27
main_jsonl.py +6 -15
main_parquet.py +7 -19

dummy.py CHANGED Viewed

@@ -13,25 +13,16 @@ Użycie:
     python interactive_classifier.py
 """
-# --- Importy bibliotek ---
-# Biblioteki standardowe
-import os
 import pickle
 import joblib
 import pandas as pd
 from text_analyzer.analyzer import TextAnalyzer
 from text_analyzer import constants
-# --- Stałe globalne ---
 MODELS_DIR = 'models'
 # --- Ładowanie modeli ---
-# Modele i analizator są ładowane globalnie tylko raz przy starcie skryptu.
-# Dzięki temu unika się wielokrotnego, kosztownego odczytu plików z dysku
-# w pętli interaktywnej, co zapewnia natychmiastową odpowiedź na zapytanie użytkownika.
 print("Ładowanie modeli i analizatora...")
 with open('models/scaler.pkl', 'rb') as f:
@@ -48,7 +39,7 @@ def classify_single_text(text_to_classify: str) -> tuple[str | None, float | Non
     używając tego samego potoku co w przetwarzaniu wsadowym.
     Potok inferencyjny:
-    1. Ekstrakcja cech lingwistycznych za pomocą TextAnalyzer.
     2. Uporządkowanie cech zgodnie z `constants.COLUMN_ORDER`.
     3. Skalowanie cech za pomocą wczytanego skalera.
     4. Predykcja prawdopodobieństw klas za pomocą modelu.
@@ -60,7 +51,7 @@ def classify_single_text(text_to_classify: str) -> tuple[str | None, float | Non
     Returns:
         tuple[str | None, float | None]: zawiera:
             - Przewidywaną kategorię ('LOW', 'MEDIUM', 'HIGH') lub None w przypadku błędu.
-            - Pewność predykcji (w procentach, 0-100) lub None w przypadku błędu.
     """
     # Krok walidacji wejścia
     if not isinstance(text_to_classify, str) or not text_to_classify.strip():
@@ -69,27 +60,24 @@ def classify_single_text(text_to_classify: str) -> tuple[str | None, float | Non
     try:
         # Krok 1: Ekstrakcja cech. Używamy `analyze_batch` z listą jednoelementową,
-        # aby zapewnić identyczne przetwarzanie jak w skrypcie masowym.
-        # `next()` pobiera pierwszy (i jedyny) wynik z generatora.
         features_dict = next(text_analyzer.analyze_batch([text_to_classify]))
-        # Krok 2: Uporządkowanie cech. To kluczowe dla spójności z modelem.
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
-        # Krok 3: Przygotowanie danych do predykcji (DataFrame z jedną próbką).
         features_df = pd.DataFrame([ordered_features], columns=constants.COLUMN_ORDER)
         input_features_scaled = scaler.transform(features_df)
         # Krok 4: Wykonanie predykcji.
-        # Używamy `predict_proba` aby uzyskać pewność (confidence score).
         y_pred_proba = classifier.predict_proba(input_features_scaled)
-        # Krok 5: Przetworzenie wyników predykcji.
-        # `y_pred_proba` ma kształt (1, 3), więc bierzemy pierwszy element `[0]`.
-        hardcoded_labels = ["LOW", "MEDIUM", "HIGH"]
         category_probabilities = {
             label: prob
-            for label, prob in zip(hardcoded_labels, y_pred_proba[0])
         }
         most_probable_category = max(category_probabilities, key=category_probabilities.get)
@@ -106,29 +94,27 @@ def classify_single_text(text_to_classify: str) -> tuple[str | None, float | Non
 # --- Główny blok wykonawczy ---
 if __name__ == '__main__':
-    # Wyświetlenie instrukcji dla użytkownika.
     print("\n--- Interaktywny Klasyfikator Jakości Tekstu ---")
     print("Wpisz tekst i naciśnij Enter, aby uzyskać klasyfikację.")
     print("Wpisz 'quit' lub 'exit', aby zakończyć.")
-    # Główna pętla interaktywna (REPL: Read-Evaluate-Print Loop).
     while True:
         try:
-            # Read: Pobierz dane wejściowe od użytkownika.
             user_input = input("\n> ")
-            # Sprawdź warunek wyjścia z pętli.
             if user_input.lower() in ['quit', 'exit']:
                 print("Zamykanie programu...")
                 break
-            # Evaluate: Przetwórz dane wejściowe.
             category, confidence = classify_single_text(user_input)
-            # Print: Wyświetl wynik, jeśli przetwarzanie zakończyło się sukcesem.
             if category is not None:
                 print(f"  └── Predykcja: {category} (Pewność: {confidence}%)")
-        except KeyboardInterrupt: # Obsługa Ctrl+C
             print("\nPrzerwano przez użytkownika. Zamykanie programu...")
             break

     python interactive_classifier.py
 """
 import pickle
 import joblib
 import pandas as pd
 from text_analyzer.analyzer import TextAnalyzer
 from text_analyzer import constants
 MODELS_DIR = 'models'
 # --- Ładowanie modeli ---
 print("Ładowanie modeli i analizatora...")
 with open('models/scaler.pkl', 'rb') as f:
     używając tego samego potoku co w przetwarzaniu wsadowym.
     Potok inferencyjny:
+    1. Ekstrakcja cech za pomocą TextAnalyzer.
     2. Uporządkowanie cech zgodnie z `constants.COLUMN_ORDER`.
     3. Skalowanie cech za pomocą wczytanego skalera.
     4. Predykcja prawdopodobieństw klas za pomocą modelu.
     Returns:
         tuple[str | None, float | None]: zawiera:
             - Przewidywaną kategorię ('LOW', 'MEDIUM', 'HIGH') lub None w przypadku błędu.
+            - Pewność predykcji (w procentach) lub None w przypadku błędu.
     """
     # Krok walidacji wejścia
     if not isinstance(text_to_classify, str) or not text_to_classify.strip():
     try:
         # Krok 1: Ekstrakcja cech. Używamy `analyze_batch` z listą jednoelementową,
+        # `next()` pobiera pierwszy (i jedyny) wynik z generatora
         features_dict = next(text_analyzer.analyze_batch([text_to_classify]))
+        # Krok 2: Uporządkowanie cech
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
+        # Krok 3: Przygotowanie danych do predykcji (DataFrame z jedną próbką)
         features_df = pd.DataFrame([ordered_features], columns=constants.COLUMN_ORDER)
         input_features_scaled = scaler.transform(features_df)
         # Krok 4: Wykonanie predykcji.
         y_pred_proba = classifier.predict_proba(input_features_scaled)
+        # Krok 5: Przetworzenie wyników predykcji
+        labels = ["LOW", "MEDIUM", "HIGH"]
         category_probabilities = {
             label: prob
+            for label, prob in zip(labels, y_pred_proba[0])
         }
         most_probable_category = max(category_probabilities, key=category_probabilities.get)
 # --- Główny blok wykonawczy ---
 if __name__ == '__main__':
     print("\n--- Interaktywny Klasyfikator Jakości Tekstu ---")
     print("Wpisz tekst i naciśnij Enter, aby uzyskać klasyfikację.")
     print("Wpisz 'quit' lub 'exit', aby zakończyć.")
+    # Główna pętla interaktywna
     while True:
         try:
+            # Read: Pobierz dane wejściowe od użytkownika
             user_input = input("\n> ")
             if user_input.lower() in ['quit', 'exit']:
                 print("Zamykanie programu...")
                 break
+            # Przetwórz dane wejściowe.
             category, confidence = classify_single_text(user_input)
+            # Wyświetl wynik
             if category is not None:
                 print(f"  └── Predykcja: {category} (Pewność: {confidence}%)")
+        except KeyboardInterrupt:
             print("\nPrzerwano przez użytkownika. Zamykanie programu...")
             break

main_jsonl.py CHANGED Viewed

@@ -22,22 +22,16 @@ from tqdm import tqdm
 from typing import List
 from text_analyzer.analyzer import TextAnalyzer
-from text_analyzer import constants # Potrzebujemy COLUMN_ORDER
 # --- Ładowanie modeli i konfiguracja ---
-# Modele są ładowane na poziomie globalnym. W systemach uniksowych (Linux/macOS)
-# dzięki mechanizmowi 'fork', procesy-dzieci dziedziczą te obiekty bez ponownego
-# odczytu z dysku. Na Windowsie ('spawn'), każdy proces-dziecko musi zaimportować
-# skrypt i załadować modele od nowa.
 with open('models/scaler.pkl', 'rb') as f:
     scaler = pickle.load(f)
 classifier = joblib.load("models/model.joblib")
 text_analyzer = TextAnalyzer()
-# Liczba procesów roboczych do wykorzystania podczas analizy tekstów wewnątrz jednego pliku.
-NUM_PROCESSES = 10
 class NumpyJSONEncoder(json.JSONEncoder):
     """
@@ -61,9 +55,8 @@ def predict_batch(texts: List[str], analyzer: TextAnalyzer, scaler_model, classi
     """
     all_features = []
-    # Krok 1: Ekstrakcja cech dla wszystkich tekstów za jednym zamachem
-    # Używamy tqdm, aby śledzić postęp analizy wsadowej
-    feature_generator = analyzer.analyze_batch(texts, batch_size=NUM_PROCESSES) # Dostosuj batch_size
     for features_dict in tqdm(feature_generator, total=len(texts), desc="Analiza cech"):
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
         all_features.append(ordered_features)
@@ -80,16 +73,14 @@ def predict_batch(texts: List[str], analyzer: TextAnalyzer, scaler_model, classi
     # Krok 4: Przetworzenie wyników
     results = []
-    hardcoded_labels = ["LOW", "MEDIUM", "HIGH"]
     for single_pred_proba in pred_probas:
         category_prob = {
             label: prob
-            for label, prob in zip(hardcoded_labels, single_pred_proba)
         }
         # Sortujemy, aby znaleźć kategorię z najwyższym prawdopodobieństwem
         sorted_category_prob = sorted(category_prob.items(), key=lambda item: item[1], reverse=True)
-        # Pobieramy nazwę i wartość
         most_probable_category, confidence = sorted_category_prob[0]
         results.append((most_probable_category, round(float(confidence) * 100, 2)))

 from typing import List
 from text_analyzer.analyzer import TextAnalyzer
+from text_analyzer import constants
 # --- Ładowanie modeli i konfiguracja ---
 with open('models/scaler.pkl', 'rb') as f:
     scaler = pickle.load(f)
 classifier = joblib.load("models/model.joblib")
 text_analyzer = TextAnalyzer()
+batch_size = 10
 class NumpyJSONEncoder(json.JSONEncoder):
     """
     """
     all_features = []
+    # Krok 1: Ekstrakcja cech dla wszystkich tekstów
+    feature_generator = analyzer.analyze_batch(texts, batch_size=batch_size)
     for features_dict in tqdm(feature_generator, total=len(texts), desc="Analiza cech"):
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
         all_features.append(ordered_features)
     # Krok 4: Przetworzenie wyników
     results = []
+    labels = ["LOW", "MEDIUM", "HIGH"]
     for single_pred_proba in pred_probas:
         category_prob = {
             label: prob
+            for label, prob in zip(labels, single_pred_proba)
         }
         # Sortujemy, aby znaleźć kategorię z najwyższym prawdopodobieństwem
         sorted_category_prob = sorted(category_prob.items(), key=lambda item: item[1], reverse=True)
         most_probable_category, confidence = sorted_category_prob[0]
         results.append((most_probable_category, round(float(confidence) * 100, 2)))

main_parquet.py CHANGED Viewed

@@ -9,7 +9,6 @@ wyniki do nowego pliku w folderze wyjściowym, zachowując oryginalną struktur
 danych i dodając wyniki klasyfikacji.
 """
-# --- Importy bibliotek ---
 import os
 import glob
 import time
@@ -22,22 +21,16 @@ from tqdm import tqdm
 from typing import List
 from text_analyzer.analyzer import TextAnalyzer
-from text_analyzer import constants # Potrzebujemy COLUMN_ORDER
 # --- Ładowanie modeli i konfiguracja ---
-# Modele są ładowane na poziomie globalnym. W systemach uniksowych (Linux/macOS)
-# dzięki mechanizmowi 'fork', procesy-dzieci dziedziczą te obiekty bez ponownego
-# odczytu z dysku. Na Windowsie ('spawn'), każdy proces-dziecko musi zaimportować
-# skrypt i załadować modele od nowa.
 with open('models/scaler.pkl', 'rb') as f:
     scaler = pickle.load(f)
 classifier = joblib.load("models/model.joblib")
 text_analyzer = TextAnalyzer()
-# Liczba procesów roboczych do wykorzystania podczas analizy tekstów wewnątrz jednego pliku.
-NUM_PROCESSES = 10
 class NumpyJSONEncoder(json.JSONEncoder):
     """
@@ -61,9 +54,8 @@ def predict_batch(texts: List[str], analyzer: TextAnalyzer, scaler_model, classi
     """
     all_features = []
-    # Krok 1: Ekstrakcja cech dla wszystkich tekstów za jednym zamachem
-    # Używamy tqdm, aby śledzić postęp analizy wsadowej
-    feature_generator = analyzer.analyze_batch(texts, batch_size=NUM_PROCESSES) # Dostosuj batch_size
     for features_dict in tqdm(feature_generator, total=len(texts), desc="Analiza cech"):
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
         all_features.append(ordered_features)
@@ -80,16 +72,14 @@ def predict_batch(texts: List[str], analyzer: TextAnalyzer, scaler_model, classi
     # Krok 4: Przetworzenie wyników
     results = []
-    hardcoded_labels = ["LOW", "MEDIUM", "HIGH"]
     for single_pred_proba in pred_probas:
         category_prob = {
             label: prob
-            for label, prob in zip(hardcoded_labels, single_pred_proba)
         }
         # Sortujemy, aby znaleźć kategorię z najwyższym prawdopodobieństwem
         sorted_category_prob = sorted(category_prob.items(), key=lambda item: item[1], reverse=True)
-        # Pobieramy nazwę i wartość
         most_probable_category, confidence = sorted_category_prob[0]
         results.append((most_probable_category, round(float(confidence) * 100, 2)))
@@ -119,11 +109,10 @@ def process_parquet_file(input_file: str, output_file: str):
     print(f"Wczytano {len(texts_to_process)} wierszy. Rozpoczynam przetwarzanie wsadowe...")
     # Krok 3: Wywołaj funkcję wsadową (ta część pozostaje bez zmian)
-    # Zakładamy, że predict_batch zwraca listę krotek: [(kategoria, pewność), ...]
     results = predict_batch(texts_to_process, text_analyzer, scaler, classifier)
     # Krok 4: Dodaj wyniki jako nowe kolumny do ramki danych
-    # "Rozpakowujemy" listę krotek na dwie oddzielne listy
     categories = [res[0] for res in results]
     confidences = [res[1] for res in results]
@@ -132,7 +121,6 @@ def process_parquet_file(input_file: str, output_file: str):
     # Krok 5: Zapisz zmodyfikowaną ramkę danych do nowego pliku Parquet
     try:
-        # index=False zapobiega zapisaniu indeksu pandas jako kolumny w pliku
         df.to_parquet(output_file, index=False)
         print(df.head(10))
         print(f"Pomyślnie zapisano przetworzone dane do pliku {output_file}")

 danych i dodając wyniki klasyfikacji.
 """
 import os
 import glob
 import time
 from typing import List
 from text_analyzer.analyzer import TextAnalyzer
+from text_analyzer import constants
 # --- Ładowanie modeli i konfiguracja ---
 with open('models/scaler.pkl', 'rb') as f:
     scaler = pickle.load(f)
 classifier = joblib.load("models/model.joblib")
 text_analyzer = TextAnalyzer()
+batch_size = 10
 class NumpyJSONEncoder(json.JSONEncoder):
     """
     """
     all_features = []
+    # Krok 1: Ekstrakcja cech dla wszystkich tekstów
+    feature_generator = analyzer.analyze_batch(texts, batch_size=batch_size)
     for features_dict in tqdm(feature_generator, total=len(texts), desc="Analiza cech"):
         ordered_features = [features_dict.get(fname, 0.0) for fname in constants.COLUMN_ORDER]
         all_features.append(ordered_features)
     # Krok 4: Przetworzenie wyników
     results = []
+    labels = ["LOW", "MEDIUM", "HIGH"]
     for single_pred_proba in pred_probas:
         category_prob = {
             label: prob
+            for label, prob in zip(labels, single_pred_proba)
         }
         # Sortujemy, aby znaleźć kategorię z najwyższym prawdopodobieństwem
         sorted_category_prob = sorted(category_prob.items(), key=lambda item: item[1], reverse=True)
         most_probable_category, confidence = sorted_category_prob[0]
         results.append((most_probable_category, round(float(confidence) * 100, 2)))
     print(f"Wczytano {len(texts_to_process)} wierszy. Rozpoczynam przetwarzanie wsadowe...")
     # Krok 3: Wywołaj funkcję wsadową (ta część pozostaje bez zmian)
+    # Zakładamy, że predict_batch zwraca listę tuple: [(kategoria, pewność), ...]
     results = predict_batch(texts_to_process, text_analyzer, scaler, classifier)
     # Krok 4: Dodaj wyniki jako nowe kolumny do ramki danych
     categories = [res[0] for res in results]
     confidences = [res[1] for res in results]
     # Krok 5: Zapisz zmodyfikowaną ramkę danych do nowego pliku Parquet
     try:
         df.to_parquet(output_file, index=False)
         print(df.head(10))
         print(f"Pomyślnie zapisano przetworzone dane do pliku {output_file}")