Spaces:

SidorCrew
/

GigachatProj

Runtime error

han7ter commited on Jul 10

Commit

bc36b2e

1 Parent(s): d6abe64

Change dataset

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,9 +10,8 @@ from transformers import (AutoTokenizer, AutoModelForSequenceClassification,
 model_name = "cointegrated/rubert-tiny2"
 # Login using e.g. `huggingface-cli login` to access this dataset
-splits = {'train': 'data/train-00000-of-00001.parquet', 'test': 'data/test-00000-of-00001.parquet'}
-df = pd.read_parquet("hf://datasets/mteb/RuSciBenchOECDClassification/" + splits["train"])
-df = df.head(500)
 # Конвертируем датафрейм в Dataset
 train, test = train_test_split(df, test_size=0.2)
@@ -31,7 +30,7 @@ tokenized_test = test.map(tokenize_function)
 # Загружаем предобученную модель
 model = AutoModelForSequenceClassification.from_pretrained(
 	model_name,
-	num_labels=29)
 # Задаем параметры обучения
 training_args = TrainingArguments(

 model_name = "cointegrated/rubert-tiny2"
 # Login using e.g. `huggingface-cli login` to access this dataset
+splits = {'train': 'train.json', 'test': 'test.json'}
+df = pd.read_json("hf://datasets/Den4ikAI/gibberish_dataset/" + splits["train"])
 # Конвертируем датафрейм в Dataset
 train, test = train_test_split(df, test_size=0.2)
 # Загружаем предобученную модель
 model = AutoModelForSequenceClassification.from_pretrained(
 	model_name,
+	num_labels=4)
 # Задаем параметры обучения
 training_args = TrainingArguments(