#! /usr/bin/python3 src="Goader/liberta-large-v2" tgt="KoichiYasuoka/bert-large-ukrainian-ud-goeswith" url="https://github.com/UniversalDependencies/UD_Ukrainian-" import os for e in ["IU","ParlaMint"]: u=url+e d=os.path.basename(u) os.system("test -d "+d+" || git clone --depth=1 "+u) os.system("for F in train dev test ; do cat UD_Ukrainian-*/*-$F.conllu > $F.conllu ; done") class UDgoeswithDataset(object): def __init__(self,conllu,tokenizer): self.ids,self.tags,label=[],[],set() with open(conllu,"r",encoding="utf-8") as r: cls,sep,msk=tokenizer.cls_token_id,tokenizer.sep_token_id,tokenizer.mask_token_id dep,c,m="-|_|dep",[],False for s in r: t=s.split("\t") if len(t)==10: if t[0].isdecimal(): i=int(t[0]) if m: t[1]=" "+t[1] c.append(t) m=t[9].find("SpaceAfter=No")<0 elif c!=[]: v=tokenizer([t[1] for t in c],add_special_tokens=False)["input_ids"] for i in range(len(v)-1,-1,-1): for j in range(1,len(v[i])): c.insert(i+1,[c[i][0],"_","_","X","_","_",c[i][0],"goeswith","_","_"]) y=["0"]+[t[0] for t in c] h=[i if t[6]=="0" else y.index(t[6]) for i,t in enumerate(c,1)] p,v=[t[3]+"|"+t[5]+"|"+t[7] for t in c],sum(v,[]) if len(v)",eos_token="",add_bos_token=True,add_eos_token=True,add_prefix_space=False) trainDS=UDgoeswithDataset("train.conllu",tkz) devDS=UDgoeswithDataset("dev.conllu",tkz) testDS=UDgoeswithDataset("test.conllu",tkz) lid=trainDS(devDS,testDS) cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()}) arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=8,output_dir=tgt,overwrite_output_dir=True,save_total_limit=2,eval_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1,save_safetensors=False) trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg),train_dataset=trainDS,eval_dataset=devDS) trn.train() trn.save_model(tgt) tkz.save_pretrained(tgt)