### **Data Preprocessing**


In [1]:
%%capture
!pip install datasets
!pip install transformers
!pip install starcc
!pip install sacrebleu

In [1]:
from collections import defaultdict
from random import randint, choice
import math

typo_table = defaultdict(list)

with open("typos.txt", "r") as typos_file:
    for line in typos_file.read().splitlines():
        [correct, typo] = line.split("\t")
        typo_table[correct].append(typo)

def insert_typos(s: str) -> str:
    max_num_typos = randint(1, max(math.ceil(len(s) * 0.05), 1))
    num_typos = 0
    corrects = list(typo_table.keys())
    while num_typos < max_num_typos and len(corrects) > 0:
        correct = choice(corrects)
        corrects.remove(correct)
        typo = choice(typo_table[correct])
        if s.count(correct) > 0:
            num_typos += 1
        s = s.replace(correct, typo)
    return s

insert_typos("唔該你細聲啲，我喺度做緊嘢，使唔使講呢啲嘢。")

'唔該你細聲d，我喺度做緊嘢，洗唔洗講呢d嘢。'

In [2]:
import json
from StarCC import PresetConversion
convert = PresetConversion(src='cn', dst='hk', with_phrase=False)

with open("train/botisan.json", "r") as botisan_file, open("train/tatoeba.tsv", "r") as tatoeba_file, open("train/train.can", "w+") as can_file, open("train/train.man", "w+") as man_file:
    for line in botisan_file.readlines():
        translation = json.loads(line)["translation"]
        can_file.write(translation["yue"] + "\n")
        man_file.write(convert(translation["zh"]) + "\n")
        can_file.write(insert_typos(translation["yue"]) + "\n")
        man_file.write(convert(translation["zh"]) + "\n")
    
    for line in tatoeba_file.read().splitlines():
        [_, can, _, man] = line.split("\t")
        can_file.write(can + "\n")
        man_file.write(convert(man) + "\n")
        can_file.write(insert_typos(can) + "\n")
        man_file.write(convert(man) + "\n")


Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/kk/n4ff6h1n3t170b1m4zv09yf40000gn/T/jieba.cache
Loading model cost 0.339 seconds.
Prefix dict has been built successfully.


In [3]:
from os import listdir
from os.path import isfile, join
man_dir = "train/man/"
can_dir = "train/can/"
man_paths = [f for f in listdir(man_dir) if isfile(join(man_dir, f)) and f != ".DS_Store"]
with open("train/train.can", "a+") as can_train_file, open("train/train.man", "a+") as man_train_file:
    for man_path in man_paths:
        with open(man_dir + man_path, "r") as man_file:
            name = man_path[len("man-"):-len(".txt")]
            can_path = "can-" + name + ".txt"
            with open(can_dir + can_path, "r") as can_file:
                for man_line, can_line in zip(man_file.readlines(), can_file.readlines()):
                    can_train_file.write(can_line.replace(" ", ""))
                    man_train_file.write(man_line.replace(" ", ""))
                    if name == "novels":
                        can_train_file.write(insert_typos(can_line.replace(" ", "")))
                        man_train_file.write(insert_typos(man_line.replace(" ", "")))

In [4]:
from datasets import Dataset

train_data = None
val_data = None
test_data = None

with open("train/train.can", "r") as can_file, open("train/train.man", "r") as man_file:
    train_data = Dataset.from_dict({"can": can_file.read().splitlines(), "man": man_file.read().splitlines()}).shuffle(seed=42).flatten_indices()
    print(f"Loaded training data.")
    print(f"First line: {train_data[0]}")

with open("para/dev/dev.can", "r") as can_file, open("para/dev/dev.man", "r") as man_file:
    val_data = Dataset.from_dict({"can": can_file.read().splitlines(), "man": man_file.read().splitlines()})
    print(f"Loaded validation data.")
    print(f"First line: {val_data[0]}")

with open("para/test/test.can", "r") as can_file, open("para/test/test.man", "r") as man_file:
    test_data = Dataset.from_dict({"can": can_file.read().splitlines(), "man": man_file.read().splitlines()})
    print(f"Loaded test data.")
    print(f"First line: {test_data[0]}")


Flattening the indices:   0%|          | 0/135792 [00:00<?, ? examples/s]

Loaded training data.
First line: {'can': '高溫、出汗及疲乏均會增加身體的負荷', 'man': '高温、出汗及疲乏均會增加身體的負荷'}
Loaded validation data.
First line: {'can': '啲咁耐就攪掂嘞，真係掯', 'man': '他一會兒工夫就弄好了，真神'}
Loaded test data.
First line: {'can': '筷子放喺你嘅右便', 'man': '筷子放在你的右邊'}


In [5]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('Ayaka/bart-base-cantonese')
tokenizer.bos_token = tokenizer.cls_token
tokenizer.eos_token = tokenizer.sep_token

In [6]:
batch_size=32  # change to 16 for full training
encoder_max_length=128
decoder_max_length=128

def process_data_to_model_inputs(batch):
  # tokenize the inputs and labels
  inputs = tokenizer(batch["can"], padding="max_length", truncation=True, max_length=encoder_max_length)
  outputs = tokenizer(batch["man"], padding="max_length", truncation=True, max_length=decoder_max_length)

  batch["input_ids"] = inputs.input_ids
#   batch["attention_mask"] = inputs.attention_mask
#   batch["decoder_input_ids"] = outputs.input_ids
#   batch["decoder_attention_mask"] = outputs.attention_mask
  batch["labels"] = outputs.input_ids.copy()

  # because BERT automatically shifts the labels, the labels correspond exactly to `decoder_input_ids`. 
  # We have to make sure that the PAD token is ignored
  batch["labels"] = [[-100 if token == tokenizer.pad_token_id else token for token in labels] for labels in batch["labels"]]

  return batch

# only use 32 training examples for notebook - DELETE LINE FOR FULL TRAINING
# train_data = train_data.select(range(32))

train_data = train_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size,
)
train_data.set_format(
    # type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
    type="torch", columns=["input_ids", "labels"],
)


# only use 16 training examples for notebook - DELETE LINE FOR FULL TRAINING
# val_data = val_data.select(range(16))

val_data = val_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size,
)
val_data.set_format(
    # type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
    type="torch", columns=["input_ids", "labels"],
)

Map:   0%|          | 0/135792 [00:00<?, ? examples/s]

Map:   0%|          | 0/6502 [00:00<?, ? examples/s]

### **Warm-starting the Encoder-Decoder Model**

In [7]:
# from transformers import EncoderDecoderModel
from transformers import BartForConditionalGeneration

bart = BartForConditionalGeneration.from_pretrained('Ayaka/bart-base-cantonese')
# bart = EncoderDecoderModel.from_encoder_decoder_pretrained("Ayaka/bart-base-cantonese", "Ayaka/bart-base-cantonese")

In [9]:
# set special tokens
bart.config.decoder_start_token_id = tokenizer.bos_token_id
bart.config.eos_token_id = tokenizer.eos_token_id
bart.config.pad_token_id = tokenizer.pad_token_id

# sensible parameters for beam search
# bart.config.vocab_size = bart.config.decoder.vocab_size
bart.config.max_length = 128
bart.config.min_length = 3
# bart.config.no_repeat_ngram_size = 3
bart.config.early_stopping = True
# bart.config.length_penalty = 2.0
bart.config.num_beams = 4

### **Fine-Tuning Warm-Started Encoder-Decoder Models**

In [10]:
import sacrebleu

def compute_metrics(pred):
    # print("Start compute_metrics")
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    # all unnecessary tokens are removed
    pred_str = [s.replace(" ", "") for s in tokenizer.batch_decode(pred_ids, skip_special_tokens=True)]
    print("Predicted:", pred_str)
    labels_ids[labels_ids == -100] = tokenizer.pad_token_id
    label_str = [s.replace(" ", "") for s in tokenizer.batch_decode(labels_ids, skip_special_tokens=True)]
    print("Target:", label_str)

    # bleu_score = bleu.compute(predictions=pred_str, references=label_str, tokenizer=char_tokenizer)["bleu"]
    # chrf_score = chrf.compute(predictions=pred_str, references=label_str)["score"]

    bleu = sacrebleu.BLEU(trg_lang="zh")
    bleu_score = bleu.corpus_score(pred_str, [label_str]).score

    chrf = sacrebleu.CHRF()
    chrf_score = chrf.corpus_score(pred_str, [label_str]).score

    return {
        "bleu": bleu_score,
        "chrf": chrf_score,
    }

In [11]:
# Test CharBLEU
predictions = ['我啲咁耐就攪掂嘞，真係掯', '你幾時得嚟吖']
references = ['我啲咁耐就攪掂嘞，真係掯', '你幾時得嚟吖']

bleu = sacrebleu.BLEU(trg_lang="zh")
bleu_score = bleu.corpus_score(predictions, [references]).score
assert bleu_score - 100 <= 1e-9

Cool! Finally, we start training.

In [13]:
from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments

import warnings
warnings.filterwarnings('ignore')

# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
    output_dir="./",
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    predict_with_generate=True,
    use_mps_device=True,
    do_train=True,
    evaluation_strategy="steps",
    do_eval=True,
    logging_steps=200,  # set to 1000 for full training
    save_steps=1000,  # set to 500 for full training
    eval_steps=1000,  # set to 8000 for full training
    warmup_steps=2000,  # set to 2000 for full training
    # max_steps=10, # delete for full training
    overwrite_output_dir=True,
    save_total_limit=8,
    fp16=False,
)

# instantiate trainer
trainer = Seq2SeqTrainer(
    model=bart,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_data,
    eval_dataset=val_data.select(range(batch_size * 50)),
)
trainer.train()

  0%|          | 0/12732 [00:00<?, ?it/s]

{'loss': 0.8357, 'learning_rate': 5e-06, 'epoch': 0.05}
{'loss': 0.6021, 'learning_rate': 1e-05, 'epoch': 0.09}
{'loss': 0.216, 'learning_rate': 1.5e-05, 'epoch': 0.14}
{'loss': 0.1557, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.1325, 'learning_rate': 2.5e-05, 'epoch': 0.24}


  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這一一一就一這一一一這一就一一就就就一早就就這就就搞就一遲就就遲就一搞就這，這這這就這這一久就這一樣，就這麼這這麼久就一久了一久，這一些那那久就就些那一久久了這久就遲了這些那久久就搞一久一久這些久就久就熬了一些久了就一些這些就一次就一', '我', '爸爸爸他爸爸一眼', '說話好似雞啄般', '我了錢', '使錢錢錢錢畀佢', '錢你', '帽', '有', '！！', '一，，，沒有幾何啫', '他', '他', '你講過的了，是咪先', '讀歪就是普通話嘞', '順？？', '看戲', '我', '我', '我叫你選他做班長', '他', '你你你好叻呀！', '黃黃去', '我我我我搶我我一我我三粒糖', '做課課', '我錢', '張枱抹', '你借五毫你，你連句多謝都沒', '啲衫洗', '你寫字你不要在裏喐喐', '信信媽媽', '敵敵人', '我我我', '我賺咗我五蚊', '我', '還你五，遲還給你，', '伙伙伙還欠伙伙三個月人工', '勸他不要哭！', '逼我做這的事！', '這一你你你這一一一做一一你你一樣做，一一辛辛苦苦苦辛苦的苦苦！你一苦苦你苦苦，你你的苦辛辛一苦，苦苦是苦苦', '嗰啲嘢出嚟', '！！！', '你吃', '筷', '你', '生', '生樣', '八八十八八八點仍未有人嚟', '命命命', '事', '生你', '你一事', '？？？', '都想要', '教', '衫', '', '他', '我教這一科十年', '書', '你你你', '我幫他太搵師傅教車', '一邊唞氣', '啤好', '去不？', '戲', '？', '這', '他個樣幾得敕', '沒玩', '叫？', '你在攪，人們都冇辦法休息', '？？？', '在出便', '？嗎？？？', '他這個人，事零多多', '他', '我不這他，一是有錯怎人原說如下她你話沒嘛明誰那應上姐問無實任何到子差當本也得自現都對', '作，好人都有限，', '呢？', '你', '大仔大仔喇', '買嘢好醃的', '以為那著著', '生他', '醃尖', '痛痛就睇醫醫', '！', '題', '人人，做什都不行，做事都不得', '嘛', '？？？', '人', '啲功做完', '張椅有啲喐', '都來喇，仲傾咩偈呀？', '你好叻', '個你',

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這這這久那這那這那耐長一多般拖遲麼些早年成都快搞人點等拿差忙次難慢日辦整花輩放兒樣燒用下有', '時得來吖', '爸爸爸他爸爸爸媽爸爸我爸爸一爸爸看爸爸望爸爸眼爸爸他爸媽他爸他媽爸媽媽爸他他爸我媽爸眼他爸看他爸眼我爸媽我爸眼眼爸媽眼爸他眼爸看我爸他我爸看眼爸眼媽爸我他爸', '他鬼，講話好似雞啄不斷噉', '騙騙我好多錢', '錢錢給他錢錢錢他錢用錢錢買錢錢', '你給了三次錢你', '戴帽帽帽紅綠頂頭着一有人著帶髮穿都咗個住上高這樣紫領我了色長黑黃買出外用裝安為如藍前不', '有多重', '到死！', '幾何吖，沒有什麼幾何啫', '他一個人咋', '他好俊', '你講過的喇，是不是先', '廣東話讀歪些就是普通話嘞', '順東？？？', '戲過三次戲', '我我我錢我我', '書我我書書書我書我本書書三書書', '我叫你選他做班長', '筆筆他', '你你你好叻你很叻！', '黃去黃黃黃去', '搶搶搶我三粒糖我搶搶都搶咗我三袋糖', '做多功課', '錢我錢錢錢', '張枱抹一抹', '借五蚊你，你連句感謝都無', '衫洗咗', '你寫字你不在你寫你寫寫寫出字人行上我學文讀別這懂下在說用給咱一看要個打不你你你寫你人你字你寫你寫寫你你寫人你字你人寫字寫人你', '信寫信寫封信寫信畀媽媽', '敵人敵敵敵人命敵人敵命打戰鬥死自一我同下民反殺回害競軍共出守傷贏抗與起種團誰黨為幫國動你己兒', '茶我我我喝茶我喝喝茶喝我', '間店賺了我五蚊', '我借我錢', '借你五蚊，遲還要還給你㗎', '老闆仍欠伙記三個月人工', '勸他不要哭喇！', '你逼我做這樣的事！', '這樣做法，正一攞苦至辛！', '嗰啲嘢出嚟', '當他好人添！', '我你吃飯', '筷子筷筷筷子筷筷筷', '教你教你你英英英文我教教你我教你十年英你你學你英懂你學英你英你', '生樣醜得長別真像不挺怪的人相個是都性矮外常行高活貌一出成子似名喜大看如下要多兒肥可有', '得樣生醜樣樣樣醜長真相別不貌臉個人像的矮漂看瘦外一胖高都名是身子成大肥天帥美多還下可兒老', '解八點鐘仍未有人至', '命命命條命條條命命凍條命', '事花心長', '生得像你像似你', '麻煩你一件事', '午？？？', '都不想要', '教幾年書', '多衫衫衫', '他打了一', '筆筆他給他筆筆

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['就這那哪一有不些多你差我出了點很說用給香就這些這這這一些一些那一啲咁耐就完成了，真正了，實在這一個月就攪掂嘞，真的話題目標準備好了，十分鐘就搞掂了,真的，真係掯', '時幾時得嚟吖啊時候得至有來哪嗎這啊幾到不連你香是運回包了解時間上次次次得至吖！幾時候成嚟吖', '爸爸爸一他兒看望了對我見這回照她比不養一他他他望他一眼', '他鬼般氣，講話好雞啄不斷這樣', '我我騙他呃賺這不她佢好實真哪淘一用回了說有比我好多錢，佢呃他騙了我好撚多錢佢呃他呃咗我好似呃了我多錢包括了我很兒子華人哋呃了，佢騙了解咗我很多錢', '錢錢錢錢將一這有錢將這將將將將一將有把用還比不給哪多我賺好你啲錢畀錢畀啲錢由一些錢畀佢使啲錢被他', '給你錢錢你', '紅紅戴了頂了戴這一不着兒著給穿帶對小買有頂戴戴戴這戴咗頂紅色嘅帽', '有有有幾重', '到到到到死想這哪不咱生有是兒了啊罵用一自我說出得死！到死！死了！', '幾何吖，沒怎麼幾何而已', '他一個人咋', '他他我兒不佢好有她這但實生男很一比巴是你出他好靚仔仔', '你講過的了，是不是先', '讀讀廣說普這學粵講哪語香聽不説那讀廣廣廣這廣普廣說廣粵語讀歪啲就是否一些就是普說歪一些說歪些就就是廣說不能夠說歪點就係普通話讀歪一定是普通語言讀歪這些正確實在此外來自然後就', '順有乜順有乜好順有什？哪嗎這怎什有啥啊沒不香你繁一用好東西吖？有什有乜撚順東西啊有咩順嘢吖？有乜東西嗎？', '戲三戲戲', '我我我借你錢還有不問存沒欠是這給好拿收他一我借錢我借錢錢我', '書書書我我給他這比一說有不三出哪學她佢還用中我畀三他被了解釋十他給予連續續性侵犯犯罪名單本書我', '我叫你選他做教長', '筆筆筆送一給贈這買比包用有寫他說寄我不兒你生請收自己那運哪要把將小說服連枝筆它他', '你你好叻呀！', '黃黃大他哪不叫出這黃他他他哪他叫他不他這他出他我有佢是一我叫亞綠去了亞黃他嗌亞黃去了解放亞黃前往兒子去', '搶搶我三粒糖', '做做做完一這有做課不我學說小哪就好中了你要出完啲功課做曬做完一啲功能做完啲成完一些文件事情做完些功績', '錢錢錢', '枱枱桌張一抹這把用不將看哪給我回有是自對那好好的放一抹一抹抹一抺一抹去張枱枱枱抹一擦廁所以張枱布布抹一下面抹一張枱抹了', '借五蚊你，你連句感謝都無', '衫一啲衫衫洗衣用將這

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真的掯', '幾時得至吖', '他望了他爸爸一眼', '他鬼那氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪一些就是普通話了', '有什麼順東西吖？', '看過三次戲', '你借錢我', '他給三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他夾硬搶了我三粒糖', '做完這些功課', '我這些錢', '把桌子抹一抹', '我借五蚊你，你連句感謝都無', '將這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '拎杯茶給我', '那間店鋪賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠伙記三個月工資', '你就勸罵他不要哭了！', '你別逼我做這樣的事！', '你這樣的做法，正一捲苦至辛！', '拎嗰一些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '生得真醜怪', '生得真的醜樣', '真冇解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '生得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衫', '給他打了一', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊講引伸為話語', '這個啤啤仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要吖？', '你認為幾那漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯兒啊，為什麼説他呢？', '他的作風那鬼馬，好人都有限了', '你認為怎麼辦呢？', '他想查你講', '你都大仔喇', '他買東西很醃尖的', '你以為那著數咩

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真的掯', '何時得至吖', '他望了他爸爸一眼', '他鬼般氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽', '的有幾重', '到死！', '有多何吖，沒怎麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你説過的了，是不是先', '廣東話讀歪些就是普通話了', '有什麼順東西吖？', '看過三次戲', '你借錢我', '他給予三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明呀！', '他喊亞黃去', '他夾硬搶了我三粒糖', '做完這些功課', '我這些錢', '把張桌子抹一抹', '我借五蚊你，你連句感謝都無', '將這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '拎杯茶給我', '那間店鋪賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你㗎', '這個老闆仍欠伙記三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的事情！', '這樣的做法，正一捲苦至辛！', '拎嗰一些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '生得真的醜怪', '生得真的醜樣', '真冇解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '生得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '給他打了一', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊聊天', '這個嬰孩仔好可愛', '你去不去呀？', '這套戲看得吖', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯兒啊，為什麼説他呢？', '他的作風那鬼馬，好人都有限了', '你説怎麼辦呢？', '他想查你聊聊', '你都大仔喇', '他買東西很醃尖的', '你以為那著數咩',

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['些那久就完成了，真厲害', '何時得至吖', '他望了他爸爸一眼', '他鬼般氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '給了三次錢你', '戴了頂紅色的帽子', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪一些就是普通話了', '有什麼順東西啊？', '看過三次戲', '你借錢我', '他給三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我啲錢', '把張桌子抹一抹', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你別在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間店鋪賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠伙記三個月薪水', '你就勸一下他不要哭了！', '你別逼我做這樣的事情！', '這樣的做法，正一捲苦至辛！', '持嗰些東西出至', '當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '生得真的醜怪', '生得真的醜樣', '真沒解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '長得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊傾引伸為話語', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風那鬼馬，好人都有限了', '你説怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著數咩', 

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真膩', '什麼時候得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好像雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你説過的了，是不是先', '廣東話讀歪一些就是普通話了', '有什麼順東西嗎？', '看過三次戲', '你借錢我', '他給三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把張桌抹一抹', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間店鋪賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠伙記三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的事情！', '這樣的做法，正一捲苦至辛！', '持嗰些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '長得十分醜怪', '生得真的醜樣', '真冇解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '長得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊傾引伸為話語', '這個嬰孩仔好可愛', '你去不去呀？', '這套戲看得啊', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風那鬼馬，好人都有限了', '你説怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些這麼久就完成了，真膩', '什麼時候得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪點就是普通話了', '有什麼順東西嗎？', '看過三次戲', '你借錢我', '他給三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把桌子擦一擦', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間商店賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠員工三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的事！', '你這樣的話做法，正一捲苦至辛！', '持嗰些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '生得真的醜怪', '生得真的醜樣', '真沒解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '生得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊聊天', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得吖', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這邊沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風這麼鬼馬，好人都有限了', '你説怎麼辦呢？', '他想尋覓你講', '你都大仔喇', '他購物很醃尖的', '你以為那著數咩',

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['些那久就搞定了，真膩', '何時得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽子', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪點就是普通話了', '有什麼順東西吖？', '看過三次戲', '你借錢我', '他給予三本書我', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把張桌子擦一擦', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間商店賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠員工三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的事情！', '這樣的話做法，正一捲苦至辛！', '持嗰一些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '長得十分醜怪', '生得真的醜樣', '真冇解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '長得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊聊天', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要啊？', '你說多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在外邊', '你躝了去哪裏？', '他這人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風這麼搞怪，好人都有限了', '那怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著數咩', 

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真膩', '何時得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好似雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽子', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪點就是普通話了', '有什麼順東西吖？', '看過三次戲', '你借錢我', '他給我三本書', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把張桌子擦一擦', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間商店賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠員工三個月工資', '你就勸一下他不要哭喇！', '你別逼我做這樣的事！', '你這樣的話做法，正一捲苦至辛！', '持嗰些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '長得十分醜怪', '生得真的醜樣', '真沒解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '生得像你', '麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊講引伸為話語', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在出便', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風這麼鬼馬，好人都有限了', '你説怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著數

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真膩', '何時得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好像雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '給了三次錢你', '戴了頂紅色的帽子', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你説過的了，是不是先', '廣東話讀歪點就是普通話了', '有什麼順東西嗎？', '看過三次戲', '你借錢我', '他給我三本書', '他逼我叫你選他做班長', '送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把桌子擦一擦', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間商店賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠員工三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的東西！', '你這樣的話做法，正一拿苦至辛！', '持嗰些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '長得十分醜怪', '生得真的醜樣', '真沒解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多東西喇', '長得像你', '麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太找師傅教車', '一邊唞涼一邊聊天', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，別人都沒辦法休息了', '你不去嗎？', '他站在外邊', '你躝了去哪裏？', '他這個人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風這麼搞怪，好人都有限了', '那怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著數咩', 

  0%|          | 0/50 [00:00<?, ?it/s]

Predicted: ['這些那久就完成了，真膩', '何時得至吖', '他望了他爸爸一眼', '他鬼般生氣，講話好像雞啄不斷這樣', '他騙了我好多錢', '將這些錢給他', '我給了三次錢你', '戴了頂紅色的帽子', '的有幾重', '到死！', '有幾何吖，沒有什麼幾何而已', '這個地方得他一個人咋', '他很俊男', '跟你講過的了，是不是先', '廣東話讀歪點就是普通話了', '有什麼順東西嗎？', '看過三次戲', '你借錢我', '他給三本書我', '他逼我叫你選他做班長', '贈送枝筆他', '你估你很聰明嗎！', '他喊亞黃去', '他強行搶了我三粒糖', '做完這些功課', '我這些錢', '把桌子擦一擦', '我借五蚊你，你連句感謝都無', '把這些衣服洗了', '人家寫字你不要在這裏喐喐貢', '寫封信給媽媽', '與敵人拼命', '持杯茶給我', '那間店鋪賺了我五蚊', '你借我錢', '我借你五蚊，遲早還是要還給你的', '這個老闆仍欠員工三個月工資', '你就勸一下他不要哭了！', '你別逼我做這樣的事！', '你這樣的話做法，正一捲苦至辛！', '持嗰些東西出至', '我當他好人添！', '我請你吃飯', '我對筷子', '我教了你十年英文', '長得十分醜怪', '生得真的醜樣', '真沒解八點鐘仍未有人至', '條命凍過水', '無謂攪這麼多事情喇', '長得像你', '我麻煩你一件事', '下午開會嗎？', '什麼鬼東西都不想要', '教了幾十年書', '洗了這些衣服', '被他打了一下', '送枝筆給他', '我教了這一科十年', '我本書', '我問你一個問題', '亞郭叫我幫他太太查師傅教車', '一邊唞涼一邊聊天', '這個嬰孩仔好可愛', '你去不去呀？', '這套電影看得啊', '你要不要啊？', '你認為多麼漂亮呢', '你看他的樣子幾得敕', '這個地方沒有什麼好玩', '你叫什麼名字呀？', '你們在這裏搗亂，人家都沒辦法休息了', '你不去嗎？', '他站在外邊', '你躝了去哪裏？', '他這人鬼五馬六的事零舍多', '他很打得', '他沒錯啊，為什麼説他呢？', '他的作風這麼搞怪，好人都有限了', '那怎麼辦呢？', '他想找你聊聊', '你都大仔喇', '他購物很醃尖的', '你以為那著數咩',

TrainOutput(global_step=12732, training_loss=0.076975904767932, metrics={'train_runtime': 15408.4251, 'train_samples_per_second': 26.439, 'train_steps_per_second': 0.826, 'train_loss': 0.076975904767932, 'epoch': 3.0})

### **Evaluation**

Awesome, we finished training our dummy model. Let's now evaluated the model on the test data. We make use of the dataset's handy `.map()` function to generate a summary of each sample of the test data.

In [15]:
from transformers import BertTokenizer, BartForConditionalGeneration

tokenizer = BertTokenizer.from_pretrained('Ayaka/bart-base-cantonese')
model = BartForConditionalGeneration.from_pretrained("./checkpoint-12000").to('mps')

# only use 16 training examples for notebook - DELETE LINE FOR FULL TRAINING
# test_data = test_data.select(range(16))

batch_size = 64  # change to 64 for full evaluation

pred_file = open("test.pred.man", "w+")

# map data correctly
def generate_summary(batch):
    # Tokenizer will automatically set [BOS] <text> [EOS]
    # cut off at BERT max length 512
    inputs = tokenizer(batch["can"], padding="max_length", truncation=True, max_length=128, return_tensors="pt")
    input_ids = inputs.input_ids.to('mps')
    attention_mask = inputs.attention_mask.to('mps')

    outputs = model.generate(input_ids, attention_mask=attention_mask)

    # all special tokens including will be removed
    output_str = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    batch["pred"] = [s.replace(" ", "") for s in output_str]
    for man, pred in zip(batch["man"], batch["pred"]):
        pred_file.write("P: " + pred + "\n")
        pred_file.write("T: " + man + "\n\n")
    return batch

results = test_data.map(generate_summary, batched=True, batch_size=batch_size)

pred_str = results["pred"]
label_str = results["man"]

# bleu_score = bleu.compute(predictions=pred_str, references=label_str, tokenizer=char_tokenizer)["bleu"]
# chrf_score = chrf.compute(predictions=pred_str, references=label_str)["score"]

bleu = sacrebleu.BLEU(trg_lang="zh")
bleu_score = bleu.corpus_score(label_str, [pred_str]).score
chrf = sacrebleu.CHRF()
chrf_score = chrf.corpus_score(label_str, [pred_str]).score

print("BLEU score:", bleu_score)
print("CHRF score:", chrf_score)


Map:   0%|          | 0/6502 [00:00<?, ? examples/s]

BLEU score: 29.633424907053794
CHRF score: 26.308656364291807
