Spaces:

anonymous8
/

Rapid-Textual-Adversarial-Defense

Paused

App Files Files Community

anonymous8/RPD-Demo commited on Sep 22, 2022

Commit

4943752

0 Parent(s):

initial commit

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +31 -0
.gitignore +143 -0
README.md +13 -0
anonymous_demo/__init__.py +5 -0
anonymous_demo/core/__init__.py +0 -0
anonymous_demo/core/tad/__init__.py +0 -0
anonymous_demo/core/tad/classic/__bert__/README.MD +3 -0
anonymous_demo/core/tad/classic/__bert__/__init__.py +1 -0
anonymous_demo/core/tad/classic/__bert__/dataset_utils/__init__.py +0 -0
anonymous_demo/core/tad/classic/__bert__/dataset_utils/data_utils_for_inference.py +116 -0
anonymous_demo/core/tad/classic/__bert__/models/__init__.py +1 -0
anonymous_demo/core/tad/classic/__bert__/models/tad_bert.py +43 -0
anonymous_demo/core/tad/classic/__init__.py +0 -0
anonymous_demo/core/tad/models/__init__.py +9 -0
anonymous_demo/core/tad/prediction/__init__.py +0 -0
anonymous_demo/core/tad/prediction/tad_classifier.py +390 -0
anonymous_demo/functional/__init__.py +3 -0
anonymous_demo/functional/checkpoint/__init__.py +1 -0
anonymous_demo/functional/checkpoint/checkpoint_manager.py +20 -0
anonymous_demo/functional/config/__init__.py +1 -0
anonymous_demo/functional/config/config_manager.py +66 -0
anonymous_demo/functional/config/tad_config_manager.py +221 -0
anonymous_demo/functional/dataset/__init__.py +1 -0
anonymous_demo/functional/dataset/dataset_manager.py +21 -0
anonymous_demo/network/__init__.py +0 -0
anonymous_demo/network/lcf_pooler.py +26 -0
anonymous_demo/network/lsa.py +52 -0
anonymous_demo/network/sa_encoder.py +159 -0
anonymous_demo/utils/__init__.py +0 -0
anonymous_demo/utils/demo_utils.py +209 -0
anonymous_demo/utils/logger.py +38 -0
app.py +271 -0
checkpoints.zip +3 -0
requirements.txt +19 -0
text_defense/201.SST2/stsa.binary.dev.dat +0 -0
text_defense/201.SST2/stsa.binary.test.dat +0 -0
text_defense/201.SST2/stsa.binary.train.dat +0 -0
text_defense/204.AGNews10K/AGNews10K.test.dat +0 -0
text_defense/204.AGNews10K/AGNews10K.train.dat +0 -0
text_defense/204.AGNews10K/AGNews10K.valid.dat +0 -0
text_defense/206.Amazon_Review_Polarity10K/amazon.test.dat +0 -0
text_defense/206.Amazon_Review_Polarity10K/amazon.train.dat +0 -0
textattack/__init__.py +39 -0
textattack/__main__.py +6 -0
textattack/attack.py +492 -0
textattack/attack_args.py +763 -0
textattack/attack_recipes/__init__.py +43 -0
textattack/attack_recipes/a2t_yoo_2021.py +74 -0
textattack/attack_recipes/attack_recipe.py +30 -0
textattack/attack_recipes/bae_garg_2019.py +123 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,143 @@

+# dev files
+*.cache
+*.dev.py
+state_dict/
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+*.pyc
+tests/
+*.result.json
+.idea/
+# Embedding
+glove.840B.300d.txt
+glove.42B.300d.txt
+glove.twitter.27B.txt
+# project main files
+release_note.json
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+pip-wheel-metadata/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer training_logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+.python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# celery beat schedule file
+celerybeat-schedule
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+.DS_Store
+examples/.DS_Store

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: RPD-Demo
+emoji: 🛡️
+colorFrom: gray
+colorTo: green
+sdk: gradio
+sdk_version: 3.0.19
+app_file: app.py
+pinned: false
+license: mit
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

anonymous_demo/__init__.py ADDED Viewed

	@@ -0,0 +1,5 @@

+__version__ = '1.0.0'
+__name__ = 'anonymous_demo'
+from anonymous_demo.functional import TADCheckpointManager

anonymous_demo/core/__init__.py ADDED Viewed

File without changes

anonymous_demo/core/tad/__init__.py ADDED Viewed

File without changes

anonymous_demo/core/tad/classic/__bert__/README.MD ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ ## This is the simple migration from ABSA-PyTorch under MIT license
2	+
3	+ Project Address: https://github.com/songyouwei/ABSA-PyTorch

anonymous_demo/core/tad/classic/__bert__/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .models import *

anonymous_demo/core/tad/classic/__bert__/dataset_utils/__init__.py ADDED Viewed

File without changes

anonymous_demo/core/tad/classic/__bert__/dataset_utils/data_utils_for_inference.py ADDED Viewed

	@@ -0,0 +1,116 @@

+import tqdm
+from findfile import find_cwd_dir
+from torch.utils.data import Dataset
+from transformers import AutoTokenizer
+class Tokenizer4Pretraining:
+    def __init__(self, max_seq_len, opt, **kwargs):
+        if kwargs.pop('offline', False):
+            self.tokenizer = AutoTokenizer.from_pretrained(find_cwd_dir(opt.pretrained_bert.split('/')[-1]),
+                                                           do_lower_case='uncased' in opt.pretrained_bert)
+        else:
+            self.tokenizer = AutoTokenizer.from_pretrained(opt.pretrained_bert,
+                                                           do_lower_case='uncased' in opt.pretrained_bert)
+        self.max_seq_len = max_seq_len
+    def text_to_sequence(self, text, reverse=False, padding='post', truncating='post'):
+        return self.tokenizer.encode(text, truncation=True, padding='max_length', max_length=self.max_seq_len,
+                                     return_tensors='pt')
+class BERTTADDataset(Dataset):
+    def __init__(self, tokenizer, opt):
+        self.bert_baseline_input_colses = {
+            'bert': ['text_bert_indices']
+        }
+        self.tokenizer = tokenizer
+        self.opt = opt
+        self.all_data = []
+    def parse_sample(self, text):
+        return [text]
+    def prepare_infer_sample(self, text: str, ignore_error):
+        self.process_data(self.parse_sample(text), ignore_error=ignore_error)
+    def process_data(self, samples, ignore_error=True):
+        all_data = []
+        if len(samples) > 100:
+            it = tqdm.tqdm(samples, postfix='preparing text classification inference dataloader...')
+        else:
+            it = samples
+        for text in it:
+            try:
+                # handle for empty lines in inference datasets
+                if text is None or '' == text.strip():
+                    raise RuntimeError('Invalid Input!')
+                if '!ref!' in text:
+                    text, _, labels = text.strip().partition('!ref!')
+                    text = text.strip()
+                    if labels.count(',') == 2:
+                        label, is_adv, adv_train_label = labels.strip().split(',')
+                        label, is_adv, adv_train_label = label.strip(), is_adv.strip(), adv_train_label.strip()
+                    elif labels.count(',') == 1:
+                        label, is_adv = labels.strip().split(',')
+                        label, is_adv = label.strip(), is_adv.strip()
+                        adv_train_label = '-100'
+                    elif labels.count(',') == 0:
+                        label = labels.strip()
+                        adv_train_label = '-100'
+                        is_adv = '-100'
+                    else:
+                        label = '-100'
+                        adv_train_label = '-100'
+                        is_adv = '-100'
+                    label = int(label)
+                    adv_train_label = int(adv_train_label)
+                    is_adv = int(is_adv)
+                else:
+                    text = text.strip()
+                    label = -100
+                    adv_train_label = -100
+                    is_adv = -100
+                text_indices = self.tokenizer.text_to_sequence('{}'.format(text))
+                data = {
+                    'text_bert_indices': text_indices[0],
+                    'text_raw': text,
+                    'label': label,
+                    'adv_train_label': adv_train_label,
+                    'is_adv': is_adv,
+                    # 'label': self.opt.label_to_index.get(label, -100) if isinstance(label, str) else label,
+                    #
+                    # 'adv_train_label': self.opt.adv_train_label_to_index.get(adv_train_label, -100) if isinstance(adv_train_label, str) else adv_train_label,
+                    #
+                    # 'is_adv': self.opt.is_adv_to_index.get(is_adv, -100) if isinstance(is_adv, str) else is_adv,
+                }
+                all_data.append(data)
+            except Exception as e:
+                if ignore_error:
+                    print('Ignore error while processing:', text)
+                else:
+                    raise e
+        self.all_data = all_data
+        return self.all_data
+    def __getitem__(self, index):
+        return self.all_data[index]
+    def __len__(self):
+        return len(self.all_data)

anonymous_demo/core/tad/classic/__bert__/models/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .tad_bert import TADBERT

anonymous_demo/core/tad/classic/__bert__/models/tad_bert.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import torch
+import torch.nn as nn
+from transformers.models.bert.modeling_bert import BertPooler
+from anonymous_demo.network.sa_encoder import Encoder
+class TADBERT(nn.Module):
+    inputs = ['text_bert_indices']
+    def __init__(self, bert, opt):
+        super(TADBERT, self).__init__()
+        self.opt = opt
+        self.bert = bert
+        self.pooler = BertPooler(bert.config)
+        self.dense1 = nn.Linear(self.opt.hidden_dim, self.opt.class_dim)
+        self.dense2 = nn.Linear(self.opt.hidden_dim, self.opt.adv_det_dim)
+        self.dense3 = nn.Linear(self.opt.hidden_dim, self.opt.class_dim)
+        self.encoder1 = Encoder(self.bert.config, opt=opt)
+        self.encoder2 = Encoder(self.bert.config, opt=opt)
+        self.encoder3 = Encoder(self.bert.config, opt=opt)
+    def forward(self, inputs):
+        text_raw_indices = inputs[0]
+        last_hidden_state = self.bert(text_raw_indices)['last_hidden_state']
+        sent_logits = self.dense1(self.pooler(last_hidden_state))
+        advdet_logits = self.dense2(self.pooler(last_hidden_state))
+        adv_tr_logits = self.dense3(self.pooler(last_hidden_state))
+        att_score = torch.nn.functional.normalize(
+            last_hidden_state.abs().sum(dim=1, keepdim=False) - last_hidden_state.abs().min(dim=1, keepdim=True)[0],
+            p=1, dim=1)
+        outputs = {
+            'sent_logits': sent_logits,
+            'advdet_logits': advdet_logits,
+            'adv_tr_logits': adv_tr_logits,
+            'last_hidden_state': last_hidden_state,
+            'att_score': att_score
+        }
+        return outputs

anonymous_demo/core/tad/classic/__init__.py ADDED Viewed

File without changes

anonymous_demo/core/tad/models/__init__.py ADDED Viewed

	@@ -0,0 +1,9 @@

+import anonymous_demo.core.tad.classic.__bert__.models
+class BERTTADModelList(list):
+    TADBERT = anonymous_demo.core.tad.classic.__bert__.TADBERT
+    def __init__(self):
+        model_list = [self.TADBERT]
+        super().__init__(model_list)

anonymous_demo/core/tad/prediction/__init__.py ADDED Viewed

File without changes

anonymous_demo/core/tad/prediction/tad_classifier.py ADDED Viewed

	@@ -0,0 +1,390 @@

+import json
+import os
+import pickle
+import time
+import torch
+import tqdm
+from findfile import find_file, find_cwd_dir
+from termcolor import colored
+from torch.utils.data import DataLoader
+from transformers import AutoTokenizer, AutoModel, AutoConfig, DebertaV2ForMaskedLM, RobertaForMaskedLM, BertForMaskedLM
+from ....functional.dataset.dataset_manager import detect_infer_dataset
+from ..models import BERTTADModelList
+from ..classic.__bert__.dataset_utils.data_utils_for_inference import BERTTADDataset, Tokenizer4Pretraining
+from ....utils.demo_utils import print_args, TransformerConnectionError, get_device, build_embedding_matrix
+def init_attacker(tad_classifier, defense):
+    try:
+        from textattack import Attacker
+        from textattack.attack_recipes import BAEGarg2019, PWWSRen2019, TextFoolerJin2019, PSOZang2020, IGAWang2019, \
+            GeneticAlgorithmAlzantot2018, DeepWordBugGao2018
+        from textattack.datasets import Dataset
+        from textattack.models.wrappers import HuggingFaceModelWrapper
+        class DemoModelWrapper(HuggingFaceModelWrapper):
+            def __init__(self, model):
+                self.model = model  # pipeline = pipeline
+            def __call__(self, text_inputs, **kwargs):
+                outputs = []
+                for text_input in text_inputs:
+                    raw_outputs = self.model.infer(text_input, print_result=False, **kwargs)
+                    outputs.append(raw_outputs['probs'])
+                return outputs
+        class SentAttacker:
+            def __init__(self, model, recipe_class=BAEGarg2019):
+                model = model
+                model_wrapper = DemoModelWrapper(model)
+                recipe = recipe_class.build(model_wrapper)
+                _dataset = [('', 0)]
+                _dataset = Dataset(_dataset)
+                self.attacker = Attacker(recipe, _dataset)
+        attackers = {
+            'bae': BAEGarg2019,
+            'pwws': PWWSRen2019,
+            'textfooler': TextFoolerJin2019,
+            'pso': PSOZang2020,
+            'iga': IGAWang2019,
+            'ga': GeneticAlgorithmAlzantot2018,
+            'wordbugger': DeepWordBugGao2018,
+        }
+        return SentAttacker(tad_classifier, attackers[defense])
+    except Exception as e:
+        print('Original error:', e)
+def get_mlm_and_tokenizer(text_classifier, config):
+    if isinstance(text_classifier, TADTextClassifier):
+        base_model = text_classifier.model.bert.base_model
+    else:
+        base_model = text_classifier.bert.base_model
+    pretrained_config = AutoConfig.from_pretrained(config.pretrained_bert)
+    if 'deberta-v3' in config.pretrained_bert:
+        MLM = DebertaV2ForMaskedLM(pretrained_config)
+        MLM.deberta = base_model
+    elif 'roberta' in config.pretrained_bert:
+        MLM = RobertaForMaskedLM(pretrained_config)
+        MLM.roberta = base_model
+    else:
+        MLM = BertForMaskedLM(pretrained_config)
+        MLM.bert = base_model
+    return MLM, AutoTokenizer.from_pretrained(config.pretrained_bert)
+class TADTextClassifier:
+    def __init__(self, model_arg=None, cal_perplexity=False, **kwargs):
+        '''
+            from_train_model: load inference model from trained model
+        '''
+        self.cal_perplexity = cal_perplexity
+        # load from a training
+        if not isinstance(model_arg, str):
+            print('Load text classifier from training')
+            self.model = model_arg[0]
+            self.opt = model_arg[1]
+            self.tokenizer = model_arg[2]
+        else:
+            try:
+                if 'fine-tuned' in model_arg:
+                    raise ValueError(
+                        'Do not support to directly load a fine-tuned model, please load a .state_dict or .model instead!')
+                print('Load text classifier from', model_arg)
+                state_dict_path = find_file(model_arg, key='.state_dict', exclude_key=['__MACOSX'])
+                model_path = find_file(model_arg, key='.model', exclude_key=['__MACOSX'])
+                tokenizer_path = find_file(model_arg, key='.tokenizer', exclude_key=['__MACOSX'])
+                config_path = find_file(model_arg, key='.config', exclude_key=['__MACOSX'])
+                print('config: {}'.format(config_path))
+                print('state_dict: {}'.format(state_dict_path))
+                print('model: {}'.format(model_path))
+                print('tokenizer: {}'.format(tokenizer_path))
+                with open(config_path, mode='rb') as f:
+                    self.opt = pickle.load(f)
+                    self.opt.device = get_device(kwargs.pop('auto_device', True))[0]
+                if state_dict_path or model_path:
+                    if hasattr(BERTTADModelList, self.opt.model.__name__):
+                        if state_dict_path:
+                            if kwargs.pop('offline', False):
+                                self.bert = AutoModel.from_pretrained(
+                                    find_cwd_dir(self.opt.pretrained_bert.split('/')[-1]))
+                            else:
+                                self.bert = AutoModel.from_pretrained(self.opt.pretrained_bert)
+                            self.model = self.opt.model(self.bert, self.opt)
+                            self.model.load_state_dict(torch.load(state_dict_path, map_location='cpu'))
+                        elif model_path:
+                            self.model = torch.load(model_path, map_location='cpu')
+                        try:
+                            self.tokenizer = Tokenizer4Pretraining(max_seq_len=self.opt.max_seq_len, opt=self.opt,
+                                                                   **kwargs)
+                        except ValueError:
+                            if tokenizer_path:
+                                with open(tokenizer_path, mode='rb') as f:
+                                    self.tokenizer = pickle.load(f)
+                            else:
+                                raise TransformerConnectionError()
+            except Exception as e:
+                raise RuntimeError('Exception: {} Fail to load the model from {}! '.format(e, model_arg))
+        self.infer_dataloader = None
+        self.opt.eval_batch_size = kwargs.pop('eval_batch_size', 128)
+        self.opt.initializer = self.opt.initializer
+        if self.cal_perplexity:
+            try:
+                self.MLM, self.MLM_tokenizer = get_mlm_and_tokenizer(self, self.opt)
+            except Exception as e:
+                self.MLM, self.MLM_tokenizer = None, None
+        self.to(self.opt.device)
+    def to(self, device=None):
+        self.opt.device = device
+        self.model.to(device)
+        if hasattr(self, 'MLM'):
+            self.MLM.to(self.opt.device)
+    def cpu(self):
+        self.opt.device = 'cpu'
+        self.model.to('cpu')
+        if hasattr(self, 'MLM'):
+            self.MLM.to('cpu')
+    def cuda(self, device='cuda:0'):
+        self.opt.device = device
+        self.model.to(device)
+        if hasattr(self, 'MLM'):
+            self.MLM.to(device)
+    def _log_write_args(self):
+        n_trainable_params, n_nontrainable_params = 0, 0
+        for p in self.model.parameters():
+            n_params = torch.prod(torch.tensor(p.shape))
+            if p.requires_grad:
+                n_trainable_params += n_params
+            else:
+                n_nontrainable_params += n_params
+        print(
+            'n_trainable_params: {0}, n_nontrainable_params: {1}'.format(n_trainable_params, n_nontrainable_params))
+        for arg in vars(self.opt):
+            if getattr(self.opt, arg) is not None:
+                print('>>> {0}: {1}'.format(arg, getattr(self.opt, arg)))
+    def batch_infer(self,
+                    target_file=None,
+                    print_result=True,
+                    save_result=False,
+                    ignore_error=True,
+                    defense: str = None
+                    ):
+        save_path = os.path.join(os.getcwd(), 'tad_text_classification.result.json')
+        target_file = detect_infer_dataset(target_file, task='text_defense')
+        if not target_file:
+            raise FileNotFoundError('Can not find inference datasets!')
+        if hasattr(BERTTADModelList, self.opt.model.__name__):
+            dataset = BERTTADDataset(tokenizer=self.tokenizer, opt=self.opt)
+        dataset.prepare_infer_dataset(target_file, ignore_error=ignore_error)
+        self.infer_dataloader = DataLoader(dataset=dataset, batch_size=self.opt.eval_batch_size, pin_memory=True,
+                                           shuffle=False)
+        return self._infer(save_path=save_path if save_result else None, print_result=print_result, defense=defense)
+    def infer(self,
+              text: str = None,
+              print_result=True,
+              ignore_error=True,
+              defense: str = None
+              ):
+        if hasattr(BERTTADModelList, self.opt.model.__name__):
+            dataset = BERTTADDataset(tokenizer=self.tokenizer, opt=self.opt)
+        if text:
+            dataset.prepare_infer_sample(text, ignore_error=ignore_error)
+        else:
+            raise RuntimeError('Please specify your datasets path!')
+        self.infer_dataloader = DataLoader(dataset=dataset, batch_size=self.opt.eval_batch_size, shuffle=False)
+        return self._infer(print_result=print_result, defense=defense)[0]
+    def _infer(self, save_path=None, print_result=True, defense=None):
+        _params = filter(lambda p: p.requires_grad, self.model.parameters())
+        correct = {True: 'Correct', False: 'Wrong'}
+        results = []
+        with torch.no_grad():
+            self.model.eval()
+            n_correct = 0
+            n_labeled = 0
+            n_advdet_correct = 0
+            n_advdet_labeled = 0
+            if len(self.infer_dataloader.dataset) >= 100:
+                it = tqdm.tqdm(self.infer_dataloader, postfix='inferring...')
+            else:
+                it = self.infer_dataloader
+            for _, sample in enumerate(it):
+                inputs = [sample[col].to(self.opt.device) for col in self.opt.inputs_cols]
+                outputs = self.model(inputs)
+                logits, advdet_logits, adv_tr_logits = outputs['sent_logits'], outputs['advdet_logits'], outputs[
+                    'adv_tr_logits']
+                probs, advdet_probs, adv_tr_probs = torch.softmax(logits, dim=-1), torch.softmax(advdet_logits,
+                                                                                                 dim=-1), torch.softmax(
+                    adv_tr_logits, dim=-1)
+                for i, (prob, advdet_prob, adv_tr_prob) in enumerate(zip(probs, advdet_probs, adv_tr_probs)):
+                    text_raw = sample['text_raw'][i]
+                    pred_label = int(prob.argmax(axis=-1))
+                    pred_is_adv_label = int(advdet_prob.argmax(axis=-1))
+                    pred_adv_tr_label = int(adv_tr_prob.argmax(axis=-1))
+                    ref_label = int(sample['label'][i]) if int(sample['label'][i]) in self.opt.index_to_label else ''
+                    ref_is_adv_label = int(sample['is_adv'][i]) if int(
+                        sample['is_adv'][i]) in self.opt.index_to_is_adv else ''
+                    ref_adv_tr_label = int(sample['adv_train_label'][i]) if int(
+                        sample['adv_train_label'][i]) in self.opt.index_to_adv_train_label else ''
+                    if self.cal_perplexity:
+                        ids = self.MLM_tokenizer(text_raw, return_tensors="pt")
+                        ids['labels'] = ids['input_ids'].clone()
+                        ids = ids.to(self.opt.device)
+                        loss = self.MLM(**ids)['loss']
+                        perplexity = float(torch.exp(loss / ids['input_ids'].size(1)))
+                    else:
+                        perplexity = 'N.A.'
+                    result = {
+                        'text': text_raw,
+                        'label': self.opt.index_to_label[pred_label],
+                        'probs': prob.cpu().numpy(),
+                        'confidence': float(max(prob)),
+                        'ref_label': self.opt.index_to_label[ref_label] if isinstance(ref_label, int) else ref_label,
+                        'ref_label_check': correct[pred_label == ref_label] if ref_label != -100 else '',
+                        'is_fixed': False,
+                        'is_adv_label': self.opt.index_to_is_adv[pred_is_adv_label],
+                        'is_adv_probs': advdet_prob.cpu().numpy(),
+                        'is_adv_confidence': float(max(advdet_prob)),
+                        'ref_is_adv_label': self.opt.index_to_is_adv[ref_is_adv_label] if isinstance(ref_is_adv_label, int) else ref_is_adv_label,
+                        'ref_is_adv_check': correct[pred_is_adv_label == ref_is_adv_label] if ref_is_adv_label != -100 and isinstance(ref_is_adv_label, int) else '',
+                        'pred_adv_tr_label': self.opt.index_to_label[pred_adv_tr_label],
+                        'ref_adv_tr_label': self.opt.index_to_label[ref_adv_tr_label],
+                        'perplexity': perplexity,
+                    }
+                    if defense:
+                        try:
+                            if not hasattr(self, 'sent_attacker'):
+                                self.sent_attacker = init_attacker(self, defense.lower())
+                            if result['is_adv_label'] == '1':
+                                res = self.sent_attacker.attacker.simple_attack(text_raw, int(result['label']))
+                                new_infer_res = self.infer(res.perturbed_result.attacked_text.text, print_result=False)
+                                result['perturbed_label'] = result['label']
+                                result['label'] = new_infer_res['label']
+                                result['probs'] = new_infer_res['probs']
+                                result['ref_label_check'] = correct[int(result['label']) == ref_label] if ref_label != -100 else ''
+                                result['restored_text'] = res.perturbed_result.attacked_text.text
+                                result['is_fixed'] = True
+                            else:
+                                result['restored_text'] = ''
+                                result['is_fixed'] = False
+                        except Exception as e:
+                            print('Error:{}, try install TextAttack and tensorflow_text after 10 seconds...'.format(e))
+                            time.sleep(10)
+                            raise RuntimeError('Installation done, please run again...')
+                    if ref_label != -100:
+                        n_labeled += 1
+                        if result['label'] == result['ref_label']:
+                            n_correct += 1
+                    if ref_is_adv_label != -100:
+                        n_advdet_labeled += 1
+                        if ref_is_adv_label == pred_is_adv_label:
+                            n_advdet_correct += 1
+                    results.append(result)
+        try:
+            if print_result:
+                for ex_id, result in enumerate(results):
+                    text_printing = result['text'][:]
+                    text_info = ''
+                    if result['label'] != '-100':
+                        if not result['ref_label']:
+                            text_info += ' -> <CLS:{}(ref:{} confidence:{})>'.format(result['label'],
+                                                                                     result['ref_label'],
+                                                                                     result['confidence'])
+                        elif result['label'] == result['ref_label']:
+                            text_info += colored(
+                                ' -> <CLS:{}(ref:{} confidence:{})>'.format(result['label'], result['ref_label'],
+                                                                            result['confidence']), 'green')
+                        else:
+                            text_info += colored(
+                                ' -> <CLS:{}(ref:{} confidence:{})>'.format(result['label'], result['ref_label'],
+                                                                            result['confidence']), 'red')
+                    # AdvDet
+                    if result['is_adv_label'] != '-100':
+                        if not result['ref_is_adv_label']:
+                            text_info += ' -> <AdvDet:{}(ref:{} confidence:{})>'.format(result['is_adv_label'],
+                                                                                        result['ref_is_adv_check'],
+                                                                                        result['is_adv_confidence'])
+                        elif result['is_adv_label'] == result['ref_is_adv_label']:
+                            text_info += colored(' -> <AdvDet:{}(ref:{} confidence:{})>'.format(result['is_adv_label'],
+                                                                                                result[
+                                                                                                    'ref_is_adv_label'],
+                                                                                                result[
+                                                                                                    'is_adv_confidence']),
+                                                 'green')
+                        else:
+                            text_info += colored(' -> <AdvDet:{}(ref:{} confidence:{})>'.format(result['is_adv_label'],
+                                                                                                result[
+                                                                                                    'ref_is_adv_label'],
+                                                                                                result[
+                                                                                                    'is_adv_confidence']),
+                                                 'red')
+                    text_printing += text_info
+                    if self.cal_perplexity:
+                        text_printing += colored(' --> <perplexity:{}>'.format(result['perplexity']), 'yellow')
+                    print('Example {}: {}'.format(ex_id, text_printing))
+            if save_path:
+                with open(save_path, 'w', encoding='utf8') as fout:
+                    json.dump(str(results), fout, ensure_ascii=False)
+                    print('inference result saved in: {}'.format(save_path))
+        except Exception as e:
+            print('Can not save result: {}, Exception: {}'.format(text_raw, e))
+        if len(results) > 1:
+            print('CLS Acc:{}%'.format(100 * n_correct / n_labeled if n_labeled else ''))
+            print('AdvDet Acc:{}%'.format(100 * n_advdet_correct / n_advdet_labeled if n_advdet_labeled else ''))
+        return results
+    def clear_input_samples(self):
+        self.dataset.all_data = []

anonymous_demo/functional/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from anonymous_demo.functional.checkpoint.checkpoint_manager import TADCheckpointManager
2	+
3	+ from anonymous_demo.functional.config import TADConfigManager

anonymous_demo/functional/checkpoint/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .checkpoint_manager import TADCheckpointManager

anonymous_demo/functional/checkpoint/checkpoint_manager.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import os
+from findfile import find_file
+from anonymous_demo.core.tad.prediction.tad_classifier import TADTextClassifier
+from anonymous_demo.utils.demo_utils import retry
+class CheckpointManager:
+    pass
+class TADCheckpointManager(CheckpointManager):
+    @staticmethod
+    @retry
+    def get_tad_text_classifier(checkpoint: str = None,
+                                eval_batch_size=128,
+                                **kwargs):
+        tad_text_classifier = TADTextClassifier(checkpoint, eval_batch_size=eval_batch_size, **kwargs)
+        return tad_text_classifier

anonymous_demo/functional/config/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .tad_config_manager import TADConfigManager

anonymous_demo/functional/config/config_manager.py ADDED Viewed

	@@ -0,0 +1,66 @@

+from argparse import Namespace
+import torch
+one_shot_messages = set()
+def config_check(args):
+    pass
+class ConfigManager(Namespace):
+    def __init__(self, args=None, **kwargs):
+        """
+        The ConfigManager is a subclass of argparse.Namespace and based on parameter dict and count the call-frequency of each parameter
+        :param args: A parameter dict
+        :param kwargs: Same param as Namespce
+        """
+        if not args:
+            args = {}
+        super().__init__(**kwargs)
+        if isinstance(args, Namespace):
+            self.args = vars(args)
+            self.args_call_count = {arg: 0 for arg in vars(args)}
+        else:
+            self.args = args
+            self.args_call_count = {arg: 0 for arg in args}
+    def __getattribute__(self, arg_name):
+        if arg_name == 'args' or arg_name == 'args_call_count':
+            return super().__getattribute__(arg_name)
+        try:
+            value = super().__getattribute__('args')[arg_name]
+            args_call_count = super().__getattribute__('args_call_count')
+            args_call_count[arg_name] += 1
+            super().__setattr__('args_call_count', args_call_count)
+            return value
+        except Exception as e:
+            return super().__getattribute__(arg_name)
+    def __setattr__(self, arg_name, value):
+        if arg_name == 'args' or arg_name == 'args_call_count':
+            super().__setattr__(arg_name, value)
+            return
+        try:
+            args = super().__getattribute__('args')
+            args[arg_name] = value
+            super().__setattr__('args', args)
+            args_call_count = super().__getattribute__('args_call_count')
+            if arg_name in args_call_count:
+                # args_call_count[arg_name] += 1
+                super().__setattr__('args_call_count', args_call_count)
+            else:
+                args_call_count[arg_name] = 0
+                super().__setattr__('args_call_count', args_call_count)
+        except Exception as e:
+            super().__setattr__(arg_name, value)
+        config_check(args)

anonymous_demo/functional/config/tad_config_manager.py ADDED Viewed

	@@ -0,0 +1,221 @@

+import copy
+from anonymous_demo.functional.config.config_manager import ConfigManager
+from anonymous_demo.core.tad.classic.__bert__.models import TADBERT
+_tad_config_template = {'model': TADBERT,
+                        'optimizer': "adamw",
+                        'learning_rate': 0.00002,
+                        'patience': 99999,
+                        'pretrained_bert': "microsoft/mdeberta-v3-base",
+                        'cache_dataset': True,
+                        'warmup_step': -1,
+                        'show_metric': False,
+                        'max_seq_len': 80,
+                        'dropout': 0,
+                        'l2reg': 0.000001,
+                        'num_epoch': 10,
+                        'batch_size': 16,
+                        'initializer': 'xavier_uniform_',
+                        'seed': 52,
+                        'polarities_dim': 3,
+                        'log_step': 10,
+                        'evaluate_begin': 0,
+                        'cross_validate_fold': -1,
+                        'use_amp': False,
+                        # split train and test datasets into 5 folds and repeat 3 training
+                        }
+_tad_config_base = {'model': TADBERT,
+                    'optimizer': "adamw",
+                    'learning_rate': 0.00002,
+                    'pretrained_bert': "microsoft/deberta-v3-base",
+                    'cache_dataset': True,
+                    'warmup_step': -1,
+                    'show_metric': False,
+                    'max_seq_len': 80,
+                    'patience': 99999,
+                    'dropout': 0,
+                    'l2reg': 0.000001,
+                    'num_epoch': 10,
+                    'batch_size': 16,
+                    'initializer': 'xavier_uniform_',
+                    'seed': 52,
+                    'polarities_dim': 3,
+                    'log_step': 10,
+                    'evaluate_begin': 0,
+                    'cross_validate_fold': -1
+                    # split train and test datasets into 5 folds and repeat 3 training
+                    }
+_tad_config_english = {'model': TADBERT,
+                       'optimizer': "adamw",
+                       'learning_rate': 0.00002,
+                       'patience': 99999,
+                       'pretrained_bert': "microsoft/deberta-v3-base",
+                       'cache_dataset': True,
+                       'warmup_step': -1,
+                       'show_metric': False,
+                       'max_seq_len': 80,
+                       'dropout': 0,
+                       'l2reg': 0.000001,
+                       'num_epoch': 10,
+                       'batch_size': 16,
+                       'initializer': 'xavier_uniform_',
+                       'seed': 52,
+                       'polarities_dim': 3,
+                       'log_step': 10,
+                       'evaluate_begin': 0,
+                       'cross_validate_fold': -1
+                       # split train and test datasets into 5 folds and repeat 3 training
+                       }
+_tad_config_multilingual = {'model': TADBERT,
+                            'optimizer': "adamw",
+                            'learning_rate': 0.00002,
+                            'patience': 99999,
+                            'pretrained_bert': "microsoft/mdeberta-v3-base",
+                            'cache_dataset': True,
+                            'warmup_step': -1,
+                            'show_metric': False,
+                            'max_seq_len': 80,
+                            'dropout': 0,
+                            'l2reg': 0.000001,
+                            'num_epoch': 10,
+                            'batch_size': 16,
+                            'initializer': 'xavier_uniform_',
+                            'seed': 52,
+                            'polarities_dim': 3,
+                            'log_step': 10,
+                            'evaluate_begin': 0,
+                            'cross_validate_fold': -1
+                            # split train and test datasets into 5 folds and repeat 3 training
+                            }
+_tad_config_chinese = {'model': TADBERT,
+                       'optimizer': "adamw",
+                       'learning_rate': 0.00002,
+                       'patience': 99999,
+                       'cache_dataset': True,
+                       'warmup_step': -1,
+                       'show_metric': False,
+                       'pretrained_bert': "bert-base-chinese",
+                       'max_seq_len': 80,
+                       'dropout': 0,
+                       'l2reg': 0.000001,
+                       'num_epoch': 10,
+                       'batch_size': 16,
+                       'initializer': 'xavier_uniform_',
+                       'seed': 52,
+                       'polarities_dim': 3,
+                       'log_step': 10,
+                       'evaluate_begin': 0,
+                       'cross_validate_fold': -1
+                       # split train and test datasets into 5 folds and repeat 3 training
+                       }
+class TADConfigManager(ConfigManager):
+    def __init__(self, args, **kwargs):
+        """
+        Available Params:  {'model': BERT,
+                            'optimizer': "adamw",
+                            'learning_rate': 0.00002,
+                            'pretrained_bert': "roberta-base",
+                            'cache_dataset': True,
+                            'warmup_step': -1,
+                            'show_metric': False,
+                            'max_seq_len': 80,
+                            'patience': 99999,
+                            'dropout': 0,
+                            'l2reg': 0.000001,
+                            'num_epoch': 10,
+                            'batch_size': 16,
+                            'initializer': 'xavier_uniform_',
+                            'seed': {52, 25}
+                            'embed_dim': 768,
+                            'hidden_dim': 768,
+                            'polarities_dim': 3,
+                            'log_step': 10,
+                            'evaluate_begin': 0,
+                            'cross_validate_fold': -1 # split train and test datasets into 5 folds and repeat 3 training
+                            }
+        :param args:
+        :param kwargs:
+        """
+        super().__init__(args, **kwargs)
+    @staticmethod
+    def set_tad_config(configType: str, newitem: dict):
+        if isinstance(newitem, dict):
+            if configType == 'template':
+                _tad_config_template.update(newitem)
+            elif configType == 'base':
+                _tad_config_base.update(newitem)
+            elif configType == 'english':
+                _tad_config_english.update(newitem)
+            elif configType == 'chinese':
+                _tad_config_chinese.update(newitem)
+            elif configType == 'multilingual':
+                _tad_config_multilingual.update(newitem)
+            elif configType == 'glove':
+                _tad_config_glove.update(newitem)
+            else:
+                raise ValueError(
+                    "Wrong value of config type supplied, please use one from following type: template, base, english, chinese, multilingual, glove")
+        else:
+            raise TypeError("Wrong type of new config item supplied, please use dict e.g.{'NewConfig': NewValue}")
+    @staticmethod
+    def set_tad_config_template(newitem):
+        TADConfigManager.set_tad_config('template', newitem)
+    @staticmethod
+    def set_tad_config_base(newitem):
+        TADConfigManager.set_tad_config('base', newitem)
+    @staticmethod
+    def set_tad_config_english(newitem):
+        TADConfigManager.set_tad_config('english', newitem)
+    @staticmethod
+    def set_tad_config_chinese(newitem):
+        TADConfigManager.set_tad_config('chinese', newitem)
+    @staticmethod
+    def set_tad_config_multilingual(newitem):
+        TADConfigManager.set_tad_config('multilingual', newitem)
+    @staticmethod
+    def set_tad_config_glove(newitem):
+        TADConfigManager.set_tad_config('glove', newitem)
+    @staticmethod
+    def get_tad_config_template() -> ConfigManager:
+        _tad_config_template.update(_tad_config_template)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))
+    @staticmethod
+    def get_tad_config_base() -> ConfigManager:
+        _tad_config_template.update(_tad_config_base)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))
+    @staticmethod
+    def get_tad_config_english() -> ConfigManager:
+        _tad_config_template.update(_tad_config_english)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))
+    @staticmethod
+    def get_tad_config_chinese() -> ConfigManager:
+        _tad_config_template.update(_tad_config_chinese)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))
+    @staticmethod
+    def get_tad_config_multilingual() -> ConfigManager:
+        _tad_config_template.update(_tad_config_multilingual)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))
+    @staticmethod
+    def get_tad_config_glove() -> ConfigManager:
+        _tad_config_template.update(_tad_config_glove)
+        return TADConfigManager(copy.deepcopy(_tad_config_template))

anonymous_demo/functional/dataset/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from anonymous_demo.functional.dataset.dataset_manager import (detect_infer_dataset)

anonymous_demo/functional/dataset/dataset_manager.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import os
+from findfile import find_files, find_dir
+filter_key_words = ['.py', '.md', 'readme', 'log', 'result', 'zip',
+                    '.state_dict', '.model', '.png', 'acc_', 'f1_', '.backup', '.bak']
+def detect_infer_dataset(dataset_path, task='apc'):
+    dataset_file = []
+    if isinstance(dataset_path, str) and os.path.isfile(dataset_path):
+        dataset_file.append(dataset_path)
+        return dataset_file
+    for d in dataset_path:
+        if not os.path.exists(d):
+            search_path = find_dir(os.getcwd(), [d, task, 'dataset'], exclude_key=filter_key_words, disable_alert=False)
+            dataset_file += find_files(search_path, ['.inference', d], exclude_key=['train.'] + filter_key_words)
+        else:
+            dataset_file += find_files(d, ['.inference', task], exclude_key=['train.'] + filter_key_words)
+    return dataset_file

anonymous_demo/network/__init__.py ADDED Viewed

File without changes

anonymous_demo/network/lcf_pooler.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import numpy
+import torch
+import torch.nn as nn
+class LCF_Pooler(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+        self.activation = nn.Tanh()
+    def forward(self, hidden_states, lcf_vec):
+        device = hidden_states.device
+        lcf_vec = lcf_vec.detach().cpu().numpy()
+        pooled_output = numpy.zeros((hidden_states.shape[0], hidden_states.shape[2]), dtype=numpy.float32)
+        hidden_states = hidden_states.detach().cpu().numpy()
+        for i, vec in enumerate(lcf_vec):
+            lcf_ids = [j for j in range(len(vec)) if sum(vec[j] - 1.) == 0]
+            pooled_output[i] = hidden_states[i][lcf_ids[len(lcf_ids) // 2]]
+        pooled_output = torch.Tensor(pooled_output).to(device)
+        pooled_output = self.dense(pooled_output)
+        pooled_output = self.activation(pooled_output)
+        return pooled_output

anonymous_demo/network/lsa.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import torch
+from anonymous_demo.network.sa_encoder import Encoder
+from torch import nn
+class LSA(nn.Module):
+    def __init__(self, bert, opt):
+        super(LSA, self).__init__()
+        self.opt = opt
+        self.encoder = Encoder(bert.config, opt)
+        self.encoder_left = Encoder(bert.config, opt)
+        self.encoder_right = Encoder(bert.config, opt)
+        self.linear_window_3h = nn.Linear(opt.embed_dim * 3, opt.embed_dim)
+        self.linear_window_2h = nn.Linear(opt.embed_dim * 2, opt.embed_dim)
+        self.eta1 = nn.Parameter(torch.tensor(self.opt.eta, dtype=torch.float))
+        self.eta2 = nn.Parameter(torch.tensor(self.opt.eta, dtype=torch.float))
+    def forward(self, global_context_features, spc_mask_vec, lcf_matrix, left_lcf_matrix, right_lcf_matrix):
+        masked_global_context_features = torch.mul(spc_mask_vec, global_context_features)
+        # # --------------------------------------------------- #
+        lcf_features = torch.mul(global_context_features, lcf_matrix)
+        lcf_features = self.encoder(lcf_features)
+        # # --------------------------------------------------- #
+        left_lcf_features = torch.mul(masked_global_context_features, left_lcf_matrix)
+        left_lcf_features = self.encoder_left(left_lcf_features)
+        # # --------------------------------------------------- #
+        right_lcf_features = torch.mul(masked_global_context_features, right_lcf_matrix)
+        right_lcf_features = self.encoder_right(right_lcf_features)
+        # # --------------------------------------------------- #
+        if 'lr' == self.opt.window or 'rl' == self.opt.window:
+            if self.eta1 <= 0 and self.opt.eta != -1:
+                torch.nn.init.uniform_(self.eta1)
+                print('reset eta1 to: {}'.format(self.eta1.item()))
+            if self.eta2 <= 0 and self.opt.eta != -1:
+                torch.nn.init.uniform_(self.eta2)
+                print('reset eta2 to: {}'.format(self.eta2.item()))
+            if self.opt.eta >= 0:
+                cat_features = torch.cat((lcf_features, self.eta1 * left_lcf_features, self.eta2 * right_lcf_features),
+                                         -1)
+            else:
+                cat_features = torch.cat((lcf_features, left_lcf_features, right_lcf_features), -1)
+            sent_out = self.linear_window_3h(cat_features)
+        elif 'l' == self.opt.window:
+            sent_out = self.linear_window_2h(torch.cat((lcf_features, self.eta1 * left_lcf_features), -1))
+        elif 'r' == self.opt.window:
+            sent_out = self.linear_window_2h(torch.cat((lcf_features, self.eta2 * right_lcf_features), -1))
+        else:
+            raise KeyError('Invalid parameter:', self.opt.window)
+        return sent_out

anonymous_demo/network/sa_encoder.py ADDED Viewed

	@@ -0,0 +1,159 @@

+import math
+import numpy as np
+import torch
+import torch.nn as nn
+class BertSelfAttention(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        if config.hidden_size % config.num_attention_heads != 0 and not hasattr(config, "embedding_size"):
+            raise ValueError(
+                f"The hidden size ({config.hidden_size}) is not a multiple of the number of attention "
+                f"heads ({config.num_attention_heads})"
+            )
+        self.num_attention_heads = config.num_attention_heads
+        self.attention_head_size = int(config.hidden_size / config.num_attention_heads)
+        self.all_head_size = self.num_attention_heads * self.attention_head_size
+        self.query = nn.Linear(config.hidden_size, self.all_head_size)
+        self.key = nn.Linear(config.hidden_size, self.all_head_size)
+        self.value = nn.Linear(config.hidden_size, self.all_head_size)
+        self.dropout = nn.Dropout(
+            config.attention_probs_dropout_prob if hasattr(config, 'attention_probs_dropout_prob') else 0)
+        self.position_embedding_type = getattr(config, "position_embedding_type", "absolute")
+        if self.position_embedding_type == "relative_key" or self.position_embedding_type == "relative_key_query":
+            self.max_position_embeddings = config.max_position_embeddings
+            self.distance_embedding = nn.Embedding(2 * config.max_position_embeddings - 1, self.attention_head_size)
+        self.is_decoder = config.is_decoder
+    def transpose_for_scores(self, x):
+        new_x_shape = x.size()[:-1] + (self.num_attention_heads, self.attention_head_size)
+        x = x.view(*new_x_shape)
+        return x.permute(0, 2, 1, 3)
+    def forward(
+        self,
+        hidden_states,
+        attention_mask=None,
+        head_mask=None,
+        encoder_hidden_states=None,
+        encoder_attention_mask=None,
+        past_key_value=None,
+        output_attentions=False,
+    ):
+        mixed_query_layer = self.query(hidden_states)
+        # If this is instantiated as a cross-attention module, the keys
+        # and values come from an encoder; the attention mask needs to be
+        # such that the encoder's padding tokens are not attended to.
+        is_cross_attention = encoder_hidden_states is not None
+        if is_cross_attention and past_key_value is not None:
+            # reuse k,v, cross_attentions
+            key_layer = past_key_value[0]
+            value_layer = past_key_value[1]
+            attention_mask = encoder_attention_mask
+        elif is_cross_attention:
+            key_layer = self.transpose_for_scores(self.key(encoder_hidden_states))
+            value_layer = self.transpose_for_scores(self.value(encoder_hidden_states))
+            attention_mask = encoder_attention_mask
+        elif past_key_value is not None:
+            key_layer = self.transpose_for_scores(self.key(hidden_states))
+            value_layer = self.transpose_for_scores(self.value(hidden_states))
+            key_layer = torch.cat([past_key_value[0], key_layer], dim=2)
+            value_layer = torch.cat([past_key_value[1], value_layer], dim=2)
+        else:
+            key_layer = self.transpose_for_scores(self.key(hidden_states))
+            value_layer = self.transpose_for_scores(self.value(hidden_states))
+        query_layer = self.transpose_for_scores(mixed_query_layer)
+        if self.is_decoder:
+            # if cross_attention save Tuple(torch.Tensor, torch.Tensor) of all cross attention key/value_states.
+            # Further calls to cross_attention layer can then reuse all cross-attention
+            # key/value_states (first "if" case)
+            # if uni-directional self-attention (decoder) save Tuple(torch.Tensor, torch.Tensor) of
+            # all previous decoder key/value_states. Further calls to uni-directional self-attention
+            # can concat previous decoder key/value_states to current projected key/value_states (third "elif" case)
+            # if encoder bi-directional self-attention `past_key_value` is always `None`
+            past_key_value = (key_layer, value_layer)
+        # Take the dot product between "query" and "key" to get the raw attention scores.
+        attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
+        if self.position_embedding_type == "relative_key" or self.position_embedding_type == "relative_key_query":
+            seq_length = hidden_states.size()[1]
+            position_ids_l = torch.arange(seq_length, dtype=torch.long, device=hidden_states.device).view(-1, 1)
+            position_ids_r = torch.arange(seq_length, dtype=torch.long, device=hidden_states.device).view(1, -1)
+            distance = position_ids_l - position_ids_r
+            positional_embedding = self.distance_embedding(distance + self.max_position_embeddings - 1)
+            positional_embedding = positional_embedding.to(dtype=query_layer.dtype)  # fp16 compatibility
+            if self.position_embedding_type == "relative_key":
+                relative_position_scores = torch.einsum("bhld,lrd->bhlr", query_layer, positional_embedding)
+                attention_scores = attention_scores + relative_position_scores
+            elif self.position_embedding_type == "relative_key_query":
+                relative_position_scores_query = torch.einsum("bhld,lrd->bhlr", query_layer, positional_embedding)
+                relative_position_scores_key = torch.einsum("bhrd,lrd->bhlr", key_layer, positional_embedding)
+                attention_scores = attention_scores + relative_position_scores_query + relative_position_scores_key
+        attention_scores = attention_scores / math.sqrt(self.attention_head_size)
+        if attention_mask is not None:
+            # Apply the attention mask is (precomputed for all layers in BertModel forward() function)
+            attention_scores = attention_scores + attention_mask
+        # Normalize the attention scores to probabilities.
+        attention_probs = nn.Softmax(dim=-1)(attention_scores)
+        # This is actually dropping out entire tokens to attend to, which might
+        # seem a bit unusual, but is taken from the original Transformer paper.
+        attention_probs = self.dropout(attention_probs)
+        # Mask heads if we want to
+        if head_mask is not None:
+            attention_probs = attention_probs * head_mask
+        context_layer = torch.matmul(attention_probs, value_layer)
+        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+        new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,)
+        context_layer = context_layer.view(*new_context_layer_shape)
+        outputs = (context_layer, attention_probs) if output_attentions else (context_layer,)
+        if self.is_decoder:
+            outputs = outputs + (past_key_value,)
+        return outputs
+class Encoder(nn.Module):
+    def __init__(self, config, opt, layer_num=1):
+        super(Encoder, self).__init__()
+        self.opt = opt
+        self.config = config
+        self.encoder = nn.ModuleList([SelfAttention(config, opt) for _ in range(layer_num)])
+        self.tanh = torch.nn.Tanh()
+    def forward(self, x):
+        for i, enc in enumerate(self.encoder):
+            x = self.tanh(enc(x)[0])
+        return x
+class SelfAttention(nn.Module):
+    def __init__(self, config, opt):
+        super(SelfAttention, self).__init__()
+        self.opt = opt
+        self.config = config
+        self.SA = BertSelfAttention(config)
+    def forward(self, inputs):
+        zero_vec = np.zeros((inputs.size(0), 1, 1, self.opt.max_seq_len))
+        zero_tensor = torch.tensor(zero_vec).float().to(inputs.device)
+        SA_out = self.SA(inputs, zero_tensor)
+        return SA_out

anonymous_demo/utils/__init__.py ADDED Viewed

File without changes

anonymous_demo/utils/demo_utils.py ADDED Viewed

	@@ -0,0 +1,209 @@

+import json
+import os
+import pickle
+import signal
+import threading
+import time
+import zipfile
+import gdown
+import numpy as np
+import requests
+import torch
+import tqdm
+from autocuda import auto_cuda, auto_cuda_name
+from findfile import find_files, find_cwd_file, find_file
+from termcolor import colored
+from functools import wraps
+from update_checker import parse_version
+from anonymous_demo import __version__
+def save_args(config, save_path):
+    f = open(os.path.join(save_path), mode='w', encoding='utf8')
+    for arg in config.args:
+        if config.args_call_count[arg]:
+            f.write('{}: {}\n'.format(arg, config.args[arg]))
+    f.close()
+def print_args(config, logger=None, mode=0):
+    args = [key for key in sorted(config.args.keys())]
+    for arg in args:
+        if logger:
+            logger.info('{0}:{1}\t-->\tCalling Count:{2}'.format(arg, config.args[arg], config.args_call_count[arg]))
+        else:
+            print('{0}:{1}\t-->\tCalling Count:{2}'.format(arg, config.args[arg], config.args_call_count[arg]))
+def check_and_fix_labels(label_set: set, label_name, all_data, opt):
+    if '-100' in label_set:
+        label_to_index = {origin_label: int(idx) - 1 if origin_label != '-100' else -100 for origin_label, idx in zip(sorted(label_set), range(len(label_set)))}
+        index_to_label = {int(idx) - 1 if origin_label != '-100' else -100: origin_label for origin_label, idx in zip(sorted(label_set), range(len(label_set)))}
+    else:
+        label_to_index = {origin_label: int(idx) for origin_label, idx in zip(sorted(label_set), range(len(label_set)))}
+        index_to_label = {int(idx): origin_label for origin_label, idx in zip(sorted(label_set), range(len(label_set)))}
+    if 'index_to_label' not in opt.args:
+        opt.index_to_label = index_to_label
+        opt.label_to_index = label_to_index
+    if opt.index_to_label != index_to_label:
+        opt.index_to_label.update(index_to_label)
+        opt.label_to_index.update(label_to_index)
+    num_label = {l: 0 for l in label_set}
+    num_label['Sum'] = len(all_data)
+    for item in all_data:
+        try:
+            num_label[item[label_name]] += 1
+            item[label_name] = label_to_index[item[label_name]]
+        except Exception as e:
+            # print(e)
+            num_label[item.polarity] += 1
+            item.polarity = label_to_index[item.polarity]
+    print('Dataset Label Details: {}'.format(num_label))
+def check_and_fix_IOB_labels(label_map, opt):
+    index_to_IOB_label = {int(label_map[origin_label]): origin_label for origin_label in label_map}
+    opt.index_to_IOB_label = index_to_IOB_label
+def get_device(auto_device):
+    if isinstance(auto_device, str) and auto_device == 'allcuda':
+        device = 'cuda'
+    elif isinstance(auto_device, str):
+        device = auto_device
+    elif isinstance(auto_device, bool):
+        device = auto_cuda() if auto_device else 'cpu'
+    else:
+        device = auto_cuda()
+        try:
+            torch.device(device)
+        except RuntimeError as e:
+            print(colored('Device assignment error: {}, redirect to CPU'.format(e), 'red'))
+            device = 'cpu'
+    device_name = auto_cuda_name()
+    return device, device_name
+def _load_word_vec(path, word2idx=None, embed_dim=300):
+    fin = open(path, 'r', encoding='utf-8', newline='\n', errors='ignore')
+    word_vec = {}
+    for line in tqdm.tqdm(fin.readlines(), postfix='Loading embedding file...'):
+        tokens = line.rstrip().split()
+        word, vec = ' '.join(tokens[:-embed_dim]), tokens[-embed_dim:]
+        if word in word2idx.keys():
+            word_vec[word] = np.asarray(vec, dtype='float32')
+    return word_vec
+def build_embedding_matrix(word2idx, embed_dim, dat_fname, opt):
+    if not os.path.exists('run'):
+        os.makedirs('run')
+    embed_matrix_path = 'run/{}'.format(os.path.join(opt.dataset_name, dat_fname))
+    if os.path.exists(embed_matrix_path):
+        print(colored('Loading cached embedding_matrix from {} (Please remove all cached files if there is any problem!)'.format(embed_matrix_path), 'green'))
+        embedding_matrix = pickle.load(open(embed_matrix_path, 'rb'))
+    else:
+        glove_path = prepare_glove840_embedding(embed_matrix_path)
+        embedding_matrix = np.zeros((len(word2idx) + 2, embed_dim))
+        word_vec = _load_word_vec(glove_path, word2idx=word2idx, embed_dim=embed_dim)
+        for word, i in tqdm.tqdm(word2idx.items(), postfix=colored('Building embedding_matrix {}'.format(dat_fname), 'yellow')):
+            vec = word_vec.get(word)
+            if vec is not None:
+                embedding_matrix[i] = vec
+        pickle.dump(embedding_matrix, open(embed_matrix_path, 'wb'))
+    return embedding_matrix
+def pad_and_truncate(sequence, maxlen, dtype='int64', padding='post', truncating='post', value=0):
+    x = (np.ones(maxlen) * value).astype(dtype)
+    if truncating == 'pre':
+        trunc = sequence[-maxlen:]
+    else:
+        trunc = sequence[:maxlen]
+    trunc = np.asarray(trunc, dtype=dtype)
+    if padding == 'post':
+        x[:len(trunc)] = trunc
+    else:
+        x[-len(trunc):] = trunc
+    return x
+class TransformerConnectionError(ValueError):
+    def __init__(self):
+        pass
+def retry(f):
+    @wraps(f)
+    def decorated(*args, **kwargs):
+        count = 5
+        while count:
+            try:
+                return f(*args, **kwargs)
+            except (
+                TransformerConnectionError,
+                requests.exceptions.RequestException,
+                requests.exceptions.ConnectionError,
+                requests.exceptions.HTTPError,
+                requests.exceptions.ConnectTimeout,
+                requests.exceptions.ProxyError,
+                requests.exceptions.SSLError,
+                requests.exceptions.BaseHTTPError,
+            ) as e:
+                print(colored('Training Exception: {}, will retry later'.format(e)))
+                time.sleep(60)
+                count -= 1
+    return decorated
+def save_json(dic, save_path):
+    if isinstance(dic, str):
+        dic = eval(dic)
+    with open(save_path, 'w', encoding='utf-8') as f:
+        # f.write(str(dict))
+        str_ = json.dumps(dic, ensure_ascii=False)
+        f.write(str_)
+def load_json(save_path):
+    with open(save_path, 'r', encoding='utf-8') as f:
+        data = f.readline().strip()
+        print(type(data), data)
+        dic = json.loads(data)
+    return dic
+def init_optimizer(optimizer):
+    optimizers = {
+        'adadelta': torch.optim.Adadelta,  # default lr=1.0
+        'adagrad': torch.optim.Adagrad,  # default lr=0.01
+        'adam': torch.optim.Adam,  # default lr=0.001
+        'adamax': torch.optim.Adamax,  # default lr=0.002
+        'asgd': torch.optim.ASGD,  # default lr=0.01
+        'rmsprop': torch.optim.RMSprop,  # default lr=0.01
+        'sgd': torch.optim.SGD,
+        'adamw': torch.optim.AdamW,
+        torch.optim.Adadelta: torch.optim.Adadelta,  # default lr=1.0
+        torch.optim.Adagrad: torch.optim.Adagrad,  # default lr=0.01
+        torch.optim.Adam: torch.optim.Adam,  # default lr=0.001
+        torch.optim.Adamax: torch.optim.Adamax,  # default lr=0.002
+        torch.optim.ASGD: torch.optim.ASGD,  # default lr=0.01
+        torch.optim.RMSprop: torch.optim.RMSprop,  # default lr=0.01
+        torch.optim.SGD: torch.optim.SGD,
+        torch.optim.AdamW: torch.optim.AdamW,
+    }
+    if optimizer in optimizers:
+        return optimizers[optimizer]
+    elif hasattr(torch.optim, optimizer.__name__):
+        return optimizer
+    else:
+        raise KeyError('Unsupported optimizer: {}. Please use string or the optimizer objects in torch.optim as your optimizer'.format(optimizer))

anonymous_demo/utils/logger.py ADDED Viewed

	@@ -0,0 +1,38 @@

+import logging
+import os
+import sys
+import time
+import termcolor
+today = time.strftime('%Y%m%d %H%M%S', time.localtime(time.time()))
+def get_logger(log_path, log_name='', log_type='training_log'):
+    if not log_path:
+        log_dir = os.path.join(log_path, "logs")
+    else:
+        log_dir = os.path.join('.', "logs")
+    full_path = os.path.join(log_dir, log_name + '_' + today)
+    if not os.path.exists(full_path):
+        os.makedirs(full_path)
+    log_path = os.path.join(full_path, "{}.log".format(log_type))
+    logger = logging.getLogger(log_name)
+    if not logger.handlers:
+        formatter = logging.Formatter('%(asctime)s %(levelname)s: %(message)s')
+        file_handler = logging.FileHandler(log_path, encoding="utf8")
+        file_handler.setFormatter(formatter)
+        file_handler.setLevel(logging.INFO)
+        console_handler = logging.StreamHandler(sys.stdout)
+        console_handler.formatter = formatter
+        console_handler.setLevel(logging.INFO)
+        logger.addHandler(file_handler)
+        logger.addHandler(console_handler)
+        logger.setLevel(logging.INFO)
+    return logger

app.py ADDED Viewed

	@@ -0,0 +1,271 @@

+import os
+import random
+import zipfile
+from difflib import Differ
+import gradio as gr
+import nltk
+import pandas as pd
+from findfile import find_files
+from anonymous_demo import TADCheckpointManager
+from textattack import Attacker
+from textattack.attack_recipes import BAEGarg2019, PWWSRen2019, TextFoolerJin2019, PSOZang2020, IGAWang2019, GeneticAlgorithmAlzantot2018, DeepWordBugGao2018
+from textattack.attack_results import SuccessfulAttackResult
+from textattack.datasets import Dataset
+from textattack.models.wrappers import HuggingFaceModelWrapper
+z = zipfile.ZipFile('checkpoints.zip', 'r')
+z.extractall(os.getcwd())
+class ModelWrapper(HuggingFaceModelWrapper):
+    def __init__(self, model):
+        self.model = model  # pipeline = pipeline
+    def __call__(self, text_inputs, **kwargs):
+        outputs = []
+        for text_input in text_inputs:
+            raw_outputs = self.model.infer(text_input, print_result=False, **kwargs)
+            outputs.append(raw_outputs['probs'])
+        return outputs
+class SentAttacker:
+    def __init__(self, model, recipe_class=BAEGarg2019):
+        model = model
+        model_wrapper = ModelWrapper(model)
+        recipe = recipe_class.build(model_wrapper)
+        # WordNet defaults to english. Set the default language to French ('fra')
+        # recipe.transformation.language = "en"
+        _dataset = [('', 0)]
+        _dataset = Dataset(_dataset)
+        self.attacker = Attacker(recipe, _dataset)
+def diff_texts(text1, text2):
+    d = Differ()
+    return [
+        (token[2:], token[0] if token[0] != " " else None)
+        for token in d.compare(text1, text2)
+    ]
+def get_ensembled_tad_results(results):
+    target_dict = {}
+    for r in results:
+        target_dict[r['label']] = target_dict.get(r['label']) + 1 if r['label'] in target_dict else 1
+    return dict(zip(target_dict.values(), target_dict.keys()))[max(target_dict.values())]
+nltk.download('omw-1.4')
+sent_attackers = {}
+tad_classifiers = {}
+attack_recipes = {
+    'bae': BAEGarg2019,
+    'pwws': PWWSRen2019,
+    'textfooler': TextFoolerJin2019,
+    'pso': PSOZang2020,
+    'iga': IGAWang2019,
+    'GA': GeneticAlgorithmAlzantot2018,
+    'wordbugger': DeepWordBugGao2018,
+}
+for attacker in [
+    'pwws',
+    'bae',
+    'textfooler'
+]:
+    for dataset in [
+        'agnews10k',
+        'amazon',
+        'sst2',
+    ]:
+        if 'tad-{}'.format(dataset) not in tad_classifiers:
+            tad_classifiers['tad-{}'.format(dataset)] = TADCheckpointManager.get_tad_text_classifier('tad-{}'.format(dataset).upper())
+        sent_attackers['tad-{}{}'.format(dataset, attacker)] = SentAttacker(tad_classifiers['tad-{}'.format(dataset)], attack_recipes[attacker])
+        tad_classifiers['tad-{}'.format(dataset)].sent_attacker = sent_attackers['tad-{}pwws'.format(dataset)]
+def get_a_sst2_example():
+    filter_key_words = ['.py', '.md', 'readme', 'log', 'result', 'zip', '.state_dict', '.model', '.png', 'acc_', 'f1_', '.origin', '.adv', '.csv']
+    dataset_file = {'train': [], 'test': [], 'valid': []}
+    dataset = 'sst2'
+    search_path = './'
+    task = 'text_defense'
+    dataset_file['test'] += find_files(search_path, [dataset, 'test', task], exclude_key=['.adv', '.org', '.defense', '.inference', 'train.'] + filter_key_words)
+    for dat_type in [
+        'test'
+    ]:
+        data = []
+        label_set = set()
+        for data_file in dataset_file[dat_type]:
+            with open(data_file, mode='r', encoding='utf8') as fin:
+                lines = fin.readlines()
+                for line in lines:
+                    text, label = line.split('$LABEL$')
+                    text = text.strip()
+                    label = int(label.strip())
+                    data.append((text, label))
+                    label_set.add(label)
+        return data[random.randint(0, len(data))]
+def get_a_agnews_example():
+    filter_key_words = ['.py', '.md', 'readme', 'log', 'result', 'zip', '.state_dict', '.model', '.png', 'acc_', 'f1_', '.origin', '.adv', '.csv']
+    dataset_file = {'train': [], 'test': [], 'valid': []}
+    dataset = 'agnews'
+    search_path = './'
+    task = 'text_defense'
+    dataset_file['test'] += find_files(search_path, [dataset, 'test', task], exclude_key=['.adv', '.org', '.defense', '.inference', 'train.'] + filter_key_words)
+    for dat_type in [
+        'test'
+    ]:
+        data = []
+        label_set = set()
+        for data_file in dataset_file[dat_type]:
+            with open(data_file, mode='r', encoding='utf8') as fin:
+                lines = fin.readlines()
+                for line in lines:
+                    text, label = line.split('$LABEL$')
+                    text = text.strip()
+                    label = int(label.strip())
+                    data.append((text, label))
+                    label_set.add(label)
+        return data[random.randint(0, len(data))]
+def get_a_amazon_example():
+    filter_key_words = ['.py', '.md', 'readme', 'log', 'result', 'zip', '.state_dict', '.model', '.png', 'acc_', 'f1_', '.origin', '.adv', '.csv']
+    dataset_file = {'train': [], 'test': [], 'valid': []}
+    dataset = 'amazon'
+    search_path = './'
+    task = 'text_defense'
+    dataset_file['test'] += find_files(search_path, [dataset, 'test', task], exclude_key=['.adv', '.org', '.defense', '.inference', 'train.'] + filter_key_words)
+    for dat_type in [
+        'test'
+    ]:
+        data = []
+        label_set = set()
+        for data_file in dataset_file[dat_type]:
+            with open(data_file, mode='r', encoding='utf8') as fin:
+                lines = fin.readlines()
+                for line in lines:
+                    text, label = line.split('$LABEL$')
+                    text = text.strip()
+                    label = int(label.strip())
+                    data.append((text, label))
+                    label_set.add(label)
+        return data[random.randint(0, len(data))]
+def generate_adversarial_example(dataset, attacker, text=None, label=None):
+    if not text:
+        if 'agnews' in dataset.lower():
+            text, label = get_a_agnews_example()
+        elif 'sst2' in dataset.lower():
+            text, label = get_a_sst2_example()
+        elif 'amazon' in dataset.lower():
+            text, label = get_a_amazon_example()
+    result = None
+    attack_result = sent_attackers['tad-{}{}'.format(dataset.lower(), attacker.lower())].attacker.simple_attack(text, int(label))
+    if isinstance(attack_result, SuccessfulAttackResult):
+        if (attack_result.perturbed_result.output != attack_result.original_result.ground_truth_output) and (attack_result.original_result.output == attack_result.original_result.ground_truth_output):
+            # with defense
+            result = tad_classifiers['tad-{}'.format(dataset.lower())].infer(
+                attack_result.perturbed_result.attacked_text.text + '!ref!{},{},{}'.format(attack_result.original_result.ground_truth_output, 1, attack_result.perturbed_result.output),
+                print_result=True,
+                defense='pwws',
+            )
+    if result:
+        classification_df = {}
+        classification_df['pred_label'] = result['label']
+        classification_df['confidence'] = round(result['confidence'], 3)
+        classification_df['is_correct'] = result['ref_label_check']
+        classification_df['is_repaired'] = result['is_fixed']
+        advdetection_df = {}
+        if result['is_adv_label'] != '0':
+            advdetection_df['is_adversary'] = result['is_adv_label']
+            advdetection_df['perturbed_label'] = result['perturbed_label']
+            advdetection_df['confidence'] = round(result['is_adv_confidence'], 3)
+            # advdetection_df['ref_is_attack'] = result['ref_is_adv_label']
+            # advdetection_df['is_correct'] = result['ref_is_adv_check']
+    else:
+        return generate_adversarial_example(dataset, attacker)
+    return (text,
+            label,
+            attack_result.perturbed_result.attacked_text.text,
+            diff_texts(text, attack_result.perturbed_result.attacked_text.text),
+            diff_texts(text, result['restored_text']),
+            attack_result.perturbed_result.output,
+            pd.DataFrame(classification_df, index=[0]),
+            pd.DataFrame(advdetection_df, index=[0])
+            )
+demo = gr.Blocks()
+with demo:
+    with gr.Row():
+        with gr.Column():
+            input_dataset = gr.Radio(choices=['SST2', 'AGNews10K', 'Amazon'], value='Amazon', label="Dataset")
+            input_attacker = gr.Radio(choices=['BAE', 'PWWS', 'TextFooler'], value='TextFooler', label="Attacker")
+            input_sentence = gr.Textbox(placeholder='Randomly choose a example from testing set if this box is blank', label="Sentence")
+            input_label = gr.Textbox(placeholder='original label ... ', label="Original Label")
+            gr.Markdown("Original Example")
+            output_origin_example = gr.Textbox(label="Original Example")
+            output_original_label = gr.Textbox(label="Original Label")
+            gr.Markdown("Adversarial Example")
+            output_adv_example = gr.Textbox(label="Adversarial Example")
+            output_adv_label = gr.Textbox(label="Perturbed Label")
+            gr.Markdown('This demo is deployed on a CPU device so it may take a long time to execute. Please be patient.')
+            button_gen = gr.Button("Click Here to Generate an Adversary and Run Adversary Detection & Repair")
+        # Right column (outputs)
+        with gr.Column():
+            gr.Markdown("Example Difference")
+            adv_text_diff = gr.HighlightedText(label="Adversarial Example Difference", combine_adjacent=True)
+            restored_text_diff = gr.HighlightedText(label="Restored Example Difference", combine_adjacent=True)
+            output_is_adv_df = gr.DataFrame(label="Adversary Prediction")
+            output_df = gr.DataFrame(label="Standard Classification Prediction")
+    # Bind functions to buttons
+    button_gen.click(fn=generate_adversarial_example,
+                     inputs=[input_dataset, input_attacker, input_sentence, input_label],
+                     outputs=[output_origin_example,
+                              output_original_label,
+                              output_adv_example,
+                              adv_text_diff,
+                              restored_text_diff,
+                              output_adv_label,
+                              output_df,
+                              output_is_adv_df])
+demo.launch()

checkpoints.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a5452cd89dcd3132d616cc81e2a1b063efa7d11e5798719b0779715b1c6edeb
+size 1846862527

requirements.txt ADDED Viewed

	@@ -0,0 +1,19 @@

+findfile>=1.7.9.8
+autocuda>=0.11
+metric-visualizer>=0.5.5
+boostaug>=2.2.3
+spacy
+networkx
+seqeval
+update-checker
+typing_extensions
+tqdm
+pytorch_warmup
+termcolor
+gitpython
+gdown>=4.4.0
+transformers>4.20.0
+torch>1.0.0
+sentencepiece
+tensorflow_text
+textattack

text_defense/201.SST2/stsa.binary.dev.dat ADDED Viewed