Spaces:

a-menu
/

arches_demo

Sleeping

App Files Files Community

a-menu commited on Jan 24, 2024

Commit

cb955d0

verified ·

1 Parent(s): 2e00505

user can now pick between two ner models

Browse files

Files changed (1) hide show

app.py +58 -11

app.py CHANGED Viewed

@@ -91,7 +91,7 @@ st.sidebar.markdown("Avec ses 2200 collaborateurs, l’[Inrap](https://www.inrap
 st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
-st.sidebar.markdown("Le corpus a été annoté à l'aide d'[INCEpTION](https://inception-project.github.io/), tandis que les modèles de [segmentation](https://huggingface.co/a-menu/fr_arches_sentencizer) et de [reconnaissance des entités nommées](https://huggingface.co/a-menu/fr_arches) ont été entraînés et évalués avec [spaCy](https://spacy.io/). Les modalités de [citation](https://huggingface.co/spaces/a-menu/arches_demo/blob/main/CITATION.cff) de l'application peuvent être retrouvées dans le [dépôt](https://huggingface.co/spaces/a-menu/arches_demo/tree/main) de celle-ci.")
 st.sidebar.write("")
@@ -135,11 +135,28 @@ def download_sentencizer():
         subprocess.run(["pip", "install", "https://huggingface.co/a-menu/fr_arches_sentencizer/resolve/main/fr_arches_sentencizer-any-py3-none-any.whl"])
 # Cached to prevent computation on every rerun
 @st.cache_resource
 def download_ner():
     """
-    Downloads the fr_arches TRF NER model.
     :returns: None
     """
@@ -147,9 +164,9 @@ def download_ner():
     # Check if the model is already installed
     # If not, install it
     # Source : ice.nicer & Arthur, https://stackoverflow.com/a/41815890
-    check_ner = importlib.util.find_spec("fr_arches")
     if check_ner is None:
-        subprocess.run(["pip", "install", "https://huggingface.co/a-menu/fr_arches/resolve/main/fr_arches-any-py3-none-any.whl"])
 # Cached to prevent computation on every rerun
@@ -166,17 +183,34 @@ def load_sentencizer():
     return senter
 # Cached to prevent computation on every rerun
 @st.cache_resource
 def load_ner():
     """
-    Loads our custom fr_arches trf ner model.
     :returns: loaded fr_arches model
     :rtype: spacy.lang.fr.French
     """
-    ner = spacy.load("fr_arches")
     # To try to reduce memory usage
     config = {"attrs": {"tensor": None}}
     ner.add_pipe("doc_cleaner", config=config)
@@ -545,13 +579,25 @@ st.write("")
 def main():
-    # Download our models
-    download_sentencizer()
-    download_ner()
-    # Load our models
     senter = load_sentencizer()
-    ner = load_ner()
     with st.expander("Au sujet des entités nommées recherchées"):
         st.markdown("**Les différents types d'entités sont :** \n\n- **CHRONOLOGIE :** utilisé pour les références chronologiques (\"Antiquité\", \"XIIe siècle\", \"200 av. n. ère\", etc.). \n- **MOBILIER :** utilisé pour le mobilier (\"os\", \"pot\", \"tuile\", etc.). \n- **STRUCTURE :** utilisé pour les structures archéologiques (\"fosse\", \"mur\", \"fossé\", \"foyer\", etc.). \n- **MATERIAU :** utilisé pour les matériaux (\"bronze\", \"dolérite\", \"terre cuite\", etc.). \n- **ID :** utilisé pour les identifiants de vestiges (\"4\" pour \"le fossé 4\" par exemple). \n- **TECHNIQUE_STYLE :** utilisé pour les mentions de techniques et styles de fabrication ou construction (\"taillé\", \"glaçuré\", \"en petit appareil\", etc.). \n- **DECOR :** utilisé pour les éléments de décor. \n- **ESPECE :** utilisé pour signaler les taxons et noms vernaculaires rencontrés dans le texte. \n- **EDIFICE :** utilisé pour les édifices et monuments nommés (\"église Saint-Paul\", \"pont du Gard\", etc.). \n- **PEUPLE_CULTURE :** utilisé pour les cultures et peuples évoqués (tribus gauloises, cultures préhistoriques, etc.). \n- **PERSONNE :** utilisé pour les noms de personnes (historiques, fictives, équipe scientifique, etc.). \n- **ORG :** utilisé pour les institutions, sociétés, laboratoires, universités, musées, archives, etc. \n- **GPE :** utilisé pour les entités géopolitiques (villes, départements, États, etc.). \n- **LOC :** utilisé pour les lieux non-GPE (lieux naturels par exemple). \n- **LIEUDIT_SITE :** utilisé pour les lieux-dits et noms de sites archéologiques.")
@@ -846,6 +892,7 @@ def main():
                                     mime="text/csv",
                                 )
     st.markdown("# ")
     st.markdown("# ")

 st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
+st.sidebar.markdown("Le corpus a été annoté à l'aide d'[INCEpTION](https://inception-project.github.io/), tandis que les modèles de [segmentation](https://huggingface.co/a-menu/fr_arches_sentencizer) et de reconnaissance des entités nommées ([avec](https://huggingface.co/a-menu/fr_arches_ner_trf) et [sans](https://huggingface.co/a-menu/fr_arches_ner) architecture transformer) ont été entraînés et évalués avec [spaCy](https://spacy.io/). Les modalités de [citation](https://huggingface.co/spaces/a-menu/arches_demo/blob/main/CITATION.cff) de l'application peuvent être retrouvées dans le [dépôt](https://huggingface.co/spaces/a-menu/arches_demo/tree/main) de celle-ci.")
 st.sidebar.write("")
         subprocess.run(["pip", "install", "https://huggingface.co/a-menu/fr_arches_sentencizer/resolve/main/fr_arches_sentencizer-any-py3-none-any.whl"])
+# Cached to prevent computation on every rerun
+@st.cache_resource
+def download_ner_trf():
+    """
+    Downloads the fr_arches_ner_trf TRF NER model.
+    :returns: None
+    """
+    # Check if the model is already installed
+    # If not, install it
+    # Source : ice.nicer & Arthur, https://stackoverflow.com/a/41815890
+    check_ner_trf = importlib.util.find_spec("fr_arches_ner_trf")
+    if check_ner_trf is None:
+        subprocess.run(["pip", "install", "https://huggingface.co/a-menu/fr_arches_ner_trf/resolve/main/fr_arches_ner_trf-any-py3-none-any.whl"])
 # Cached to prevent computation on every rerun
 @st.cache_resource
 def download_ner():
     """
+    Downloads the fr_arches_ner NER model.
     :returns: None
     """
     # Check if the model is already installed
     # If not, install it
     # Source : ice.nicer & Arthur, https://stackoverflow.com/a/41815890
+    check_ner = importlib.util.find_spec("fr_arches_ner")
     if check_ner is None:
+        subprocess.run(["pip", "install", "https://huggingface.co/a-menu/fr_arches_ner/resolve/main/fr_arches_ner-any-py3-none-any.whl"])
 # Cached to prevent computation on every rerun
     return senter
+# Cached to prevent computation on every rerun
+@st.cache_resource
+def load_ner_trf():
+    """
+    Loads our custom fr_arches_ner_trf trf ner model.
+    :returns: loaded fr_arches model
+    :rtype: spacy.lang.fr.French
+    """
+    ner = spacy.load("fr_arches_ner_trf")
+    # To try to reduce memory usage
+    config = {"attrs": {"tensor": None}}
+    ner.add_pipe("doc_cleaner", config=config)
+    return ner
 # Cached to prevent computation on every rerun
 @st.cache_resource
 def load_ner():
     """
+    Loads our custom fr_arches_ner ner model.
     :returns: loaded fr_arches model
     :rtype: spacy.lang.fr.French
     """
+    ner = spacy.load("fr_arches_ner")
     # To try to reduce memory usage
     config = {"attrs": {"tensor": None}}
     ner.add_pipe("doc_cleaner", config=config)
 def main():
+    # Download and load our models
+    # Sentencizer
+    download_sentencizer()
     senter = load_sentencizer()
+    # NER
+    # Choose which NER model you want
+    pick_model = st.radio("Quel modèle de reconnaissance d'entités nommmées souhaitez-vous utiliser ?", ("fr_arches_ner (plus léger en ressources mais moins efficace)", "fr_arches_ner_trf (plus lourd en ressources mais plus efficace, GPU conseillé)"))
+    st.write("")
+    st.write("")
+    if pick_model == "fr_arches_ner (plus léger en ressources mais moins efficace)":
+        download_ner()
+        ner = load_ner()
+    if pick_model == "fr_arches_ner_trf (plus lourd en ressources mais plus efficace, GPU conseillé)":
+        download_ner_trf()
+        ner = load_ner_trf()
     with st.expander("Au sujet des entités nommées recherchées"):
         st.markdown("**Les différents types d'entités sont :** \n\n- **CHRONOLOGIE :** utilisé pour les références chronologiques (\"Antiquité\", \"XIIe siècle\", \"200 av. n. ère\", etc.). \n- **MOBILIER :** utilisé pour le mobilier (\"os\", \"pot\", \"tuile\", etc.). \n- **STRUCTURE :** utilisé pour les structures archéologiques (\"fosse\", \"mur\", \"fossé\", \"foyer\", etc.). \n- **MATERIAU :** utilisé pour les matériaux (\"bronze\", \"dolérite\", \"terre cuite\", etc.). \n- **ID :** utilisé pour les identifiants de vestiges (\"4\" pour \"le fossé 4\" par exemple). \n- **TECHNIQUE_STYLE :** utilisé pour les mentions de techniques et styles de fabrication ou construction (\"taillé\", \"glaçuré\", \"en petit appareil\", etc.). \n- **DECOR :** utilisé pour les éléments de décor. \n- **ESPECE :** utilisé pour signaler les taxons et noms vernaculaires rencontrés dans le texte. \n- **EDIFICE :** utilisé pour les édifices et monuments nommés (\"église Saint-Paul\", \"pont du Gard\", etc.). \n- **PEUPLE_CULTURE :** utilisé pour les cultures et peuples évoqués (tribus gauloises, cultures préhistoriques, etc.). \n- **PERSONNE :** utilisé pour les noms de personnes (historiques, fictives, équipe scientifique, etc.). \n- **ORG :** utilisé pour les institutions, sociétés, laboratoires, universités, musées, archives, etc. \n- **GPE :** utilisé pour les entités géopolitiques (villes, départements, États, etc.). \n- **LOC :** utilisé pour les lieux non-GPE (lieux naturels par exemple). \n- **LIEUDIT_SITE :** utilisé pour les lieux-dits et noms de sites archéologiques.")
                                     mime="text/csv",
                                 )
+    # Add a "footer"
     st.markdown("# ")
     st.markdown("# ")