Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +93 -0
model.joblib +3 -0
package_versions.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,93 @@

+---
+pipeline_tag: text-classification
+library_name: turftopic
+tags:
+- turftopic
+- topic-modelling
+---
+# janko/s3_scriptum
+This repository contains a topic model trained with the [Turftopic](https://github.com/x-tabdeveloping/turftopic) Python library.
+To load and use the model run the following piece of code:
+```python
+from turftopic import load_model
+model = load_model(janko/s3_scriptum)
+model.print_topics()
+```
+## Model Structure
+The model is structured as follows:
+```
+SemanticSignalSeparation(decomposition=FastICA(n_components=20),
+                         encoder=SentenceTransformer(
+  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+),
+                         n_components=20,
+                         vectorizer=CountVectorizer(max_df=0.99, min_df=100,
+                                                    stop_words=['musí', 'němuž',
+                                                                'sice', 'kteři',
+                                                                'podle',
+                                                                'neděláte',
+                                                                'jestli', 'od',
+                                                                'napiste',
+                                                                'chceš', 'mě',
+                                                                'ho', 'te',
+                                                                'email', 'ti',
+                                                                'prostě',
+                                                                'svých', 'asi',
+                                                                'tak', 'zde',
+                                                                'k', 'hodně',
+                                                                'pouze', 'ahoj',
+                                                                'vaše', 'nez',
+                                                                'se', 'aniž',
+                                                                'jenom', 'cz', ...]))
+```
+## Topics
+The topics discovered by the model are the following:
+| Topic ID | Highest Ranking | Lowest Ranking |
+| - | - | - |
+| 0 | učitelské, pedagogové, učitelský, loktem, učitelku, učitelkou, učitelského, trnu, oddělením, oddělení | masaryk, masarykovy, masaryka, masarykem, masarykových, masarykové, masarykovi, masarykv, masarykovým, masarykovu |
+| 1 | vincenzo, návštěvníka, autobusem, hlubokému, vernisáži, výstavách, herben, autobusu, návštěvníkm, návštěvníku | jai, jaou, jeou, aoy, jato, jih, jat, zují, io, árii |
+| 2 | slovaques, slovaks, slovakia, hess, slovak, husákovi, skaut, bejt, slovacchi, herecký | 199, 1985, 1989, 1983, připomeňme, vzpomeňme, angelo, 1991, založilo, novinářm |
+| 3 | listu, listy, listů, poštovného, posta, listě, poštovným, američanem, list, dollars | sks, srpnu, socialis, slezsku, slunné, sné, slováci, srnu, snah, slezska |
+| 4 | cirkevných, biskupských, církevních, katolických, církevními, kongregací, biskupové, biskupství, biskupské, církev | příroda, zatmění, šumění, nature, dušiček, dýchání, přírody, záhubě, záplava, přírodou |
+| 5 | režimu, lenin, jelínka, jelínek, leninismus, jelínkovi, jelínkovy, stalin, jeníka, stalinská | austrália, australian, australské, austrálie, australia, australská, australský, australském, australských, austral |
+| 6 | výkřiky, nevydrželi, odzbrojeni, nedočkali, výkřikem, křičeli, nechávali, nepustili, nepohodlní, nenechají | vědu, věda, vědou, sciences, sci, věd, scientific, sociology, vědě, science |
+| 7 | zdmi, srpem, padaly, padl, kalandra, křestana, spadl, clevelandu, yverdon, nadarmo | husákovým, husit, bisk, husák, boská, bisku, humoristique, husákovi, bušek, husákovy |
+| 8 | congressional, tennessee, senate, carolina, congress, lincoln, illinois, senátorem, indiana, connecticut | český, balkán, sovětech, českí, českého, čeští, českým, czech, tschechen, tchécoslovaque |
+| 9 | žaloba, obžalován, obžalovanému, obžalovaných, obviněn, obžalovaný, obžalováni, obžalovaní, obviněného, obviněný | 1935, západ, pokolením, 1936, západoněmečtí, krajiny, pokolení, nostalgie, rusm, staré |
+| 10 | sopka, oklahoma, dining, steak, gromyka, panenka, potlesk, starostech, slowakischen, stezky | hitlerv, xvi, xvii, egyptských, xviii, kontrarevoluční, xv, kontrarevoluce, marxv, marxismus |
+| 11 | citizens, conscience, spoluobčany, spoluobčanm, responsibility, občanovi, participating, solidarity, občanom, spoluobčané | 1298, znamenité, římští, staročeské, 1297, carské, 1436, římský, byzantské, 1512 |
+| 12 | hospodářství, hospodárstva, hospodárstvo, hospodárskych, hospodárske, hospodářských, stavebnictví, hospodársky, hospodárskej, ekonomika | útěchu, útěcha, útěchou, tajemníci, dopisoval, deportován, amnesty, útěchy, amnestie, vyslýcháni |
+| 13 | československo, čechoslováci, československa, československu, českosloven, čechoslovák, ceskoslovensko, czechoslovak, čechoslováky, slovaks | concert, koncertní, hudební, koncertních, koncerty, hudebního, koncertním, hudebními, koncert, koncertě |
+| 14 | bible, bohoslužba, božstvo, božského, božské, bohoslužbu, bohoslužbě, božství, božská, kristu | západoněmec, západoněmecký, západoněmeckou, nacistické, jezdila, švejkovi, západoněmečtí, západoněmeckých, nacistických, nazi |
+| 15 | dubčekovy, husákovi, dubčekovi, dubčeka, dubčekovo, dubčekova, dubčekově, husákovy, dubčekv, dubček | frankfurt, zürich, frankfurtě, frankfurtu, frankfurter, german, garmisch, cartera, germany, winterthur |
+| 16 | českosloven, velen, vyšehrad, kyjev, vln, vyšehradě, vlnu, vhs, events, květnových | autorit, accountant, publishing, pochybuje, paradoxy, stereotypy, fridrich, faust, publisher, charakteru |
+| 17 | čtenářských, čtenářský, čtenářskou, čtenářm, čtenářská, spisovatelského, spisovatelské, čtenářského, písemnictví, autorovým | goebbels, gestapu, soviets, špionáž, sovieti, afghanistan, soviet, ozbrojení, špionáže, sovětští |
+| 18 | skautských, skautském, skauti, skautské, skautingu, skauting, skautský, skautského, skautská, skaut | kapitalist, mojžíš, materialismus, kapitalisty, marxist, marxismus, kapitalistický, kapitalistm, materialistického, kapitalistického |
+| 19 | rumun, umenia, danube, vaňka, rumuny, rumuni, varšavy, varšavu, provincii, evropanství | sokolství, tělovýchovy, sokolští, sokolské, sokolským, sokolských, sokolstvo, tělocvik, cvičil, cvičení |
+## Package versions
+The model in this repo was trained using the following package versions:
+| Package | Version |
+| - | - |
+| scikit-learn | 1.6.1 |
+| sentence-transformers | 4.1.0 |
+| turftopic | 0.17.0 |
+| joblib | 1.5.0 |
+We recommend that you install the same, or compatible versions of these packages locally, before trying to load a model.

model.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95dfe3c2ec070638ae290847beb765b03ae9494a4e343d1730fd9795e0f7eac2
+size 1293289107

package_versions.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"scikit-learn": "1.6.1", "sentence-transformers": "4.1.0", "turftopic": "0.17.0", "joblib": "1.5.0"}