janko commited on
Commit
bee670b
·
verified ·
1 Parent(s): 541ddcc

Upload folder using huggingface_hub

Browse files
Files changed (3) hide show
  1. README.md +93 -0
  2. model.joblib +3 -0
  3. package_versions.json +1 -0
README.md ADDED
@@ -0,0 +1,93 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ pipeline_tag: text-classification
4
+ library_name: turftopic
5
+ tags:
6
+ - turftopic
7
+ - topic-modelling
8
+ ---
9
+
10
+ # janko/s3_scriptum
11
+
12
+ This repository contains a topic model trained with the [Turftopic](https://github.com/x-tabdeveloping/turftopic) Python library.
13
+
14
+ To load and use the model run the following piece of code:
15
+
16
+ ```python
17
+ from turftopic import load_model
18
+
19
+ model = load_model(janko/s3_scriptum)
20
+ model.print_topics()
21
+ ```
22
+
23
+ ## Model Structure
24
+
25
+ The model is structured as follows:
26
+
27
+ ```
28
+ SemanticSignalSeparation(decomposition=FastICA(n_components=20),
29
+ encoder=SentenceTransformer(
30
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
31
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...lasttoken': False, 'include_prompt': True})
32
+ (2): Normalize()
33
+ ),
34
+ n_components=20,
35
+ vectorizer=CountVectorizer(max_df=0.99, min_df=100,
36
+ stop_words=['musí', 'němuž',
37
+ 'sice', 'kteři',
38
+ 'podle',
39
+ 'neděláte',
40
+ 'jestli', 'od',
41
+ 'napiste',
42
+ 'chceš', 'mě',
43
+ 'ho', 'te',
44
+ 'email', 'ti',
45
+ 'prostě',
46
+ 'svých', 'asi',
47
+ 'tak', 'zde',
48
+ 'k', 'hodně',
49
+ 'pouze', 'ahoj',
50
+ 'vaše', 'nez',
51
+ 'se', 'aniž',
52
+ 'jenom', 'cz', ...]))
53
+ ```
54
+
55
+ ## Topics
56
+ The topics discovered by the model are the following:
57
+
58
+ | Topic ID | Highest Ranking | Lowest Ranking |
59
+ | - | - | - |
60
+ | 0 | učitelské, pedagogové, učitelský, loktem, učitelku, učitelkou, učitelského, trnu, oddělením, oddělení | masaryk, masarykovy, masaryka, masarykem, masarykových, masarykové, masarykovi, masarykv, masarykovým, masarykovu |
61
+ | 1 | vincenzo, návštěvníka, autobusem, hlubokému, vernisáži, výstavách, herben, autobusu, návštěvníkm, návštěvníku | jai, jaou, jeou, aoy, jato, jih, jat, zují, io, árii |
62
+ | 2 | slovaques, slovaks, slovakia, hess, slovak, husákovi, skaut, bejt, slovacchi, herecký | 199, 1985, 1989, 1983, připomeňme, vzpomeňme, angelo, 1991, založilo, novinářm |
63
+ | 3 | listu, listy, listů, poštovného, posta, listě, poštovným, američanem, list, dollars | sks, srpnu, socialis, slezsku, slunné, sné, slováci, srnu, snah, slezska |
64
+ | 4 | cirkevných, biskupských, církevních, katolických, církevními, kongregací, biskupové, biskupství, biskupské, církev | příroda, zatmění, šumění, nature, dušiček, dýchání, přírody, záhubě, záplava, přírodou |
65
+ | 5 | režimu, lenin, jelínka, jelínek, leninismus, jelínkovi, jelínkovy, stalin, jeníka, stalinská | austrália, australian, australské, austrálie, australia, australská, australský, australském, australských, austral |
66
+ | 6 | výkřiky, nevydrželi, odzbrojeni, nedočkali, výkřikem, křičeli, nechávali, nepustili, nepohodlní, nenechají | vědu, věda, vědou, sciences, sci, věd, scientific, sociology, vědě, science |
67
+ | 7 | zdmi, srpem, padaly, padl, kalandra, křestana, spadl, clevelandu, yverdon, nadarmo | husákovým, husit, bisk, husák, boská, bisku, humoristique, husákovi, bušek, husákovy |
68
+ | 8 | congressional, tennessee, senate, carolina, congress, lincoln, illinois, senátorem, indiana, connecticut | český, balkán, sovětech, českí, českého, čeští, českým, czech, tschechen, tchécoslovaque |
69
+ | 9 | žaloba, obžalován, obžalovanému, obžalovaných, obviněn, obžalovaný, obžalováni, obžalovaní, obviněného, obviněný | 1935, západ, pokolením, 1936, západoněmečtí, krajiny, pokolení, nostalgie, rusm, staré |
70
+ | 10 | sopka, oklahoma, dining, steak, gromyka, panenka, potlesk, starostech, slowakischen, stezky | hitlerv, xvi, xvii, egyptských, xviii, kontrarevoluční, xv, kontrarevoluce, marxv, marxismus |
71
+ | 11 | citizens, conscience, spoluobčany, spoluobčanm, responsibility, občanovi, participating, solidarity, občanom, spoluobčané | 1298, znamenité, římští, staročeské, 1297, carské, 1436, římský, byzantské, 1512 |
72
+ | 12 | hospodářství, hospodárstva, hospodárstvo, hospodárskych, hospodárske, hospodářských, stavebnictví, hospodársky, hospodárskej, ekonomika | útěchu, útěcha, útěchou, tajemníci, dopisoval, deportován, amnesty, útěchy, amnestie, vyslýcháni |
73
+ | 13 | československo, čechoslováci, československa, československu, českosloven, čechoslovák, ceskoslovensko, czechoslovak, čechoslováky, slovaks | concert, koncertní, hudební, koncertních, koncerty, hudebního, koncertním, hudebními, koncert, koncertě |
74
+ | 14 | bible, bohoslužba, božstvo, božského, božské, bohoslužbu, bohoslužbě, božství, božská, kristu | západoněmec, západoněmecký, západoněmeckou, nacistické, jezdila, švejkovi, západoněmečtí, západoněmeckých, nacistických, nazi |
75
+ | 15 | dubčekovy, husákovi, dubčekovi, dubčeka, dubčekovo, dubčekova, dubčekově, husákovy, dubčekv, dubček | frankfurt, zürich, frankfurtě, frankfurtu, frankfurter, german, garmisch, cartera, germany, winterthur |
76
+ | 16 | českosloven, velen, vyšehrad, kyjev, vln, vyšehradě, vlnu, vhs, events, květnových | autorit, accountant, publishing, pochybuje, paradoxy, stereotypy, fridrich, faust, publisher, charakteru |
77
+ | 17 | čtenářských, čtenářský, čtenářskou, čtenářm, čtenářská, spisovatelského, spisovatelské, čtenářského, písemnictví, autorovým | goebbels, gestapu, soviets, špionáž, sovieti, afghanistan, soviet, ozbrojení, špionáže, sovětští |
78
+ | 18 | skautských, skautském, skauti, skautské, skautingu, skauting, skautský, skautského, skautská, skaut | kapitalist, mojžíš, materialismus, kapitalisty, marxist, marxismus, kapitalistický, kapitalistm, materialistického, kapitalistického |
79
+ | 19 | rumun, umenia, danube, vaňka, rumuny, rumuni, varšavy, varšavu, provincii, evropanství | sokolství, tělovýchovy, sokolští, sokolské, sokolským, sokolských, sokolstvo, tělocvik, cvičil, cvičení |
80
+
81
+ ## Package versions
82
+
83
+ The model in this repo was trained using the following package versions:
84
+
85
+ | Package | Version |
86
+ | - | - |
87
+ | scikit-learn | 1.6.1 |
88
+ | sentence-transformers | 4.1.0 |
89
+ | turftopic | 0.17.0 |
90
+ | joblib | 1.5.0 |
91
+
92
+ We recommend that you install the same, or compatible versions of these packages locally, before trying to load a model.
93
+
model.joblib ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:95dfe3c2ec070638ae290847beb765b03ae9494a4e343d1730fd9795e0f7eac2
3
+ size 1293289107
package_versions.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"scikit-learn": "1.6.1", "sentence-transformers": "4.1.0", "turftopic": "0.17.0", "joblib": "1.5.0"}