Upload folder using huggingface_hub
Browse files- README.md +93 -0
- model.joblib +3 -0
- package_versions.json +1 -0
README.md
ADDED
@@ -0,0 +1,93 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
pipeline_tag: text-classification
|
4 |
+
library_name: turftopic
|
5 |
+
tags:
|
6 |
+
- turftopic
|
7 |
+
- topic-modelling
|
8 |
+
---
|
9 |
+
|
10 |
+
# janko/s3_scriptum
|
11 |
+
|
12 |
+
This repository contains a topic model trained with the [Turftopic](https://github.com/x-tabdeveloping/turftopic) Python library.
|
13 |
+
|
14 |
+
To load and use the model run the following piece of code:
|
15 |
+
|
16 |
+
```python
|
17 |
+
from turftopic import load_model
|
18 |
+
|
19 |
+
model = load_model(janko/s3_scriptum)
|
20 |
+
model.print_topics()
|
21 |
+
```
|
22 |
+
|
23 |
+
## Model Structure
|
24 |
+
|
25 |
+
The model is structured as follows:
|
26 |
+
|
27 |
+
```
|
28 |
+
SemanticSignalSeparation(decomposition=FastICA(n_components=20),
|
29 |
+
encoder=SentenceTransformer(
|
30 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
31 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...lasttoken': False, 'include_prompt': True})
|
32 |
+
(2): Normalize()
|
33 |
+
),
|
34 |
+
n_components=20,
|
35 |
+
vectorizer=CountVectorizer(max_df=0.99, min_df=100,
|
36 |
+
stop_words=['musí', 'němuž',
|
37 |
+
'sice', 'kteři',
|
38 |
+
'podle',
|
39 |
+
'neděláte',
|
40 |
+
'jestli', 'od',
|
41 |
+
'napiste',
|
42 |
+
'chceš', 'mě',
|
43 |
+
'ho', 'te',
|
44 |
+
'email', 'ti',
|
45 |
+
'prostě',
|
46 |
+
'svých', 'asi',
|
47 |
+
'tak', 'zde',
|
48 |
+
'k', 'hodně',
|
49 |
+
'pouze', 'ahoj',
|
50 |
+
'vaše', 'nez',
|
51 |
+
'se', 'aniž',
|
52 |
+
'jenom', 'cz', ...]))
|
53 |
+
```
|
54 |
+
|
55 |
+
## Topics
|
56 |
+
The topics discovered by the model are the following:
|
57 |
+
|
58 |
+
| Topic ID | Highest Ranking | Lowest Ranking |
|
59 |
+
| - | - | - |
|
60 |
+
| 0 | učitelské, pedagogové, učitelský, loktem, učitelku, učitelkou, učitelského, trnu, oddělením, oddělení | masaryk, masarykovy, masaryka, masarykem, masarykových, masarykové, masarykovi, masarykv, masarykovým, masarykovu |
|
61 |
+
| 1 | vincenzo, návštěvníka, autobusem, hlubokému, vernisáži, výstavách, herben, autobusu, návštěvníkm, návštěvníku | jai, jaou, jeou, aoy, jato, jih, jat, zují, io, árii |
|
62 |
+
| 2 | slovaques, slovaks, slovakia, hess, slovak, husákovi, skaut, bejt, slovacchi, herecký | 199, 1985, 1989, 1983, připomeňme, vzpomeňme, angelo, 1991, založilo, novinářm |
|
63 |
+
| 3 | listu, listy, listů, poštovného, posta, listě, poštovným, američanem, list, dollars | sks, srpnu, socialis, slezsku, slunné, sné, slováci, srnu, snah, slezska |
|
64 |
+
| 4 | cirkevných, biskupských, církevních, katolických, církevními, kongregací, biskupové, biskupství, biskupské, církev | příroda, zatmění, šumění, nature, dušiček, dýchání, přírody, záhubě, záplava, přírodou |
|
65 |
+
| 5 | režimu, lenin, jelínka, jelínek, leninismus, jelínkovi, jelínkovy, stalin, jeníka, stalinská | austrália, australian, australské, austrálie, australia, australská, australský, australském, australských, austral |
|
66 |
+
| 6 | výkřiky, nevydrželi, odzbrojeni, nedočkali, výkřikem, křičeli, nechávali, nepustili, nepohodlní, nenechají | vědu, věda, vědou, sciences, sci, věd, scientific, sociology, vědě, science |
|
67 |
+
| 7 | zdmi, srpem, padaly, padl, kalandra, křestana, spadl, clevelandu, yverdon, nadarmo | husákovým, husit, bisk, husák, boská, bisku, humoristique, husákovi, bušek, husákovy |
|
68 |
+
| 8 | congressional, tennessee, senate, carolina, congress, lincoln, illinois, senátorem, indiana, connecticut | český, balkán, sovětech, českí, českého, čeští, českým, czech, tschechen, tchécoslovaque |
|
69 |
+
| 9 | žaloba, obžalován, obžalovanému, obžalovaných, obviněn, obžalovaný, obžalováni, obžalovaní, obviněného, obviněný | 1935, západ, pokolením, 1936, západoněmečtí, krajiny, pokolení, nostalgie, rusm, staré |
|
70 |
+
| 10 | sopka, oklahoma, dining, steak, gromyka, panenka, potlesk, starostech, slowakischen, stezky | hitlerv, xvi, xvii, egyptských, xviii, kontrarevoluční, xv, kontrarevoluce, marxv, marxismus |
|
71 |
+
| 11 | citizens, conscience, spoluobčany, spoluobčanm, responsibility, občanovi, participating, solidarity, občanom, spoluobčané | 1298, znamenité, římští, staročeské, 1297, carské, 1436, římský, byzantské, 1512 |
|
72 |
+
| 12 | hospodářství, hospodárstva, hospodárstvo, hospodárskych, hospodárske, hospodářských, stavebnictví, hospodársky, hospodárskej, ekonomika | útěchu, útěcha, útěchou, tajemníci, dopisoval, deportován, amnesty, útěchy, amnestie, vyslýcháni |
|
73 |
+
| 13 | československo, čechoslováci, československa, československu, českosloven, čechoslovák, ceskoslovensko, czechoslovak, čechoslováky, slovaks | concert, koncertní, hudební, koncertních, koncerty, hudebního, koncertním, hudebními, koncert, koncertě |
|
74 |
+
| 14 | bible, bohoslužba, božstvo, božského, božské, bohoslužbu, bohoslužbě, božství, božská, kristu | západoněmec, západoněmecký, západoněmeckou, nacistické, jezdila, švejkovi, západoněmečtí, západoněmeckých, nacistických, nazi |
|
75 |
+
| 15 | dubčekovy, husákovi, dubčekovi, dubčeka, dubčekovo, dubčekova, dubčekově, husákovy, dubčekv, dubček | frankfurt, zürich, frankfurtě, frankfurtu, frankfurter, german, garmisch, cartera, germany, winterthur |
|
76 |
+
| 16 | českosloven, velen, vyšehrad, kyjev, vln, vyšehradě, vlnu, vhs, events, květnových | autorit, accountant, publishing, pochybuje, paradoxy, stereotypy, fridrich, faust, publisher, charakteru |
|
77 |
+
| 17 | čtenářských, čtenářský, čtenářskou, čtenářm, čtenářská, spisovatelského, spisovatelské, čtenářského, písemnictví, autorovým | goebbels, gestapu, soviets, špionáž, sovieti, afghanistan, soviet, ozbrojení, špionáže, sovětští |
|
78 |
+
| 18 | skautských, skautském, skauti, skautské, skautingu, skauting, skautský, skautského, skautská, skaut | kapitalist, mojžíš, materialismus, kapitalisty, marxist, marxismus, kapitalistický, kapitalistm, materialistického, kapitalistického |
|
79 |
+
| 19 | rumun, umenia, danube, vaňka, rumuny, rumuni, varšavy, varšavu, provincii, evropanství | sokolství, tělovýchovy, sokolští, sokolské, sokolským, sokolských, sokolstvo, tělocvik, cvičil, cvičení |
|
80 |
+
|
81 |
+
## Package versions
|
82 |
+
|
83 |
+
The model in this repo was trained using the following package versions:
|
84 |
+
|
85 |
+
| Package | Version |
|
86 |
+
| - | - |
|
87 |
+
| scikit-learn | 1.6.1 |
|
88 |
+
| sentence-transformers | 4.1.0 |
|
89 |
+
| turftopic | 0.17.0 |
|
90 |
+
| joblib | 1.5.0 |
|
91 |
+
|
92 |
+
We recommend that you install the same, or compatible versions of these packages locally, before trying to load a model.
|
93 |
+
|
model.joblib
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:95dfe3c2ec070638ae290847beb765b03ae9494a4e343d1730fd9795e0f7eac2
|
3 |
+
size 1293289107
|
package_versions.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"scikit-learn": "1.6.1", "sentence-transformers": "4.1.0", "turftopic": "0.17.0", "joblib": "1.5.0"}
|