janko commited on
Commit
6223a2b
·
verified ·
1 Parent(s): d171e68

Upload folder using huggingface_hub

Browse files
Files changed (2) hide show
  1. README.md +38 -43
  2. model.joblib +2 -2
README.md CHANGED
@@ -25,31 +25,36 @@ model.print_topics()
25
  The model is structured as follows:
26
 
27
  ```
28
- SemanticSignalSeparation(decomposition=FastICA(n_components=20),
29
  encoder=SentenceTransformer(
30
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
31
- (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...lasttoken': False, 'include_prompt': True})
32
- (2): Normalize()
33
- ),
34
- n_components=20,
35
- vectorizer=CountVectorizer(max_df=0.99, min_df=100,
36
- stop_words=['musí', 'němuž',
37
- 'sice', 'kteři',
38
- 'podle',
39
- 'neděláte',
40
- 'jestli', 'od',
41
- 'napiste',
42
- 'chceš', 'mě',
43
- 'ho', 'te',
44
- 'email', 'ti',
45
- 'prostě',
46
- 'svých', 'asi',
47
- 'tak', 'zde',
48
- 'k', 'hodně',
49
- 'pouze', 'ahoj',
50
- 'vaše', 'nez',
51
- 'se', 'aniž',
52
- 'jenom', 'cz', ...]))
 
 
 
 
 
53
  ```
54
 
55
  ## Topics
@@ -57,26 +62,16 @@ The topics discovered by the model are the following:
57
 
58
  | Topic ID | Highest Ranking | Lowest Ranking |
59
  | - | - | - |
60
- | 0 | učitelské, pedagogové, učitelský, loktem, učitelku, učitelkou, učitelského, trnu, oddělením, oddělení | masaryk, masarykovy, masaryka, masarykem, masarykových, masarykové, masarykovi, masarykv, masarykovým, masarykovu |
61
- | 1 | vincenzo, návštěvníka, autobusem, hlubokému, vernisáži, výstavách, herben, autobusu, návštěvníkm, návštěvníku | jai, jaou, jeou, aoy, jato, jih, jat, zují, io, árii |
62
- | 2 | slovaques, slovaks, slovakia, hess, slovak, husákovi, skaut, bejt, slovacchi, herecký | 199, 1985, 1989, 1983, připomeňme, vzpomeňme, angelo, 1991, založilo, novinářm |
63
- | 3 | listu, listy, listů, poštovného, posta, listě, poštovným, američanem, list, dollars | sks, srpnu, socialis, slezsku, slunné, sné, slováci, srnu, snah, slezska |
64
- | 4 | cirkevných, biskupských, církevních, katolických, církevními, kongregací, biskupové, biskupství, biskupské, církev | příroda, zatmění, šumění, nature, dušiček, dýchání, přírody, záhubě, záplava, přírodou |
65
- | 5 | režimu, lenin, jelínka, jelínek, leninismus, jelínkovi, jelínkovy, stalin, jeníka, stalinská | austrália, australian, australské, austrálie, australia, australská, australský, australském, australských, austral |
66
- | 6 | výkřiky, nevydrželi, odzbrojeni, nedočkali, výkřikem, křičeli, nechávali, nepustili, nepohodlní, nenechají | vědu, věda, vědou, sciences, sci, věd, scientific, sociology, vědě, science |
67
- | 7 | zdmi, srpem, padaly, padl, kalandra, křestana, spadl, clevelandu, yverdon, nadarmo | husákovým, husit, bisk, husák, boská, bisku, humoristique, husákovi, bušek, husákovy |
68
- | 8 | congressional, tennessee, senate, carolina, congress, lincoln, illinois, senátorem, indiana, connecticut | český, balkán, sovětech, českí, českého, čeští, českým, czech, tschechen, tchécoslovaque |
69
- | 9 | žaloba, obžalován, obžalovanému, obžalovaných, obviněn, obžalovaný, obžalováni, obžalovaní, obviněného, obviněný | 1935, západ, pokolením, 1936, západoněmečtí, krajiny, pokolení, nostalgie, rusm, staré |
70
- | 10 | sopka, oklahoma, dining, steak, gromyka, panenka, potlesk, starostech, slowakischen, stezky | hitlerv, xvi, xvii, egyptských, xviii, kontrarevoluční, xv, kontrarevoluce, marxv, marxismus |
71
- | 11 | citizens, conscience, spoluobčany, spoluobčanm, responsibility, občanovi, participating, solidarity, občanom, spoluobčané | 1298, znamenité, římští, staročeské, 1297, carské, 1436, římský, byzantské, 1512 |
72
- | 12 | hospodářství, hospodárstva, hospodárstvo, hospodárskych, hospodárske, hospodářských, stavebnictví, hospodársky, hospodárskej, ekonomika | útěchu, útěcha, útěchou, tajemníci, dopisoval, deportován, amnesty, útěchy, amnestie, vyslýcháni |
73
- | 13 | československo, čechoslováci, československa, československu, českosloven, čechoslovák, ceskoslovensko, czechoslovak, čechoslováky, slovaks | concert, koncertní, hudební, koncertních, koncerty, hudebního, koncertním, hudebními, koncert, koncertě |
74
- | 14 | bible, bohoslužba, božstvo, božského, božské, bohoslužbu, bohoslužbě, božství, božská, kristu | západoněmec, západoněmecký, západoněmeckou, nacistické, jezdila, švejkovi, západoněmečtí, západoněmeckých, nacistických, nazi |
75
- | 15 | dubčekovy, husákovi, dubčekovi, dubčeka, dubčekovo, dubčekova, dubčekově, husákovy, dubčekv, dubček | frankfurt, zürich, frankfurtě, frankfurtu, frankfurter, german, garmisch, cartera, germany, winterthur |
76
- | 16 | českosloven, velen, vyšehrad, kyjev, vln, vyšehradě, vlnu, vhs, events, květnových | autorit, accountant, publishing, pochybuje, paradoxy, stereotypy, fridrich, faust, publisher, charakteru |
77
- | 17 | čtenářských, čtenářský, čtenářskou, čtenářm, čtenářská, spisovatelského, spisovatelské, čtenářského, písemnictví, autorovým | goebbels, gestapu, soviets, špionáž, sovieti, afghanistan, soviet, ozbrojení, špionáže, sovětští |
78
- | 18 | skautských, skautském, skauti, skautské, skautingu, skauting, skautský, skautského, skautská, skaut | kapitalist, mojžíš, materialismus, kapitalisty, marxist, marxismus, kapitalistický, kapitalistm, materialistického, kapitalistického |
79
- | 19 | rumun, umenia, danube, vaňka, rumuny, rumuni, varšavy, varšavu, provincii, evropanství | sokolství, tělovýchovy, sokolští, sokolské, sokolským, sokolských, sokolstvo, tělocvik, cvičil, cvičení |
80
 
81
  ## Package versions
82
 
 
25
  The model is structured as follows:
26
 
27
  ```
28
+ SemanticSignalSeparation(decomposition=FastICA(n_components=10),
29
  encoder=SentenceTransformer(
30
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
31
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...
32
+ 'about': 4,
33
+ 'abraham': 5,
34
+ 'abrahama': 6,
35
+ 'abroad': 7,
36
+ 'absence': 8,
37
+ 'abso': 9,
38
+ 'absolutismus': 10,
39
+ 'absolutna': 11,
40
+ 'absolutno': 12,
41
+ 'absolutní': 13,
42
+ 'absolutorium': 14,
43
+ 'absolvent': 15,
44
+ 'absolvovat': 16,
45
+ 'absolvování': 17,
46
+ 'abstinent': 18,
47
+ 'abstrakce': 19,
48
+ 'abstraktní': 20,
49
+ 'absurdita': 21,
50
+ 'absurdnost': 22,
51
+ 'absurdní': 23,
52
+ 'absurdum': 24,
53
+ 'abv': 25,
54
+ 'abych': 26,
55
+ 'abys': 27,
56
+ 'abyst': 28,
57
+ 'ac': 29, ...}))
58
  ```
59
 
60
  ## Topics
 
62
 
63
  | Topic ID | Highest Ranking | Lowest Ranking |
64
  | - | - | - |
65
+ | 0 | economics, hříšný, economist, hřích, priemysl, hospodářství, renesance, reformátor, ekonomika, kapitalist | slalom, sokolství, výcvik, cvičiště, skákat, tělovýchova, cvičící, skauting, tělocvik, sokolstvo |
66
+ | 1 | protiprávní, žaloba, nezákonnost, protizákonný, protiústavní, tužba, obviněný, stížnost, obžalovaný, trestní | kusák, mozek, švejk, pokolení, mazák, mozk, husák, rusko, klusák, economics |
67
+ | 2 | mokrý, trávníček, vlhký, přírodní, naruby, dřivý, fantasie, instinkt, funk, šedivý | biskupství, biskupský, biskupom, katolicismus, kněžstvo, kněžství, biskupe, českosl, konsulát, katolictví |
68
+ | 3 | bahamas, america, usa, americans, us, bible, amerika, amerike, americký, americkomi | nádraží, košňar, klusák, husákův, urbánek, sochař, dvorek, husák, komunisticko, socialisticko |
69
+ | 4 | switzerland, österreich, schweiz, austrian, švýcarsko, solothurn, perth, swiss, stavebnictví, austrálie | stalinist, bolševik, protisovětský, stalinský, mohameda, merický, imperialist, napoleon, stalinový, imperialista |
70
+ | 5 | surrealismus, literar, literatúr, literat, literatura, literatúre, filolog, literature, autorův, čtenářský | slowakna, shledaná, varšava, church, gramodeska, gdaňsko, luncheon, dinner, pokladna, oklahoma |
71
+ | 6 | demokratismus, demokratizační, energetika, pragmatismus, konsolidace, demokratičnost, konsensus, demokracie, ideologie, demokratice | priest, kňaz, kňaza, knihovník, kněz, vysvěcený, presbyter, church, bishop, reverend |
72
+ | 7 | literature, nakladatelství, umění, nakladatelský, vydavatelství, vydavatelstvo, literatura, publikační, publishing, vydavatelský | bojiště, ohniště, poražený, bezbranný, spálený, odzbrojený, obrněný, upálený, neschopní, porobený |
73
+ | 8 | vzkříšení, náboženství, náboženstvo, ukřižovaný, vyznání, božství, znovuzrození, papežství, nábožený, ukřižování | austrálie, spotřební, prices, rental, rent, austrálio, austrian, austral, price, ekonomika |
74
+ | 9 | redakcie, redaktorka, redakční, občasník, redakcium, buchdruckerser, redaktionsschluss, vydať, časopisov, rubrika | bezmocný, protestující, barbarství, protest, monarchie, demonstrant, opera, konser, demonstrace, protestní |
 
 
 
 
 
 
 
 
 
 
75
 
76
  ## Package versions
77
 
model.joblib CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bf716beb89bc828cb821d091d9a2459dba9afc6171fbedbec85fe383b44d8973
3
- size 1293287843
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e378b30ab122e9ca6d099c857f455b7ee9d69a034d4165dea1cd85e9ced35efb
3
+ size 1211449123