Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,68 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
---
|
4 |
+
|
5 |
+
# Multilingual SmolLM2-135M Base Model
|
6 |
+
|
7 |
+
This SmolLM2 variant is pretrained on a small corpus covering 50 languages, unlike the original English-only models.
|
8 |
+
With 135M parameters, it serves as a lightweight multilingual autocomplete but is **not instruction-tuned**—additional fine-tuning on your data is recommended.
|
9 |
+
|
10 |
+
## Key Points
|
11 |
+
|
12 |
+
- **Multilingual:** Supports 50 languages, pretrained from scratch.
|
13 |
+
- **Tokenizer:** English-based tokenizer limits performance on non-Latin scripts.
|
14 |
+
- **Use Case:** Basic autocomplete and research; not ready for production or instruction tasks.
|
15 |
+
|
16 |
+
## Limitations
|
17 |
+
|
18 |
+
- May freeze or stall due to tokenizer mismatch on non-English text.
|
19 |
+
- Repetitive or nonsensical outputs (random numbers, dates).
|
20 |
+
- Grammar and coherence issues, especially outside English.
|
21 |
+
- Best suited for experimentation or as a base for further training.
|
22 |
+
|
23 |
+
## Recommendations
|
24 |
+
|
25 |
+
- Fine-tune on your own multilingual datasets for better results.
|
26 |
+
- Consider a custom tokenizer for improved non-English handling.
|
27 |
+
- Review generated text carefully for accuracy.
|
28 |
+
|
29 |
+
## Example
|
30 |
+
|
31 |
+
```
|
32 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
33 |
+
|
34 |
+
model = AutoModelForCausalLM.from_pretrained("agentlans/SmolLM2-135M-multilingual-base")
|
35 |
+
tokenizer = AutoTokenizer.from_pretrained("agentlans/SmolLM2-135M-multilingual-base")
|
36 |
+
|
37 |
+
prompt = "Hola, ¿cómo puedo ayudarte hoy?"
|
38 |
+
inputs = tokenizer(prompt, return_tensors="pt")
|
39 |
+
outputs = model.generate(**inputs, max_new_tokens=50)
|
40 |
+
print(tokenizer.decode(outputs))
|
41 |
+
```
|
42 |
+
|
43 |
+
<details>
|
44 |
+
<summary>Click here for example output in different languages.</summary>
|
45 |
+
|
46 |
+
The **bold** text indicates the initial text used for the generation.
|
47 |
+
|
48 |
+
**Ara (Latin for "the Altar") is a southern constellation between Scorpius, Telescopium, Triangulum Australe, and Norma. It was (as ) one of the Greek bulk (namely 48) described by the 2nd-century astronomer Ptolemy, and it remains one of the 88 modern constellations designated by the International Astronomical Union.** "The most modern group of the modern universe" is the group of "The Tyball" whose most celebrated galaxy catalogues are the three galaxies from the Milky Way in the Milky Way. The galaxy Milky Way spans the Milky Way around the Milky Way, near where the Milky Way lies near the Milky Way. The Milky Way is also called the Milky Way because the Milky Way is the most widely known galaxies from the Milky Way. There is also a region that does not have the same Milky Way outside Milky Way in the Milky Way, where it appears to be the Milky Way. Milky Way is a very far-away galaxy, the Milky Way does not have the same Milky Way, which is where the Milky Way is.
|
49 |
+
|
50 |
+
**Febrer és el mes més curt de l'any, però el 2008 ens ha regalat un dia i m'ha donat temps de llegir tres llibres. El primer molt llarg, però d'aquells que devores, perquè no t'hi pots aturar. L'he tret del Club de Lectura de l'Institut i és de la madrilenya Almudena GRANDES.** 1589 - Tatua, de 1502 - Fardó, d'un llama del seu pont dels gavelles de l'aniversari de Madrid, d'america, l'americana i els galítics i l'americana de Barcelona. El 2002 i els 1510 y que tenen l'india del poulement en els 2010 i la 1527. En 1520 i en 1521. El sistema de los alcaldes més més es-halt l'espat de la llocs de l'espat de l'Esquerra el 2001 - està s'encluye por la lliga, els eures d'aparats i que està s'en formulades en els llocs dels de l'a l'Amar, de 3000, però el 3000.
|
51 |
+
|
52 |
+
**Підприємства Сумщини сплатили у лютому 2017 року понад 64 млн. гривень податку на прибуток – Новини кожного дня. Суми Підприємства Сумщини сплатили у лютому 2017 року понад 64 млн. гривень податку на прибуток Таку цифру озвучив Олексій Мазуренко, в.о. начальника ГУ ДФС у Сумській області.** Сумщих СРЕ Досі ЗО 4- 6-5. Мілонал у Вукін 44 ч. для видани 4 з фоморці 4-им. З пріпяватий викорі - Упана на Кінг у Феврів писного діватим відовання забілявання усплектами (22 Пряне Вукий), озміція та на відповини архово. Комід ношої запізання зміньком місцом, збойнь пуновання язання діпьий дікализмоторями дідпорадувалаців 60 х Муре у моміни Кісанчком в шлюбом містового когатуть. Близникий на 54 цього увижатного – Шворд Грипуцік 10 верх 1633-20 Бощанів - Гоє менді Тумання на Свою 2021 же самого, местьливника програмна Доровні у Свою - 2233-х3Х ЗСС ідпарять з міз яковь ся болек у хоційної ��ування обновувачний атхрва медіять знам при Непрем.
|
53 |
+
|
54 |
+
**배터리 안전 Research In Motion에서 특정 BlackBerry 단말기 모델에 사용하도록 지정한 배터리만 사용해야 합니다. 다른 배터리를 사용하면 단말기에 제공된 보증이 무효화될 수 있습니다. 장치 및 배터리 폐기 현지 규정에 따라 BlackBerry 장치와 배터리를 재활용하십시오. 장치 또는 배터리를 화염에 버리지 마십시오.** 4 원 22-08-2020 - 10:44, 10:20, 10:20 연행한 적공기 비품식의 시전 가작에 가원 달리 추아 품분에 회운 전합 환 추물 6:51 당노 거리나 바리만 되체 및 디일조이 장이위포 서신 남히가 괄록 결정 바러류 있습니다. 그리 대시성 등을 가운 입이 전체정인 직을 공한 대터 관료 소벜직 가전 유시 중인후철 피기도와 예된 자물 30원 명두 후상어 전상 예버 차동고 기유의 경수 구철기오스팈 규전 보소록 자노 나우 기없 공구 관아 자물 등한 춌사의 평로 영격을 있습니다. 포전 있는 물공 톌침경원일 3-90대한 등이 영동의 가원전 가원겨 다카 국립 당치 1:8시 재
|
55 |
+
|
56 |
+
**یورپ یورپ جگ دے ست براعظماں چوں اک اے۔ ایہہ ایشیا دے لیہندے پاسے وسدا اے۔ اے جگ دا دوجا سب توں نکا براعظم اے۔ یورپ چڑھدے چ روس دے ادھ چ واقع کوہ یورال تک اے تے قازقستان دا کجھ حصہ وی اس چ ہیگا اے ۔ قفقاز، کالا سمندر، باسفورس ایہنوں ایشیاء توں وکھ کردے نیں۔ یورپ دے اتر وچ ارکٹک سمندر،** بوں پراک میں نے کو گا لوے اکا ہڑو کو کے پیو چا کہیا ہاپا کو تکوما کے في کا متثور لیٹوا چا منزوز پیزے ہیں میں پی جارے انوارا سے پی چینا، ہوں ماکوم کو مارا تے زا۔نا کے کے گین تقصیب احتواء پکھ ہوں چ شز سرویڈ میں کر و کارمے ہے مدر یک آوا در پور ہورٹ کی نوم ہے پرم آم جام ہے کرد۔ یو چا کو ملی نام، کو دانش ارائے طوریٹ لیہوں کو رچیڈ بنیہ گون ہوئے دانی کو جمال یہ ساگرٹ بشیا کے مجھیر کو نے آموٹ کا اے لا را اور کوا کو کنیس یورا چو لماچ وی
|
57 |
+
|
58 |
+
|
59 |
+
**食文化(しょくぶんか)は、食(食事)にまつわる文化のこと。 概要 食文化には、食材の選び方、献立の立て方、調理法といったことから、食器の選び方、また誰と、どのように食べるのか、といったことや、作法・マナーなどに至るまで多くのことが含まれる。 食の頻度、摂取する時刻、なども食文化の要素の一つである。**アイト、食商哪オンサイト、湖ヘスドアク、楽・ハイター、な絓のごめれなのとのというときるで、アククなつらなべのでも売ったんなめはア・てがからでは養しなんとして、無希も楽というだからわってきないとなるということです。 全から食哪においつつらえんなかならだん。そんなりまんというんかららなので語かられなからこのコパントというこんとは、間型にがもうたとなさみるファントアスをおくされた。 あらんできなさせんとでがならなかならだいとなせらうにつからではませんななまでいた。 ニスタワートを語んでなってまではおえんがないとの場で、どんだんできましたとは、ませんなった、からリシリバーれたとは、サウントのんかられでも、堁をならならっとした。 ピクスダシレマカウクエリショトクドキンテタバニスがどん。 『ダワイチからできんですからんとの空逝を含りたのは頿食のボーブトをおったとしません
|
60 |
+
|
61 |
+
**Thampanoor murder accused Kalesh Arrested | കലേഷും ശ്രീനിവാസും തമ്മിലുള്ള പ്രശ്നങ്ങൾ പതിവ് സംഭവം; മദ്യപിച്ച് വാക്കേറ്റത്തിനിടെ പഴയ വഴക്കുകളും അടിപിടിയും എടുത്തിട്ടത് ഒപ്പമുണ്ടായിരുന്ന യുവാക്കൾ; പലതവണ തർക്കം കയ്യാങ്കളിയിലേക്ക് എത്തിയപ്പോൾ ഇടപെട്ടതും സുഹൃത്തുക്കൾ; ഒടുവിൽ തർക്കം മൂത്തപ്പോൾ ബിയർ കുപ്പി പൊട്ടിച്ച് ശ്രീനിവാസന്റെ കഴുത്തിന് കുത്തി;** വാഷ് ഉൻ തീഷരിരകാന് കൂരു ക്ലീണുമതാട്ട് ആസിട്ടുളിന് രാന��നുണന് ഇത്രതില്. ജയിലു ബേരകു ഉന്നിച്ചതികുള്ള കുള് മാണ് ചേവയു അക്ക്രണിടെ വദ്യണത്രണ് വാമാക്ക് കേശ്രക്കുന്നുണ്ടിന് മാണ്ടുയ്യുന്തി അവ്യ നെണിണ് ഒര്നികുമ്പ് നല്ലാൽ ചുത്രീപകടുയുന്നയം വോഷ്ട്രട്ട്. മാക്കേന് ചിനുന്ന ഒരുത്ത് അമിക്ക് കേരാധ മത്യ കാന് ജബിര് ചേക്കീസ്ത്. ടുക്ക്കുക്കെടോ വേയാക്കെ സ
|
62 |
+
|
63 |
+
**אֶתְנוֹגְרַפְיָה (מיוונית: ἔθνος "אתנוס" - אומה, עם ו-γράφω "גראפו" - אני כותב) היא תיאור איכותי של תופעות בחברה האנושית, על-סמך עבודת שדה. אתנוגרפיה היא שיטת מחקר הוליסטית המחזיקה בדעה כי מרכיביה של מערכת, בהכרח אינם יכולים להיות מובנים באופן מלא ומדויק כאשר הם מוצגים ונחקרים באופן בלתי-תלוי האחד בשני. לסוגה יש מקורות היסטוריים כמו-גם פורמליים, ביומני-מסע ובדוחות משרד קולוניאליים.** הייב שדם בעל היינון דילו מציטים מחולות ועקרות של התריבה ניטריה, לחדרה האופן קורת ומסגסיות גולים, גשוונות, דפך, חולון, כדורות חדרת, מדילון אירות אלוח מופך תדף הברטובים, אמרנות שאציקו עד חל ישר, כך שמוסטית, לכן לטבוד כרף על ערכות במכלט, בלון לא על ריסך פורקות, כיות עבן שיחון כי אתניה המלונית, כנה בעם ים בחלכת, בענה שם בשתיך במוצעות של בצארים מסגפות הירופותים, האבא מטוכילה מכלות מירטית, גבר להסען קופזו דום וינה למקרונת תלוגיא באי גמר הנתאיעת, השעות אלינטית בשטרות של המססיקות, היטית של אנכרת, יסיפוק כאפורי, טפך בגגן צעות מתחרת, נבמיעות כאשלת, מאמות חברת שלגבן דרוגים ברחבות שאתרי בנוקוג הדובים. מתקל קל יסך לכיות הפירחז טרעת חמרית, חלת דהר מחדרות ערים. לנערטים בשויקות גטור תוכות בלים מותרי השפורת תאדי לשרוציטת, סגוטי, דיתופזיה סבטרות המגוץ חל הם מייצי להוסטוך בטובאים במקודה מתקפתית, רטלות, סריכת, סגולית, חודרית, דולית, עגריה, דודלטוזיה, תחינוזיה, רצולות פיליה, כאסעל סחרים, שלות מין.
|
64 |
+
</details>
|
65 |
+
|
66 |
+
## Licence
|
67 |
+
|
68 |
+
Apache 2.0
|