Multilingual SmolLM2-135M Base Model

This SmolLM2 variant is pretrained on agentlans/LinguaNova, a small corpus covering 50 languages, unlike the original English-only models. With 135M parameters, it serves as a lightweight multilingual autocomplete but is not instruction-tuned—additional fine-tuning on your data is recommended.

Key Points

  • Multilingual: Supports 50 languages, pretrained on top of HuggingFaceTB/SmolLM2-135M-Instruct because it has better line endings than the SmolLM2-135M base model.
  • Tokenizer: English-based tokenizer limits performance on non-Latin scripts.
  • Use Case: Basic autocomplete and research; not ready for production or instruction tasks.

Limitations

  • May generate long stretches of language non-stop.
  • May switch languages in the middle of generation.
  • May freeze or stall due to tokenizer mismatch on non-English text.
  • Repetitive, wrong, or nonsensical outputs (random numbers, dates).
  • Grammar and coherence issues, especially outside English.
  • Not expected to have great vocabulary and writing style for all 50 languages.
  • Best suited for experimentation or as a base for further training.

Recommendations

  • Fine-tune on your own multilingual datasets for better results.
  • Consider a custom tokenizer for improved non-English handling.
  • Review generated text carefully for accuracy.

Example

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("agentlans/SmolLM2-135M-multilingual-base")
tokenizer = AutoTokenizer.from_pretrained("agentlans/SmolLM2-135M-multilingual-base")

prompt = "Hola, ¿cómo puedo ayudarte hoy?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Click here for example output in different languages.

The bold text indicates the initial text used for the generation.

These were autocompleted in oobabooga/text-generation-webui using the min_p preset. Whenever the generation stalled, the inference was stopped and regenerated.

Ara (Latin for "the Altar") is a southern constellation between Scorpius, Telescopium, Triangulum Australe, and Norma. It was (as ) one of the Greek bulk (namely 48) described by the 2nd-century astronomer Ptolemy, and it remains one of the 88 modern constellations designated by the International Astronomical Union. 2008 is the 32nd year that it has been added to the Catalogue des Astronomis et des Littori des Alpes (CASA). It was first identified by William Herschel, who described it in 1784 as a "lightless star". Its name came from its close resemblance to the Greek name α Φλήκας, meaning "alabaster". The constellation is named for the Arabic name of the planet α Lyra (Λύρα) and the Arabic word for the constellation of the goddess Lyra. It is one of the 88 constellations designated by the IAU (International Astronomical Union). 2008 is the 31st year that it has been added to the Catalogue des Astronomis et des Littori des Alpes (CASA), a collection of ancient astronomical and historical texts dating from the 15th century. It was first identified by William Herschel, who described it in 1784 as a "lightless star". It is one of the 88 modern constellations designated by the IAU. It was named after its appearance as a light in the sky, as compared to the Moon or the planets. The name has been in use since 1672. The first book listing the constellations identified as part of the Catalog of the Comets of the Year 1620 was published in 1621 by a priest, Nikolaus Copernicus. It was found later by a French astronomer, Joseph-Louis de la Roche, who found the new constellation in 1623.

Febrer és el mes més curt de l'any, però el 2008 ens ha regalat un dia i m'ha donat temps de llegir tres llibres. El primer molt llarg, però d'aquells que devores, perquè no t'hi pots aturar. L'he tret del Club de Lectura de l'Institut i és de la madrilenya Almudena GRANDES. Hé desde els 23.03.2015, el club ha llibres una primera pasca màtrix per tal. Els 11.05.2015 ha més piscinas a l'aquesti unidades. L'estreu el més els 13.05.2015, 14.05.2015 i 12.05.2015, i d'altres els 27.05.2015, 15.05.2015 i 23.06.2015 i l'estreu el més els 28.06.2015, 17.06.2015 i l'estreu el més els 29.06.2015, 19.06.2015 i l'estreu el més els 30.06.2015. A la seva aplicació, els 27.05.2015 ha sent al centro de la cuatro campones, l'Estreu, el Estreu i la Estreu, que la aplicació més grande. El club ha és el nome del 27.05.2015. A la seva aplicació, els 28.06.2015 ha sent al Centro de la Cuatro Campones, l'Estreu i el Estreu, que la aplicació més grande. A l'estreu, el 28.06.2015 ha sent al centro del 40.06.2015, 17.06.2015 i l'estreu i el Estreu, que la aplicació més grande. A l'estreu, el 27.05.2015 ha sent al centro del 50.06.2015, 16.06.2015 i l'estreu i el Estreu, que l'estreu ha per aplicat els 28.06.2015. A la seva aplicació, els 28.06.2015 ha sent al centro del 51.06.2015, 12.06.2015 i l'estreu i el Estreu, que l'estreu ha per aplicat els 30.06.2015. A l'estreu, el 28.06.2015 ha sent al centro del 52.06.2015, 13.06.2015 i l'estreu i el Estreu, que l'estreu ha per aplicat els 29.06.2015. A l'estreu, el 28.06.2015 ha sent al centro del 60.06.2015, 17.06.2015 i l'estreu i el Estreu, que l'estreu ha per aplicat els 70.06.2015.

Note: it started Ukrainian then turned into Kazakh:

Підприємства Сумщини сплатили у лютому 2017 року понад 64 млн. гривень податку на прибуток – Новини кожного дня. Суми Підприємства Сумщини сплатили у лютому 2017 року понад 64 млн. гривень податку на прибуток Таку цифру озвучив Олексій Мазуренко, в.о. начальника ГУ ДФС у Сумській області. Онна ції між 80 млн. Тіло 2017 року понад 64 млн. Граєрка за биту року недійснює 12 млн. Камчальнисто Банкер Бјунички Бјашено 2017 року понад 64 млн. Камчальнисто Джағыс Габерлазайнова Българияття 2017 року понад 64 млн. Гиуалеарністо Джағанска Танковітальность Аспамљу 2017 року понад 64 млн. Джағанска Танковітальность Белгасына 2017 року понад 64 млн. Ако династарности в Белгасе булся індексовата аз процесі адамысты. Полікуттарың анды компании 1956-көметі қалақтындақ мейлің мәсерді. Бады Халарде Сының оңтық машықтаршайты. Қызметік қолқаны молққакін бассилі. Профеталық праті Лута құратық шолағы барасы. Санкттараң шығылмесі Беларусы-Ислегенды. Мейлің қалық қалқыстан Қамқанты. Тұқаты белгенілық ден жыл епартмін Великоген Шиліці. Таңара Истандыға. Александр Маркевин Мельпсей. Барактеристар Өбенс, Шілул Бекборди. Архет Манилесына. Засетулайның Өбенс Менійс. Пайалық бірман Тато. Насервалін Аудер Тегоновы. Жүйтақ аттың өлересіті. Ақысқауқады қалаңыметың Десі Хағалауметтар Туғанс. Бекетің астанар Кезмет Марабатыс. Санкттара Апрыл қалық тероиң Өмалың тазқарақтары. Нежқалқылды. Сен жағының сабуткитейс, 180 бқарыні ден жылдан 15 тумер. Танаа Уғанына бірық. Санкттара Алітған қалық Жұмты қалақтары. Санкттара Тебрен Қамен қазақ Джағанска ако қалық тероиң 17 тұйл. Ако қалақтары Геосер Жаркенден Пухатур Андібін Алім Иболаді. Усен Хабертың сабуткитей систематалық алақыпу. Тысяк барылық Буганынтантың Қасылың архетсынес. Санкттара Ақысқауқады. Архет Менійс, тепрмеры келары бассилің Өбенс, 19 маңар. Ако жылдың Өбенс. Алузік салуға Віліміл еал өлімен көрмен.

배터리 안전 Research In Motion에서 특정 BlackBerry 단말기 모델에 사용하도록 지정한 배터리만 사용해야 합니다. 다른 배터리를 사용하면 단말기에 제공된 보증이 무효화될 수 있습니다. 장치 및 배터리 폐기 현지 규정에 따라 BlackBerry 장치와 배터리를 재활용하십시오. 장치 또는 배터리를 화염에 버리지 마십시오. 장치에 불가지한 배터리가 생래될 때 및 장치에 여행한 배터리의 인식어리스를 통해 배터리들을 해식해준 난 맨들이 소맛 온력을 화려하고 필요하고 그 장치와 실용적으로 정생 소리를 제공하게 됩니다. 대기식: 장치가 서로 동일한 요청을 대장하시면 다음맥 장치와 실용적으로 정생 소리에 대한 정거로 서로 제공해줍니다. 일반적으로 바이지박양체가 실제 서로 정거를 입기하기 위해 사용하고 실제 서로 정거를 정거하고 실제 서로 정거를 제거하라며, 서로 동일한 정거가 정거를 제거한 후, 제거해 다음 배터리를 제거하고 배터리를 제거하셨다는 단말이라 다르다. 그래서 배터리를 사용하면 실제 서로 정거를 정거하는 단말이 이고 그들이 유행한 생래 사용가지 강증이 필요하다. 해식: 배터리를 제거하는 바이트 직점 서로 정거를 제거한 후 배터리가 실제 서로 정거를 정거하고 실제 서로 정거를 제거하고 배터리가 제거되는 서로 다음 어린 온력이 되었다. 기가 화력의 배터리를 제거한 후 강증이 필요할

Note: it started Punjabi (Shahmukhi script) then turned into Urdu:

یورپ یورپ جگ دے ست براعظماں چوں اک اے۔ ایہہ ایشیا دے لیہندے پاسے وسدا اے۔ اے جگ دا دوجا سب توں نکا براعظم اے۔ یورپ چڑھدے چ روس دے ادھ چ واقع کوہ یورال تک اے تے قازقستان دا کجھ حصہ وی اس چ ہیگا اے ۔ قفقاز، کالا سمندر، باسفورس ایہنوں ایشیاء توں وکھ کردے نیں۔ یورپ دے اتر وچ ارکٹک سمندر، باسفورس ایشیا کی اعلام علیک ساتھ چوں یورپ چڑھدے پاسے محمدار ایہوں لیہنوں کردہ بہتار پر جشہ را چڑھا کی اور میں از سلطان ها بیرونیں شد. کی طرف اور سروخ در گیا تھی بازی کے بھیت مسریا توجے چ ہیں دیوز مارد ہے۔ پر جشہ اگل جنارز چڑھدے سے کوہ یورپ دے گونچ گیا ساتھ چ چیل تعالی چ رڑام گیا را بادن کی اختلاف سرائید ہے۔ معترض مکتبئے چ واقع دے اتر بھیت ہیں کو طبیعی سلطان کی اور قازقستان دا کو ہیں ہے کی

食文化(しょくぶんか)は、食(食事)にまつわる文化のこと。 概要 食文化には、食材の選び方、献立の立て方、調理法といったことから、食器の選び方、また誰と、どのように食べるのか、といったことや、作法・マナーなどに至るまで多くのことが含まれる。 食の頻度、摂取する時刻、なども食文化の要素の一つである。 食文化の要素をもとっている。 2つの活性のもちろんかは、食文化の要素を選び方でいらせて組織します。 検討とは食文化をしょく時間がどんなプロビイアウト・ニューフェーダー(しょくぶんか)をもとっていると、食文の方法を選びている。 等の食文の方法を選びたのかには食文をすると、検討や時間がなく食文を選びてみるが、もし食文を選びなく選びたいんだという。 食文をもとっている食文を選びたことは食文を選びてくらない。 被選びた時間とは食文を選びてくらない。 はい。 食文の選び方がない。 もし食文を選びたい食文を選びたことで、食文を選びます。 食文の選び方は現地にもあります。 食文の選び方が現地にもあられます。 食文の選び方は現地にもあられます。 直行食文は、食文を活性に選びている。 食文を選びてきた食文を活性に選びたい。 直行食文は、食文を活性に選びている。 日本の食文は食文を選びています。 日本の食文は食文を選びています。 食文を選びている食文を選びたことは食文を選びてくらない。 日本の食文は食文を選びています。

Thampanoor murder accused Kalesh Arrested | കലേഷും ശ്രീനിവാസും തമ്മിലുള്ള പ്രശ്നങ്ങൾ പതിവ് സംഭവം; മദ്യപിച്ച് വാക്കേറ്റത്തിനിടെ പഴയ വഴക്കുകളും അടിപിടിയും എടുത്തിട്ടത് ഒപ്പമുണ്ടായിരുന്ന യുവാക്കൾ; പലതവണ തർക്കം കയ്യാങ്കളിയിലേക്ക് എത്തിയപ്പോൾ ഇടപെട്ടതും സുഹൃത്തുക്കൾ; ഒടുവിൽ തർക്കം മൂത്തപ്പോൾ ബിയർ കുപ്പി പൊട്ടിച്ച് ശ്രീനിവാസന്റെ കഴുത്തിന് കുത്തി; അതിന്റെ സംദ്ധായിയ്ക് അമ്മാക്കുന്ന വാഷിയ ക്രതാണ് നെക്കിസ്വിച്ചു ആരംഗതിയും പൂല്ലെ വസ്ടും പ്രരുക്കുകളും ഭര് പറമ്മുടായില് വാഷിയമ്കുന്ന ജനുറ്റ് എന്ത്രേണി ഹൈനുണ്ടെ നിലനന്റെ പാട്ടെന്നു. വിച്ചാന്നുണ്ടെ പരക്ഷണന്നുക്കുകളും ഭര് പറമ്മുടായിന് ബാസ് പരക്ഷണന്റെ വിച്ചാന് ക്രത്തിന് ഭര് പറമ്മുട്ടിച്ചിത്രിൽ അവയായിക്കുന്നയോടെകിന് നെക്കിന് സമിക്കുന്ന ഹൈടീം പരക്ഷണെ ജേയമ്മയിന് നെക്കിത്രോളും വരുംം നുലതിരുന്ന കി

אֶתְנוֹגְרַפְיָה (מיוונית: ἔθνος "אתנוס" - אומה, עם ו-γράφω "גראפו" - אני כותב) היא תיאור איכותי של תופעות בחברה האנושית, על-סמך עבודת שדה. אתנוגרפיה היא שיטת מחקר הוליסטית המחזיקה בדעה כי מרכיביה של מערכת, בהכרח אינם יכולים להיות מובנים באופן מלא ומדויק כאשר הם מוצגים ונחקרים באופן בלתי-תלוי האחד בשני. לסוגה יש מקורות היסטוריים כמו-גם פורמליים, ביומני-מסע ובדוחות משרד קולוניאליים. למצח מות רמלים הקורות בעטו סופיה היא עמה לעם שתבאון קסיע את המשרד. הוא שיאגרפעת המנוג טוב של מרחשוב בשיר הרוחות שיימלו סמיק הוא עם מנט שעיות היא חולה של התחלם אלא מכאלה שלם מכלל המעלה שלכך סופיה סטוקלי משוארתיית משתמש למצע את היסטוריים כאשר גריפות היא על ברוחות דיריות גובות השום הגובות לסיפר דבר 15 כושבי החברה יכול על עתיים במקום יוצר בהתאיר סתר. לנוסב מוצעה את המוערוץ, יכול לא עשוך גזי על דירי גובות לגדול. נסכים לפתחה יכול מתנוגרים תגובה בביור ההשיחים יימין כדי הכגלת העתיים והסיימ פינים, של ארטימית תוכם, המגורים שחי בלמרלות, ההיסטורות תוכם, ההנשתאי לסוג הבודות החברה. לכל המוערוץ הסוגי, שהים קדושות שיותר מעתיות מחקרה משירות המנוג במקום והיזרים, יכול לא על ותהיא נוסב חדוש לשתמש למצע את המשרד. אפשרות את בינו שיטת את הטוב, בעפשור הצרך השביעו שבע פקסים בשיר, או משתמש בתיאות ובשירות שבע פקסים לקבלי דיום, נשמעים להאנושית מערכת ושתמש מהות תוכם בהותרות. ומנוגרים מכהן ליוצר במרחשוב לגובות נכדי את הנכולות במקום. מספר שיטי את העדמ שבע החברה הייצאים המושנה כדי לשמש יש תהיא מספר דירי או משתמש דה באמצע חפש. לילודוע האנושית בבית יוצר ממנוג בעובד כדי שיטי מצעג להמפקס היא חדשים, היא תהיא מתנוגר מדעות הבודות צדוק סטוקלית רטידת כל הגובות הגובות משלם ומאוד שני מתחלם מוכלט לשמש תעכון, ודיום שני מתחלם מופעות נינוג למצע רבות הדבר או התרכיבה אל החברה כדי לא ותוכם כל קבלה את חדש הכתבה ומוכלט עד אל הסיפר גובות נינוג. כבר התחלם או חדש עריך שתדבר כך החברה בהותרות. כדי אופן הודכי ראשון אמנים מחוגנים שיקרה, וסיימ את הזבה יש להכגלה לשמש על הרגדה. מחסי גובות נכדי רגדה שיותר כדי באופן כמו ארטימית, חדש הגובות שהשיות ולורס לבפות צדוק וסנול המספר.

Training hyperparameters

  • Dataset: LinguaNova SmolLM2 tokenized snowball
  • Learning rate: 5e-5
  • Epochs 1.0
  • Cutoff length: 2048
  • Batch size: 2
  • Gradient accumulation: 8
  • Pack sequences: off
  • Use neat packing: off
  • LoRA rank: 64
  • LoRA alpha: 128
  • Use rslora: on

Licence

Apache 2.0

Downloads last month
13
Safetensors
Model size
135M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for agentlans/SmolLM2-135M-multilingual-base

Finetuned
(150)
this model

Dataset used to train agentlans/SmolLM2-135M-multilingual-base