Vatolin Alexey's picture

5 6 4

Vatolin Alexey

vatolinalex

·

AI & ML interests

None yet

Recent Activity

reacted to nyuuzyou's post with 👍 12 days ago

🇷🇺 Russian Forum Messages Dataset - https://huggingface.co/datasets/nyuuzyou/ruforum Collection of approximately 58 million Russian forum messages featuring: - Complete message content from Russian online forums spanning 2010-2025 - Comprehensive metadata including unique message IDs and timestamps - Full text content preserving original user discussions and interactions - Monolingual dataset focused exclusively on Russian language content This dataset offers a unique textual archive of Russian online conversations suitable for text generation, sentiment analysis, and language modeling research. Released to the public domain under CC0 1.0 license.

updated a dataset 12 days ago

vatolinalex/ru_sci_bench_translation_search

published a dataset 12 days ago

vatolinalex/ru_sci_bench_translation_search

View all activity

Organizations

vatolinalex's activity

upvoted a paper about 2 months ago

Training Sparse Mixture Of Experts Text Embedding Models

Paper • 2502.07972 • Published Feb 11 • 6

upvoted 2 papers 2 months ago

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

Paper • 2502.15007 • Published Feb 20 • 175

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Paper • 2502.14499 • Published Feb 20 • 192

upvoted 2 collections 4 months ago

rusBEIR-datasets

Collection of datasets used in rusBEIR • 57 items • Updated Mar 7 • 4

Russian Q&A datasets

Datasets collected from scraping Russian question answering websites • 4 items • Updated Mar 15, 2024 • 1

upvoted a paper 8 months ago

The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Paper • 2408.12503 • Published Aug 22, 2024 • 25