ShowAndTell - a floom Collection

floom 's Collections

ShowAndTell-2025-01-30

ShowAndTell-2024-12-03

Coding

ICL

RL

Agents

NLU

RAG

Data Efficient Approaches

Personalization

sentence-transformer-models

Tool Use & more

Feedback Analysis

Memory

SSM

Efficient Serving/Inference

Synthetic Data Generation

Frontier research ideas

ShowAndTell

updated 8 days ago

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published Dec 16, 2024 • 18
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 103
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

Paper • 2412.17739 • Published Dec 23, 2024 • 42
SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval

Paper • 2412.15443 • Published Dec 19, 2024 • 10
ProgCo: Program Helps Self-Correction of Large Language Models

Paper • 2501.01264 • Published Jan 2 • 27
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Paper • 2501.01821 • Published Jan 3 • 19
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Paper • 2501.02506 • Published Jan 5 • 11
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published Jan 6 • 14
Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Paper • 2501.06708 • Published Jan 12 • 5
Atla Selene Mini: A General Purpose Evaluation Model

Paper • 2501.17195 • Published Jan 27 • 36
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Paper • 2502.06781 • Published Feb 10 • 61
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Paper • 2502.18137 • Published Feb 25 • 57
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Paper • 2502.14494 • Published Feb 20 • 15
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Paper • 2502.19328 • Published Feb 26 • 22
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Paper • 2502.19361 • Published Feb 26 • 28
Towards an AI co-scientist

Paper • 2502.18864 • Published Feb 26 • 49
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Paper • 2503.00808 • Published Mar 2 • 57
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

Paper • 2502.18890 • Published Feb 26 • 30
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

Paper • 2503.01506 • Published Mar 3 • 9
General Reasoning Requires Learning to Reason from the Get-go

Paper • 2502.19402 • Published Feb 26 • 5
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Paper • 2503.00735 • Published Mar 2 • 21
Process-based Self-Rewarding Language Models

Paper • 2503.03746 • Published Mar 5 • 40
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Paper • 2503.04644 • Published Mar 6 • 21
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles

Paper • 2502.18968 • Published Feb 26 • 3
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Paper • 2503.10602 • Published Mar 13 • 4
Temporal Consistency for LLM Reasoning Process Error Identification

Paper • 2503.14495 • Published Mar 18 • 9
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Paper • 2503.08893 • Published Mar 11 • 5
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Paper • 2503.23361 • Published Mar 30 • 6
Bridging Evolutionary Multiobjective Optimization and GPU Acceleration via Tensorization

Paper • 2503.20286 • Published Mar 26 • 4
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Paper • 2504.00824 • Published Apr 1 • 41
Agentic Knowledgeable Self-awareness

Paper • 2504.03553 • Published Apr 4 • 28
Heimdall: test-time scaling on the generative verification

Paper • 2504.10337 • Published Apr 14 • 33
TextArena

Paper • 2504.11442 • Published Apr 15 • 28
Efficient Process Reward Model Training via Active Learning

Paper • 2504.10559 • Published Apr 14 • 13
AI-University: An LLM-based platform for instructional alignment to scientific classrooms

Paper • 2504.08846 • Published Apr 11 • 10
Learning Adaptive Parallel Reasoning with Language Models

Paper • 2504.15466 • Published 25 days ago • 42
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

Paper • 2505.00234 • Published 16 days ago • 22
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

Paper • 2505.00551 • Published 16 days ago • 30
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Paper • 2504.20157 • Published 18 days ago • 35
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Paper • 2504.20114 • Published 19 days ago • 5
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Paper • 2504.19162 • Published 20 days ago • 15
Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation

Paper • 2503.12854 • Published Mar 17
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

Paper • 2505.02625 • Published 12 days ago • 20
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Paper • 2504.21117 • Published 17 days ago • 25
CORG: Generating Answers from Complex, Interrelated Contexts

Paper • 2505.00023 • Published 22 days ago • 8
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

Paper • 2505.02922 • Published 11 days ago • 23
Scalable Chain of Thoughts via Elastic Reasoning

Paper • 2505.05315 • Published 9 days ago • 23
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

Paper • 2505.03981 • Published 10 days ago • 14
AutoLibra: Agent Metric Induction from Open-Ended Feedback

Paper • 2505.02820 • Published 11 days ago • 3