Beyond Fertility: STRR as a Metric for Multilingual Tokenization Evaluation

Mir Tafseer Nayeem, Sawsan Alqahtani, Md Tahmid Rahman Laskar, Tasnim Mohiuddin, M Saiful Bari

January 1, 2025

Abstract

We propose STRR as a metric for multilingual tokenization evaluation that goes beyond fertility-based measures, providing a more comprehensive assessment of tokenizer quality across languages.

Type

Conference paper

Publication

NeurIPS 2025 Workshop on Evaluating the Evolving LLM Lifecycle: Benchmarks, Emergent Abilities, and Scaling