【論文要約】LLMの推論能力向上のため、テスト時の計算量スケーリングが重要。本研究では、様々なトークン予算制約下での推論柔軟性と効率向上を目指すAnytimeReasonerを提案。思考と要約ポリシーを分離し最適化。BRPOで学習の安定性と効率を向上。 URL:arxiv.org/abs/2505.13438…
0
0
0
28
0