【arXiv速報】KLong：超長期タスクを解決するオープンソースLLMエージェント—Kimi K2を11%超え

要点

長期間のタスク（数時間〜数日かかる複雑な作業）を自律的に解決できるAIエージェント「KLong」が登場。オープンソースで公開され、クローズドモデルのKimi K2 Thinking (1Tパラメータ)を11.28%上回る性能を達成した。

観点	スコア	理由
新規性 (Novelty)	★★★★☆	Progressive RLによる段階的タイムアウト延長は新しいアプローチ
実用性 (Value)	★★★★★	長期タスク自動化は個人開発者の生産性を劇的に向上させる
実現度 (Accessibility)	★★★★☆	106Bモデルは大きいが、蒸留やAPI経由での利用を期待
総合	4.3/5	即座に活用可能ではないが、近い将来のワークフローを変える

従来のRLでは短いタスクでしか訓練できなかった。KLongはタイムアウトを段階的に延長しながら訓練することで、数時間〜数日かかるタスクでも安定して学習できる。

Stage 1: 30分タイムアウト → 基礎スキル習得
Stage 2: 2時間タイムアウト → 中期タスク対応
Stage 3: 8時間タイムアウト → 長期タスク完遂

Claude 4.5 Sonnet (Thinking)から蒸留した超長い軌道データを、オーバーラップを持たせて分割して学習。早期の文脈を保持しながら、長大な作業履歴を効率的に学習できる。

arXiv論文を収集し、再現タスクと評価ルブリックを自動生成する仕組み。これにより高品質な訓練データを大量に生成できる。

ベンチマーク	KLong (106B)	Kimi K2 (1T)	改善
PaperBench	34.5%	23.2%	+11.28pt
SWE-bench Verified	58.2%	-	競争力あり
MLE-bench	42.1%	-	競争力あり

長期タスクを任せられるエージェントが実現すれば：

Progressive RLで訓練されたエージェントは、途中で迷子にならない。これまでのAIエージェントの「途中で止まる」「変な方向に進む」問題が軽減される。

Research-Factoryの仕組みは、最新論文をすぐにプロダクトに組み込む高速サイクルを可能にする。

GitHub: https://github.com/david3684/flm (論文内リンク、正式リポジトリは公開待ち)

arXiv Daily (rosinality.substack.com) 2026-02-20号より抜粋・解説