美团LongCat开源 VitaBench2.0
2 小时前

自去年10月发布VitaBench 1.0后,美团LongCat团队近日又推出了VitaBench 2.0。该版本是首个针对真实生活场景下长期动态用户建模的智能体评测基准,可系统评估大语言模型在长期、真实且动态的用户互动中,展现出的个性化与主动性能力。