
美团LongCat团队今日正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。据介绍,VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含66个工具的交互式评测环境,并进行了跨场景的综合任务设计。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部:banquan@yicai.com 相关阅读
新物种爆炸2025:吴声解读“AI时代的场景革命”场景实验室创始人、场景方法论提出者吴声表示:AI场景革命正在让商业开启哲学生活方式周期,关键是在每个具体场景重建意义坐标。
23 08-04 11:01
上海连续5年夜间经济综合指数全国第一,2025年夜生活节启幕2024年上海在夜间出行活跃度、夜间灯光强度、夜场电影活跃度、城市公共交通夜间活跃度4个维度上都位列全国首位。
180 06-06 19:51
荣耀CEO李健回应机器人业务荣耀CEO李健回应机器人业务
106 05-28 23:06
协鑫能科联合蚂蚁数科发布能源电力时序大模型一体机协鑫能科联合蚂蚁数科发布能源电力时序大模型一体机
43 03-26 16:19
开普勒人形机器人K2进厂“搬砖”开普勒人形机器人K2进厂“搬砖”
54 03-15 12:32 一财最热 点击关闭优速配资提示:文章来自网络,不代表本站观点。