博文评估“评估者”LLM 作为评判者的对齐策略基准测试2025年8月18日评估AI两年 AI 应用改进中来之不易的经验教训建立评估和改进 AI 系统的分步指南2025年5月7日评估AIOSS将作为评判者的 LLM 与人类评估者对齐使用人类反馈对齐和改进基于 LLM 的指标2024年12月11日评估LLM关于合成数据生成的一切关于使用 LLM 进行合成数据生成的深度调查博客2024年11月19日LLM数据发布 Ragas v0.2发布 Ragas v0.2 版本2024年10月21日发布0.2关于评估大型语言模型的一切关于评估 LLM 应用的深度调查博客2024年7月9日LLM评估