博客

博文

Evaluating the Evaluators

评估“评估者”

LLM 作为评判者的对齐策略基准测试

2025年8月18日

Hard-Earned Lessons from 2 Years of Improving AI Applications

两年 AI 应用改进中来之不易的经验教训

建立评估和改进 AI 系统的分步指南

2025年5月7日

Aligning LLM as judge with human evaluators

将作为评判者的 LLM 与人类评估者对齐

使用人类反馈对齐和改进基于 LLM 的指标

2024年12月11日

All about synthetic data generation

关于合成数据生成的一切

关于使用 LLM 进行合成数据生成的深度调查博客

2024年11月19日

Announcing Ragas v0.2

发布 Ragas v0.2

发布 Ragas v0.2 版本

2024年10月21日

All about evaluating Large language models

关于评估大型语言模型的一切

关于评估 LLM 应用的深度调查博客

2024年7月9日