宣布推出 Ragas v0.2

我们在2023年中期构建并开源了 Ragas，旨在打造一个评估工具，以简化对RAG应用的评估。当时，RAG是部署最广泛的LLM应用之一，确保对其进行评估至关重要。快进一年，LLM应用已远远超出RAG的范畴，Ragas也随之演进，以满足评估如Agent工作流等LLM应用的需求。Ragas 0.2是我们朝着这个方向迈出的第一步。我们的目标是为评估LLM应用构建一个超强的（supercharged）工作流。

新功能有哪些？

v0.2版本的一些亮点

新的数据集接口：支持为评估单轮、对话式和Agent工作流准备数据集。

新的可用指标列表：包含基于LLM和非LLM的指标，用于评估从RAG到Agent工作流的各种应用。

新的测试数据合成器：改进版的文档测试数据生成器，支持为评估RAG创建自定义场景、生成更高质量的问答对、降低测试成本和提高可重用性。

查看迁移指南，开始使用Ragas 0.2。

下一步计划？

在近期，我们将致力于

提升基于LLM评分的质量和一致性的方法

提高合成测试数据生成的覆盖范围和质量

为Agent/工具使用应用提供可复现的评估工作流

我们将很快讨论、准备并分享我们未来三个月的具体路线图

社区

我们相信社区是Ragas成功的基石，我们衷心感谢每一位为改进Ragas做出贡献的贡献者。如果您在我们的0.2版本发布前贡献了拉取请求（pull request），我们很乐意寄送一份小礼物以表谢意。如果您想收到礼物，请填写此表格。我们致力于发展一个协作社区，让每个人都可以分享想法、共同努力，使Ragas变得更好。如果您还未加入我们的Discord，请考虑加入我们的 Discord，并在 X 和 LinkedIn 上关注我们。