我们在2023年中期构建并开源了 Ragas,旨在打造一个评估工具,以简化对RAG应用的评估。当时,RAG是部署最广泛的LLM应用之一,确保对其进行评估至关重要。快进一年,LLM应用已远远超出RAG的范畴,Ragas也随之演进,以满足评估如Agent工作流等LLM应用的需求。Ragas 0.2是我们朝着这个方向迈出的第一步。我们的目标是为评估LLM应用构建一个超强的(supercharged)工作流。
新功能有哪些?
v0.2版本的一些亮点
- 新的数据集接口:支持为评估单轮、对话式和Agent工作流准备数据集。
- 新的测试数据合成器:改进版的文档测试数据生成器,支持为评估RAG创建自定义场景、生成更高质量的问答对、降低测试成本和提高可重用性。
查看迁移指南,开始使用Ragas 0.2。
下一步计划?
在近期,我们将致力于
- 提升基于LLM评分的质量和一致性的方法
- 提高合成测试数据生成的覆盖范围和质量
- 为Agent/工具使用应用提供可复现的评估工作流
我们将很快讨论、准备并分享我们未来三个月的具体路线图
社区
我们相信社区是Ragas成功的基石,我们衷心感谢每一位为改进Ragas做出贡献的贡献者。如果您在我们的0.2版本发布前贡献了拉取请求(pull request),我们很乐意寄送一份小礼物以表谢意。如果您想收到礼物,请填写此表格。我们致力于发展一个协作社区,让每个人都可以分享想法、共同努力,使Ragas变得更好。如果您还未加入我们的Discord,请考虑加入我们的 Discord,并在 X 和 LinkedIn 上关注我们。
