我们在2023年中期构建并开源了Ragas,目标是创建一个评估工具,帮助更轻松地评估 RAG 应用。当时,RAG 是部署最广泛的 LLM 应用之一,确保对其进行评估至关重要。快进一年,LLM 应用已远远超出 RAG 的范畴,Ragas 也在不断发展,以适应评估代理工作流等 LLM 应用的需求。Ragas 0.2 是我们朝着这个方向迈出的第一步。我们的目标是构建一个强大的工作流来评估 LLM 应用。
新特性是什么?
v0.2 版本亮点一览
- 新数据集接口: 支持为单轮对话、多轮对话和代理工作流评估准备数据集。
- 新测试数据合成器: 从文档生成测试数据的改进版本,支持创建自定义场景以评估 RAG、生成高质量问答对、降低测试成本并提高可重用性。
查看迁移指南,开始使用 Ragas 0.2。
下一步计划?
近期,我们将致力于以下方面:
- 改进基于 LLM 的评分质量和一致性的方法
- 提高合成测试数据生成的覆盖率和质量
- 为代理/工具使用应用构建可重现的评估工作流。
我们将很快讨论、准备并分享未来三个月的具体路线图
社区
我们相信社区是 Ragas 成功的基石,我们要衷心感谢每一位为改进它做出贡献的贡献者。如果您在 0.2 版本发布前贡献了拉取请求,我们很乐意送您一份感谢信物。如果您想收到,请填写此表格。我们致力于发展一个协作社区,让每个人都能分享想法,共同努力使 Ragas 变得更好。如果您还没有加入我们的 Discord,请考虑加入Discord,并在X和LinkedIn上关注我们。