🧪 强大的 AI 应用可观测性与评估平台

9,691 stars873 forksPython

agentsai-monitoringai-observabilityaiengineeringanthropicdatasetsevalslangchainllamaindexllm-evalllm-evaluationllmops

企业软件嘛，Demo 看起来都很聪明，落地时才知道谁在裸泳。当你的 LLM 应用开始出现幻觉、或者 RAG 检索出莫名其妙的结果时，怎么排查问题？这就是 Phoenix 要解决的痛点。它是一个专注于 AI 可观测性和评估的平台。你可以把它看作是 LLM 时代的 APM（应用性能监控）工具。无论是追踪 LangChain 或 LlamaIndex 的调用链路，还是对模型输出进行评估和数据集管理，它都提供了非常直观的可视化界面。对于准备把 AI 应用推向生产环境的团队来说，这类基础设施是绕不开的。

View on GitHub