🧪 Phoenix - AI 可观测性与评估平台

9,623 stars862 forksPython

agentsai-monitoringai-observabilityaiengineeringanthropicdatasetsevalslangchainllamaindexllm-evalllm-evaluationllmops

企业软件嘛，Demo 看起来都很聪明，落地时才知道谁在裸泳。Phoenix 就是为了解决这个痛点而生的。它是一个专注于 AI 可观测性和评估的开源平台，由 Python 编写，专门用来监控、调试和评估基于 LLM 的应用。随着 LangChain、LlamaIndex 等框架的普及，开发者越来越需要知道大模型在后台到底经历了怎样的思考过程。Phoenix 提供了详细的调用追踪（Tracing）、数据集管理以及模型评估功能。它能帮你揪出 RAG 系统里检索不准的问题，或者定位 Agent 陷入死循环的原因。对于正在把 AI 应用推向生产环境的团队来说，这类基础设施是刚需。

View on GitHub