Back to list
High-Potential
Python
🧪 Phoenix - AI 可观测性与评估平台
9,623 stars862 forksPython
agentsai-monitoringai-observabilityaiengineeringanthropicdatasetsevalslangchainllamaindexllm-evalllm-evaluationllmops
企业软件嘛,Demo 看起来都很聪明,落地时才知道谁在裸泳。Phoenix 就是为了解决这个痛点而生的。它是一个专注于 AI 可观测性和评估的开源平台,由 Python 编写,专门用来监控、调试和评估基于 LLM 的应用。
随着 LangChain、LlamaIndex 等框架的普及,开发者越来越需要知道大模型在后台到底经历了怎样的思考过程。Phoenix 提供了详细的调用追踪(Tracing)、数据集管理以及模型评估功能。它能帮你揪出 RAG 系统里检索不准的问题,或者定位 Agent 陷入死循环的原因。对于正在把 AI 应用推向生产环境的团队来说,这类基础设施是刚需。