evidence-expert-vs-baseline

Status: IN

Expert-service with EEM scores 88% A-grade vs agents-python 33% on same 50 questions, 15x faster

Source: repo:beliefs-pi/CLAUDE.md

Depended on by