TerminalBench — בנצ'מרק לסוכני קידוד בטרמינל
TerminalBench הוא פלטפורמת הערכה ייעודית לסוכני AI בסביבת טרמינל, שמדרגת coding agents לפי ביצועים על משימות אמיתיות. הוזכר בקהילה בהקשר של השוואת סוכני קידוד, ונמצא כמקור לגילוי Forge — שהגיע למקום ראשון עם פער מרשים. שימושי להשוואת tooling ולהבנה מה עובד בפרקטיקה.
פתיחה ↗