Class: RubyLLM::Agents::Eval::EvalRun

Inherits:

Object

Object
RubyLLM::Agents::Eval::EvalRun

show all

Defined in:: lib/ruby_llm/agents/eval/eval_run.rb

Overview

Aggregate results from running an eval suite.

Provides score calculation, pass/fail counts, failure details, and a formatted summary string.

Instance Attribute Summary collapse

#completed_at ⇒ Object readonly

Returns the value of attribute completed_at.
#model ⇒ Object readonly

Returns the value of attribute model.
#pass_threshold ⇒ Object readonly

Returns the value of attribute pass_threshold.
#results ⇒ Object readonly

Returns the value of attribute results.
#started_at ⇒ Object readonly

Returns the value of attribute started_at.
#suite ⇒ Object readonly

Returns the value of attribute suite.

Instance Method Summary collapse

#agent_class ⇒ Object
#duration_ms ⇒ Object
#errors ⇒ Object
#failed ⇒ Object
#failures ⇒ Object
#initialize(suite:, results:, model:, pass_threshold:, started_at:, completed_at:) ⇒ EvalRun constructor

A new instance of EvalRun.
#passed ⇒ Object
#score ⇒ Object

Average score across all test cases (0.0 to 1.0).
#score_pct ⇒ Object
#summary ⇒ Object
#to_h ⇒ Object
#to_json(*args) ⇒ Object
#total_cases ⇒ Object
#total_cost ⇒ Object

Constructor Details

#initialize(suite:, results:, model:, pass_threshold:, started_at:, completed_at:) ⇒ `EvalRun`

Returns a new instance of EvalRun.

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 14

def initialize(suite:, results:, model:, pass_threshold:, started_at:, completed_at:)
  @suite = suite
  @results = results
  @model = model
  @pass_threshold = pass_threshold
  @started_at = started_at
  @completed_at = completed_at
end

Instance Attribute Details

#completed_at ⇒ `Object` (readonly)

Returns the value of attribute completed_at.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def completed_at
  @completed_at
end

#model ⇒ `Object` (readonly)

Returns the value of attribute model.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def model
  @model
end

#pass_threshold ⇒ `Object` (readonly)

Returns the value of attribute pass_threshold.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def pass_threshold
  @pass_threshold
end

#results ⇒ `Object` (readonly)

Returns the value of attribute results.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def results
  @results
end

#started_at ⇒ `Object` (readonly)

Returns the value of attribute started_at.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def started_at
  @started_at
end

#suite ⇒ `Object` (readonly)

Returns the value of attribute suite.



11
12
13

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 11

def suite
  @suite
end

Instance Method Details

#agent_class ⇒ `Object`



23
24
25

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 23

def agent_class
  suite.respond_to?(:agent_class) ? suite.agent_class : suite
end

#duration_ms ⇒ `Object`

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 72

def duration_ms
  return 0 unless started_at && completed_at

  ((completed_at - started_at) * 1000).to_i
end

#errors ⇒ `Object`



54
55
56

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 54

def errors
  results.select(&:errored?)
end

#failed ⇒ `Object`



46
47
48

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 46

def failed
  results.count { |r| r.failed?(pass_threshold) }
end

#failures ⇒ `Object`



50
51
52

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 50

def failures
  results.select { |r| r.failed?(pass_threshold) }
end

#passed ⇒ `Object`



42
43
44

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 42

def passed
  results.count { |r| r.passed?(pass_threshold) }
end

#score ⇒ `Object`

Average score across all test cases (0.0 to 1.0)

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 28

def score
  return 0.0 if results.empty?

  results.sum { |r| r.score.value } / results.size.to_f
end

#score_pct ⇒ `Object`



34
35
36

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 34

def score_pct
  (score * 100).round(1)
end

#summary ⇒ `Object`

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 78

def summary
  agent_name = agent_class.respond_to?(:name) ? agent_class.name : agent_class.to_s
  lines = ["#{agent_name} Eval — #{started_at.strftime("%Y-%m-%d %H:%M")}"]
  lines << "Model: #{model} | Score: #{score_pct}% | #{passed}/#{total_cases} passed"
  lines << "Cost: $#{"%.4f" % total_cost} | Duration: #{(duration_ms / 1000.0).round(1)}s"

  if failures.any?
    lines << ""
    lines << "Failures:"
    failures.each do |r|
      lines << "  - #{r.test_case_name}: expected #{r.expected.inspect}, got #{r.actual.inspect} (#{r.score.reason})"
    end
  end

  if errors.any?
    lines << ""
    lines << "Errors:"
    errors.each do |r|
      lines << "  - #{r.test_case_name}: #{r.error.message}"
    end
  end

  lines.join("\n")
end

#to_h ⇒ `Object`

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 103

def to_h
  {
    agent: agent_class.respond_to?(:name) ? agent_class.name : agent_class.to_s,
    model: model,
    score: score,
    score_pct: score_pct,
    total_cases: total_cases,
    passed: passed,
    failed: failed,
    total_cost: total_cost,
    duration_ms: duration_ms,
    results: results.map(&:to_h)
  }
end

#to_json(*args) ⇒ `Object`



118
119
120

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 118

def to_json(*args)
  to_h.to_json(*args)
end

#total_cases ⇒ `Object`



38
39
40

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 38

def total_cases
  results.size
end

#total_cost ⇒ `Object`

# File 'lib/ruby_llm/agents/eval/eval_run.rb', line 58

def total_cost
  results.sum do |r|
    next 0 unless r.execution_id

    if defined?(Execution)
      Execution.find_by(id: r.execution_id)&.total_cost || 0
    else
      0
    end
  end
rescue
  0
end

Class: RubyLLM::Agents::Eval::EvalRun

Overview

Instance Attribute Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize(suite:, results:, model:, pass_threshold:, started_at:, completed_at:) ⇒ EvalRun

Instance Attribute Details

#completed_at ⇒ Object (readonly)

#model ⇒ Object (readonly)

#pass_threshold ⇒ Object (readonly)

#results ⇒ Object (readonly)

#started_at ⇒ Object (readonly)

#suite ⇒ Object (readonly)

Instance Method Details

#agent_class ⇒ Object

#duration_ms ⇒ Object

#errors ⇒ Object

#failed ⇒ Object

#failures ⇒ Object

#passed ⇒ Object

#score ⇒ Object

#score_pct ⇒ Object

#summary ⇒ Object

#to_h ⇒ Object

#to_json(*args) ⇒ Object

#total_cases ⇒ Object

#total_cost ⇒ Object