Class: Ask::Eval::Runner

Inherits:

Object

Object
Ask::Eval::Runner

show all

Defined in:: lib/ask/eval/runner.rb

Overview

Runs a set of evaluation assertions and collects results. Used for batch evaluation outside of Minitest tests.

Examples:

runner = Ask::Eval::Runner.new
runner.add_test_case("My Test", "output text", context: docs)
runner.assert(:faithful, context: docs)
runner.assert(:contains, value: "hello")
results = runner.run

Instance Attribute Summary collapse

#cost_tracker ⇒ Ask::Eval::CostTracker readonly

Cost tracker.
#entries ⇒ Array<Hash> readonly

All registered test cases and their assertions.

Instance Method Summary collapse

#assert(name, **kwargs) ⇒ Object

Add an assertion to the last registered test case.
#initialize(track_cost: false) ⇒ Runner constructor

A new instance of Runner.
#reset! ⇒ Object

Reset all entries.
#run ⇒ Array<Hash>

Run all registered evaluations.
#summary ⇒ Hash

Summary of all results.
#test(name, output:, context: nil, expected: nil, input: nil) {|self| ... } ⇒ self

Register a test case with its associated assertions.

Constructor Details

#initialize(track_cost: false) ⇒ `Runner`

Returns a new instance of Runner.

# File 'lib/ask/eval/runner.rb', line 21

def initialize(track_cost: false)
  @entries = []
  @track_cost = track_cost
  @cost_tracker = CostTracker.new
end

Instance Attribute Details

#cost_tracker ⇒ `Ask::Eval::CostTracker` (readonly)

Returns cost tracker.

Returns:

(Ask::Eval::CostTracker) —

cost tracker



19
20
21

# File 'lib/ask/eval/runner.rb', line 19

def cost_tracker
  @cost_tracker
end

#entries ⇒ `Array<Hash>` (readonly)

Returns all registered test cases and their assertions.

Returns:

(Array<Hash>) —

all registered test cases and their assertions



16
17
18

# File 'lib/ask/eval/runner.rb', line 16

def entries
  @entries
end

Instance Method Details

#assert(name, **kwargs) ⇒ `Object`

Add an assertion to the last registered test case.

Parameters:

name (Symbol) —

assertion name (:contains, :faithful, etc.)
kwargs (Hash) —

additional arguments for the assertion

# File 'lib/ask/eval/runner.rb', line 56

def assert(name, **kwargs)
  raise "No test case registered. Call #test first." if @entries.empty?
  @entries.last[:assertions] << { name: name, **kwargs }
end

#reset! ⇒ `Object`

Reset all entries.

# File 'lib/ask/eval/runner.rb', line 91

def reset!
  @entries.clear
  @cost_tracker.reset!
end

#run ⇒ `Array<Hash>`

Run all registered evaluations.

Returns:

(Array<Hash>) —

results for each test case

# File 'lib/ask/eval/runner.rb', line 64

def run
  @entries.map do |entry|
    test_case = entry[:test_case]
    entry[:assertions].map do |assertion|
      name = assertion[:name]
      kwargs = assertion.reject { |k, _| k == :name }

      result = Assertions.evaluate(name, test_case.actual_output, **kwargs)
      { test: entry[:name], name: name, result: result }
    end
  end.flatten
end

#summary ⇒ `Hash`

Returns summary of all results.

Returns:

(Hash) —

summary of all results

# File 'lib/ask/eval/runner.rb', line 78

def summary
  results = run
  passed = results.count { |r| r[:result].is_a?(Hash) ? r[:result][:passed] : r[:result].passed }
  total = results.size
  {
    total: total,
    passed: passed,
    failed: total - passed,
    results: results
  }
end

#test(name, output:, context: nil, expected: nil, input: nil) {|self| ... } ⇒ `self`

Parameters:

name (String) —

test case name
output (String) —

the LLM output to evaluate
context (String, Array<String>, nil) (defaults to: nil) —

source context
expected (String, nil) (defaults to: nil) —

expected output
input (String, nil) (defaults to: nil) —

input/prompt

Yields:

(self) —

yields the runner for adding assertions

Returns:

(self)

# File 'lib/ask/eval/runner.rb', line 36

def test(name, output:, context: nil, expected: nil, input: nil)
  entry = {
    name: name,
    test_case: TestCase.new(
      actual_output: output,
      context: context,
      expected_output: expected,
      input: input
    ),
    assertions: []
  }
  @entries << entry
  yield self if block_given?
  self
end

Class: Ask::Eval::Runner

Overview

Examples:

Instance Attribute Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize(track_cost: false) ⇒ Runner

Instance Attribute Details

#cost_tracker ⇒ Ask::Eval::CostTracker (readonly)

#entries ⇒ Array<Hash> (readonly)

Instance Method Details

#assert(name, **kwargs) ⇒ Object

#reset! ⇒ Object

#run ⇒ Array<Hash>

#summary ⇒ Hash

#test(name, output:, context: nil, expected: nil, input: nil) {|self| ... } ⇒ self

#initialize(track_cost: false) ⇒ `Runner`

#cost_tracker ⇒ `Ask::Eval::CostTracker` (readonly)

#entries ⇒ `Array<Hash>` (readonly)

#assert(name, **kwargs) ⇒ `Object`

#reset! ⇒ `Object`

#run ⇒ `Array<Hash>`

#summary ⇒ `Hash`

#test(name, output:, context: nil, expected: nil, input: nil) {|self| ... } ⇒ `self`