Class: CompletionKit::Run

Inherits:

Object
ActiveRecord::Base
ApplicationRecord
CompletionKit::Run

show all

Includes:: Taggable, Turbo::Broadcastable

Defined in:: app/models/completion_kit/run.rb

Constant Summary collapse

STATUSES =

%w[pending running completed failed].freeze

Constants inherited from ApplicationRecord

ApplicationRecord::TenantScopedUniquenessValidator

Instance Method Summary collapse

#as_json(options = {}) ⇒ Object
#avg_score ⇒ Object
#generate_responses! ⇒ Object
#judge_configured? ⇒ Boolean
#judge_only? ⇒ Boolean

A judge-only run grades a pre-existing column on the dataset instead of generating new outputs.
#mark_completed! ⇒ Object
#metric_averages ⇒ Object
#missing_dataset_variables ⇒ Object
#outstanding_work_zero? ⇒ Boolean
#progress_snapshot ⇒ Object
#replace_metrics!(metric_ids) ⇒ Object
#stale_review_summary ⇒ Object
#start! ⇒ Object

Methods included from Taggable

#tag_names, #tag_names=

Instance Method Details

#as_json(options = {}) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 221

def as_json(options = {})
  snap = progress_snapshot
  {
    id: id, name: name, status: status, prompt_id: prompt_id,
    dataset_id: dataset_id, judge_model: judge_model, temperature: temperature,
    output_column: output_column,
    created_at: created_at, updated_at: updated_at,
    responses_count: responses.count, avg_score: avg_score,
    progress_current: snap[:generated_done],
    progress_total: snap[:generated_total],
    progress: {
      generated: { done: snap[:generated_done], total: snap[:generated_total], failed: snap[:generated_failed] },
      judged:    { done: snap[:judged_done],    total: snap[:judged_total],    failed: snap[:judged_failed] }
    },
    failed_response_ids: responses.where(status: "failed").pluck(:id),
    failure_summary: failure_summary,
    error_message: error_message,
    metric_ids: metric_ids,
    tags: tags.as_json
  }
end

#avg_score ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 76

def avg_score
  all_reviews = responses.flat_map(&:reviews)
  scores = all_reviews.map(&:ai_score).compact.map(&:to_f)
  return nil if scores.empty?

  (scores.sum / scores.length).round(2)
end

#generate_responses! ⇒ `Object`



178
179
180

# File 'app/models/completion_kit/run.rb', line 178

def generate_responses!
  start!
end

#judge_configured? ⇒ `Boolean`

Returns:

(Boolean)



64
65
66

# File 'app/models/completion_kit/run.rb', line 64

def judge_configured?
  judge_model.present? && metrics.any? && ApiConfig.valid_for_model?(judge_model)
end

#judge_only? ⇒ `Boolean`

A judge-only run grades a pre-existing column on the dataset instead of generating new outputs. No prompt is attached; the response text is read from row; no LLM generation happens.

Returns:

(Boolean)



27
28
29

# File 'app/models/completion_kit/run.rb', line 27

def judge_only?
  prompt.nil?
end

#mark_completed! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 40

def mark_completed!
  update!(status: "completed")
  broadcast_ui
end

#metric_averages ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 84

def metric_averages
  all_reviews = responses.flat_map(&:reviews).select { |r| r.ai_score.present? }
  all_reviews.group_by(&:metric_name).map do |name, reviews|
    scores = reviews.map { |r| r.ai_score.to_f }
    { name: name, avg: (scores.sum / scores.length).round(1) }
  end
end

#missing_dataset_variables ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 31

def missing_dataset_variables
  return [] unless prompt
  vars = prompt.variables
  return [] if vars.empty?
  return vars if dataset.nil?

  vars - dataset.headers
end

#outstanding_work_zero? ⇒ `Boolean`

Returns:

(Boolean)

# File 'app/models/completion_kit/run.rb', line 45

def outstanding_work_zero?
  return false if responses.where.not(status: Response::TERMINAL_STATUSES).exists?

  metric_ids = metrics.pluck(:id)
  return true if metric_ids.empty?

  succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
  expected_reviews = succeeded_response_ids.size * metric_ids.size
  return true if expected_reviews.zero?

  terminal_review_count = Review.where(
    response_id: succeeded_response_ids,
    metric_id: metric_ids,
    status: Review::TERMINAL_STATUSES
  ).count

  terminal_review_count >= expected_reviews
end

#progress_snapshot ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 182

def progress_snapshot
  generated_done = responses.where(status: "succeeded").count
  generated_failed = responses.where(status: "failed").count
  generated_total = progress_total

  metric_count = metrics.count
  judged_total = metric_count > 0 ? generated_done : 0
  judged_done = 0
  judged_failed = 0

  if metric_count > 0 && judged_total > 0
    succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
    metric_ids = metrics.pluck(:id)
    review_counts = Review
      .where(response_id: succeeded_response_ids, metric_id: metric_ids)
      .group(:response_id, :status)
      .count
    succeeded_response_ids.each do |rid|
      ok = review_counts[[rid, "succeeded"]] || 0
      bad = review_counts[[rid, "failed"]] || 0
      next unless ok + bad == metric_count
      if bad > 0
        judged_failed += 1
      else
        judged_done += 1
      end
    end
  end

  {
    generated_done: generated_done,
    generated_total: generated_total,
    generated_failed: generated_failed,
    judged_done: judged_done,
    judged_total: judged_total,
    judged_failed: judged_failed
  }
end

#replace_metrics!(metric_ids) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 68

def replace_metrics!(metric_ids)
  return unless metric_ids
  run_metrics.delete_all
  Array(metric_ids).reject(&:blank?).each_with_index do |metric_id, index|
    run_metrics.create!(metric_id: metric_id, position: index + 1)
  end
end

#stale_review_summary ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 92

def stale_review_summary
  review_pairs = Review.where(response_id: response_ids)
                      .where.not(metric_id: nil)
                      .where.not(metric_version_id: nil)
                      .pluck(:metric_id, :metric_version_id, :metric_name)
  return {} if review_pairs.empty?

  metric_ids = review_pairs.map(&:first).uniq
  version_ids = review_pairs.map { |_, vid, _| vid }.uniq
  current_by_metric = MetricVersion.current.where(metric_id: metric_ids).pluck(:metric_id, :id, :version_number).each_with_object({}) do |(mid, vid, vnum), h|
    h[mid] = { id: vid, label: "v#{vnum}" }
  end
  label_by_version = MetricVersion.where(id: version_ids).pluck(:id, :version_number).each_with_object({}) { |(vid, vnum), h| h[vid] = "v#{vnum}" }

  summary = {}
  review_pairs.each do |metric_id, version_id, metric_name|
    current = current_by_metric[metric_id]
    next if current.nil?
    next if version_id == current[:id]
    label = label_by_version[version_id]
    next if label.nil?
    summary[metric_id] ||= { metric_name: metric_name, current_label: current[:label], stale_count: 0, scored_labels: [] }
    summary[metric_id][:stale_count] += 1
    summary[metric_id][:scored_labels] |= [label]
  end
  summary
end

#start! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 120

def start!
  rows = if dataset
           CsvProcessor.process_self(self)
         else
           [{}]
         end

  return fail_with_summary!("Dataset has no rows") if rows.empty?

  if judge_only?
    column = output_column.presence || "actual_output"
    return fail_with_summary!("Dataset has no \"#{column}\" column") unless dataset && dataset.headers.include?(column)
  else
    client = LlmClient.for_model(prompt.llm_model, ApiConfig.for_model(prompt.llm_model))
    unless client.configured?
      return fail_with_summary!("LLM API not configured: #{client.configuration_errors.join(', ')}")
    end
  end

  transaction do
    responses.destroy_all
    update!(
      status: "running",
      progress_current: 0,
      progress_total: rows.length,
      failure_summary: nil,
      error_message: nil
    )
    rows.each_with_index do |row, index|
      input = row.empty? ? nil : row.to_json
      attrs = {
        status: "pending",
        row_index: index,
        input_data: input,
        expected_output: row["expected_output"]
      }
      if judge_only?
        attrs[:status] = "succeeded"
        attrs[:response_text] = row[output_column.presence || "actual_output"].to_s
      end

      response = responses.create!(attrs)

      if judge_only?
        metrics.each { |m| JudgeReviewJob.perform_later(response.id, m.id) } if judge_configured?
      else
        GenerateRowJob.perform_later(id, response.id)
      end
    end

    RunCompletionCheckJob.perform_later(id) if judge_only?
  end

  broadcast_ui
  broadcast_clear_responses
  true
end

Class: CompletionKit::Run

Constant Summary collapse

Constants inherited from ApplicationRecord

Instance Method Summary collapse

Methods included from Taggable

Instance Method Details

#as_json(options = {}) ⇒ Object

#avg_score ⇒ Object

#generate_responses! ⇒ Object

#judge_configured? ⇒ Boolean

#judge_only? ⇒ Boolean

#mark_completed! ⇒ Object

#metric_averages ⇒ Object

#missing_dataset_variables ⇒ Object

#outstanding_work_zero? ⇒ Boolean

#progress_snapshot ⇒ Object

#replace_metrics!(metric_ids) ⇒ Object

#stale_review_summary ⇒ Object

#start! ⇒ Object

#as_json(options = {}) ⇒ `Object`

#avg_score ⇒ `Object`

#generate_responses! ⇒ `Object`

#judge_configured? ⇒ `Boolean`

#judge_only? ⇒ `Boolean`

#mark_completed! ⇒ `Object`

#metric_averages ⇒ `Object`

#missing_dataset_variables ⇒ `Object`

#outstanding_work_zero? ⇒ `Boolean`

#progress_snapshot ⇒ `Object`

#replace_metrics!(metric_ids) ⇒ `Object`

#stale_review_summary ⇒ `Object`

#start! ⇒ `Object`