Class: CompletionKit::Run

Inherits:

Object
ActiveRecord::Base
ApplicationRecord
CompletionKit::Run

show all

Includes:: Taggable, Turbo::Broadcastable

Defined in:: app/models/completion_kit/run.rb

Constant Summary collapse

STATUSES =

%w[pending running completed failed].freeze

Constants inherited from ApplicationRecord

ApplicationRecord::TenantScopedUniquenessValidator

Instance Method Summary collapse

#as_json(options = {}) ⇒ Object
#avg_score ⇒ Object
#broadcast_actions ⇒ Object
#broadcast_clear_responses ⇒ Object
#broadcast_progress ⇒ Object
#broadcast_response(response) ⇒ Object
#broadcast_response_update(response) ⇒ Object
#broadcast_sort_toolbar ⇒ Object
#broadcast_status_header ⇒ Object
#broadcast_ui ⇒ Object
#check_metrics ⇒ Object
#check_pass_rate ⇒ Object
#generate_responses! ⇒ Object
#gradable? ⇒ Boolean
#gradable_metric_ids ⇒ Object
#judge_configured? ⇒ Boolean
#judge_only? ⇒ Boolean
A judge-only run grades a pre-existing column on the dataset instead of generating new outputs.
#judge_only_input_data_checks? ⇒ Boolean
#llm_judge_configured? ⇒ Boolean
#llm_metrics ⇒ Object
#mark_completed! ⇒ Object
#metric_averages ⇒ Object
#missing_dataset_variables ⇒ Object
#outstanding_work_zero? ⇒ Boolean
#progress_snapshot ⇒ Object
#regrade! ⇒ Object
#replace_metrics!(metric_ids) ⇒ Object
#stale_review_summary ⇒ Object
#start! ⇒ Object

Methods included from Taggable

#tag_names, #tag_names=

Class Method Details

.display_scoped ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 24

def self.display_scoped
  filter = CompletionKit.config.runs_display_scope
  filter ? all.instance_exec(&filter) : all
end

.visible_run_ids ⇒ `Object`



29
30
31

# File 'app/models/completion_kit/run.rb', line 29

def self.visible_run_ids
  display_scoped.select(:id)
end

Instance Method Details

#as_json(options = {}) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 321

def as_json(options = {})
  snap = progress_snapshot
  {
    id: id, name: name, status: status, prompt_id: prompt_id,
    dataset_id: dataset_id, judge_model: judge_model, temperature: temperature,
    output_column: output_column,
    created_at: created_at, updated_at: updated_at,
    responses_count: responses.count, avg_score: avg_score,
    check_pass_rate: check_pass_rate,
    progress_current: snap[:generated_done],
    progress_total: snap[:generated_total],
    progress: {
      generated: { done: snap[:generated_done], total: snap[:generated_total], failed: snap[:generated_failed] },
      judged:    { done: snap[:judged_done],    total: snap[:judged_total],    failed: snap[:judged_failed] }
    },
    failed_response_ids: responses.where(status: "failed").pluck(:id),
    failure_summary: failure_summary,
    error_message: error_message,
    metric_ids: metric_ids,
    tags: tags.as_json
  }
end

#avg_score ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 116

def avg_score
  all_reviews = responses.flat_map(&:reviews)
  scores = all_reviews.map(&:ai_score).compact.map(&:to_f)
  return nil if scores.empty?

  (scores.sum / scores.length).round(2)
end

#broadcast_actions ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 368

def broadcast_actions
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_actions",
    html: render_engine_partial("completion_kit/runs/actions", run: self)
  )
end

#broadcast_clear_responses ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 384

def broadcast_clear_responses
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_responses",
    html: '<tbody id="run_responses"></tbody>'
  )
end

#broadcast_progress ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 351

def broadcast_progress
  reload
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_status_panel",
    html: render_engine_partial("completion_kit/runs/status_panel", run: self)
  )
end

#broadcast_response(response) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 392

def broadcast_response(response)
  broadcast_append_to(
    "completion_kit_run_#{id}",
    target: "run_responses",
    html: render_engine_partial("completion_kit/runs/response_row", run: self, response: response, index: responses.where("id <= ?", response.id).count)
  )
end

#broadcast_response_update(response) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 400

def broadcast_response_update(response)
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "response_#{response.id}",
    html: render_engine_partial("completion_kit/runs/response_row", run: self, response: response, index: responses.where("id <= ?", response.id).count)
  )
end

#broadcast_sort_toolbar ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 376

def broadcast_sort_toolbar
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_sort_toolbar",
    html: render_engine_partial("completion_kit/runs/sort_toolbar", run: self)
  )
end

#broadcast_status_header ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 360

def broadcast_status_header
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_status_header",
    html: render_engine_partial("completion_kit/runs/status_header", run: self)
  )
end

#broadcast_ui ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 344

def broadcast_ui
  broadcast_progress
  broadcast_status_header
  broadcast_actions
  broadcast_sort_toolbar
end

#check_metrics ⇒ `Object`



87
88
89

# File 'app/models/completion_kit/run.rb', line 87

def check_metrics
  metrics.where(metric_type: "check")
end

#check_pass_rate ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 140

def check_pass_rate
  resolved = responses.flat_map(&:reviews).reject { |r| r.passed.nil? }
  return nil if resolved.empty?

  passed = resolved.count { |r| r.passed == true }
  (passed.to_f / resolved.length).round(2)
end

#generate_responses! ⇒ `Object`



244
245
246

# File 'app/models/completion_kit/run.rb', line 244

def generate_responses!
  start!
end

#gradable? ⇒ `Boolean`

Returns:

(Boolean)



95
96
97

# File 'app/models/completion_kit/run.rb', line 95

def gradable?
  llm_judge_configured? || check_metrics.any?
end

#gradable_metric_ids ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 54

def gradable_metric_ids
  ids = check_metrics.pluck(:id)
  ids += llm_metrics.pluck(:id) if judge_model.present?
  ids
end

#judge_configured? ⇒ `Boolean`

Returns:

(Boolean)



79
80
81

# File 'app/models/completion_kit/run.rb', line 79

def judge_configured?
  judge_model.present? && metrics.any? && ApiConfig.valid_for_model?(judge_model)
end

#judge_only? ⇒ `Boolean`

A judge-only run grades a pre-existing column on the dataset instead of generating new outputs. No prompt is attached; the response text is read from row; no LLM generation happens.

Returns:

(Boolean)



36
37
38

# File 'app/models/completion_kit/run.rb', line 36

def judge_only?
  prompt.nil?
end

#judge_only_input_data_checks? ⇒ `Boolean`

Returns:

(Boolean)

# File 'app/models/completion_kit/run.rb', line 99

def judge_only_input_data_checks?
  return false unless judge_only?

  attached = run_metrics.filter_map(&:metric)
  return false if attached.empty?

  attached.all?(&:check?) && attached.all? { |m| m.check_config.to_h["target"] == "input_data" }
end

#llm_judge_configured? ⇒ `Boolean`

Returns:

(Boolean)



91
92
93

# File 'app/models/completion_kit/run.rb', line 91

def llm_judge_configured?
  judge_model.present? && llm_metrics.any? && ApiConfig.valid_for_model?(judge_model)
end

#llm_metrics ⇒ `Object`



83
84
85

# File 'app/models/completion_kit/run.rb', line 83

def llm_metrics
  metrics.where(metric_type: "llm_judge")
end

#mark_completed! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 49

def mark_completed!
  update!(status: "completed")
  broadcast_ui
end

#metric_averages ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 124

def metric_averages
  responses.flat_map(&:reviews).group_by(&:metric_name).filter_map do |name, reviews|
    scored = reviews.select { |r| r.ai_score.present? }
    if scored.any?
      scores = scored.map { |r| r.ai_score.to_f }
      { name: name, avg: (scores.sum / scores.length).round(1) }
    else
      resolved = reviews.reject { |r| r.passed.nil? }
      next if resolved.empty?

      passed = resolved.count { |r| r.passed == true }
      { name: name, kind: "check", pass_rate: (passed.to_f / resolved.length).round(2) }
    end
  end
end

#missing_dataset_variables ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 40

def missing_dataset_variables
  return [] unless prompt
  vars = prompt.variables
  return [] if vars.empty?
  return vars if dataset.nil?

  vars - dataset.headers
end

#outstanding_work_zero? ⇒ `Boolean`

Returns:

(Boolean)

# File 'app/models/completion_kit/run.rb', line 60

def outstanding_work_zero?
  return false if responses.where.not(status: HasJobStatus::TERMINAL_STATUSES).exists?

  metric_ids = gradable_metric_ids
  return true if metric_ids.empty?

  succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
  expected_reviews = succeeded_response_ids.size * metric_ids.size
  return true if expected_reviews.zero?

  terminal_review_count = Review.where(
    response_id: succeeded_response_ids,
    metric_id: metric_ids,
    status: HasJobStatus::TERMINAL_STATUSES
  ).count

  terminal_review_count >= expected_reviews
end

#progress_snapshot ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 282

def progress_snapshot
  generated_done = responses.where(status: "succeeded").count
  generated_failed = responses.where(status: "failed").count
  generated_total = progress_total

  metric_ids = gradable_metric_ids
  metric_count = metric_ids.size
  judged_total = metric_count > 0 ? generated_done : 0
  judged_done = 0
  judged_failed = 0

  if metric_count > 0 && judged_total > 0
    succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
    review_counts = Review
      .where(response_id: succeeded_response_ids, metric_id: metric_ids)
      .group(:response_id, :status)
      .count
    succeeded_response_ids.each do |rid|
      ok = review_counts[[rid, "succeeded"]] || 0
      bad = review_counts[[rid, "failed"]] || 0
      next unless ok + bad == metric_count
      if bad > 0
        judged_failed += 1
      else
        judged_done += 1
      end
    end
  end

  {
    generated_done: generated_done,
    generated_total: generated_total,
    generated_failed: generated_failed,
    judged_done: judged_done,
    judged_total: judged_total,
    judged_failed: judged_failed
  }
end

#regrade! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 248

def regrade!
  return false if metrics.empty? || !gradable?

  eligible_responses = responses.where(status: "succeeded")
  eligible_responses = eligible_responses.where.not(response_text: nil) unless judge_only_input_data_checks?
  response_ids = eligible_responses.pluck(:id)
  return false if response_ids.empty?

  transaction do
    Review.where(response_id: response_ids).update_all(
      status: "pending",
      attempts: 0,
      metric_version_id: nil,
      ai_score: nil,
      passed: nil,
      ai_feedback: nil,
      error_provider: nil,
      error_class: nil,
      error_status: nil,
      error_message: nil
    )
    update!(status: "running", failure_summary: nil, error_message: nil)

    response_ids.each do |rid|
      llm_metrics.each { |m| JudgeReviewJob.perform_later(rid, m.id, id) } if llm_judge_configured?
      check_metrics.each { |m| CheckReviewJob.perform_later(rid, m.id, id) }
    end
    RunCompletionCheckJob.perform_later(id)
  end

  broadcast_ui
  true
end

#replace_metrics!(metric_ids) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 108

def replace_metrics!(metric_ids)
  return unless metric_ids
  run_metrics.delete_all
  Array(metric_ids).reject(&:blank?).each_with_index do |metric_id, index|
    run_metrics.create!(metric_id: metric_id, position: index + 1)
  end
end

#stale_review_summary ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 148

def stale_review_summary
  review_pairs = Review.where(response_id: response_ids)
                      .where.not(metric_id: nil)
                      .where.not(metric_version_id: nil)
                      .pluck(:metric_id, :metric_version_id, :metric_name)
  return {} if review_pairs.empty?

  metric_ids = review_pairs.map(&:first).uniq
  version_ids = review_pairs.map { |_, vid, _| vid }.uniq
  current_by_metric = MetricVersion.current.where(metric_id: metric_ids).pluck(:metric_id, :id, :version_number).each_with_object({}) do |(mid, vid, vnum), h|
    h[mid] = { id: vid, label: "v#{vnum}" }
  end
  label_by_version = MetricVersion.where(id: version_ids).pluck(:id, :version_number).each_with_object({}) { |(vid, vnum), h| h[vid] = "v#{vnum}" }

  summary = {}
  review_pairs.each do |metric_id, version_id, metric_name|
    current = current_by_metric[metric_id]
    next if current.nil?
    next if version_id == current[:id]
    label = label_by_version[version_id]
    next if label.nil?
    summary[metric_id] ||= { metric_name: metric_name, current_label: current[:label], stale_count: 0, scored_labels: [] }
    summary[metric_id][:stale_count] += 1
    summary[metric_id][:scored_labels] |= [label]
  end
  summary
end

#start! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 176

def start!
  unless %w[pending failed].include?(status)
    return fail_with_summary!("Cannot start a run in state \"#{status}\". Use rerun to create a fresh copy, or retry_failures / regrade to work with the existing responses.")
  end

  rows = if dataset
           CsvProcessor.process_self(self)
         else
           [{}]
         end

  return fail_with_summary!("Dataset has no rows") if rows.empty?

  if judge_only?
    column = output_column.presence || "actual_output"
    unless judge_only_input_data_checks? || (dataset && dataset.headers.include?(column))
      return fail_with_summary!("Dataset has no \"#{column}\" column")
    end
  else
    client = LlmClient.for_model(prompt.llm_model, ApiConfig.for_model(prompt.llm_model))
    unless client.configured?
      return fail_with_summary!("LLM API not configured: #{client.configuration_errors.join(', ')}")
    end
  end

  transaction do
    responses.destroy_all
    update!(
      status: "running",
      progress_current: 0,
      progress_total: rows.length,
      failure_summary: nil,
      error_message: nil
    )
    rows.each_with_index do |row, index|
      input = row.empty? ? nil : row.to_json
      attrs = {
        status: "pending",
        row_index: index,
        input_data: input,
        expected_output: row["expected_output"]
      }
      if judge_only?
        attrs[:status] = "succeeded"
        column = output_column.presence || "actual_output"
        attrs[:response_text] = row[column].to_s if dataset && dataset.headers.include?(column)
      end

      response = responses.create!(attrs)

      if judge_only?
        llm_metrics.each { |m| JudgeReviewJob.perform_later(response.id, m.id, id) } if llm_judge_configured?
        check_metrics.each { |m| CheckReviewJob.perform_later(response.id, m.id, id) }
      else
        GenerateRowJob.perform_later(id, response.id)
      end
    end

    RunCompletionCheckJob.perform_later(id) if judge_only?
  end

  safely_broadcast do
    broadcast_ui
    broadcast_clear_responses
  end
  true
end

Class: CompletionKit::Run

Constant Summary collapse

Constants inherited from ApplicationRecord

Class Method Summary collapse

Instance Method Summary collapse

Methods included from Taggable

Class Method Details

.display_scoped ⇒ Object

.visible_run_ids ⇒ Object

Instance Method Details

#as_json(options = {}) ⇒ Object

#avg_score ⇒ Object

#broadcast_actions ⇒ Object

#broadcast_clear_responses ⇒ Object

#broadcast_progress ⇒ Object

#broadcast_response(response) ⇒ Object

#broadcast_response_update(response) ⇒ Object

#broadcast_sort_toolbar ⇒ Object

#broadcast_status_header ⇒ Object

#broadcast_ui ⇒ Object

#check_metrics ⇒ Object

#check_pass_rate ⇒ Object

#generate_responses! ⇒ Object

#gradable? ⇒ Boolean

#gradable_metric_ids ⇒ Object

#judge_configured? ⇒ Boolean

#judge_only? ⇒ Boolean

#judge_only_input_data_checks? ⇒ Boolean

#llm_judge_configured? ⇒ Boolean

#llm_metrics ⇒ Object

#mark_completed! ⇒ Object

#metric_averages ⇒ Object

#missing_dataset_variables ⇒ Object

#outstanding_work_zero? ⇒ Boolean

#progress_snapshot ⇒ Object

#regrade! ⇒ Object

#replace_metrics!(metric_ids) ⇒ Object

#stale_review_summary ⇒ Object

#start! ⇒ Object

.display_scoped ⇒ `Object`

.visible_run_ids ⇒ `Object`

#as_json(options = {}) ⇒ `Object`

#avg_score ⇒ `Object`

#broadcast_actions ⇒ `Object`

#broadcast_clear_responses ⇒ `Object`

#broadcast_progress ⇒ `Object`

#broadcast_response(response) ⇒ `Object`

#broadcast_response_update(response) ⇒ `Object`

#broadcast_sort_toolbar ⇒ `Object`

#broadcast_status_header ⇒ `Object`

#broadcast_ui ⇒ `Object`

#check_metrics ⇒ `Object`

#check_pass_rate ⇒ `Object`

#generate_responses! ⇒ `Object`

#gradable? ⇒ `Boolean`

#gradable_metric_ids ⇒ `Object`

#judge_configured? ⇒ `Boolean`

#judge_only? ⇒ `Boolean`

#judge_only_input_data_checks? ⇒ `Boolean`

#llm_judge_configured? ⇒ `Boolean`

#llm_metrics ⇒ `Object`

#mark_completed! ⇒ `Object`

#metric_averages ⇒ `Object`

#missing_dataset_variables ⇒ `Object`

#outstanding_work_zero? ⇒ `Boolean`

#progress_snapshot ⇒ `Object`

#regrade! ⇒ `Object`

#replace_metrics!(metric_ids) ⇒ `Object`

#stale_review_summary ⇒ `Object`

#start! ⇒ `Object`