Class: CompletionKit::Run

Inherits:

Object
ActiveRecord::Base
ApplicationRecord
CompletionKit::Run

show all

Includes:: Taggable, Turbo::Broadcastable

Defined in:: app/models/completion_kit/run.rb

Constant Summary collapse

STATUSES =

%w[pending running completed failed].freeze

Constants inherited from ApplicationRecord

ApplicationRecord::TenantScopedUniquenessValidator

Instance Method Summary collapse

#as_json(options = {}) ⇒ Object
#avg_score ⇒ Object
#broadcast_actions ⇒ Object
#broadcast_clear_responses ⇒ Object
#broadcast_progress ⇒ Object
#broadcast_response(response) ⇒ Object
#broadcast_response_update(response) ⇒ Object
#broadcast_sort_toolbar ⇒ Object
#broadcast_status_header ⇒ Object
#broadcast_ui ⇒ Object
#generate_responses! ⇒ Object
#judge_configured? ⇒ Boolean
#judge_only? ⇒ Boolean

A judge-only run grades a pre-existing column on the dataset instead of generating new outputs.
#mark_completed! ⇒ Object
#metric_averages ⇒ Object
#missing_dataset_variables ⇒ Object
#outstanding_work_zero? ⇒ Boolean
#progress_snapshot ⇒ Object
#regrade! ⇒ Object
#replace_metrics!(metric_ids) ⇒ Object
#stale_review_summary ⇒ Object
#start! ⇒ Object

Methods included from Taggable

#tag_names, #tag_names=

Class Method Details

.display_scoped ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 24

def self.display_scoped
  filter = CompletionKit.config.runs_display_scope
  filter ? all.instance_exec(&filter) : all
end

.visible_run_ids ⇒ `Object`



29
30
31

# File 'app/models/completion_kit/run.rb', line 29

def self.visible_run_ids
  display_scoped.select(:id)
end

Instance Method Details

#as_json(options = {}) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 268

def as_json(options = {})
  snap = progress_snapshot
  {
    id: id, name: name, status: status, prompt_id: prompt_id,
    dataset_id: dataset_id, judge_model: judge_model, temperature: temperature,
    output_column: output_column,
    created_at: created_at, updated_at: updated_at,
    responses_count: responses.count, avg_score: avg_score,
    progress_current: snap[:generated_done],
    progress_total: snap[:generated_total],
    progress: {
      generated: { done: snap[:generated_done], total: snap[:generated_total], failed: snap[:generated_failed] },
      judged:    { done: snap[:judged_done],    total: snap[:judged_total],    failed: snap[:judged_failed] }
    },
    failed_response_ids: responses.where(status: "failed").pluck(:id),
    failure_summary: failure_summary,
    error_message: error_message,
    metric_ids: metric_ids,
    tags: tags.as_json
  }
end

#avg_score ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 85

def avg_score
  all_reviews = responses.flat_map(&:reviews)
  scores = all_reviews.map(&:ai_score).compact.map(&:to_f)
  return nil if scores.empty?

  (scores.sum / scores.length).round(2)
end

#broadcast_actions ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 314

def broadcast_actions
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_actions",
    html: render_engine_partial("completion_kit/runs/actions", run: self)
  )
end

#broadcast_clear_responses ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 330

def broadcast_clear_responses
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_responses",
    html: '<tbody id="run_responses"></tbody>'
  )
end

#broadcast_progress ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 297

def broadcast_progress
  reload
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_status_panel",
    html: render_engine_partial("completion_kit/runs/status_panel", run: self)
  )
end

#broadcast_response(response) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 338

def broadcast_response(response)
  broadcast_append_to(
    "completion_kit_run_#{id}",
    target: "run_responses",
    html: render_engine_partial("completion_kit/runs/response_row", run: self, response: response, index: responses.where("id <= ?", response.id).count)
  )
end

#broadcast_response_update(response) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 346

def broadcast_response_update(response)
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "response_#{response.id}",
    html: render_engine_partial("completion_kit/runs/response_row", run: self, response: response, index: responses.where("id <= ?", response.id).count)
  )
end

#broadcast_sort_toolbar ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 322

def broadcast_sort_toolbar
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_sort_toolbar",
    html: render_engine_partial("completion_kit/runs/sort_toolbar", run: self)
  )
end

#broadcast_status_header ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 306

def broadcast_status_header
  broadcast_replace_to(
    "completion_kit_run_#{id}",
    target: "run_status_header",
    html: render_engine_partial("completion_kit/runs/status_header", run: self)
  )
end

#broadcast_ui ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 290

def broadcast_ui
  broadcast_progress
  broadcast_status_header
  broadcast_actions
  broadcast_sort_toolbar
end

#generate_responses! ⇒ `Object`



193
194
195

# File 'app/models/completion_kit/run.rb', line 193

def generate_responses!
  start!
end

#judge_configured? ⇒ `Boolean`

Returns:

(Boolean)



73
74
75

# File 'app/models/completion_kit/run.rb', line 73

def judge_configured?
  judge_model.present? && metrics.any? && ApiConfig.valid_for_model?(judge_model)
end

#judge_only? ⇒ `Boolean`

A judge-only run grades a pre-existing column on the dataset instead of generating new outputs. No prompt is attached; the response text is read from row; no LLM generation happens.

Returns:

(Boolean)



36
37
38

# File 'app/models/completion_kit/run.rb', line 36

def judge_only?
  prompt.nil?
end

#mark_completed! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 49

def mark_completed!
  update!(status: "completed")
  broadcast_ui
end

#metric_averages ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 93

def metric_averages
  all_reviews = responses.flat_map(&:reviews).select { |r| r.ai_score.present? }
  all_reviews.group_by(&:metric_name).map do |name, reviews|
    scores = reviews.map { |r| r.ai_score.to_f }
    { name: name, avg: (scores.sum / scores.length).round(1) }
  end
end

#missing_dataset_variables ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 40

def missing_dataset_variables
  return [] unless prompt
  vars = prompt.variables
  return [] if vars.empty?
  return vars if dataset.nil?

  vars - dataset.headers
end

#outstanding_work_zero? ⇒ `Boolean`

Returns:

(Boolean)

# File 'app/models/completion_kit/run.rb', line 54

def outstanding_work_zero?
  return false if responses.where.not(status: HasJobStatus::TERMINAL_STATUSES).exists?

  metric_ids = metrics.pluck(:id)
  return true if metric_ids.empty?

  succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
  expected_reviews = succeeded_response_ids.size * metric_ids.size
  return true if expected_reviews.zero?

  terminal_review_count = Review.where(
    response_id: succeeded_response_ids,
    metric_id: metric_ids,
    status: HasJobStatus::TERMINAL_STATUSES
  ).count

  terminal_review_count >= expected_reviews
end

#progress_snapshot ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 229

def progress_snapshot
  generated_done = responses.where(status: "succeeded").count
  generated_failed = responses.where(status: "failed").count
  generated_total = progress_total

  metric_count = metrics.count
  judged_total = metric_count > 0 ? generated_done : 0
  judged_done = 0
  judged_failed = 0

  if metric_count > 0 && judged_total > 0
    succeeded_response_ids = responses.where(status: "succeeded").pluck(:id)
    metric_ids = metrics.pluck(:id)
    review_counts = Review
      .where(response_id: succeeded_response_ids, metric_id: metric_ids)
      .group(:response_id, :status)
      .count
    succeeded_response_ids.each do |rid|
      ok = review_counts[[rid, "succeeded"]] || 0
      bad = review_counts[[rid, "failed"]] || 0
      next unless ok + bad == metric_count
      if bad > 0
        judged_failed += 1
      else
        judged_done += 1
      end
    end
  end

  {
    generated_done: generated_done,
    generated_total: generated_total,
    generated_failed: generated_failed,
    judged_done: judged_done,
    judged_total: judged_total,
    judged_failed: judged_failed
  }
end

#regrade! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 197

def regrade!
  grading_metrics = metrics
  return false if grading_metrics.empty? || !judge_configured?

  eligible_responses = responses.where(status: "succeeded").where.not(response_text: nil)
  response_ids = eligible_responses.pluck(:id)
  return false if response_ids.empty?

  transaction do
    Review.where(response_id: response_ids).update_all(
      status: "pending",
      attempts: 0,
      metric_version_id: nil,
      ai_score: nil,
      ai_feedback: nil,
      error_provider: nil,
      error_class: nil,
      error_status: nil,
      error_message: nil
    )
    update!(status: "running", failure_summary: nil, error_message: nil)

    response_ids.each do |rid|
      grading_metrics.each { |m| JudgeReviewJob.perform_later(rid, m.id, id) }
    end
    RunCompletionCheckJob.perform_later(id)
  end

  broadcast_ui
  true
end

#replace_metrics!(metric_ids) ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 77

def replace_metrics!(metric_ids)
  return unless metric_ids
  run_metrics.delete_all
  Array(metric_ids).reject(&:blank?).each_with_index do |metric_id, index|
    run_metrics.create!(metric_id: metric_id, position: index + 1)
  end
end

#stale_review_summary ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 101

def stale_review_summary
  review_pairs = Review.where(response_id: response_ids)
                      .where.not(metric_id: nil)
                      .where.not(metric_version_id: nil)
                      .pluck(:metric_id, :metric_version_id, :metric_name)
  return {} if review_pairs.empty?

  metric_ids = review_pairs.map(&:first).uniq
  version_ids = review_pairs.map { |_, vid, _| vid }.uniq
  current_by_metric = MetricVersion.current.where(metric_id: metric_ids).pluck(:metric_id, :id, :version_number).each_with_object({}) do |(mid, vid, vnum), h|
    h[mid] = { id: vid, label: "v#{vnum}" }
  end
  label_by_version = MetricVersion.where(id: version_ids).pluck(:id, :version_number).each_with_object({}) { |(vid, vnum), h| h[vid] = "v#{vnum}" }

  summary = {}
  review_pairs.each do |metric_id, version_id, metric_name|
    current = current_by_metric[metric_id]
    next if current.nil?
    next if version_id == current[:id]
    label = label_by_version[version_id]
    next if label.nil?
    summary[metric_id] ||= { metric_name: metric_name, current_label: current[:label], stale_count: 0, scored_labels: [] }
    summary[metric_id][:stale_count] += 1
    summary[metric_id][:scored_labels] |= [label]
  end
  summary
end

#start! ⇒ `Object`

# File 'app/models/completion_kit/run.rb', line 129

def start!
  unless %w[pending failed].include?(status)
    return fail_with_summary!("Cannot start a run in state \"#{status}\". Use rerun to create a fresh copy, or retry_failures / regrade to work with the existing responses.")
  end

  rows = if dataset
           CsvProcessor.process_self(self)
         else
           [{}]
         end

  return fail_with_summary!("Dataset has no rows") if rows.empty?

  if judge_only?
    column = output_column.presence || "actual_output"
    return fail_with_summary!("Dataset has no \"#{column}\" column") unless dataset && dataset.headers.include?(column)
  else
    client = LlmClient.for_model(prompt.llm_model, ApiConfig.for_model(prompt.llm_model))
    unless client.configured?
      return fail_with_summary!("LLM API not configured: #{client.configuration_errors.join(', ')}")
    end
  end

  transaction do
    responses.destroy_all
    update!(
      status: "running",
      progress_current: 0,
      progress_total: rows.length,
      failure_summary: nil,
      error_message: nil
    )
    rows.each_with_index do |row, index|
      input = row.empty? ? nil : row.to_json
      attrs = {
        status: "pending",
        row_index: index,
        input_data: input,
        expected_output: row["expected_output"]
      }
      if judge_only?
        attrs[:status] = "succeeded"
        attrs[:response_text] = row[output_column.presence || "actual_output"].to_s
      end

      response = responses.create!(attrs)

      if judge_only?
        metrics.each { |m| JudgeReviewJob.perform_later(response.id, m.id, id) } if judge_configured?
      else
        GenerateRowJob.perform_later(id, response.id)
      end
    end

    RunCompletionCheckJob.perform_later(id) if judge_only?
  end

  safely_broadcast do
    broadcast_ui
    broadcast_clear_responses
  end
  true
end

Class: CompletionKit::Run

Constant Summary collapse

Constants inherited from ApplicationRecord

Class Method Summary collapse

Instance Method Summary collapse

Methods included from Taggable

Class Method Details

.display_scoped ⇒ Object

.visible_run_ids ⇒ Object

Instance Method Details

#as_json(options = {}) ⇒ Object

#avg_score ⇒ Object

#broadcast_actions ⇒ Object

#broadcast_clear_responses ⇒ Object

#broadcast_progress ⇒ Object

#broadcast_response(response) ⇒ Object

#broadcast_response_update(response) ⇒ Object

#broadcast_sort_toolbar ⇒ Object

#broadcast_status_header ⇒ Object

#broadcast_ui ⇒ Object

#generate_responses! ⇒ Object

#judge_configured? ⇒ Boolean

#judge_only? ⇒ Boolean

#mark_completed! ⇒ Object

#metric_averages ⇒ Object

#missing_dataset_variables ⇒ Object

#outstanding_work_zero? ⇒ Boolean

#progress_snapshot ⇒ Object

#regrade! ⇒ Object

#replace_metrics!(metric_ids) ⇒ Object

#stale_review_summary ⇒ Object

#start! ⇒ Object

.display_scoped ⇒ `Object`

.visible_run_ids ⇒ `Object`

#as_json(options = {}) ⇒ `Object`

#avg_score ⇒ `Object`

#broadcast_actions ⇒ `Object`

#broadcast_clear_responses ⇒ `Object`

#broadcast_progress ⇒ `Object`

#broadcast_response(response) ⇒ `Object`

#broadcast_response_update(response) ⇒ `Object`

#broadcast_sort_toolbar ⇒ `Object`

#broadcast_status_header ⇒ `Object`

#broadcast_ui ⇒ `Object`

#generate_responses! ⇒ `Object`

#judge_configured? ⇒ `Boolean`

#judge_only? ⇒ `Boolean`

#mark_completed! ⇒ `Object`

#metric_averages ⇒ `Object`

#missing_dataset_variables ⇒ `Object`

#outstanding_work_zero? ⇒ `Boolean`

#progress_snapshot ⇒ `Object`

#regrade! ⇒ `Object`

#replace_metrics!(metric_ids) ⇒ `Object`

#stale_review_summary ⇒ `Object`

#start! ⇒ `Object`