Module: Legion::LLM::Inference

Extended by:: Legion::Logging::Helper

Defined in:: lib/legion/llm/inference.rb,
lib/legion/llm/inference/steps.rb,
lib/legion/llm/inference/prompt.rb,
lib/legion/llm/inference/profile.rb,
lib/legion/llm/inference/request.rb,
lib/legion/llm/inference/tracing.rb,
lib/legion/llm/inference/executor.rb,
lib/legion/llm/inference/response.rb,
lib/legion/llm/inference/timeline.rb,
lib/legion/llm/inference/steps/rbac.rb,
lib/legion/llm/inference/gaia_caller.rb,
lib/legion/llm/inference/conversation.rb,
lib/legion/llm/inference/steps/debate.rb,
lib/legion/llm/inference/steps/billing.rb,
lib/legion/llm/inference/steps/logging.rb,
lib/legion/llm/inference/embed_pipeline.rb,
lib/legion/llm/inference/route_attempts.rb,
lib/legion/llm/inference/steps/metering.rb,
lib/legion/llm/inference/audit_publisher.rb,
lib/legion/llm/inference/steps/rag_guard.rb,
lib/legion/llm/inference/tool_dispatcher.rb,
lib/legion/llm/inference/executor/routing.rb,
lib/legion/llm/inference/native_tool_loop.rb,
lib/legion/llm/inference/steps/tool_calls.rb,
lib/legion/llm/inference/steps/rag_context.rb,
lib/legion/llm/inference/context_accounting.rb,
lib/legion/llm/inference/steps/prompt_cache.rb,
lib/legion/llm/inference/steps/token_budget.rb,
lib/legion/llm/inference/steps/tool_history.rb,
lib/legion/llm/inference/enrichment_injector.rb,
lib/legion/llm/inference/executor/escalation.rb,
lib/legion/llm/inference/steps/gaia_advisory.rb,
lib/legion/llm/inference/steps/mcp_discovery.rb,
lib/legion/llm/inference/steps/post_response.rb,
lib/legion/llm/inference/steps/tier_assigner.rb,
lib/legion/llm/inference/steps/trigger_match.rb,
lib/legion/llm/inference/steps/classification.rb,
lib/legion/llm/inference/steps/skill_injector.rb,
lib/legion/llm/inference/steps/span_annotator.rb,
lib/legion/llm/inference/steps/sticky_helpers.rb,
lib/legion/llm/inference/steps/sticky_persist.rb,
lib/legion/llm/inference/steps/sticky_runners.rb,
lib/legion/llm/inference/steps/tool_discovery.rb,
lib/legion/llm/inference/executor/context_window.rb,
lib/legion/llm/inference/executor/tool_injection.rb,
lib/legion/llm/inference/steps/knowledge_capture.rb,
lib/legion/llm/inference/steps/confidence_scoring.rb

Defined Under Namespace

Modules: AuditPublisher, ContextAccounting, Conversation, EmbedPipeline, EnrichmentInjector, GaiaCaller, NativeToolLoop, Profile, Prompt, RouteAttempts, Steps, Tracing Classes: Executor, Request, Response, Timeline

Constant Summary collapse

FRAMEWORK_KEYS =

%i[request_id source timestamp datetime task_id parent_id master_id
check_subtask generate_task catch_exceptions worker_id principal_id
principal_type caller].freeze

AUTO_ROUTING_MODEL_KEY =

'legionio'

AUTO_ROUTING_MODEL_ALIASES =

[AUTO_ROUTING_MODEL_KEY].freeze

ToolDispatcher =

Tools::Dispatcher

Class Method Summary collapse

.apply_response_guards(result, kwargs) ⇒ Object
.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object
.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ Object

rubocop:disable Legion/Framework/NoDirectDispatch ask_direct is a deprecated shim.
.assert_external_allowed! ⇒ Object (also: assert_cloud_allowed!)
.attach_escalation_history(response, history, resolution, chain) ⇒ Object
.blocked_hook_response(blocked) ⇒ Object
.build_attempt(resolution, outcome, failures, duration_ms) ⇒ Object
.build_cache_key(model, provider, message, temperature) ⇒ Object
.cacheable?(cache_opt, temperature, message) ⇒ Boolean
.caller_descriptor(caller_context) ⇒ Object
.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

Public inference entry points — these are the methods delegated from Legion::LLM.
.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil) ⇒ Object

rubocop:disable Legion/Framework/NoDirectDispatch chat_direct is a deprecated shim per CHANGELOG 0.12.16 that routes through the governed pipeline; see Legion::LLM::Deprecation.warn_once.
.chat_direct_governed(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

rubocop:enable Legion/Framework/NoDirectDispatch.
.chat_direct_raw(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object
.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs) ⇒ Object
.chat_single_native(model:, provider:, message:, instance: nil, caller: nil, &block) ⇒ Object
.chat_via_pipeline(&block) ⇒ Object
.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object
.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ Object

rubocop:disable Lint/UnusedMethodArgument.
.direct_chat_session?(result) ⇒ Boolean

rubocop:enable Legion/Framework/NoDirectDispatch.
.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object
.effective_tier_is_external?(tier, provider) ⇒ Boolean (also: effective_tier_is_cloud?)
.elapsed_ms_since(started_at) ⇒ Object
.emit_non_pipeline_metering(response, model:, provider:, caller: nil) ⇒ Object
.emit_privacy_blocked_audit ⇒ Object
.enterprise_privacy? ⇒ Boolean
.escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain, caller: nil) ⇒ Boolean
.escalation_attempt_response(resolution, message, kwargs) ⇒ Object
.escalation_enabled? ⇒ Boolean
.escalation_quality_threshold ⇒ Object
.external_tier?(tier) ⇒ Boolean
.extract_error_category_from_attempt(attempt) ⇒ Object
.hash_response_details(result, requested_model:, requested_provider:) ⇒ Object
.inference_input_payload(message:, messages:) ⇒ Object
.inference_response_details(result, requested_model:, requested_provider:) ⇒ Object
.inference_text_length(payload) ⇒ Object
.inference_token_value(tokens, key) ⇒ Object
.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ Object
.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ Object
.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ Object
.maybe_shadow_evaluate(response, messages, primary_model) ⇒ Object
.native_provider_error(operation) ⇒ Object
.normalize_ask_direct_hash(result, fallback_model:) ⇒ Object
.object_response_details(result, requested_model:, requested_provider:) ⇒ Object
.pipeline_enabled? ⇒ Boolean
.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ Object
.publish_escalation_event(history, final_outcome, caller: nil) ⇒ Object
.record_escalation_error(error, resolution, duration_ms, history) ⇒ Object
.report_health(signal, resolution, duration_ms, failures: nil) ⇒ Object
.resolve_ask_direct_response(result, message, requested_model) ⇒ Object
.response_guards_enabled? ⇒ Boolean
.run_escalation_attempt(resolution, message:, kwargs:, threshold:, quality_check:, history:, chain:) ⇒ Object
.safe_inference_value(object, method_name) ⇒ Object
.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ Object

Class Method Details

.apply_response_guards(result, kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 824

def apply_response_guards(result, kwargs)
  context = kwargs[:context]
  response_text = result[:response] || result[:content]
  guard_result = Hooks::ResponseGuard.guard_response(
    response: response_text, context: context
  )

  log.warn "[llm][inference] response_guard passed=#{guard_result[:passed]}" unless guard_result[:passed]

  result.merge(_guard_result: guard_result)
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.apply_response_guards')
  result
end

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 79

def ask(message:, model: nil, provider: nil, intent: nil, tier: nil,
        context: {}, identity: nil, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             { context: context, identity: identity }
  )

  if Call::DaemonClient.available?
    result = daemon_ask(message: message, model: model, provider: provider,
                        context: context, tier: tier, identity: identity)
    if result
      log_inference_response(
        request_type:       :ask,
        requested_model:    model,
        requested_provider: provider,
        result:             result,
        duration_ms:        elapsed_ms_since(started_at)
      )
      return result
    end
  end

  result = ask_direct(message: message, model: model, provider: provider,
                      intent: intent, tier: tier, &)
  log_inference_response(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ `Object`

rubocop:disable Legion/Framework/NoDirectDispatch ask_direct is a deprecated shim. The previous body routed through ‘chat_direct_raw`, an ungoverned path that bypasses metering/audit — the same compliance gap that motivated the chat_direct/embed_direct/ structured_direct deprecation in 0.12.16. It now routes through the governed pipeline via `chat_direct` and adapts the response to the legacy `response:, meta:` shape ask() callers expect.

# File 'lib/legion/llm/inference.rb', line 499

def ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil, &)
  Legion::LLM::Deprecation.warn_once(:ask_direct, replacement: 'Legion::LLM.ask')
  assert_external_allowed! if effective_tier_is_external?(tier, provider)

  result = chat_direct(
    model:    model,
    provider: provider,
    intent:   intent,
    tier:     tier,
    message:  message,
    &
  )

  return result if result.is_a?(Hash) && result[:deferred]
  return normalize_ask_direct_hash(result, fallback_model: model || Legion::Settings[:llm][:default_model]) if result.is_a?(Hash)

  response, resolved_model = resolve_ask_direct_response(result, message, model, &)

  {
    status:   :done,
    response: response.content,
    meta:     {
      tier:       :direct,
      model:      resolved_model,
      tokens_in:  response.respond_to?(:input_tokens) ? response.input_tokens : nil,
      tokens_out: response.respond_to?(:output_tokens) ? response.output_tokens : nil
    }
  }
end

.assert_external_allowed! ⇒ `Object` Also known as: assert_cloud_allowed!

Raises:

(Legion::LLM::PrivacyModeError)

# File 'lib/legion/llm/inference.rb', line 931

def assert_external_allowed!
  return unless enterprise_privacy?

  emit_privacy_blocked_audit
  raise Legion::LLM::PrivacyModeError,
        'External LLM tiers are disabled: enterprise_data_privacy is enabled. ' \
        'Only local and fleet tiers are permitted.'
end

.attach_escalation_history(response, history, resolution, chain) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 741

def attach_escalation_history(response, history, resolution, chain)
  return unless response.respond_to?(:extend)
  return if response.frozen?

  response.extend(EscalationHistory)
  history.each { |h| response.record_escalation_attempt(**h) }
  response.final_resolution = resolution
  response.escalation_chain = chain
end

.blocked_hook_response(blocked) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 819

def blocked_hook_response(blocked)
  reason = blocked[:reason] || blocked['reason'] || blocked[:message] || blocked['message'] || 'request blocked by hook'
  { error: 'request_blocked', message: reason.to_s }
end

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 733

def build_attempt(resolution, outcome, failures, duration_ms)
  attempt = { model: resolution.model, provider: resolution.provider, tier: resolution.tier,
              outcome: outcome, failures: failures, duration_ms: duration_ms }
  attempt[:offering_id] = resolution.offering_id if resolution.offering_id
  attempt[:offering_metadata] = resolution.offering_metadata unless resolution.offering_metadata.empty?
  attempt
end

.build_cache_key(model, provider, message, temperature) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 844

def build_cache_key(model, provider, message, temperature)
  messages_arr = message.is_a?(Array) ? message : [{ role: 'user', content: message.to_s }]
  Cache.key(
    model:       model || Legion::Settings[:llm][:default_model],
    provider:    provider || Legion::Settings[:llm][:default_provider],
    messages:    messages_arr,
    temperature: temperature
  )
end

.cacheable?(cache_opt, temperature, message) ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 839

def cacheable?(cache_opt, temperature, message)
  effective_temp = temperature.nil? ? Legion::Settings[:llm][:default_temperature] : temperature
  cache_opt != false && effective_temp.to_f.zero? && message && Cache.enabled?
end

.caller_descriptor(caller_context) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 402

def caller_descriptor(caller_context)
  return caller_context unless caller_context.is_a?(Hash)

  source = caller_context[:source] || caller_context['source']
  path = caller_context[:path] || caller_context['path']
  return "#{source}:#{path}" if source && path
  return source.to_s if source

  caller_context.inspect
end

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

Public inference entry points — these are the methods delegated from Legion::LLM

# File 'lib/legion/llm/inference.rb', line 32

def chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
         max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             kwargs
  )

  result = if defined?(Legion::Telemetry::OpenInference)
             Legion::Telemetry::OpenInference.llm_span(
               model:    (model || Legion::Settings[:llm][:default_model]).to_s,
               provider: provider&.to_s,
               input:    message
             ) do |_span|
               dispatch_chat(model: model, provider: provider, intent: intent, tier: tier, escalate: escalate,
                             max_escalations: max_escalations, quality_check: quality_check, message: message, **kwargs, &)
             end
           else
             dispatch_chat(model: model, provider: provider, intent: intent, tier: tier,
                           escalate: escalate, max_escalations: max_escalations,
                           quality_check: quality_check, message: message, **kwargs, &)
           end

  log_inference_response(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil) ⇒ `Object`

rubocop:disable Legion/Framework/NoDirectDispatch chat_direct is a deprecated shim per CHANGELOG 0.12.16 that routes through the governed pipeline; see Legion::LLM::Deprecation.warn_once.

# File 'lib/legion/llm/inference.rb', line 131

def chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
                max_escalations: nil, quality_check: nil, message: nil, **, &)
  Legion::LLM::Deprecation.warn_once(:chat_direct, replacement: 'Legion::LLM.chat')

  if Thread.current[:legion_llm_in_pipeline] || !pipeline_enabled? || !message
    return chat_direct_raw(model: model, provider: provider, intent: intent, tier: tier,
                           escalate: escalate, max_escalations: max_escalations,
                           quality_check: quality_check, message: message, **, &)
  end

  chat_direct_governed(model: model, provider: provider, intent: intent, tier: tier,
                       escalate: escalate, max_escalations: max_escalations,
                       quality_check: quality_check, message: message, **, &)
end

.chat_direct_governed(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

rubocop:enable Legion/Framework/NoDirectDispatch

# File 'lib/legion/llm/inference.rb', line 147

def chat_direct_governed(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
                         max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  log.debug(
    "[llm][inference] chat_direct_governed.enter model=#{model} provider=#{provider} " \
    "intent=#{intent} tier=#{tier} message_present=#{!message.nil?}"
  )

  assert_external_allowed! if effective_tier_is_external?(tier, provider)

  caller_hash = kwargs.delete(:caller) || { requested_by: { type: :system, identity: 'legion:internal:chat_direct' } }
  cache_opt = kwargs.delete(:cache) { true }
  temperature = kwargs.delete(:temperature)
  kwargs.delete(:urgency)

  cache_key = build_cache_key(model, provider, message, temperature) if cacheable?(cache_opt, temperature, message)
  if cache_key
    cached = Cache.get(cache_key)
    if cached
      log.debug '[llm][inference] chat_direct_governed cache=hit'
      cached_response = cached.dup
      cached_response[:meta] = (cached_response[:meta] || {}).merge(cached: true)
      return cached_response
    end
  end

  resolved_provider = provider || Legion::Settings[:llm][:default_provider]
  resolved_model = model || Legion::Settings[:llm][:default_model]

  unless resolved_provider || resolved_model || (intent && Router.routing_enabled?)
    log.debug '[llm][inference] chat_direct_governed.fallback_to_raw — no provider/model resolvable'
    return chat_direct_raw(model: model, provider: provider, intent: intent, tier: tier,
                           escalate: escalate, max_escalations: max_escalations,
                           quality_check: quality_check, message: message,
                           caller: caller_hash, cache: cache_opt, temperature: temperature, **kwargs)
  end

  result = Prompt.dispatch(
    message,
    intent: intent, tier: tier, provider: provider, model: model,
    escalate: escalate, max_escalations: max_escalations,
    quality_check: quality_check, caller: caller_hash,
    temperature: temperature, **kwargs.except(:messages)
  )

  if cache_key && result.is_a?(Hash)
    ttl = Legion::Settings[:llm][:prompt_caching][:response_cache][:ttl_seconds]
    Cache.set(cache_key, result, ttl: ttl)
  end

  log.debug("[llm][inference] chat_direct_governed.exit result_class=#{result.class}")
  result
end

.chat_direct_raw(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 200

def chat_direct_raw(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
                    max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  log.debug(
    "[llm][inference] chat_direct_raw.enter model=#{model} provider=#{provider} intent=#{intent} " \
    "tier=#{tier} escalate=#{escalate} message_present=#{!message.nil?} kwargs=#{kwargs.keys.sort}"
  )
  cache_opt = kwargs.delete(:cache) { true }
  temperature = kwargs.delete(:temperature)

  escalate = escalation_enabled? if escalate.nil?
  cache_key = build_cache_key(model, provider, message, temperature) if cacheable?(cache_opt, temperature, message)

  if cache_key
    cached = Cache.get(cache_key)
    if cached
      log.debug '[llm][inference] chat_direct_raw cache=hit'
      cached_response = cached.dup
      cached_response[:meta] = (cached_response[:meta] || {}).merge(cached: true)
      return cached_response
    end
  end

  urgency = kwargs.delete(:urgency) { :normal }
  deferred = try_defer(intent: intent, urgency: urgency, model: model, provider: provider, message: message, **kwargs)
  return deferred if deferred

  log.debug(
    "[llm][inference] chat_direct_raw.dispatch model=#{model} provider=#{provider} " \
    "escalate=#{escalate} message_present=#{!message.nil?}"
  )
  result = if escalate && message
             chat_with_escalation(
               model: model, provider: provider, intent: intent, tier: tier,
               max_escalations: max_escalations, quality_check: quality_check,
               message: message, temperature: temperature, **kwargs
             )
           else
             chat_single(model: model, provider: provider, intent: intent, tier: tier,
                         temperature: temperature, message: message, **kwargs, &)
           end
  log.debug("[llm][inference] chat_direct_raw.exit result_class=#{result.class} result_nil=#{result.nil?}")

  if cache_key && result.is_a?(Hash)
    ttl = Legion::Settings[:llm][:prompt_caching][:response_cache][:ttl_seconds]
    Cache.set(cache_key, result, ttl: ttl)
  end

  result
end

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 562

def chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &)
  explicit_tools = kwargs.delete(:tools)
  tools = explicit_tools
  tools = nil if tools.respond_to?(:empty?) && tools.empty?

  if (intent || tier) && Router.routing_enabled?
    resolution = Router.resolve(intent: intent, tier: tier, model: model, provider: provider)
    if resolution
      model = resolution.model
      provider = resolution.provider
      assert_external_allowed! if resolution.external?
    end
  elsif tier
    assert_external_allowed! if external_tier?(tier.to_sym)
  end

  model ||= Legion::Settings[:llm][:default_model]
  instance = resolution&.instance || kwargs[:instance] || kwargs[:instance_id] || kwargs[:provider_instance]
  provider ||= (model && Router.infer_provider_for_model(model)) ||
               Legion::Settings[:llm][:default_provider]

  opts = {}
  opts[:model] = model if model
  opts[:provider] = provider if provider
  opts.merge!(kwargs.except(*FRAMEWORK_KEYS))
  opts.delete(:temperature) if opts[:temperature].nil?

  Call::Providers.inject_anthropic_cache_control!(opts, provider)
  opts[:tools] = tools if tools

  log.debug "[llm][inference] chat_single model=#{opts[:model]} provider=#{opts[:provider]} message_present=#{!message.nil?} tools=#{tools&.size || 0}"
  chat_single_native(model: opts[:model], provider: opts[:provider], instance: instance, message: message,
                     caller: kwargs[:caller], **opts.except(:model, :provider), &)
end

.chat_single_native(model:, provider:, message:, instance: nil, caller: nil, &block) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 597

def chat_single_native(model:, provider:, message:, instance: nil, caller: nil, **, &block)
  raise native_provider_error('session-style chat requires message or messages') unless message
  raise native_provider_error('chat without a native provider') unless provider

  messages = message.is_a?(Array) ? message : [{ role: 'user', content: message.to_s }]
  result = if block
             Call::Dispatch.call(provider: provider, instance: instance, capability: :stream, model: model,
                                 messages: messages, **, &block)
           else
             Call::Dispatch.call(provider: provider, instance: instance, capability: :chat, model: model,
                                 messages: messages, **)
           end
  emit_non_pipeline_metering(result, model: model, provider: provider, caller: caller)
  result
end

.chat_via_pipeline(&block) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 468

def chat_via_pipeline(**, &block)
  request = Request.from_chat_args(**)
  executor = Executor.new(request)
  block ? executor.call_stream(&block) : executor.call
end

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

Raises:

(Legion::LLM::EscalationExhausted)

# File 'lib/legion/llm/inference.rb', line 643

def chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs)
  log.debug "[llm][inference] chat_with_escalation.enter model=#{model} provider=#{provider} max_escalations=#{max_escalations}"
  chain = Router.resolve_chain(
    intent: intent, tier: tier, model: model, provider: provider,
    max_escalations: max_escalations
  )

  threshold = escalation_quality_threshold
  history = []
  last_error = nil

  chain.each do |resolution|
    response, error = run_escalation_attempt(
      resolution, message: message, kwargs: kwargs, threshold: threshold,
      quality_check: quality_check, history: history, chain: chain
    )
    last_error = error if error
    return response if response
  end

  publish_escalation_event(history, :exhausted, caller: kwargs[:caller]) if history.size > 1
  message = "All #{history.size} escalation attempts failed"
  if last_error
    providers = history.filter_map { |attempt| attempt[:provider] }.uniq.join(', ')
    message = "#{message}; no usable native provider handled the request. " \
              "providers=#{providers} last_error=#{last_error.class}: #{last_error.message}"
  end

  raise Legion::LLM::EscalationExhausted, message
end

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ `Object`

rubocop:disable Lint/UnusedMethodArgument

# File 'lib/legion/llm/inference.rb', line 474

def daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) # rubocop:disable Lint/UnusedMethodArgument
  result = Call::DaemonClient.chat(
    message: message, model: model, provider: provider,
    context: context, tier_preference: tier || :auto
  )

  case result[:status]
  when :immediate, :created
    result[:body]
  when :accepted
    Cache::Response.poll(result[:request_id])
  when :denied
    raise Legion::LLM::DaemonDeniedError, result.dig(:error, :message) || 'Access denied'
  when :rate_limited
    raise Legion::LLM::DaemonRateLimitedError, "Rate limited. Retry after #{result[:retry_after]}s"
  end
end

.direct_chat_session?(result) ⇒ `Boolean`

rubocop:enable Legion/Framework/NoDirectDispatch

Returns:

(Boolean)



530
531
532

# File 'lib/legion/llm/inference.rb', line 530

def direct_chat_session?(result)
  result.respond_to?(:ask) && result.respond_to?(:model) && !result.respond_to?(:content)
end

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 413

def dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs, &)
  log.debug(
    "[llm][inference] dispatch_chat.enter model=#{model} provider=#{provider} intent=#{intent} " \
    "tier=#{tier} escalate=#{escalate} max_escalations=#{max_escalations} " \
    "quality_check=#{quality_check} message_present=#{!message.nil?} kwargs=#{kwargs.keys.sort}"
  )
  if pipeline_enabled? && (message || kwargs[:messages]) && !block_given?
    return Prompt.dispatch(
      message || kwargs[:messages],
      intent: intent, tier: tier, provider: provider, model: model,
      escalate: escalate, max_escalations: max_escalations,
      quality_check: quality_check, **kwargs.except(:messages)
    )
  end

  if pipeline_enabled? && (message || kwargs[:messages]) && block_given?
    return chat_via_pipeline(model: model, provider: provider, intent: intent, tier: tier,
                             message: message, escalate: escalate, max_escalations: max_escalations,
                             quality_check: quality_check, **kwargs, &)
  end

  if block_given? && message
    return chat_single(model: model, provider: provider, intent: intent, tier: tier,
                       message: message, **kwargs, &)
  end

  messages = message.is_a?(Array) ? message : [{ role: 'user', content: message.to_s }]
  resolved_model = model || Legion::Settings[:llm][:default_model]

  if defined?(Legion::LLM::Hooks)
    blocked = Legion::LLM::Hooks.run_before(messages: messages, model: resolved_model)
    return blocked[:response] || blocked_hook_response(blocked) if blocked
  end

  result = chat_direct_raw(model: model, provider: provider, intent: intent, tier: tier,
                           escalate: escalate, max_escalations: max_escalations,
                           quality_check: quality_check, message: message, **kwargs)

  if defined?(Legion::LLM::Hooks)
    blocked = Legion::LLM::Hooks.run_after(response: result, messages: messages, model: resolved_model)
    return blocked[:response] || blocked_hook_response(blocked) if blocked
  end

  result = apply_response_guards(result, kwargs) if response_guards_enabled? && result.is_a?(Hash)
  log.debug("[llm][inference] dispatch_chat.exit result_class=#{result.class} result_nil=#{result.nil?}")
  result
end

.effective_tier_is_external?(tier, provider) ⇒ `Boolean` Also known as: effective_tier_is_cloud?

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 942

def effective_tier_is_external?(tier, provider)
  return external_tier?(tier.to_sym) if tier
  return false unless enterprise_privacy?

  resolved = provider || Legion::Settings[:llm][:default_provider]
  external_providers = %i[anthropic bedrock openai gemini azure]
  external_providers.include?(resolved&.to_sym)
end

.elapsed_ms_since(started_at) ⇒ `Object`



310
311
312

# File 'lib/legion/llm/inference.rb', line 310

def elapsed_ms_since(started_at)
  ((::Process.clock_gettime(::Process::CLOCK_MONOTONIC) - started_at) * 1000).round
end

.emit_non_pipeline_metering(response, model:, provider:, caller: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 870

def emit_non_pipeline_metering(response, model:, provider:, caller: nil)
  return unless response

  input  = response.respond_to?(:input_tokens)  ? response.input_tokens.to_i  : 0
  output = response.respond_to?(:output_tokens) ? response.output_tokens.to_i : 0
  usage = response.respond_to?(:usage) ? response.usage : {}
  usage_hash = usage.is_a?(Hash) ? usage : {}
  thinking = (usage_hash[:thinking_tokens] || usage_hash[:thinking] || 0).to_i

  finish = nil
  if response.respond_to?(:stop_reason)
    finish = response.stop_reason&.to_s
  elsif response.respond_to?(:stop) && response.stop.is_a?(Hash)
    finish = response.stop[:reason]&.to_s
  end

  meta = response.respond_to?(:meta) ? response.meta : {}
  meta_hash = meta.is_a?(Hash) ? meta : {}
  latency = (meta_hash[:latency_ms] || meta_hash.dig(:timing, :latency_ms) || 0).to_i
  wall_clock = (meta_hash[:wall_clock_ms] || meta_hash.dig(:timing, :wall_clock_ms) || 0).to_i

  Legion::LLM::Metering.emit(
    provider:          provider,
    model_id:          model,
    request_type:      'chat',
    tier:              'direct',
    input_tokens:      input,
    output_tokens:     output,
    thinking_tokens:   thinking,
    total_tokens:      input + output + thinking,
    finish_reason:     finish,
    provider_instance: response.respond_to?(:instance) ? response.instance : nil,
    latency_ms:        latency,
    wall_clock_ms:     wall_clock,
    caller:            caller,
    event_type:        'llm_completion',
    status:            'success'
  )
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.non_pipeline_metering')
end

.emit_privacy_blocked_audit ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 920

def emit_privacy_blocked_audit
  Legion::LLM::Audit.emit_prompt(
    request_id: nil, conversation_id: nil, caller: Legion::LLM::PublisherIdentity.caller_hash,
    routing: {}, tokens: {}, status: 'privacy_blocked',
    error: { class: 'PrivacyModeError', message: 'External tiers blocked by enterprise privacy' },
    timestamp: Time.now, request_type: 'chat'
  )
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.emit_privacy_blocked_audit')
end

.enterprise_privacy? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 912

def enterprise_privacy?
  if Legion::Settings.respond_to?(:enterprise_privacy?)
    Legion::Settings.enterprise_privacy?
  else
    ENV['LEGION_ENTERPRISE_PRIVACY'] == 'true'
  end
end

.escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain, caller: nil) ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 708

def escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain, caller: nil)
  return false unless result.passed

  report_health(:success, resolution, duration_ms)
  history << build_attempt(resolution, :success, [], duration_ms)
  attach_escalation_history(response, history, resolution, chain)
  publish_escalation_event(history, :success, caller: caller) if history.size > 1
  log.debug "[llm][inference] chat_with_escalation success attempts=#{history.size}"
  true
end

.escalation_attempt_response(resolution, message, kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 700

def escalation_attempt_response(resolution, message, kwargs)
  opts = { model: resolution.model, provider: resolution.provider }
  opts.merge!(kwargs.except(*FRAMEWORK_KEYS))
  chat_single_native(model: opts[:model], provider: opts[:provider],
                     message: message, caller: kwargs[:caller],
                     **opts.except(:model, :provider))
end

.escalation_enabled? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 854

def escalation_enabled?
  routing = Legion::Settings[:llm][:routing]
  return false unless routing.is_a?(Hash)

  esc = routing.is_a?(Hash) ? (routing[:escalation] || {}) : {}
  esc[:enabled] == true
end

.escalation_quality_threshold ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 862

def escalation_quality_threshold
  routing = Legion::Settings[:llm][:routing]
  return 50 unless routing.is_a?(Hash)

  esc = routing.is_a?(Hash) ? (routing[:escalation] || {}) : {}
  esc[:quality_threshold] || 50
end

.external_tier?(tier) ⇒ `Boolean`

Returns:

(Boolean)



953
954
955

# File 'lib/legion/llm/inference.rb', line 953

def external_tier?(tier)
  %i[cloud frontier].include?(tier)
end

.extract_error_category_from_attempt(attempt) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 799

def extract_error_category_from_attempt(attempt)
  return nil unless attempt.is_a?(Hash)

  failures = Array(attempt[:failures])
  return nil if failures.empty?

  first = failures.first
  if first.is_a?(Hash)
    first[:category]&.to_s || first[:error]&.to_s
  elsif first.is_a?(String)
    first
  else
    first.to_s
  end
end

.hash_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 357

def hash_response_details(result, requested_model:, requested_provider:)
  meta = result[:meta] || result['meta'] || {}
  {
    output:        result[:response] || result['response'] || result[:content] || result['content'] || result.dig(:message, :content) || result.to_s,
    provider:      result[:provider] || result['provider'] || meta[:provider] || meta['provider'] || requested_provider,
    model:         result[:model] || result['model'] || meta[:model] || meta['model'] || requested_model,
    input_tokens:  result[:input_tokens] || result['input_tokens'] || meta[:tokens_in] || meta['tokens_in'],
    output_tokens: result[:output_tokens] || result['output_tokens'] || meta[:tokens_out] || meta['tokens_out'],
    stop_reason:   result[:stop_reason] || result['stop_reason'] || result.dig(:stop, :reason) || result.dig('stop', 'reason'),
    tool_calls:    Array(result[:tool_calls] || result['tool_calls'] || result[:tools] || result['tools']).size
  }
end

.inference_input_payload(message:, messages:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 314

def inference_input_payload(message:, messages:)
  return messages unless messages.nil?

  message
end

.inference_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 336

def inference_response_details(result, requested_model:, requested_provider:)
  return pipeline_response_details(result, requested_model: requested_model, requested_provider: requested_provider) if result.is_a?(Legion::LLM::Inference::Response)
  return hash_response_details(result, requested_model: requested_model, requested_provider: requested_provider) if result.is_a?(Hash)

  object_response_details(result, requested_model: requested_model, requested_provider: requested_provider)
end

.inference_text_length(payload) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 320

def inference_text_length(payload)
  case payload
  when Array
    payload.sum { |item| inference_text_length(item) }
  when Hash
    return payload[:content].to_s.length if payload.key?(:content)
    return payload['content'].to_s.length if payload.key?('content')

    payload.values.sum { |item| inference_text_length(item) }
  when nil
    0
  else
    payload.to_s.length
  end
end

.inference_token_value(tokens, key) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 392

def inference_token_value(tokens, key)
  return nil if tokens.nil?
  return tokens[key] || tokens[key.to_s] if tokens.is_a?(Hash)

  method_name = { input: :input_tokens, output: :output_tokens, total: :total_tokens }[key]
  return tokens.public_send(method_name) if method_name && tokens.respond_to?(method_name)

  nil
end

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 294

def log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:)
  parts = [
    '[llm][inference] response',
    "type=#{request_type}",
    'status=error',
    "duration_ms=#{duration_ms}",
    "error_class=#{error.class}",
    "error=#{error.message.inspect}"
  ]
  parts << "requested_provider=#{requested_provider}" if requested_provider
  parts << "requested_model=#{requested_model}" if requested_model
  log.error(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.log_error')
end

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 250

def log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:)
  input = inference_input_payload(message: message, messages: kwargs[:messages])
  parts = [
    '[llm][inference] request',
    "type=#{request_type}",
    "input_length=#{inference_text_length(input)}",
    "input=#{input.inspect}"
  ]
  parts << "requested_provider=#{requested_provider}" if requested_provider
  parts << "requested_model=#{requested_model}" if requested_model
  parts << "intent=#{intent}" if intent
  parts << "tier=#{tier}" if tier
  parts << "caller=#{caller_descriptor(kwargs[:caller])}" if kwargs[:caller]
  parts << "conversation_id=#{kwargs[:conversation_id]}" if kwargs[:conversation_id]
  parts << "request_id=#{kwargs[:request_id]}" if kwargs[:request_id]
  parts << "tools=#{Array(kwargs[:tools]).size}" if kwargs.key?(:tools)
  parts << 'stream=true' if kwargs[:stream]
  log.info(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.log_request')
end

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 272

def log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:)
  details = inference_response_details(result, requested_model: requested_model, requested_provider: requested_provider)
  parts = [
    '[llm][inference] response',
    "type=#{request_type}",
    'status=ok',
    "duration_ms=#{duration_ms}",
    "result_class=#{result.class}",
    "output_length=#{inference_text_length(details[:output])}",
    "output=#{details[:output].inspect}"
  ]
  parts << "provider=#{details[:provider]}" if details[:provider]
  parts << "model=#{details[:model]}" if details[:model]
  parts << "input_tokens=#{details[:input_tokens]}" unless details[:input_tokens].nil?
  parts << "output_tokens=#{details[:output_tokens]}" unless details[:output_tokens].nil?
  parts << "stop_reason=#{details[:stop_reason]}" if details[:stop_reason]
  parts << "tool_calls=#{details[:tool_calls]}" unless details[:tool_calls].nil?
  log.info(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.log_response')
end

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 628

def maybe_shadow_evaluate(response, messages, primary_model)
  return unless Quality::ShadowEval.enabled? && Quality::ShadowEval.should_sample?

  log.debug "[llm][inference] shadow_evaluate primary_model=#{primary_model}"
  Inference::Executor::ASYNC_THREAD_POOL.post do
    Quality::ShadowEval.evaluate(
      primary_response: { content: response.respond_to?(:content) ? response.content : response.to_s,
                          model: primary_model, usage: {} },
      messages:         messages
    )
  rescue StandardError => e
    handle_exception(e, level: :warn, operation: 'llm.inference.shadow_eval')
  end
end

.native_provider_error(operation) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 613

def native_provider_error(operation)
  Legion::LLM::ProviderError.new(
    "Native provider dispatch is required for #{operation}. Configure a registered lex-llm provider."
  )
end

.normalize_ask_direct_hash(result, fallback_model:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 548

def normalize_ask_direct_hash(result, fallback_model:)
  meta = result[:meta].is_a?(Hash) ? result[:meta] : {}
  {
    status:   result[:status] || :done,
    response: result[:response] || result[:content],
    meta:     {
      tier:       meta[:tier] || :direct,
      model:      (meta[:model] || fallback_model).to_s,
      tokens_in:  meta[:tokens_in],
      tokens_out: meta[:tokens_out]
    }
  }
end

.object_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 370

def object_response_details(result, requested_model:, requested_provider:)
  tool_calls = safe_inference_value(result, :tool_calls)
  {
    output:        safe_inference_value(result, :content) || result.to_s,
    provider:      requested_provider,
    model:         safe_inference_value(result, :model_id)&.to_s || requested_model,
    input_tokens:  safe_inference_value(result, :input_tokens),
    output_tokens: safe_inference_value(result, :output_tokens),
    stop_reason:   safe_inference_value(result, :stop_reason),
    tool_calls:    tool_calls.nil? ? nil : Array(tool_calls).size
  }
end

.pipeline_enabled? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 461

def pipeline_enabled?
  Legion::Settings[:llm][:pipeline_enabled] == true
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.pipeline_enabled')
  false
end

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 343

def pipeline_response_details(result, requested_model:, requested_provider:)
  message = result.message
  tokens = result.tokens
  {
    output:        message.is_a?(Hash) ? (message[:content] || message['content']) : message.to_s,
    provider:      result.routing[:provider] || result.routing['provider'] || requested_provider,
    model:         result.routing[:model] || result.routing['model'] || requested_model,
    input_tokens:  inference_token_value(tokens, :input),
    output_tokens: inference_token_value(tokens, :output),
    stop_reason:   result.stop[:reason] || result.stop['reason'],
    tool_calls:    Array(result.tools).size
  }
end

.publish_escalation_event(history, final_outcome, caller: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 764

def publish_escalation_event(history, final_outcome, caller: nil)
  return if history.size <= 1

  first_attempt = history.first
  last_attempt = history.last

  event = {
    outcome:        final_outcome,
    attempts:       history.size,
    history:        history,
    # Flat fields for consumer compatibility
    from_provider:  first_attempt&.dig(:provider),
    from_instance:  first_attempt&.dig(:instance),
    from_model:     first_attempt&.dig(:model),
    to_provider:    last_attempt&.dig(:provider),
    to_instance:    last_attempt&.dig(:instance),
    to_model:       last_attempt&.dig(:model),
    reason:         ('provider_failover' if [:failure, 'failure', :error].include?(first_attempt&.dig(:outcome))),
    error_category: extract_error_category_from_attempt(first_attempt),
    attempt_no:     history.size,
    latency_ms:     history.sum { |a| (a[:duration_ms] || 0).to_i },
    caller:         caller || Legion::LLM::PublisherIdentity.caller_hash,
    timestamp:      Time.now.utc.iso8601
  }

  Legion::Events.emit('llm.escalation', **event) if defined?(Legion::Events) && Legion::Events.respond_to?(:emit)

  log.info "[llm][inference] escalation_event outcome=#{final_outcome} attempts=#{history.size}"

  Transport::Messages::EscalationEvent.new(event).publish if Legion::Settings.dig(:transport, :connected) == true
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.publish_escalation_event', outcome: final_outcome)
  nil
end

.record_escalation_error(error, resolution, duration_ms, history) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 719

def record_escalation_error(error, resolution, duration_ms, history)
  handle_exception(
    error,
    level:     :warn,
    handled:   true,
    operation: 'llm.inference.escalation_attempt',
    model:     resolution&.model,
    provider:  resolution&.provider,
    tier:      resolution&.tier
  )
  report_health(:error, resolution, duration_ms) if resolution
  history << build_attempt(resolution, :error, [error.class.name], duration_ms) if resolution
end

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 751

def report_health(signal, resolution, duration_ms, failures: nil)
  return unless Router.routing_enabled?

  metadata = { duration_ms: duration_ms }
  metadata[:failures] = failures if failures
  Router.health_tracker.report(provider: resolution.provider, instance: resolution.instance,
                               offering_id: resolution.offering_id,
                               signal: signal, value: 1, metadata: metadata)
  Router.health_tracker.report(provider: resolution.provider, instance: resolution.instance,
                               offering_id: resolution.offering_id,
                               signal: :latency, value: duration_ms, metadata: {})
end

.resolve_ask_direct_response(result, message, requested_model) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 534

def resolve_ask_direct_response(result, message, requested_model, &)
  if direct_chat_session?(result)
    response = block_given? ? result.ask(message, &) : result.ask(message)
    return [response, result.model.to_s]
  end

  resolved_model = if result.respond_to?(:model_id) && result.model_id
                     result.model_id.to_s
                   else
                     (requested_model || Legion::Settings[:llm][:default_model]).to_s
                   end
  [result, resolved_model]
end

.response_guards_enabled? ⇒ `Boolean`

Returns:

(Boolean)



815
816
817

# File 'lib/legion/llm/inference.rb', line 815

def response_guards_enabled?
  Legion::Settings.dig(:llm, :response_guards, :enabled) == true
end

.run_escalation_attempt(resolution, message:, kwargs:, threshold:, quality_check:, history:, chain:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 674

def run_escalation_attempt(resolution, message:, kwargs:, threshold:, quality_check:, history:, chain:)
  start_time = Time.now
  assert_external_allowed! if resolution.respond_to?(:external?) && resolution.external?

  response = escalation_attempt_response(resolution, message, kwargs)
  duration_ms = ((Time.now - start_time) * 1000).round
  result = Quality::Checker.check(response, quality_threshold: threshold, quality_check: quality_check)

  return [response, nil] if escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain,
                                                       caller: kwargs[:caller])

  report_health(:quality_failure, resolution, duration_ms, failures: result.failures)
  history << build_attempt(resolution, :quality_failure, result.failures, duration_ms)
  log.debug "[llm][inference] chat_with_escalation quality_failure attempt=#{history.size} failures=#{result.failures}"
  [nil, nil]
rescue Legion::LLM::PrivacyModeError, Legion::LLM::ModelNotAllowed
  # Terminal outcomes — privacy/policy, not provider failures. Re-raise without
  # recording a health failure or walking the escalation chain (a policy-denied
  # model is not an escalation).
  raise
rescue StandardError => e
  duration_ms = ((Time.now - start_time) * 1000).round
  record_escalation_error(e, resolution, duration_ms, history)
  [nil, e]
end

.safe_inference_value(object, method_name) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 383

def safe_inference_value(object, method_name)
  return nil unless object.methods.include?(method_name) || object.private_methods.include?(method_name)

  object.public_send(method_name)
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.safe_value', method_name: method_name)
  nil
end

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 619

def try_defer(intent:, urgency:, model:, provider:, message:, **)
  return nil unless Scheduling.enabled? && Scheduling.should_defer?(intent: intent || :normal, urgency: urgency)
  return nil unless Legion::LLM::Scheduling::Batch.enabled?

  log.debug "[llm][inference] try_defer deferring intent=#{intent} urgency=#{urgency}"
  entry_id = Legion::LLM::Scheduling::Batch.enqueue(model: model, provider: provider, message: message, priority: urgency, **)
  { deferred: true, batch_id: entry_id, next_off_peak: Scheduling.next_off_peak.iso8601 }
end

Module: Legion::LLM::Inference

Defined Under Namespace

Constant Summary collapse

Class Method Summary collapse

Class Method Details

.apply_response_guards(result, kwargs) ⇒ Object

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ Object

.assert_external_allowed! ⇒ Object Also known as: assert_cloud_allowed!

.attach_escalation_history(response, history, resolution, chain) ⇒ Object

.blocked_hook_response(blocked) ⇒ Object

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ Object

.build_cache_key(model, provider, message, temperature) ⇒ Object

.cacheable?(cache_opt, temperature, message) ⇒ Boolean

.caller_descriptor(caller_context) ⇒ Object

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil) ⇒ Object

.chat_direct_governed(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_direct_raw(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs) ⇒ Object

.chat_single_native(model:, provider:, message:, instance: nil, caller: nil, &block) ⇒ Object

.chat_via_pipeline(&block) ⇒ Object

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ Object

.direct_chat_session?(result) ⇒ Boolean

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object

.effective_tier_is_external?(tier, provider) ⇒ Boolean Also known as: effective_tier_is_cloud?

.elapsed_ms_since(started_at) ⇒ Object

.emit_non_pipeline_metering(response, model:, provider:, caller: nil) ⇒ Object

.emit_privacy_blocked_audit ⇒ Object

.enterprise_privacy? ⇒ Boolean

.escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain, caller: nil) ⇒ Boolean

.escalation_attempt_response(resolution, message, kwargs) ⇒ Object

.escalation_enabled? ⇒ Boolean

.escalation_quality_threshold ⇒ Object

.external_tier?(tier) ⇒ Boolean

.extract_error_category_from_attempt(attempt) ⇒ Object

.hash_response_details(result, requested_model:, requested_provider:) ⇒ Object

.inference_input_payload(message:, messages:) ⇒ Object

.inference_response_details(result, requested_model:, requested_provider:) ⇒ Object

.inference_text_length(payload) ⇒ Object

.inference_token_value(tokens, key) ⇒ Object

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ Object

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ Object

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ Object

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ Object

.native_provider_error(operation) ⇒ Object

.normalize_ask_direct_hash(result, fallback_model:) ⇒ Object

.object_response_details(result, requested_model:, requested_provider:) ⇒ Object

.pipeline_enabled? ⇒ Boolean

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ Object

.publish_escalation_event(history, final_outcome, caller: nil) ⇒ Object

.record_escalation_error(error, resolution, duration_ms, history) ⇒ Object

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ Object

.resolve_ask_direct_response(result, message, requested_model) ⇒ Object

.response_guards_enabled? ⇒ Boolean

.run_escalation_attempt(resolution, message:, kwargs:, threshold:, quality_check:, history:, chain:) ⇒ Object

.safe_inference_value(object, method_name) ⇒ Object

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ Object

.apply_response_guards(result, kwargs) ⇒ `Object`

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ `Object`

.assert_external_allowed! ⇒ `Object` Also known as: assert_cloud_allowed!

.attach_escalation_history(response, history, resolution, chain) ⇒ `Object`

.blocked_hook_response(blocked) ⇒ `Object`

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ `Object`

.build_cache_key(model, provider, message, temperature) ⇒ `Object`

.cacheable?(cache_opt, temperature, message) ⇒ `Boolean`

.caller_descriptor(caller_context) ⇒ `Object`

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil) ⇒ `Object`

.chat_direct_governed(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_direct_raw(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs) ⇒ `Object`

.chat_single_native(model:, provider:, message:, instance: nil, caller: nil, &block) ⇒ `Object`

.chat_via_pipeline(&block) ⇒ `Object`

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ `Object`

.direct_chat_session?(result) ⇒ `Boolean`

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

.effective_tier_is_external?(tier, provider) ⇒ `Boolean` Also known as: effective_tier_is_cloud?

.elapsed_ms_since(started_at) ⇒ `Object`

.emit_non_pipeline_metering(response, model:, provider:, caller: nil) ⇒ `Object`

.emit_privacy_blocked_audit ⇒ `Object`

.enterprise_privacy? ⇒ `Boolean`

.escalation_attempt_passed?(response, result, resolution, duration_ms, history, chain, caller: nil) ⇒ `Boolean`

.escalation_attempt_response(resolution, message, kwargs) ⇒ `Object`

.escalation_enabled? ⇒ `Boolean`

.escalation_quality_threshold ⇒ `Object`

.external_tier?(tier) ⇒ `Boolean`

.extract_error_category_from_attempt(attempt) ⇒ `Object`

.hash_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.inference_input_payload(message:, messages:) ⇒ `Object`

.inference_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.inference_text_length(payload) ⇒ `Object`

.inference_token_value(tokens, key) ⇒ `Object`

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ `Object`

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ `Object`

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ `Object`

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ `Object`

.native_provider_error(operation) ⇒ `Object`

.normalize_ask_direct_hash(result, fallback_model:) ⇒ `Object`

.object_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.pipeline_enabled? ⇒ `Boolean`

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.publish_escalation_event(history, final_outcome, caller: nil) ⇒ `Object`

.record_escalation_error(error, resolution, duration_ms, history) ⇒ `Object`

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ `Object`

.resolve_ask_direct_response(result, message, requested_model) ⇒ `Object`

.response_guards_enabled? ⇒ `Boolean`

.run_escalation_attempt(resolution, message:, kwargs:, threshold:, quality_check:, history:, chain:) ⇒ `Object`

.safe_inference_value(object, method_name) ⇒ `Object`

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ `Object`