Module: Legion::LLM::Inference

Extended by:: Legion::Logging::Helper

Defined in:: lib/legion/llm/inference.rb,
lib/legion/llm/inference/steps.rb,
lib/legion/llm/inference/prompt.rb,
lib/legion/llm/inference/profile.rb,
lib/legion/llm/inference/request.rb,
lib/legion/llm/inference/tracing.rb,
lib/legion/llm/inference/executor.rb,
lib/legion/llm/inference/response.rb,
lib/legion/llm/inference/timeline.rb,
lib/legion/llm/inference/steps/rbac.rb,
lib/legion/llm/inference/gaia_caller.rb,
lib/legion/llm/inference/conversation.rb,
lib/legion/llm/inference/steps/debate.rb,
lib/legion/llm/inference/tool_adapter.rb,
lib/legion/llm/inference/steps/billing.rb,
lib/legion/llm/inference/steps/metering.rb,
lib/legion/llm/inference/audit_publisher.rb,
lib/legion/llm/inference/steps/rag_guard.rb,
lib/legion/llm/inference/tool_dispatcher.rb,
lib/legion/llm/inference/steps/tool_calls.rb,
lib/legion/llm/inference/steps/rag_context.rb,
lib/legion/llm/inference/steps/prompt_cache.rb,
lib/legion/llm/inference/steps/token_budget.rb,
lib/legion/llm/inference/steps/tool_history.rb,
lib/legion/llm/inference/enrichment_injector.rb,
lib/legion/llm/inference/steps/gaia_advisory.rb,
lib/legion/llm/inference/steps/mcp_discovery.rb,
lib/legion/llm/inference/steps/post_response.rb,
lib/legion/llm/inference/steps/tier_assigner.rb,
lib/legion/llm/inference/steps/trigger_match.rb,
lib/legion/llm/inference/steps/classification.rb,
lib/legion/llm/inference/steps/skill_injector.rb,
lib/legion/llm/inference/steps/span_annotator.rb,
lib/legion/llm/inference/steps/sticky_helpers.rb,
lib/legion/llm/inference/steps/sticky_persist.rb,
lib/legion/llm/inference/steps/sticky_runners.rb,
lib/legion/llm/inference/steps/tool_discovery.rb,
lib/legion/llm/inference/steps/knowledge_capture.rb,
lib/legion/llm/inference/steps/confidence_scoring.rb

Defined Under Namespace

Modules: AuditPublisher, Conversation, EnrichmentInjector, GaiaCaller, Profile, Prompt, Steps, Tracing Classes: Executor, Request, Response, Timeline

Constant Summary collapse

FRAMEWORK_KEYS =

%i[request_id source timestamp datetime task_id parent_id master_id
check_subtask generate_task catch_exceptions worker_id principal_id
principal_type caller].freeze

ToolAdapter =

Tools::Adapter

McpToolAdapter =

Tools::Adapter

ToolDispatcher =

Tools::Dispatcher

Class Method Summary collapse

.adapted_registry_tools ⇒ Object
.apply_response_guards(result, kwargs) ⇒ Object
.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object
.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ Object
.assert_cloud_allowed! ⇒ Object
.attach_escalation_history(response, history, resolution, chain) ⇒ Object
.build_attempt(resolution, outcome, failures, duration_ms) ⇒ Object
.build_cache_key(model, provider, message, temperature) ⇒ Object
.cacheable?(cache_opt, temperature, message) ⇒ Boolean
.caller_descriptor(caller_context) ⇒ Object
.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

Public inference entry points — these are the methods delegated from Legion::LLM.
.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object
.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &block) ⇒ Object
.chat_via_pipeline(&block) ⇒ Object
.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object
.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ Object

rubocop:disable Lint/UnusedMethodArgument.
.direct_chat_session?(result) ⇒ Boolean
.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object
.effective_tier_is_cloud?(tier, provider) ⇒ Boolean
.elapsed_ms_since(started_at) ⇒ Object
.enterprise_privacy? ⇒ Boolean
.escalation_enabled? ⇒ Boolean
.escalation_quality_threshold ⇒ Object
.hash_response_details(result, requested_model:, requested_provider:) ⇒ Object
.inference_input_payload(message:, messages:) ⇒ Object
.inference_response_details(result, requested_model:, requested_provider:) ⇒ Object
.inference_text_length(payload) ⇒ Object
.inference_token_value(tokens, key) ⇒ Object
.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ Object
.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ Object
.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ Object
.maybe_shadow_evaluate(response, messages, primary_model) ⇒ Object
.normalize_ask_direct_hash(result, fallback_model:) ⇒ Object
.object_response_details(result, requested_model:, requested_provider:) ⇒ Object
.pipeline_enabled? ⇒ Boolean
.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ Object
.publish_escalation_event(history, final_outcome) ⇒ Object
.report_health(signal, resolution, duration_ms, failures: nil) ⇒ Object
.resolve_ask_direct_response(result, message, requested_model) ⇒ Object
.response_guards_enabled? ⇒ Boolean
.safe_inference_value(object, method_name) ⇒ Object
.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ Object

Class Method Details

.adapted_registry_tools ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 526

def adapted_registry_tools
  tool_classes = if defined?(::Legion::Tools::Registry)
                   ::Legion::Tools::Registry.tools
                 else
                   return []
                 end

  tool_classes.map do |tool_class|
    ToolAdapter.new(tool_class)
  rescue StandardError => e
    handle_exception(e, level: :warn, operation: 'llm.inference.adapted_registry_tools', tool_class: tool_class.to_s)
    nil
  end.compact
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.adapted_registry_tools')
  []
end

.apply_response_guards(result, kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 665

def apply_response_guards(result, kwargs)
  context = kwargs[:context]
  response_text = result[:response] || result[:content]
  guard_result = Hooks::ResponseGuard.guard_response(
    response: response_text, context: context
  )

  log.warn "[llm][inference] response_guard passed=#{guard_result[:passed]}" unless guard_result[:passed]

  result.merge(_guard_result: guard_result)
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.apply_response_guards')
  result
end

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 79

def ask(message:, model: nil, provider: nil, intent: nil, tier: nil,
        context: {}, identity: nil, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             { context: context, identity: identity }
  )

  if Call::DaemonClient.available?
    result = daemon_ask(message: message, model: model, provider: provider,
                        context: context, tier: tier, identity: identity)
    if result
      log_inference_response(
        request_type:       :ask,
        requested_model:    model,
        requested_provider: provider,
        result:             result,
        duration_ms:        elapsed_ms_since(started_at)
      )
      return result
    end
  end

  result = ask_direct(message: message, model: model, provider: provider,
                      intent: intent, tier: tier, &)
  log_inference_response(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 422

def ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil, &)
  assert_cloud_allowed! if effective_tier_is_cloud?(tier, provider)
  result = chat_direct(
    model:    model,
    provider: provider,
    intent:   intent,
    tier:     tier,
    message:  message,
    &
  )
  return result if result.is_a?(Hash) && result[:deferred]
  return normalize_ask_direct_hash(result, fallback_model: model || Legion::LLM.settings[:default_model]) if result.is_a?(Hash)

  response, resolved_model = resolve_ask_direct_response(result, message, model, &)

  {
    status:   :done,
    response: response.content,
    meta:     {
      tier:       :direct,
      model:      resolved_model,
      tokens_in:  response.respond_to?(:input_tokens) ? response.input_tokens : nil,
      tokens_out: response.respond_to?(:output_tokens) ? response.output_tokens : nil
    }
  }
end

.assert_cloud_allowed! ⇒ `Object`

Raises:

(Legion::LLM::PrivacyModeError)

# File 'lib/legion/llm/inference.rb', line 718

def assert_cloud_allowed!
  return unless enterprise_privacy?

  raise Legion::LLM::PrivacyModeError,
        'Cloud LLM tier is disabled: enterprise_data_privacy is enabled. ' \
        'Only Tier 0 (cache) and Tier 1 (local Ollama) are permitted.'
end

.attach_escalation_history(response, history, resolution, chain) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 625

def attach_escalation_history(response, history, resolution, chain)
  return unless response.respond_to?(:extend)

  response.extend(EscalationHistory)
  history.each { |h| response.record_escalation_attempt(**h) }
  response.final_resolution = resolution
  response.escalation_chain = chain
end

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 620

def build_attempt(resolution, outcome, failures, duration_ms)
  { model: resolution.model, provider: resolution.provider, tier: resolution.tier,
    outcome: outcome, failures: failures, duration_ms: duration_ms }
end

.build_cache_key(model, provider, message, temperature) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 684

def build_cache_key(model, provider, message, temperature)
  messages_arr = message.is_a?(Array) ? message : [{ role: 'user', content: message.to_s }]
  Cache.key(
    model:       model || Legion::LLM.settings[:default_model],
    provider:    provider || Legion::LLM.settings[:default_provider],
    messages:    messages_arr,
    temperature: temperature
  )
end

.cacheable?(cache_opt, temperature, message) ⇒ `Boolean`

Returns:

(Boolean)



680
681
682

# File 'lib/legion/llm/inference.rb', line 680

def cacheable?(cache_opt, temperature, message)
  cache_opt != false && temperature.to_f.zero? && message && Cache.enabled?
end

.caller_descriptor(caller_context) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 332

def caller_descriptor(caller_context)
  return caller_context unless caller_context.is_a?(Hash)

  source = caller_context[:source] || caller_context['source']
  path = caller_context[:path] || caller_context['path']
  return "#{source}:#{path}" if source && path
  return source.to_s if source

  caller_context.inspect
end

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

Public inference entry points — these are the methods delegated from Legion::LLM

# File 'lib/legion/llm/inference.rb', line 32

def chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
         max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             kwargs
  )

  result = if defined?(Legion::Telemetry::OpenInference)
             Legion::Telemetry::OpenInference.llm_span(
               model:    (model || Legion::LLM.settings[:default_model]).to_s,
               provider: provider&.to_s,
               input:    message
             ) do |_span|
               dispatch_chat(model: model, provider: provider, intent: intent, tier: tier, escalate: escalate,
                             max_escalations: max_escalations, quality_check: quality_check, message: message, **kwargs, &)
             end
           else
             dispatch_chat(model: model, provider: provider, intent: intent, tier: tier,
                           escalate: escalate, max_escalations: max_escalations,
                           quality_check: quality_check, message: message, **kwargs, &)
           end

  log_inference_response(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 128

def chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
                max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  log.debug(
    "[llm][inference] chat_direct.enter model=#{model} provider=#{provider} intent=#{intent} " \
    "tier=#{tier} escalate=#{escalate} message_present=#{!message.nil?} kwargs=#{kwargs.keys.sort}"
  )
  cache_opt = kwargs.delete(:cache) { true }
  temperature = kwargs.delete(:temperature)

  escalate = escalation_enabled? if escalate.nil?
  cache_key = build_cache_key(model, provider, message, temperature) if cacheable?(cache_opt, temperature, message)

  if cache_key
    cached = Cache.get(cache_key)
    if cached
      log.debug '[llm][inference] chat_direct cache=hit'
      cached_response = cached.dup
      cached_response[:meta] = (cached_response[:meta] || {}).merge(cached: true)
      return cached_response
    end
  end

  urgency = kwargs.delete(:urgency) { :normal }
  deferred = try_defer(intent: intent, urgency: urgency, model: model, provider: provider, message: message, **kwargs)
  return deferred if deferred

  log.debug(
    "[llm][inference] chat_direct.dispatch model=#{model} provider=#{provider} " \
    "escalate=#{escalate} message_present=#{!message.nil?}"
  )
  result = if escalate && message
             chat_with_escalation(
               model: model, provider: provider, intent: intent, tier: tier,
               max_escalations: max_escalations, quality_check: quality_check,
               message: message, temperature: temperature, **kwargs
             )
           else
             chat_single(model: model, provider: provider, intent: intent, tier: tier,
                         temperature: temperature, message: message, **kwargs, &)
           end
  log.debug("[llm][inference] chat_direct.exit result_class=#{result.class} result_nil=#{result.nil?}")

  if cache_key && result.is_a?(Hash)
    ttl = Legion::LLM.settings.dig(:prompt_caching, :response_cache, :ttl_seconds) || Cache::DEFAULT_TTL
    Cache.set(cache_key, result, ttl: ttl)
  end

  result
end

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &block) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 481

def chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &block)
  explicit_tools = kwargs.delete(:tools)
  tools = explicit_tools || adapted_registry_tools
  tools = nil if tools.empty?

  if (intent || tier) && Router.routing_enabled?
    resolution = Router.resolve(intent: intent, tier: tier, model: model, provider: provider)
    if resolution
      resolution = Router::GatewayInterceptor.intercept(resolution, context: kwargs.fetch(:context, {}))
      model = resolution.model
      provider = resolution.provider
      assert_cloud_allowed! if resolution.tier.to_sym == :cloud
    end
  elsif tier
    assert_cloud_allowed! if tier.to_sym == :cloud
  end

  model ||= Legion::LLM.settings[:default_model]
  provider ||= Legion::LLM.settings[:default_provider]

  opts = {}
  opts[:model] = model if model
  opts[:provider] = provider if provider
  opts.merge!(kwargs.except(*FRAMEWORK_KEYS))
  opts.delete(:temperature) if opts[:temperature].nil?

  Call::Providers.inject_anthropic_cache_control!(opts, provider)

  log.debug "[llm][inference] chat_single model=#{opts[:model]} provider=#{opts[:provider]} message_present=#{!message.nil?} tools=#{tools&.size || 0}"
  session = RubyLLM.chat(**opts)
  tools&.each { |tool| session.with_tool(tool) }
  return session unless message

  log.debug '[llm][inference] chat_single asking session'
  response = block ? session.ask(message, &block) : session.ask(message)
  log.debug "[llm][inference] chat_single response_class=#{response.class} response_nil=#{response.nil?}"

  if response && !block && defined?(Quality::ShadowEval) && Quality::ShadowEval.enabled?
    msgs = session.respond_to?(:messages) ? session.messages : nil
    maybe_shadow_evaluate(response, msgs, opts[:model])
  end

  response
end

.chat_via_pipeline(&block) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 398

def chat_via_pipeline(**, &block)
  request = Request.from_chat_args(**)
  executor = Executor.new(request)
  block ? executor.call_stream(&block) : executor.call
end

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

Raises:

(Legion::LLM::EscalationExhausted)

# File 'lib/legion/llm/inference.rb', line 568

def chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs)
  log.debug "[llm][inference] chat_with_escalation.enter model=#{model} provider=#{provider} max_escalations=#{max_escalations}"
  chain = Router.resolve_chain(
    intent: intent, tier: tier, model: model, provider: provider,
    max_escalations: max_escalations
  )

  threshold = escalation_quality_threshold
  history = []

  chain.each do |resolution|
    start_time = Time.now
    begin
      opts = { model: resolution.model, provider: resolution.provider }
      opts.merge!(kwargs.except(*FRAMEWORK_KEYS))
      chat_obj = RubyLLM.chat(**opts)
      response = chat_obj.ask(message)

      duration_ms = ((Time.now - start_time) * 1000).round
      result = Quality::Checker.check(response, quality_threshold: threshold, quality_check: quality_check)

      if result.passed
        report_health(:success, resolution, duration_ms)
        history << build_attempt(resolution, :success, [], duration_ms)
        attach_escalation_history(response, history, resolution, chain)
        publish_escalation_event(history, :success) if history.size > 1
        log.debug "[llm][inference] chat_with_escalation success attempts=#{history.size}"
        return response
      else
        report_health(:quality_failure, resolution, duration_ms, failures: result.failures)
        history << build_attempt(resolution, :quality_failure, result.failures, duration_ms)
        log.debug "[llm][inference] chat_with_escalation quality_failure attempt=#{history.size} failures=#{result.failures}"
      end
    rescue StandardError => e
      duration_ms = ((Time.now - start_time) * 1000).round
      handle_exception(
        e,
        level:     :warn,
        operation: 'llm.inference.escalation_attempt',
        model:     resolution.model,
        provider:  resolution.provider,
        tier:      resolution.tier
      )
      report_health(:error, resolution, duration_ms)
      history << build_attempt(resolution, :error, [e.class.name], duration_ms)
    end
  end

  publish_escalation_event(history, :exhausted) if history.size > 1
  raise Legion::LLM::EscalationExhausted, "All #{history.size} escalation attempts failed"
end

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ `Object`

rubocop:disable Lint/UnusedMethodArgument

# File 'lib/legion/llm/inference.rb', line 404

def daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) # rubocop:disable Lint/UnusedMethodArgument
  result = Call::DaemonClient.chat(
    message: message, model: model, provider: provider,
    context: context, tier_preference: tier || :auto
  )

  case result[:status]
  when :immediate, :created
    result[:body]
  when :accepted
    Cache::Response.poll(result[:request_id])
  when :denied
    raise Legion::LLM::DaemonDeniedError, result.dig(:error, :message) || 'Access denied'
  when :rate_limited
    raise Legion::LLM::DaemonRateLimitedError, "Rate limited. Retry after #{result[:retry_after]}s"
  end
end

.direct_chat_session?(result) ⇒ `Boolean`

Returns:

(Boolean)



449
450
451

# File 'lib/legion/llm/inference.rb', line 449

def direct_chat_session?(result)
  result.respond_to?(:ask) && result.respond_to?(:model) && !result.respond_to?(:content)
end

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 343

def dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs, &)
  log.debug(
    "[llm][inference] dispatch_chat.enter model=#{model} provider=#{provider} intent=#{intent} " \
    "tier=#{tier} escalate=#{escalate} max_escalations=#{max_escalations} " \
    "quality_check=#{quality_check} message_present=#{!message.nil?} kwargs=#{kwargs.keys.sort}"
  )
  if pipeline_enabled? && (message || kwargs[:messages]) && !block_given?
    return Prompt.dispatch(
      message || kwargs[:messages],
      intent: intent, tier: tier, provider: provider, model: model,
      escalate: escalate, max_escalations: max_escalations,
      quality_check: quality_check, **kwargs.except(:messages)
    )
  end

  if pipeline_enabled? && (message || kwargs[:messages]) && block_given?
    return chat_via_pipeline(model: model, provider: provider, intent: intent, tier: tier,
                             message: message, escalate: escalate, max_escalations: max_escalations,
                             quality_check: quality_check, **kwargs, &)
  end

  if block_given? && message
    return chat_single(model: model, provider: provider, intent: intent, tier: tier,
                       message: message, **kwargs, &)
  end

  messages = message.is_a?(Array) ? message : [{ role: 'user', content: message.to_s }]
  resolved_model = model || Legion::LLM.settings[:default_model]

  if defined?(Legion::LLM::Hooks)
    blocked = Legion::LLM::Hooks.run_before(messages: messages, model: resolved_model)
    return blocked[:response] if blocked
  end

  result = chat_direct(model: model, provider: provider, intent: intent, tier: tier,
                       escalate: escalate, max_escalations: max_escalations,
                       quality_check: quality_check, message: message, **kwargs)

  if defined?(Legion::LLM::Hooks)
    blocked = Legion::LLM::Hooks.run_after(response: result, messages: messages, model: resolved_model)
    return blocked[:response] if blocked
  end

  result = apply_response_guards(result, kwargs) if response_guards_enabled? && result.is_a?(Hash)
  log.debug("[llm][inference] dispatch_chat.exit result_class=#{result.class} result_nil=#{result.nil?}")
  result
end

.effective_tier_is_cloud?(tier, provider) ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 726

def effective_tier_is_cloud?(tier, provider)
  return tier.to_sym == :cloud if tier
  return false unless enterprise_privacy?

  resolved = provider || Legion::LLM.settings[:default_provider]
  cloud_providers = %i[anthropic bedrock openai gemini azure]
  cloud_providers.include?(resolved&.to_sym)
end

.elapsed_ms_since(started_at) ⇒ `Object`



238
239
240

# File 'lib/legion/llm/inference.rb', line 238

def elapsed_ms_since(started_at)
  ((::Process.clock_gettime(::Process::CLOCK_MONOTONIC) - started_at) * 1000).round
end

.enterprise_privacy? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 710

def enterprise_privacy?
  if Legion.const_defined?('Settings', false) && Legion::Settings.respond_to?(:enterprise_privacy?)
    Legion::Settings.enterprise_privacy?
  else
    ENV['LEGION_ENTERPRISE_PRIVACY'] == 'true'
  end
end

.escalation_enabled? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 694

def escalation_enabled?
  routing = Legion::LLM.settings[:routing]
  return false unless routing.is_a?(Hash)

  esc = routing[:escalation] || {}
  esc[:enabled] == true
end

.escalation_quality_threshold ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 702

def escalation_quality_threshold
  routing = Legion::LLM.settings[:routing]
  return 50 unless routing.is_a?(Hash)

  esc = routing[:escalation] || {}
  esc.fetch(:quality_threshold, 50)
end

.hash_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 287

def hash_response_details(result, requested_model:, requested_provider:)
  meta = result[:meta] || result['meta'] || {}
  {
    output:        result[:response] || result['response'] || result[:content] || result['content'] || result.dig(:message, :content) || result.to_s,
    provider:      result[:provider] || result['provider'] || meta[:provider] || meta['provider'] || requested_provider,
    model:         result[:model] || result['model'] || meta[:model] || meta['model'] || requested_model,
    input_tokens:  result[:input_tokens] || result['input_tokens'] || meta[:tokens_in] || meta['tokens_in'],
    output_tokens: result[:output_tokens] || result['output_tokens'] || meta[:tokens_out] || meta['tokens_out'],
    stop_reason:   result[:stop_reason] || result['stop_reason'] || result.dig(:stop, :reason) || result.dig('stop', 'reason'),
    tool_calls:    Array(result[:tool_calls] || result['tool_calls'] || result[:tools] || result['tools']).size
  }
end

.inference_input_payload(message:, messages:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 242

def inference_input_payload(message:, messages:)
  return messages unless messages.nil?

  message
end

.inference_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 264

def inference_response_details(result, requested_model:, requested_provider:)
  if result.is_a?(Legion::LLM::Inference::Response)
    return pipeline_response_details(result, requested_model: requested_model, requested_provider: requested_provider)
  end
  return hash_response_details(result, requested_model: requested_model, requested_provider: requested_provider) if result.is_a?(Hash)

  object_response_details(result, requested_model: requested_model, requested_provider: requested_provider)
end

.inference_text_length(payload) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 248

def inference_text_length(payload)
  case payload
  when Array
    payload.sum { |item| inference_text_length(item) }
  when Hash
    return payload[:content].to_s.length if payload.key?(:content)
    return payload['content'].to_s.length if payload.key?('content')

    payload.values.sum { |item| inference_text_length(item) }
  when nil
    0
  else
    payload.to_s.length
  end
end

.inference_token_value(tokens, key) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 322

def inference_token_value(tokens, key)
  return nil if tokens.nil?
  return tokens[key] || tokens[key.to_s] if tokens.is_a?(Hash)

  method_name = { input: :input_tokens, output: :output_tokens, total: :total_tokens }[key]
  return tokens.public_send(method_name) if method_name && tokens.respond_to?(method_name)

  nil
end

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 222

def log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:)
  parts = [
    '[llm][inference] response',
    "type=#{request_type}",
    'status=error',
    "duration_ms=#{duration_ms}",
    "error_class=#{error.class}",
    "error=#{error.message.inspect}"
  ]
  parts << "requested_provider=#{requested_provider}" if requested_provider
  parts << "requested_model=#{requested_model}" if requested_model
  log.error(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :debug, operation: 'llm.inference.log_error')
end

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 178

def log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:)
  input = inference_input_payload(message: message, messages: kwargs[:messages])
  parts = [
    '[llm][inference] request',
    "type=#{request_type}",
    "input_length=#{inference_text_length(input)}",
    "input=#{input.inspect}"
  ]
  parts << "requested_provider=#{requested_provider}" if requested_provider
  parts << "requested_model=#{requested_model}" if requested_model
  parts << "intent=#{intent}" if intent
  parts << "tier=#{tier}" if tier
  parts << "caller=#{caller_descriptor(kwargs[:caller])}" if kwargs[:caller]
  parts << "conversation_id=#{kwargs[:conversation_id]}" if kwargs[:conversation_id]
  parts << "request_id=#{kwargs[:request_id]}" if kwargs[:request_id]
  parts << "tools=#{Array(kwargs[:tools]).size}" if kwargs.key?(:tools)
  parts << 'stream=true' if kwargs[:stream]
  log.info(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :debug, operation: 'llm.inference.log_request')
end

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 200

def log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:)
  details = inference_response_details(result, requested_model: requested_model, requested_provider: requested_provider)
  parts = [
    '[llm][inference] response',
    "type=#{request_type}",
    'status=ok',
    "duration_ms=#{duration_ms}",
    "result_class=#{result.class}",
    "output_length=#{inference_text_length(details[:output])}",
    "output=#{details[:output].inspect}"
  ]
  parts << "provider=#{details[:provider]}" if details[:provider]
  parts << "model=#{details[:model]}" if details[:model]
  parts << "input_tokens=#{details[:input_tokens]}" unless details[:input_tokens].nil?
  parts << "output_tokens=#{details[:output_tokens]}" unless details[:output_tokens].nil?
  parts << "stop_reason=#{details[:stop_reason]}" if details[:stop_reason]
  parts << "tool_calls=#{details[:tool_calls]}" unless details[:tool_calls].nil?
  log.info(parts.join(' '))
rescue StandardError => e
  handle_exception(e, level: :debug, operation: 'llm.inference.log_response')
end

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 553

def maybe_shadow_evaluate(response, messages, primary_model)
  return unless Quality::ShadowEval.enabled? && Quality::ShadowEval.should_sample?

  log.debug "[llm][inference] shadow_evaluate primary_model=#{primary_model}"
  Thread.new do
    Quality::ShadowEval.evaluate(
      primary_response: { content: response.respond_to?(:content) ? response.content : response.to_s,
                          model: primary_model, usage: {} },
      messages:         messages
    )
  rescue StandardError => e
    handle_exception(e, level: :debug, operation: 'llm.inference.shadow_eval')
  end
end

.normalize_ask_direct_hash(result, fallback_model:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 467

def normalize_ask_direct_hash(result, fallback_model:)
  meta = result[:meta].is_a?(Hash) ? result[:meta] : {}
  {
    status:   result[:status] || :done,
    response: result[:response] || result[:content],
    meta:     {
      tier:       meta[:tier] || :direct,
      model:      (meta[:model] || fallback_model).to_s,
      tokens_in:  meta[:tokens_in],
      tokens_out: meta[:tokens_out]
    }
  }
end

.object_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 300

def object_response_details(result, requested_model:, requested_provider:)
  tool_calls = safe_inference_value(result, :tool_calls)
  {
    output:        safe_inference_value(result, :content) || result.to_s,
    provider:      requested_provider,
    model:         safe_inference_value(result, :model_id)&.to_s || requested_model,
    input_tokens:  safe_inference_value(result, :input_tokens),
    output_tokens: safe_inference_value(result, :output_tokens),
    stop_reason:   safe_inference_value(result, :stop_reason),
    tool_calls:    tool_calls.nil? ? nil : Array(tool_calls).size
  }
end

.pipeline_enabled? ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/legion/llm/inference.rb', line 391

def pipeline_enabled?
  Legion::LLM.settings[:pipeline_enabled] == true
rescue StandardError => e
  handle_exception(e, level: :debug, operation: 'llm.inference.pipeline_enabled')
  false
end

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 273

def pipeline_response_details(result, requested_model:, requested_provider:)
  message = result.message
  tokens = result.tokens
  {
    output:        message.is_a?(Hash) ? (message[:content] || message['content']) : message.to_s,
    provider:      result.routing[:provider] || result.routing['provider'] || requested_provider,
    model:         result.routing[:model] || result.routing['model'] || requested_model,
    input_tokens:  inference_token_value(tokens, :input),
    output_tokens: inference_token_value(tokens, :output),
    stop_reason:   result.stop[:reason] || result.stop['reason'],
    tool_calls:    Array(result.tools).size
  }
end

.publish_escalation_event(history, final_outcome) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 643

def publish_escalation_event(history, final_outcome)
  payload = {
    outcome:   final_outcome,
    attempts:  history.size,
    history:   history,
    timestamp: Time.now.utc.iso8601
  }

  Legion::Events.emit('llm.escalation', **payload) if defined?(Legion::Events) && Legion::Events.respond_to?(:emit)

  log.info "[llm][inference] escalation_event outcome=#{final_outcome} attempts=#{history.size}"

  Transport::Messages::EscalationEvent.new(payload).publish if defined?(Legion::Settings) && Legion::Settings[:transport][:connected] == true
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.inference.publish_escalation_event', outcome: final_outcome)
  nil
end

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 634

def report_health(signal, resolution, duration_ms, failures: nil)
  return unless Router.routing_enabled?

  metadata = { duration_ms: duration_ms }
  metadata[:failures] = failures if failures
  Router.health_tracker.report(provider: resolution.provider, signal: signal, value: 1, metadata: metadata)
  Router.health_tracker.report(provider: resolution.provider, signal: :latency, value: duration_ms, metadata: {})
end

.resolve_ask_direct_response(result, message, requested_model) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 453

def resolve_ask_direct_response(result, message, requested_model, &)
  if direct_chat_session?(result)
    response = block_given? ? result.ask(message, &) : result.ask(message)
    return [response, result.model.to_s]
  end

  resolved_model = if result.respond_to?(:model_id) && result.model_id
                     result.model_id.to_s
                   else
                     (requested_model || Legion::LLM.settings[:default_model]).to_s
                   end
  [result, resolved_model]
end

.response_guards_enabled? ⇒ `Boolean`

Returns:

(Boolean)



661
662
663

# File 'lib/legion/llm/inference.rb', line 661

def response_guards_enabled?
  Legion::LLM.settings.dig(:response_guards, :enabled) == true
end

.safe_inference_value(object, method_name) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 313

def safe_inference_value(object, method_name)
  return nil unless object.methods.include?(method_name) || object.private_methods.include?(method_name)

  object.public_send(method_name)
rescue StandardError => e
  handle_exception(e, level: :debug, operation: 'llm.inference.safe_value', method_name: method_name)
  nil
end

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ `Object`

# File 'lib/legion/llm/inference.rb', line 544

def try_defer(intent:, urgency:, model:, provider:, message:, **)
  return nil unless Scheduling.enabled? && Scheduling.should_defer?(intent: intent || :normal, urgency: urgency)
  return nil unless Legion::LLM::Scheduling::Batch.enabled?

  log.debug "[llm][inference] try_defer deferring intent=#{intent} urgency=#{urgency}"
  entry_id = Legion::LLM::Scheduling::Batch.enqueue(model: model, provider: provider, message: message, priority: urgency, **)
  { deferred: true, batch_id: entry_id, next_off_peak: Scheduling.next_off_peak.iso8601 }
end

Module: Legion::LLM::Inference

Defined Under Namespace

Constant Summary collapse

Class Method Summary collapse

Class Method Details

.adapted_registry_tools ⇒ Object

.apply_response_guards(result, kwargs) ⇒ Object

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ Object

.assert_cloud_allowed! ⇒ Object

.attach_escalation_history(response, history, resolution, chain) ⇒ Object

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ Object

.build_cache_key(model, provider, message, temperature) ⇒ Object

.cacheable?(cache_opt, temperature, message) ⇒ Boolean

.caller_descriptor(caller_context) ⇒ Object

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &block) ⇒ Object

.chat_via_pipeline(&block) ⇒ Object

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ Object

.direct_chat_session?(result) ⇒ Boolean

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ Object

.effective_tier_is_cloud?(tier, provider) ⇒ Boolean

.elapsed_ms_since(started_at) ⇒ Object

.enterprise_privacy? ⇒ Boolean

.escalation_enabled? ⇒ Boolean

.escalation_quality_threshold ⇒ Object

.hash_response_details(result, requested_model:, requested_provider:) ⇒ Object

.inference_input_payload(message:, messages:) ⇒ Object

.inference_response_details(result, requested_model:, requested_provider:) ⇒ Object

.inference_text_length(payload) ⇒ Object

.inference_token_value(tokens, key) ⇒ Object

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ Object

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ Object

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ Object

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ Object

.normalize_ask_direct_hash(result, fallback_model:) ⇒ Object

.object_response_details(result, requested_model:, requested_provider:) ⇒ Object

.pipeline_enabled? ⇒ Boolean

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ Object

.publish_escalation_event(history, final_outcome) ⇒ Object

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ Object

.resolve_ask_direct_response(result, message, requested_model) ⇒ Object

.response_guards_enabled? ⇒ Boolean

.safe_inference_value(object, method_name) ⇒ Object

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ Object

.adapted_registry_tools ⇒ `Object`

.apply_response_guards(result, kwargs) ⇒ `Object`

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

.ask_direct(message:, model: nil, provider: nil, intent: nil, tier: nil) ⇒ `Object`

.assert_cloud_allowed! ⇒ `Object`

.attach_escalation_history(response, history, resolution, chain) ⇒ `Object`

.build_attempt(resolution, outcome, failures, duration_ms) ⇒ `Object`

.build_cache_key(model, provider, message, temperature) ⇒ `Object`

.cacheable?(cache_opt, temperature, message) ⇒ `Boolean`

.caller_descriptor(caller_context) ⇒ `Object`

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_single(model:, provider:, intent:, tier:, message: nil, **kwargs, &block) ⇒ `Object`

.chat_via_pipeline(&block) ⇒ `Object`

.chat_with_escalation(model:, provider:, intent:, tier:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

.daemon_ask(message:, model: nil, provider: nil, context: {}, tier: nil, identity: nil) ⇒ `Object`

.direct_chat_session?(result) ⇒ `Boolean`

.dispatch_chat(model:, provider:, intent:, tier:, escalate:, max_escalations:, quality_check:, message:, **kwargs) ⇒ `Object`

.effective_tier_is_cloud?(tier, provider) ⇒ `Boolean`

.elapsed_ms_since(started_at) ⇒ `Object`

.enterprise_privacy? ⇒ `Boolean`

.escalation_enabled? ⇒ `Boolean`

.escalation_quality_threshold ⇒ `Object`

.hash_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.inference_input_payload(message:, messages:) ⇒ `Object`

.inference_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.inference_text_length(payload) ⇒ `Object`

.inference_token_value(tokens, key) ⇒ `Object`

.log_inference_error(request_type:, requested_model:, requested_provider:, error:, duration_ms:) ⇒ `Object`

.log_inference_request(request_type:, requested_model:, requested_provider:, intent:, tier:, message:, kwargs:) ⇒ `Object`

.log_inference_response(request_type:, requested_model:, requested_provider:, result:, duration_ms:) ⇒ `Object`

.maybe_shadow_evaluate(response, messages, primary_model) ⇒ `Object`

.normalize_ask_direct_hash(result, fallback_model:) ⇒ `Object`

.object_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.pipeline_enabled? ⇒ `Boolean`

.pipeline_response_details(result, requested_model:, requested_provider:) ⇒ `Object`

.publish_escalation_event(history, final_outcome) ⇒ `Object`

.report_health(signal, resolution, duration_ms, failures: nil) ⇒ `Object`

.resolve_ask_direct_response(result, message, requested_model) ⇒ `Object`

.response_guards_enabled? ⇒ `Boolean`

.safe_inference_value(object, method_name) ⇒ `Object`

.try_defer(intent:, urgency:, model:, provider:, message:) ⇒ `Object`