Module: Legion::LLM

Extended by:: Providers, Legion::Logging::Helper

Defined in:: lib/legion/llm.rb,
lib/legion/llm/audit.rb,
lib/legion/llm/batch.rb,
lib/legion/llm/cache.rb,
lib/legion/llm/fleet.rb,
lib/legion/llm/hooks.rb,
lib/legion/llm/usage.rb,
lib/legion/llm/errors.rb,
lib/legion/llm/helper.rb,
lib/legion/llm/router.rb,
lib/legion/llm/routes.rb,
lib/legion/llm/skills.rb,
lib/legion/llm/version.rb,
lib/legion/llm/metering.rb,
lib/legion/llm/off_peak.rb,
lib/legion/llm/pipeline.rb,
lib/legion/llm/settings.rb,
lib/legion/llm/arbitrage.rb,
lib/legion/llm/providers.rb,
lib/legion/llm/compressor.rb,
lib/legion/llm/embeddings.rb,
lib/legion/llm/scheduling.rb,
lib/legion/llm/fleet/error.rb,
lib/legion/llm/router/rule.rb,
lib/legion/llm/shadow_eval.rb,
lib/legion/llm/skills/base.rb,
lib/legion/llm/cost_tracker.rb,
lib/legion/llm/daemon_client.rb,
lib/legion/llm/fleet/handler.rb,
lib/legion/llm/fleet/request.rb,
lib/legion/llm/skills/errors.rb,
lib/legion/llm/token_tracker.rb,
lib/legion/llm/tools/adapter.rb,
lib/legion/llm/audit/exchange.rb,
lib/legion/llm/cost_estimator.rb,
lib/legion/llm/fleet/exchange.rb,
lib/legion/llm/fleet/response.rb,
lib/legion/llm/hooks/metering.rb,
lib/legion/llm/metering/event.rb,
lib/legion/llm/pipeline/steps.rb,
lib/legion/llm/response_cache.rb,
lib/legion/llm/context_curator.rb,
lib/legion/llm/hooks/rag_guard.rb,
lib/legion/llm/native_dispatch.rb,
lib/legion/llm/quality_checker.rb,
lib/legion/llm/skills/registry.rb,
lib/legion/llm/skills/settings.rb,
lib/legion/llm/audit/tool_event.rb,
lib/legion/llm/confidence_score.rb,
lib/legion/llm/discovery/ollama.rb,
lib/legion/llm/discovery/system.rb,
lib/legion/llm/fleet/dispatcher.rb,
lib/legion/llm/hooks/reflection.rb,
lib/legion/llm/pipeline/profile.rb,
lib/legion/llm/pipeline/request.rb,
lib/legion/llm/pipeline/tracing.rb,
lib/legion/llm/tools/dispatcher.rb,
lib/legion/llm/audit/skill_event.rb,
lib/legion/llm/confidence_scorer.rb,
lib/legion/llm/hooks/reciprocity.rb,
lib/legion/llm/metering/exchange.rb,
lib/legion/llm/pipeline/executor.rb,
lib/legion/llm/pipeline/response.rb,
lib/legion/llm/pipeline/timeline.rb,
lib/legion/llm/provider_registry.rb,
lib/legion/llm/router/resolution.rb,
lib/legion/llm/structured_output.rb,
lib/legion/llm/tools/interceptor.rb,
lib/legion/llm/transport/message.rb,
lib/legion/llm/audit/prompt_event.rb,
lib/legion/llm/conversation_store.rb,
lib/legion/llm/escalation_history.rb,
lib/legion/llm/escalation_tracker.rb,
lib/legion/llm/hooks/budget_guard.rb,
lib/legion/llm/skills/disk_loader.rb,
lib/legion/llm/skills/step_result.rb,
lib/legion/llm/codex_config_loader.rb,
lib/legion/llm/hooks/cost_tracking.rb,
lib/legion/llm/override_confidence.rb,
lib/legion/llm/pipeline/steps/rbac.rb,
lib/legion/llm/claude_config_loader.rb,
lib/legion/llm/hooks/response_guard.rb,
lib/legion/llm/pipeline/gaia_caller.rb,
lib/legion/llm/pipeline/steps/debate.rb,
lib/legion/llm/pipeline/tool_adapter.rb,
lib/legion/llm/router/health_tracker.rb,
lib/legion/llm/fleet/reply_dispatcher.rb,
lib/legion/llm/pipeline/steps/billing.rb,
lib/legion/llm/pipeline/steps/metering.rb,
lib/legion/llm/router/escalation_chain.rb,
lib/legion/llm/skills/skill_run_result.rb,
lib/legion/llm/pipeline/audit_publisher.rb,
lib/legion/llm/pipeline/steps/rag_guard.rb,
lib/legion/llm/pipeline/tool_dispatcher.rb,
lib/legion/llm/pipeline/steps/tool_calls.rb,
lib/legion/llm/skills/external_discovery.rb,
lib/legion/llm/transport/exchanges/audit.rb,
lib/legion/llm/pipeline/steps/rag_context.rb,
lib/legion/llm/router/gateway_interceptor.rb,
lib/legion/llm/pipeline/steps/prompt_cache.rb,
lib/legion/llm/pipeline/steps/token_budget.rb,
lib/legion/llm/pipeline/enrichment_injector.rb,
lib/legion/llm/pipeline/steps/gaia_advisory.rb,
lib/legion/llm/pipeline/steps/mcp_discovery.rb,
lib/legion/llm/pipeline/steps/post_response.rb,
lib/legion/llm/pipeline/steps/tier_assigner.rb,
lib/legion/llm/pipeline/steps/trigger_match.rb,
lib/legion/llm/transport/exchanges/metering.rb,
lib/legion/llm/pipeline/steps/classification.rb,
lib/legion/llm/pipeline/steps/skill_injector.rb,
lib/legion/llm/pipeline/steps/span_annotator.rb,
lib/legion/llm/pipeline/steps/tool_discovery.rb,
lib/legion/llm/tools/interceptors/python_venv.rb,
lib/legion/llm/transport/exchanges/escalation.rb,
lib/legion/llm/transport/messages/audit_event.rb,
lib/legion/llm/patches/ruby_llm_parallel_tools.rb,
lib/legion/llm/pipeline/steps/knowledge_capture.rb,
lib/legion/llm/pipeline/steps/confidence_scoring.rb,
lib/legion/llm/transport/messages/escalation_event.rb

Defined Under Namespace

Modules: Arbitrage, Audit, Batch, Cache, ClaudeConfigLoader, CodexConfigLoader, Compressor, ConfidenceScorer, ConversationStore, CostEstimator, CostTracker, DaemonClient, Discovery, Embeddings, EscalationHistory, EscalationTracker, Fleet, Helper, Hooks, Metering, NativeDispatch, OffPeak, OverrideConfidence, Patches, Pipeline, ProviderRegistry, Providers, QualityChecker, ResponseCache, Router, Routes, Scheduling, Settings, ShadowEval, Skills, StructuredOutput, TokenTracker, Tools, Transport Classes: AuthError, ConfidenceScore, ContextCurator, ContextOverflow, DaemonDeniedError, DaemonRateLimitedError, EmbeddingUnavailableError, EscalationExhausted, LLMError, NativeResponseAdapter, PipelineError, PrivacyModeError, ProviderDown, ProviderError, RateLimitError, TokenBudgetExceeded, UnsupportedCapability, Usage

Constant Summary collapse

FRAMEWORK_KEYS =

%i[request_id source timestamp datetime task_id parent_id master_id
check_subtask generate_task catch_exceptions worker_id principal_id
principal_type caller].freeze

VERSION =

'0.7.3'

Constants included from Providers

Providers::SAAS_PROVIDERS

Class Attribute Summary collapse

.embedding_fallback_chain ⇒ Object readonly

Returns the value of attribute embedding_fallback_chain.
.embedding_model ⇒ Object readonly

Returns the value of attribute embedding_model.
.embedding_provider ⇒ Object readonly

Returns the value of attribute embedding_provider.

Class Method Summary collapse

.agent(agent_class) ⇒ RubyLLM::Agent

Create a configured agent instance.
.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object

Send a single message — daemon-first, falls through to direct on unavailability.
.can_embed? ⇒ Boolean
.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

Create a new chat session — delegates to lex-llm-gateway when available for automatic metering and fleet dispatch.
.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

Direct chat bypassing gateway — used by gateway runners to avoid recursion.
.embed(text) ⇒ Object

Generate embeddings.
.embed_batch(texts) ⇒ Array<Hash>

Batch embed multiple texts.
.embed_direct(text) ⇒ Object

Direct embed bypassing gateway.
.settings ⇒ Object
.shutdown ⇒ Object
.start ⇒ Object
.started? ⇒ Boolean
.structured(messages:, schema:) ⇒ Object

Generate structured JSON output.
.structured_direct(messages:, schema:) ⇒ Object

Direct structured bypassing gateway.

Methods included from Providers

apply_provider_config, auto_enable_from_resolved_credentials, broker_has_credential?, configure_anthropic, configure_azure, configure_bedrock, configure_gemini, configure_ollama, configure_openai, configure_providers, ollama_running?, recover_openai_with_codex, recover_with_alternative_credentials, resolve_broker_aws_credentials, resolve_broker_credential, verify_providers, verify_single_provider

Class Attribute Details

.embedding_fallback_chain ⇒ `Object` (readonly)

Returns the value of attribute embedding_fallback_chain.



109
110
111

# File 'lib/legion/llm.rb', line 109

def embedding_fallback_chain
  @embedding_fallback_chain
end

.embedding_model ⇒ `Object` (readonly)

Returns the value of attribute embedding_model.



109
110
111

# File 'lib/legion/llm.rb', line 109

def embedding_model
  @embedding_model
end

.embedding_provider ⇒ `Object` (readonly)

Returns the value of attribute embedding_provider.



109
110
111

# File 'lib/legion/llm.rb', line 109

def embedding_provider
  @embedding_provider
end

Class Method Details

.agent(agent_class) ⇒ `RubyLLM::Agent`

Create a configured agent instance

Parameters:

agent_class (Class) —

a RubyLLM::Agent subclass
kwargs (Hash) —

additional options

Returns:

(RubyLLM::Agent)



311
312
313

# File 'lib/legion/llm.rb', line 311

def agent(agent_class, **)
  agent_class.new(**)
end

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

Send a single message — daemon-first, falls through to direct on unavailability.

# File 'lib/legion/llm.rb', line 167

def ask(message:, model: nil, provider: nil, intent: nil, tier: nil,
        context: {}, identity: nil, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             { context: context, identity: identity }
  )

  if DaemonClient.available?
    result = daemon_ask(message: message, model: model, provider: provider,
                        context: context, tier: tier, identity: identity)
    if result
      log_inference_response(
        request_type:       :ask,
        requested_model:    model,
        requested_provider: provider,
        result:             result,
        duration_ms:        elapsed_ms_since(started_at)
      )
      return result
    end
  end

  result = ask_direct(message: message, model: model, provider: provider,
                      intent: intent, tier: tier, &)
  log_inference_response(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :ask,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.can_embed? ⇒ `Boolean`

Returns:

(Boolean)



105
106
107

# File 'lib/legion/llm.rb', line 105

def can_embed?
  @can_embed == true
end

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

Create a new chat session — delegates to lex-llm-gateway when available for automatic metering and fleet dispatch

# File 'lib/legion/llm.rb', line 121

def chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
         max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  log_inference_request(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    intent:             intent,
    tier:               tier,
    message:            message,
    kwargs:             kwargs
  )

  result = if defined?(Legion::Telemetry::OpenInference)
             Legion::Telemetry::OpenInference.llm_span(
               model: (model || settings[:default_model]).to_s, provider: provider&.to_s, input: message
             ) do |_span|
               _dispatch_chat(model: model, provider: provider, intent: intent, tier: tier, escalate: escalate,
                              max_escalations: max_escalations, quality_check: quality_check, message: message, **kwargs, &)
             end
           else
             _dispatch_chat(model: model, provider: provider, intent: intent, tier: tier,
                            escalate: escalate, max_escalations: max_escalations,
                            quality_check: quality_check, message: message, **kwargs, &)
           end

  log_inference_response(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    result:             result,
    duration_ms:        elapsed_ms_since(started_at)
  )
  result
rescue StandardError => e
  log_inference_error(
    request_type:       :chat,
    requested_model:    model,
    requested_provider: provider,
    error:              e,
    duration_ms:        elapsed_ms_since(started_at)
  )
  raise
end

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

Direct chat bypassing gateway — used by gateway runners to avoid recursion

# File 'lib/legion/llm.rb', line 217

def chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil,
                max_escalations: nil, quality_check: nil, message: nil, **kwargs, &)
  log.debug(
    "[llm] chat_direct.enter model=#{model} provider=#{provider} intent=#{intent} " \
    "tier=#{tier} escalate=#{escalate} message_present=#{!message.nil?} kwargs=#{kwargs.keys.sort}"
  )
  cache_opt = kwargs.delete(:cache) { true }
  temperature = kwargs.delete(:temperature)

  escalate = escalation_enabled? if escalate.nil?
  cache_key = build_cache_key(model, provider, message, temperature) if cacheable?(cache_opt, temperature, message)

  if cache_key
    cached = Cache.get(cache_key)
    if cached
      log.debug 'Legion::LLM cache hit'
      cached_response = cached.dup
      cached_response[:meta] = (cached_response[:meta] || {}).merge(cached: true)
      return cached_response
    end
  end

  urgency = kwargs.delete(:urgency) { :normal }
  deferred = try_defer(intent: intent, urgency: urgency, model: model, provider: provider, message: message, **kwargs)
  return deferred if deferred

  log.debug(
    "[llm] chat_direct.dispatch model=#{model} provider=#{provider} " \
    "escalate=#{escalate} message_present=#{!message.nil?}"
  )
  result = if escalate && message
             chat_with_escalation(
               model: model, provider: provider, intent: intent, tier: tier,
               max_escalations: max_escalations, quality_check: quality_check,
               message: message, temperature: temperature, **kwargs
             )
           else
             chat_single(model: model, provider: provider, intent: intent, tier: tier,
                         temperature: temperature, message: message, **kwargs, &)
           end
  log.debug("[llm] chat_direct.exit result_class=#{result.class} result_nil=#{result.nil?}")

  if cache_key && result.is_a?(Hash)
    ttl = settings.dig(:prompt_caching, :response_cache, :ttl_seconds) || Cache::DEFAULT_TTL
    Cache.set(cache_key, result, ttl: ttl)
  end

  result
end

.embed(text) ⇒ `Object`

Generate embeddings

# File 'lib/legion/llm.rb', line 268

def embed(text, **)
  if defined?(Legion::Telemetry::OpenInference)
    Legion::Telemetry::OpenInference.embedding_span(
      model: (settings[:default_model] || 'unknown').to_s
    ) { |_span| embed_direct(text, **) }
  else
    embed_direct(text, **)
  end
end

.embed_batch(texts) ⇒ `Array<Hash>`

Batch embed multiple texts

Parameters:

texts (Array<String>) —

texts to embed

Returns:

(Array<Hash>)



286
287
288

# File 'lib/legion/llm.rb', line 286

def embed_batch(texts, **)
  Embeddings.generate_batch(texts: texts, **)
end

.embed_direct(text) ⇒ `Object`

Direct embed bypassing gateway



279
280
281

# File 'lib/legion/llm.rb', line 279

def embed_direct(text, **)
  Embeddings.generate(text: text, **)
end

.settings ⇒ `Object`

# File 'lib/legion/llm.rb', line 111

def settings
  if Legion.const_defined?('Settings', false)
    Legion::Settings[:llm]
  else
    Legion::LLM::Settings.default
  end
end

.shutdown ⇒ `Object`

# File 'lib/legion/llm.rb', line 90

def shutdown
  Legion::Settings[:llm][:connected] = false
  @started = false
  @can_embed = nil
  @embedding_provider = nil
  @embedding_model = nil
  @embedding_fallback_chain = nil
  ProviderRegistry.reset!
  log.info 'Legion::LLM shut down'
end

.start ⇒ `Object`

# File 'lib/legion/llm.rb', line 61

def start
  log.debug 'Legion::LLM is running start'

  require 'legion/llm/claude_config_loader'
  ClaudeConfigLoader.load

  require 'legion/llm/codex_config_loader'
  CodexConfigLoader.load

  resolve_llm_secrets
  configure_providers
  verify_providers
  run_discovery
  detect_embedding_capability
  set_defaults
  auto_register_providers

  install_hooks
  load_tool_interceptors

  # Skills startup — load after settings, before pipeline is used
  Legion::LLM::Skills.start if defined?(Legion::LLM::Skills) && settings.dig(:skills, :enabled) != false

  @started = true
  Legion::Settings[:llm][:connected] = true
  log.info 'Legion::LLM started'
  register_routes
end

.started? ⇒ `Boolean`

Returns:

(Boolean)



101
102
103

# File 'lib/legion/llm.rb', line 101

def started?
  @started == true
end

.structured(messages:, schema:) ⇒ `Object`

Generate structured JSON output

# File 'lib/legion/llm.rb', line 291

def structured(messages:, schema:, **)
  if defined?(Legion::Telemetry::OpenInference)
    Legion::Telemetry::OpenInference.llm_span(
      model: (settings[:default_model] || 'unknown').to_s, input: messages.to_s
    ) { |_span| structured_direct(messages: messages, schema: schema, **) }
  else
    structured_direct(messages: messages, schema: schema, **)
  end
end

.structured_direct(messages:, schema:) ⇒ `Object`

Direct structured bypassing gateway

# File 'lib/legion/llm.rb', line 302

def structured_direct(messages:, schema:, **)
  require 'legion/llm/structured_output'
  StructuredOutput.generate(messages: messages, schema: schema, **)
end

Module: Legion::LLM

Defined Under Namespace

Constant Summary collapse

Constants included from Providers

Class Attribute Summary collapse

Class Method Summary collapse

Methods included from Providers

Class Attribute Details

.embedding_fallback_chain ⇒ Object (readonly)

.embedding_model ⇒ Object (readonly)

.embedding_provider ⇒ Object (readonly)

Class Method Details

.agent(agent_class) ⇒ RubyLLM::Agent

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ Object

.can_embed? ⇒ Boolean

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ Object

.embed(text) ⇒ Object

.embed_batch(texts) ⇒ Array<Hash>

.embed_direct(text) ⇒ Object

.settings ⇒ Object

.shutdown ⇒ Object

.start ⇒ Object

.started? ⇒ Boolean

.structured(messages:, schema:) ⇒ Object

.structured_direct(messages:, schema:) ⇒ Object

.embedding_fallback_chain ⇒ `Object` (readonly)

.embedding_model ⇒ `Object` (readonly)

.embedding_provider ⇒ `Object` (readonly)

.agent(agent_class) ⇒ `RubyLLM::Agent`

.ask(message:, model: nil, provider: nil, intent: nil, tier: nil, context: {}, identity: nil) ⇒ `Object`

.can_embed? ⇒ `Boolean`

.chat(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.chat_direct(model: nil, provider: nil, intent: nil, tier: nil, escalate: nil, max_escalations: nil, quality_check: nil, message: nil, **kwargs) ⇒ `Object`

.embed(text) ⇒ `Object`

.embed_batch(texts) ⇒ `Array<Hash>`

.embed_direct(text) ⇒ `Object`

.settings ⇒ `Object`

.shutdown ⇒ `Object`

.start ⇒ `Object`

.started? ⇒ `Boolean`

.structured(messages:, schema:) ⇒ `Object`

.structured_direct(messages:, schema:) ⇒ `Object`