Class: Legion::Extensions::Llm::Bedrock::Provider

Inherits:

Provider

Object
Provider
Legion::Extensions::Llm::Bedrock::Provider

show all

Includes:: Logging::Helper

Defined in:: lib/legion/extensions/llm/bedrock/provider.rb

Overview

Amazon Bedrock provider implementation for the Legion::Extensions::Llm contract.

Defined Under Namespace

Modules: Capabilities

Constant Summary collapse

STATIC_MODELS =

[
  { model: 'anthropic.claude-3-haiku-20240307-v1:0', alias: 'claude-3-haiku' },
  { model: 'anthropic.claude-sonnet-4-20250514-v1:0', alias: 'anthropic.claude-sonnet-4' },
  { model: 'anthropic.claude-sonnet-4-20250514-v1:0', alias: 'claude-sonnet-4-6' },
  { model: 'anthropic.claude-sonnet-4-20250514-v1:0', alias: 'claude-sonnet-4-5-20241022' },
  { model: 'anthropic.claude-opus-4-20250515-v1:0', alias: 'claude-opus-4-8' },
  { model: 'anthropic.claude-haiku-4-20250506-v1:0', alias: 'claude-haiku-4-5' },
  { model: 'amazon.titan-text-express-v1', alias: 'titan-text-express' },
  { model: 'amazon.titan-embed-text-v2:0', alias: 'titan-embed-text-v2', usage_type: :embedding },
  { model: 'meta.llama3-2-11b-instruct-v1:0', alias: 'llama-3.2-11b-instruct' },
  { model: 'mistral.mistral-large-3-675b-instruct', alias: 'mistral-large-3' }
].freeze

ALIASES =

STATIC_MODELS.to_h { |entry| [entry.fetch(:alias), entry.fetch(:model)] }.freeze

CONTEXT_WINDOWS =

{
  'anthropic.claude-sonnet-4' => 200_000,
  'anthropic.claude-haiku-4' => 200_000,
  'anthropic.claude-opus-4' => 200_000,
  'anthropic.claude-3-5-sonnet' => 200_000,
  'anthropic.claude-3-5-haiku' => 200_000,
  'anthropic.claude-3-haiku' => 200_000,
  'anthropic.claude-3-opus' => 200_000,
  'anthropic.claude-3-sonnet' => 200_000,
  'meta.llama3' => 128_000,
  'meta.llama3-1' => 128_000,
  'meta.llama3-2' => 128_000,
  'meta.llama3-3' => 128_000,
  'mistral.mistral-large' => 128_000,
  'mistral.mistral-small' => 128_000,
  'amazon.titan-text-express' => 8_192,
  'amazon.titan-text-premier' => 32_000,
  'amazon.nova-pro' => 300_000,
  'amazon.nova-lite' => 300_000,
  'amazon.nova-micro' => 128_000
}.freeze

INFERENCE_PROFILE_PREFIXES =

%w[anthropic. meta. mistral. cohere. ai21.].freeze

REGION_PREFIX = Region-based inference profile prefix mapping. Bare model IDs (e.g. anthropic.claude-sonnet-4) get the region prefix.

{
  'us-east-1' => 'us', 'us-east-2' => 'us', 'us-west-1' => 'us', 'us-west-2' => 'us',
  'eu-central-1' => 'eu', 'eu-west-1' => 'eu', 'eu-west-2' => 'eu', 'eu-west-3' => 'eu',
  'ap-south-1' => 'ap', 'ap-southeast-1' => 'ap', 'ap-southeast-2' => 'ap', 'ap-northeast-1' => 'ap'
}.freeze

Class Method Summary collapse

.capabilities ⇒ Object
.configuration_options ⇒ Object
.configuration_requirements ⇒ Object
.default_tier ⇒ Object
.default_transport ⇒ Object
.inference_profile_id(model, region: nil) ⇒ Object
.region_prefix(region) ⇒ Object
.registry_publisher ⇒ Object
.resolve_model_id(model_id, config: nil) ⇒ Object

rubocop:disable Lint/UnusedMethodArgument.
.slug ⇒ Object

Instance Method Summary collapse

#api_base ⇒ Object
#chat(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ Object
#complete(messages, tools:, temperature:, model:, params: {}, headers: {}, schema: nil, thinking: nil, tool_prefs: nil) ⇒ Object

rubocop:disable Lint/UnusedMethodArgument.
#completion_url ⇒ Object
#count_tokens(messages:, model:, system: nil, params: {}) ⇒ Object
#count_tokens_url ⇒ Object
#discover_offerings(live: false, **filters) ⇒ Object
#embed(text:, model:, dimensions: nil, params: {}, **_provider_options) ⇒ Object
#embedding_url ⇒ Object
#health(live: false) ⇒ Object
#list_models ⇒ Object
#models_url ⇒ Object
#offering_for(model:, model_family: nil, instance_id: :default, **metadata) ⇒ Object
#readiness(live: false) ⇒ Object
#region ⇒ Object
#stream(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ Object
#stream_url ⇒ Object
#translator ⇒ Object

Class Method Details

.capabilities ⇒ `Object`

76	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 76 def capabilities = Capabilities

.configuration_options ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 62

def configuration_options
  %i[
    bedrock_region
    bedrock_endpoint
    bedrock_access_key_id
    bedrock_secret_access_key
    bedrock_session_token
    bedrock_profile
    bedrock_stub_responses
    bearer_token
  ]
end

.configuration_requirements ⇒ `Object`

75	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 75 def configuration_requirements = []

.default_tier ⇒ `Object`

60	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 60 def default_tier = :cloud

.default_transport ⇒ `Object`

59	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 59 def default_transport = :aws_sdk

.inference_profile_id(model, region: nil) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 88

def inference_profile_id(model, region: nil)
  return model if model.start_with?('us.', 'eu.', 'ap.', 'arn:')
  return model unless INFERENCE_PROFILE_PREFIXES.any? { |p| model.start_with?(p) }

  prefix = region ? region_prefix(region) : 'us'
  "#{prefix}.#{model}"
end

.region_prefix(region) ⇒ `Object`



104
105
106

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 104

def region_prefix(region)
  REGION_PREFIX.fetch(region.to_s, 'us')
end

.registry_publisher ⇒ `Object`



78
79
80

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 78

def registry_publisher
  Bedrock.registry_publisher
end

.resolve_model_id(model_id, config: nil) ⇒ `Object`

rubocop:disable Lint/UnusedMethodArgument



82
83
84

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 82

def resolve_model_id(model_id, config: nil) # rubocop:disable Lint/UnusedMethodArgument
  ALIASES.fetch(model_id.to_s, model_id.to_s)
end

.slug ⇒ `Object`

58	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 58 def slug = 'bedrock'

Instance Method Details

#api_base ⇒ `Object`



130
131
132

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 130

def api_base
  config.bedrock_endpoint || "https://bedrock-runtime.#{region}.amazonaws.com"
end

#chat(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 217

def chat(
  messages:,
  model:,
  temperature: nil,
  max_tokens: nil,
  tools: {},
  tool_prefs: nil,
  params: {},
  thinking: nil,
  **_provider_options
)
  log.info { "bedrock.provider.chat: model=#{model_id(model)} messages=#{messages.size}" }

  # Bedrock Converse API silently drops thinking config and tool_use blocks
  # for Claude Sonnet 4+. Use invoke_model with native Anthropic payload.
  if anthropic_model?(model_id(model)) && (thinking || (tools && !tools.empty?))
    return invoke_model_chat(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
                             thinking:, params:)
  end

  request = Utils.deep_merge(
    converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, thinking:),
    params
  )
  log.debug do
    "bedrock.provider.chat: request prepared model=#{model_id(model)} tools=#{tools.size} " \
      "tool_choice=#{tool_choice_label(tool_prefs)} param_keys=#{params.keys.map(&:to_s).sort.join(',')}"
  end

  # Log the thinking config being sent
  thinking_config = request.dig(:additional_model_request_fields, :thinking)
  log.debug { "bedrock.provider.chat: thinking_config=#{thinking_config.inspect}" } if thinking_config

  start_time = Time.now
  response = begin
    runtime_client.converse(**request)
  rescue StandardError => e
    elapsed = ((Time.now - start_time) * 1000).round
    log.error do
      "bedrock.provider.chat: converse failed model=#{model_id(model)} " \
        "error=#{e.class}: #{e.message} elapsed_ms=#{elapsed}"
    end
    raise
  end
  elapsed = ((Time.now - start_time) * 1000).round

  # Dump raw Bedrock response for debugging
  raw_debug = response.respond_to?(:to_h) ? response.to_h : response.inspect[0, 2000]
  dump_path = ENV.fetch('BEDROCK_DEBUG_OUTPUT', nil)
  if dump_path
    begin
      dump_file = File.join(dump_path, "bedrock_chat_#{Time.now.strftime('%Y%m%d_%H%M%S')}.json")
      File.write(dump_file, Legion::JSON.pretty_generate(raw_debug))
      log.debug { "bedrock.provider.chat: raw response dumped to #{dump_file}" }
    rescue StandardError => e
      log.warn { "bedrock.provider.chat: failed to dump raw response: #{e.message}" }
    end
  end

  # Log response metadata
  usage = value(response, :usage) || {}
  additional_fields = value(response, :additional_model_response_fields)
  output = value(response, :output)
  content_blocks = output ? value(output, :message) : nil
  # AWS SDK content blocks are structs, not hashes — use safe inspection
  block_types = if content_blocks
                  Array(value(content_blocks, :content)).map do |b|
                    if b.respond_to?(:reasoning)
                      'reasoning'
                    elsif b.respond_to?(:text)
                      'text'
                    elsif b.respond_to?(:tool_use)
                      'tool_use'
                    else
                      b.class.name
                    end
                  end.inspect
                else
                  'none'
                end
  af_keys = if additional_fields.respond_to?(:to_h)
              additional_fields.to_h.keys.map(&:to_s).sort
            else
              additional_fields.respond_to?(:keys) ? additional_fields.keys.map(&:to_s).sort : []
            end

  log.debug do
    "bedrock.provider.chat: response received model=#{model_id(model)} elapsed_ms=#{elapsed} " \
      "usage=#{usage.inspect} additional_fields_keys=#{af_keys.inspect} " \
      "content_block_types=#{block_types}"
  end

  parse_converse_response(response, model_id(model))
end

#complete(messages, tools:, temperature:, model:, params: {}, headers: {}, schema: nil, thinking: nil, tool_prefs: nil) ⇒ `Object`

rubocop:disable Lint/UnusedMethodArgument

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 387

def complete(messages, tools:, temperature:, model:, params: {}, headers: {}, schema: nil, thinking: nil, # rubocop:disable Lint/UnusedMethodArgument
             tool_prefs: nil, &)
  payload = params.dup
  payload[:additional_model_request_fields] ||= {}
  payload[:additional_model_request_fields][:response_format] = schema if schema

  if block_given?
    stream(messages:, model:, temperature:, tools:, tool_prefs:, params: payload, thinking:, &)
  else
    chat(messages:, model:, temperature:, tools:, tool_prefs:, params: payload, thinking:)
  end
end

#completion_url ⇒ `Object`

134	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 134 def completion_url = 'Converse'

#count_tokens(messages:, model:, system: nil, params: {}) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 345

def count_tokens(
  messages:,
  model:,
  system: nil,
  params: {}
)
  log.debug { "bedrock.provider.count_tokens: model=#{model_id(model)}" }
  request = Utils.deep_merge(
    {
      model_id: self.class.inference_profile_id(model_id(model), region: region),
      input: { converse: { messages: format_messages(messages), system: system_blocks(system) }.compact }
    },
    params
  )
  response = runtime_client.count_tokens(**request)
  { input_tokens: value(response, :input_tokens), raw: normalize_response(response) }
end

#count_tokens_url ⇒ `Object`

138	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 138 def count_tokens_url = 'CountTokens'

#discover_offerings(live: false, **filters) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 144

def discover_offerings(live: false, **filters)
  unless live
    return @cached_offerings if @cached_offerings&.any?

    log.debug { 'bedrock.provider.discover_offerings: returning static catalog' }
    return static_offerings(**filters)
  end

  log.info { "bedrock.provider.discover_offerings: listing foundation models (region=#{region})" }
  response = bedrock_client.list_foundation_models(**filters)
  @cached_offerings = Array(value(response, :model_summaries)).filter_map do |summary|
    offering = offering_from_summary(summary)
    model_id = offering.respond_to?(:model) ? offering.model : (offering[:model] || offering[:id])
    next unless model_allowed?(model_id.to_s)

    offering
  end
  log.info { "bedrock.provider.discover_offerings: found #{@cached_offerings.size} models" }
  @cached_offerings
end

#embed(text:, model:, dimensions: nil, params: {}, **_provider_options) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 363

def embed(
  text:,
  model:,
  dimensions: nil,
  params: {},
  **_provider_options
)
  mid = model_id(model)
  unless titan_embed?(mid)
    raise NotImplementedError,
          "Bedrock embedding payload for #{mid} is not standardized"
  end

  log.info { "bedrock.provider.embed: model=#{mid}" }
  body = Utils.deep_merge({ inputText: text, dimensions: dimensions }.compact, params)
  response = runtime_client.invoke_model(
    model_id: mid,
    content_type: 'application/json',
    accept: 'application/json',
    body: Legion::JSON.generate(body)
  )
  parse_embedding_response(response, model: mid)
end

#embedding_url ⇒ `Object`

137	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 137 def embedding_url(**) = 'InvokeModel'

#health(live: false) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 177

def health(live: false)
  baseline = {
    provider: :bedrock,
    region: region,
    configured: true,
    ready: true,
    live: live,
    credentials: credential_source
  }
  unless live
    log.debug { "bedrock.provider.health: offline check (region=#{region})" }
    return baseline.merge(checked: false)
  end

  log.info { "bedrock.provider.health: live check (region=#{region})" }
  bedrock_client.list_foundation_models
  log.info { 'bedrock.provider.health: live check passed' }
  baseline.merge(checked: true)
rescue StandardError => e
  handle_exception(e, level: :warn, handled: true, operation: 'bedrock.provider.health')
  baseline.merge(checked: true, ready: false, error: e.class.name, message: e.message)
end

#list_models ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 208

def list_models(**)
  log.info { 'bedrock.provider.list_models: fetching live model list' }
  response = bedrock_client.list_foundation_models
  models = Array(value(response, :model_summaries)).filter_map { |summary| model_info_from_summary(summary) }
  log.info { "bedrock.provider.list_models: found #{models.size} models" }
  self.class.registry_publisher.publish_models_async(models, readiness: readiness(live: false))
  models
end

#models_url ⇒ `Object`

136	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 136 def models_url = 'ListFoundationModels'

#offering_for(model:, model_family: nil, instance_id: :default, **metadata) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 165

def offering_for(model:, model_family: nil, instance_id: :default, **metadata)
  model_id = self.class.resolve_model_id(model)
  build_offering(
    model: model_id,
    alias_name: alias_for(model_id),
    model_family: model_family || model_family_for(model_id),
    instance_id: instance_id,
    usage_type: metadata.delete(:usage_type) || usage_type_for(model_id),
    metadata: metadata
  )
end

#readiness(live: false) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 200

def readiness(live: false)
  log.debug { "bedrock.provider.readiness: checking (live=#{live})" }
  health(live: live).merge(local: false, remote: true, api_base: api_base,
                           endpoints: endpoint_manifest).tap do |metadata|
    self.class.registry_publisher.publish_readiness_async(metadata) if live
  end
end

#region ⇒ `Object`



140
141
142

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 140

def region
  config.bedrock_region || settings[:region] || 'us-east-1'
end

#stream(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ `Object`

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 312

def stream(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {},
           thinking: nil, **_provider_options, &)
  log.info do
    "bedrock.provider.stream: model=#{model_id(model)} messages=#{messages.size} tools=#{tools.size}"
  end

  # Bedrock Converse API silently drops thinking config and tool_use blocks
  # for Claude Sonnet 4+. Use invoke_model with native Anthropic payload.
  if anthropic_model?(model_id(model)) && (thinking || (tools && !tools.empty?))
    return invoke_model_stream(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
                               thinking:, params:, &)
  end

  request = Utils.deep_merge(
    converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, thinking:),
    params
  )
  log.debug do
    "bedrock.provider.stream: request prepared model=#{model_id(model)} tools=#{tools.size} " \
      "tool_choice=#{tool_choice_label(tool_prefs)} param_keys=#{params.keys.map(&:to_s).sort.join(',')}"
  end

  # Log the thinking config being sent
  thinking_config = request.dig(:additional_model_request_fields, :thinking)
  log.debug { "bedrock.provider.stream: thinking_config=#{thinking_config.inspect}" } if thinking_config

  start_time = Time.now
  result = stream_converse(request, model_id(model), &)
  elapsed = ((Time.now - start_time) * 1000).round
  log.debug { "bedrock.provider.stream: completed model=#{model_id(model)} elapsed_ms=#{elapsed}" }
  result
end

#stream_url ⇒ `Object`

135	# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 135 def stream_url = 'ConverseStream'

#translator ⇒ `Object`



126
127
128

# File 'lib/legion/extensions/llm/bedrock/provider.rb', line 126

def translator
  @translator ||= Translator.new(region: region)
end

Class: Legion::Extensions::Llm::Bedrock::Provider

Overview

Defined Under Namespace

Constant Summary collapse

Class Method Summary collapse

Instance Method Summary collapse

Class Method Details

.capabilities ⇒ Object

.configuration_options ⇒ Object

.configuration_requirements ⇒ Object

.default_tier ⇒ Object

.default_transport ⇒ Object

.inference_profile_id(model, region: nil) ⇒ Object

.region_prefix(region) ⇒ Object

.registry_publisher ⇒ Object

.resolve_model_id(model_id, config: nil) ⇒ Object

.slug ⇒ Object

Instance Method Details

#api_base ⇒ Object

#chat(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ Object

#complete(messages, tools:, temperature:, model:, params: {}, headers: {}, schema: nil, thinking: nil, tool_prefs: nil) ⇒ Object

#completion_url ⇒ Object

#count_tokens(messages:, model:, system: nil, params: {}) ⇒ Object

#count_tokens_url ⇒ Object

#discover_offerings(live: false, **filters) ⇒ Object

#embed(text:, model:, dimensions: nil, params: {}, **_provider_options) ⇒ Object

#embedding_url ⇒ Object

#health(live: false) ⇒ Object

#list_models ⇒ Object

#models_url ⇒ Object

#offering_for(model:, model_family: nil, instance_id: :default, **metadata) ⇒ Object

#readiness(live: false) ⇒ Object

#region ⇒ Object

#stream(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {}, thinking: nil, **_provider_options) ⇒ Object

#stream_url ⇒ Object

#translator ⇒ Object