Module: Legion::LLM::Call::Embeddings

Extended by:: Legion::Logging::Helper

Defined in:: lib/legion/llm/call/embeddings.rb

Constant Summary collapse

PREFIX_REGISTRY =

{
  'nomic-embed-text'  => { document: 'search_document: ', query: 'search_query: ' },
  'mxbai-embed-large' => { query: 'Represent this sentence for searching relevant passages: ' }
}.freeze

Class Method Summary collapse

.default_model ⇒ Object
.generate(text:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ Object
.generate_batch(texts:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ Object

Class Method Details

.default_model ⇒ `Object`



117
118
119

# File 'lib/legion/llm/call/embeddings.rb', line 117

def default_model
  resolve_model
end

.generate(text:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ `Object`

# File 'lib/legion/llm/call/embeddings.rb', line 19

def generate(text:, model: nil, provider: nil, instance: nil,
             dimensions: nil, task: :document)
  return not_started_result(model, provider) unless LLM.started?

  provider ||= resolve_provider
  return unavailable_result(model, provider) unless provider

  model ||= resolve_model
  text = coerce_text(text)
  text_length = text.length
  prepared_texts = prepare_embedding_texts(text, provider: provider, model: model, task: task)
  dispatch_text = prepared_texts.one? ? prepared_texts.first : prepared_texts

  log.info("[llm][embed] action=generate provider=#{provider} instance=#{instance || 'default'} " \
           "model=#{model} task=#{task} text_chars=#{text_length} chunks=#{prepared_texts.size}")

  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  response = Dispatch.call(
    provider:   provider,
    instance:   instance,
    capability: :embed,
    model:      model,
    text:       dispatch_text,
    dimensions: dimensions
  )
  elapsed = ((::Process.clock_gettime(::Process::CLOCK_MONOTONIC) - started_at) * 1000).round(1)

  vector = if prepared_texts.size > 1
             aggregate_vectors(response[:result], weights: prepared_texts.map(&:length), model: model, provider: provider)
           else
             normalize_vector(response[:result])
           end
  vector = enforce_dimensions(vector) if enforce_dimension?
  tokens = extract_tokens(response)

  log.info("[llm][embed] action=generate.complete provider=#{provider} instance=#{instance || 'default'} " \
           "model=#{model} dimensions=#{vector&.size || 0} tokens=#{tokens} chunks=#{prepared_texts.size} duration_ms=#{elapsed}")

  {
    vector:     vector,
    model:      model,
    provider:   provider,
    dimensions: vector&.size || 0,
    tokens:     tokens,
    chunks:     prepared_texts.size
  }
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.embeddings.generate')
  { vector: nil, model: model, provider: provider, error: e.message }
end

.generate_batch(texts:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ `Object`

# File 'lib/legion/llm/call/embeddings.rb', line 70

def generate_batch(texts:, model: nil, provider: nil, instance: nil,
                   dimensions: nil, task: :document)
  return texts.map { { vector: nil, error: 'LLM not started' } } unless LLM.started?

  provider ||= resolve_provider
  model ||= resolve_model

  log.info("[llm][embed] action=generate_batch provider=#{provider} instance=#{instance || 'default'} " \
           "model=#{model} count=#{texts.size} task=#{task}")

  raw_texts = texts.map { |t| coerce_text(t) }
  prepared_texts = raw_texts.map { |t| prepare_embedding_texts(t, provider: provider, model: model, task: task) }
  if prepared_texts.any? { |chunks| chunks.size > 1 }
    return generate_chunked_batch(
      raw_texts,
      model:      model,
      provider:   provider,
      instance:   instance,
      dimensions: dimensions,
      task:       task
    )
  end

  texts = prepared_texts.map(&:first)

  started_at = ::Process.clock_gettime(::Process::CLOCK_MONOTONIC)
  response = Dispatch.call(
    provider:   provider,
    instance:   instance,
    capability: :embed,
    model:      model,
    text:       texts,
    dimensions: dimensions
  )
  elapsed = ((::Process.clock_gettime(::Process::CLOCK_MONOTONIC) - started_at) * 1000).round(1)

  result = normalize_batch(response[:result], model, provider)

  log.info("[llm][embed] action=generate_batch.complete provider=#{provider} " \
           "model=#{model} count=#{result.size} duration_ms=#{elapsed}")

  result
rescue StandardError => e
  handle_exception(e, level: :warn, operation: 'llm.embeddings.generate_batch')
  texts.map { { vector: nil, model: model, provider: provider, error: e.message } }
end

Module: Legion::LLM::Call::Embeddings

Constant Summary collapse

Class Method Summary collapse

Class Method Details

.default_model ⇒ Object

.generate(text:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ Object

.generate_batch(texts:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ Object

.default_model ⇒ `Object`

.generate(text:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ `Object`

.generate_batch(texts:, model: nil, provider: nil, instance: nil, dimensions: nil, task: :document) ⇒ `Object`