Class: DWH::Adapters::Databricks

Inherits:

Adapter

Object
Adapter
DWH::Adapters::Databricks

show all

Defined in:: lib/dwh/adapters/databricks.rb

Overview

Databricks adapter for executing SQL queries against Databricks SQL warehouses.

Supports OAuth M2M (service principal) authentication only.

Examples:

Connection with OAuth (service principal)

DWH.create(:databricks, {
  host: 'adb-1234567890123456.7.azuredatabricks.net',
  warehouse: 'abc123def456',
  oauth_client_id: 'service-principal-app-id',
  oauth_client_secret: 'your-oauth-secret-here',
  catalog: 'main',
  schema: 'default'
})

Constant Summary collapse

DEFAULT_POLL_INTERVAL =

0.25

MAX_POLL_INTERVAL =

STATEMENTS_API =

'/api/2.0/sql/statements'.freeze

Constants included from Settings

Settings::BASE_SETTINGS_FILE

Constants included from Functions::Dates

Functions::Dates::DATE_CLASSES, Functions::Dates::TIMESTAMPABLE_UNITS

Instance Attribute Summary

Attributes inherited from Adapter

#config, #settings

Attributes included from Settings

#adapter_settings

Instance Method Summary collapse

#connection ⇒ Object
#execute(sql, format: :array, retries: 0) ⇒ Array<Array>, ...

Execute sql on the target database.
#execute_stream(sql, io, stats: nil, retries: 0) ⇒ Object
#initialize(config) ⇒ Databricks constructor

A new instance of Databricks.
#metadata(table, **qualifiers) ⇒ Object
#stats(table, date_column: nil) ⇒ Object
#stream(sql) {|chunk| ... } ⇒ Object

Execute SQL query and yield streamed results.
#tables(**qualifiers) ⇒ Object
#test_connection(raise_exception: false) ⇒ Object

Constructor Details

#initialize(config) ⇒ `Databricks`

Returns a new instance of Databricks.

# File 'lib/dwh/adapters/databricks.rb', line 34

def initialize(config)
  super
  validate_auth_config
end

Instance Method Details

#connection ⇒ `Object`

# File 'lib/dwh/adapters/databricks.rb', line 39

def connection
  return @connection if @connection && !token_expired?

  reset_connection if token_expired?
  @connection = Faraday.new(
    url: "https://#{workspace_host}",
    headers: {
      'Content-Type' => 'application/json',
      'Authorization' => "Bearer #{auth_token}",
      'User-Agent' => config[:client_name]
    },
    request: {
      timeout: config[:query_timeout]
    }.merge(extra_connection_params)
  )
end

#execute(sql, format: :array, retries: 0) ⇒ `Array<Array>`, ...

Execute sql on the target database.

Parameters:

sql (String) —

actual sql
format (Symbol, String) (defaults to: :array) —
return format type
- array returns array of array
- object returns array of Hashes
- csv returns as csv
- native returns the native result from any clients used
  - For example: Postgres using pg client will return PG::Result
  - Http clients will returns the HTTP response object
retries (Integer) (defaults to: 0) —

number of retries in case of failure. Default is 0

Returns:

(Array<Array>, Hash, CSV, Native)

Raises:

(ConnectionError, ExecutionError)

# File 'lib/dwh/adapters/databricks.rb', line 67

def execute(sql, format: :array, retries: 0)
  result = with_retry(retries + 1) do
    with_debug(sql) do
      response = submit_query(sql)
      fetch_data(handle_query_response(response))
    end
  end

  format_result(result, format)
end

#execute_stream(sql, io, stats: nil, retries: 0) ⇒ `Object`

# File 'lib/dwh/adapters/databricks.rb', line 78

def execute_stream(sql, io, stats: nil, retries: 0)
  with_retry(retries) do
    with_debug(sql) do
      response = submit_query(sql)
      fetch_data(handle_query_response(response), io: io, stats: stats)
    end
  end

  io.rewind
  io
end

#metadata(table, **qualifiers) ⇒ `Object`

Raises:

(ConfigError)

# File 'lib/dwh/adapters/databricks.rb', line 113

def metadata(table, **qualifiers)
  catalog = qualifiers[:catalog] || config[:catalog]
  schema = qualifiers[:schema] || config[:schema]

  raise ConfigError, 'catalog is required for Databricks metadata query' unless catalog

  db_table = Table.new(table, schema: schema, catalog: catalog)

  sql = <<~SQL
    SELECT column_name, data_type, numeric_precision, numeric_scale, character_maximum_length
    FROM #{catalog}.information_schema.columns
    WHERE table_name = '#{db_table.physical_name}'
  SQL
  sql += " AND table_schema = '#{db_table.schema}'" if db_table.schema

  columns = execute(sql)

  columns.each do |col|
    db_table << Column.new(
      name: col[0]&.downcase,
      data_type: col[1]&.downcase,
      precision: col[2],
      scale: col[3],
      max_char_length: col[4]
    )
  end

  db_table
end

#stats(table, date_column: nil) ⇒ `Object`

# File 'lib/dwh/adapters/databricks.rb', line 143

def stats(table, date_column: nil)
  date_fields = if date_column
                  ", MIN(#{date_column}) AS date_start, MAX(#{date_column}) AS date_end"
                else
                  ', NULL AS date_start, NULL AS date_end'
                end

  data = execute("SELECT COUNT(*) AS row_count#{date_fields} FROM #{table}")
  cols = data.first

  TableStats.new(
    row_count: cols[0],
    date_start: cols[1],
    date_end: cols[2]
  )
end

#stream(sql) {|chunk| ... } ⇒ `Object`

Execute SQL query and yield streamed results

Parameters:

sql (String) —

SQL query to execute

Yields:

(chunk) —

yields each chunk of data as it’s processed

# File 'lib/dwh/adapters/databricks.rb', line 93

def stream(sql, &block)
  with_debug(sql) do
    response = submit_query(sql)
    fetch_data(handle_query_response(response), proc: block)
  end
end

#tables(**qualifiers) ⇒ `Object`

Raises:

(ConfigError)

# File 'lib/dwh/adapters/databricks.rb', line 100

def tables(**qualifiers)
  catalog = qualifiers[:catalog] || config[:catalog]
  schema = qualifiers[:schema] || config[:schema]

  raise ConfigError, 'catalog is required for Databricks tables query' unless catalog

  sql = "SELECT table_name FROM #{catalog}.information_schema.tables"
  sql += " WHERE table_schema = '#{schema}'" if schema

  result = execute(sql)
  result.flatten
end

#test_connection(raise_exception: false) ⇒ `Object`

# File 'lib/dwh/adapters/databricks.rb', line 56

def test_connection(raise_exception: false)
  execute('SELECT 1')
  true
rescue StandardError => e
  raise ConnectionError, "Failed to connect to Databricks: #{e.message}" if raise_exception

  logger.error "Connection test failed: #{e.message}"
  false
end

Class: DWH::Adapters::Databricks

Overview

Examples:

Connection with OAuth (service principal)

Constant Summary collapse

Constants included from Settings

Constants included from Functions::Dates

Instance Attribute Summary

Attributes inherited from Adapter

Attributes included from Settings

Instance Method Summary collapse

Methods inherited from Adapter

Methods included from Settings

Methods included from Logger

Methods included from Behaviors

Methods included from Functions

Methods included from Functions::Arrays

Methods included from Functions::Nulls

Methods included from Functions::ExtractDatePart

Methods included from Functions::Dates

Methods included from Capabilities

Constructor Details

#initialize(config) ⇒ Databricks

Instance Method Details

#connection ⇒ Object

#execute(sql, format: :array, retries: 0) ⇒ Array<Array>, ...

#execute_stream(sql, io, stats: nil, retries: 0) ⇒ Object

#metadata(table, **qualifiers) ⇒ Object

#stats(table, date_column: nil) ⇒ Object

#stream(sql) {|chunk| ... } ⇒ Object

#tables(**qualifiers) ⇒ Object

#test_connection(raise_exception: false) ⇒ Object

#initialize(config) ⇒ `Databricks`

#connection ⇒ `Object`

#execute(sql, format: :array, retries: 0) ⇒ `Array<Array>`, ...

#execute_stream(sql, io, stats: nil, retries: 0) ⇒ `Object`

#metadata(table, **qualifiers) ⇒ `Object`

#stats(table, date_column: nil) ⇒ `Object`

#stream(sql) {|chunk| ... } ⇒ `Object`

#tables(**qualifiers) ⇒ `Object`

#test_connection(raise_exception: false) ⇒ `Object`