Module: TinyNNCuda

Defined in:: lib/toy/ffi/tinynn_cuda.rb

Class Method Summary collapse

.adam_step(param, grad, m, v, lr, b1, b2, eps, omc1, omc2) ⇒ Object

Adam step via custom CPU kernel.
.add(a, b) ⇒ Object
.alloc_1d_i32(sess, n) ⇒ Object
.alloc_2d(sess, r, c) ⇒ Object
.build_add(sess, ta, tb) ⇒ Object
.build_gelu(sess, ta) ⇒ Object
.build_matmul(sess, ta, tb) ⇒ Object
.build_rms_norm(sess, x, g, e) ⇒ Object
.build_scale(sess, ta, s) ⇒ Object
.build_softmax(sess, ta) ⇒ Object
.compute(sess) ⇒ Object
.cross_entropy_grad(logits, targets, n_pred) ⇒ Object

cross_entropy_grad = (softmax(logits) - one_hot(targets)) / n_pred.
.download_matmul(sess, tensor, m, n) ⇒ Object
.download_row_major(sess, tensor, rows, cols) ⇒ Object
.embed_back(d_out, indices, vocab_size) ⇒ Object

Embedding scatter-add (backward).
.embed_lookup(table, indices) ⇒ Object

Embedding lookup: gather rows.
.ffn_pipeline(h, w1, w2) ⇒ Object

gelu(h * w1) * w2 chained via the persistent CUDA engine.
.gelu(a) ⇒ Object
.gelu_back(x, dh) ⇒ Object

GeLU backward (tanh approx) via custom CPU kernel.
.matmul(a, b) ⇒ Object
.matmul_t(a, b) ⇒ Object

a * b^T (matches Mat#matmul_t).
.persistent_free(sess) ⇒ Object
.persistent_new(prefer_cuda) ⇒ Object

—– Persistent-session API (mirrors TinyNN’s; see lib/toy/ffi/tinynn.rb) —–.
.realize(sess, r) ⇒ Object
.rms_norm(x, gamma, eps) ⇒ Object
.scale(a, s) ⇒ Object
.sgd_step(param, grad, lr) ⇒ Object

SGD: param_new = param - lr * grad.
.softmax(a) ⇒ Object
.softmax_back(a_softmax, dy) ⇒ Object

Per-row softmax backward.
.stage_transposed_and_upload(sess, target, b) ⇒ Object

Alias to match the CPU module’s name; used by feed_forward_ffi.
.t_matmul(a, b) ⇒ Object

a^T * b (matches Mat#t_matmul).
.upload_int_array(sess, tensor, indices) ⇒ Object

Upload an Array<Int> to a 1D int32 tensor in one FFI call.
.upload_row_major(sess, tensor, mat) ⇒ Object
.upload_transposed(sess, tensor, mat) ⇒ Object

Class Method Details

.adam_step(param, grad, m, v, lr, b1, b2, eps, omc1, omc2) ⇒ `Object`

Adam step via custom CPU kernel. Returns AdamStepResult (param, mom_m, mom_v) — same shape as TinyNN.adam_step.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 758

def self.adam_step(param, grad, m, v, lr, b1, b2, eps, omc1, omc2)
  sess = TinyNNCuda.tnn_session_new(1)
  n = param.nrows * param.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, param.flat[i])
    i = i + 1
  end
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, n + i, grad.flat[i])
    i = i + 1
  end
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, 2 * n + i, m.flat[i])
    i = i + 1
  end
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, 3 * n + i, v.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_adam_step_scratch(sess, n, lr, b1, b2, eps, omc1, omc2)
  new_param = Mat.new(param.nrows, param.ncols)
  new_mom_m = Mat.new(param.nrows, param.ncols)
  new_mom_v = Mat.new(param.nrows, param.ncols)
  i = 0
  while i < n
    new_param.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    new_mom_m.flat[i] = TinyNNCuda.tnn_scratch_get(sess, 2 * n + i)
    new_mom_v.flat[i] = TinyNNCuda.tnn_scratch_get(sess, 3 * n + i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  AdamStepResult.new(new_param, new_mom_m, new_mom_v)
end

.add(a, b) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 379

def self.add(a, b)
  sess = TinyNNCuda.tnn_session_new(1)
  ta = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tb = TinyNNCuda.tnn_input_2d_f32(sess, b.nrows, b.ncols)
  tc = TinyNNCuda.tnn_add(sess, ta, tb)
  TinyNNCuda.tnn_realize(sess, tc)
  n = a.nrows * a.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, b.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tb)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.nrows, a.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.alloc_1d_i32(sess, n) ⇒ `Object`

800	# File 'lib/toy/ffi/tinynn_cuda.rb', line 800 def self.alloc_1d_i32(sess, n); TinyNNCuda.tnn_input_1d_i32(sess, n); end

.alloc_2d(sess, r, c) ⇒ `Object`

799	# File 'lib/toy/ffi/tinynn_cuda.rb', line 799 def self.alloc_2d(sess, r, c); TinyNNCuda.tnn_input_2d_f32(sess, r, c); end

.build_add(sess, ta, tb) ⇒ `Object`

802	# File 'lib/toy/ffi/tinynn_cuda.rb', line 802 def self.build_add(sess, ta, tb); TinyNNCuda.tnn_add(sess, ta, tb); end

.build_gelu(sess, ta) ⇒ `Object`

803	# File 'lib/toy/ffi/tinynn_cuda.rb', line 803 def self.build_gelu(sess, ta); TinyNNCuda.tnn_gelu(sess, ta); end

.build_matmul(sess, ta, tb) ⇒ `Object`

801	# File 'lib/toy/ffi/tinynn_cuda.rb', line 801 def self.build_matmul(sess, ta, tb); TinyNNCuda.tnn_matmul(sess, ta, tb); end

.build_rms_norm(sess, x, g, e) ⇒ `Object`

806	# File 'lib/toy/ffi/tinynn_cuda.rb', line 806 def self.build_rms_norm(sess, x, g, e); TinyNNCuda.tnn_rms_norm(sess, x, g, e); end

.build_scale(sess, ta, s) ⇒ `Object`

805	# File 'lib/toy/ffi/tinynn_cuda.rb', line 805 def self.build_scale(sess, ta, s); TinyNNCuda.tnn_scale(sess, ta, s); end

.build_softmax(sess, ta) ⇒ `Object`

804	# File 'lib/toy/ffi/tinynn_cuda.rb', line 804 def self.build_softmax(sess, ta); TinyNNCuda.tnn_softmax(sess, ta); end

.compute(sess) ⇒ `Object`

808	# File 'lib/toy/ffi/tinynn_cuda.rb', line 808 def self.compute(sess); TinyNNCuda.tnn_compute(sess); end

.cross_entropy_grad(logits, targets, n_pred) ⇒ `Object`

cross_entropy_grad = (softmax(logits) - one_hot(targets)) / n_pred. Composable from TinyNNCuda.softmax + scale + add.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 742

def self.cross_entropy_grad(logits, targets, n_pred)
  oh = Mat.new(logits.nrows, logits.ncols)
  i = 0
  while i < n_pred
    oh.flat[i * logits.ncols + targets[i]] = 1.0
    i = i + 1
  end
  sm = TinyNNCuda.softmax(logits)
  inv_n = 1.0 / n_pred.to_f
  sm_s = TinyNNCuda.scale(sm, inv_n)
  oh_s = TinyNNCuda.scale(oh, -inv_n)
  TinyNNCuda.add(sm_s, oh_s)
end

.download_matmul(sess, tensor, m, n) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 844

def self.download_matmul(sess, tensor, m, n)
  TinyNNCuda.tnn_download(sess, tensor)
  out = Mat.new(m, n)
  i = 0
  while i < m
    j = 0
    while j < n
      out.flat[i * n + j] = TinyNNCuda.tnn_scratch_get(sess, j * m + i)
      j = j + 1
    end
    i = i + 1
  end
  out
end

.download_row_major(sess, tensor, rows, cols) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 832

def self.download_row_major(sess, tensor, rows, cols)
  TinyNNCuda.tnn_download(sess, tensor)
  out = Mat.new(rows, cols)
  n = rows * cols
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  out
end

.embed_back(d_out, indices, vocab_size) ⇒ `Object`

Embedding scatter-add (backward).

# File 'lib/toy/ffi/tinynn_cuda.rb', line 675

def self.embed_back(d_out, indices, vocab_size)
  n_idx = indices.length
  sess  = TinyNNCuda.tnn_session_new(1)
  td    = TinyNNCuda.tnn_input_2d_f32(sess, d_out.nrows, d_out.ncols)
  tidx  = TinyNNCuda.tnn_input_1d_i32(sess, n_idx)
  tshape = TinyNNCuda.tnn_input_2d_f32(sess, vocab_size, d_out.ncols)
  tout  = TinyNNCuda.tnn_get_rows_back(sess, td, tidx, tshape)
  TinyNNCuda.tnn_realize(sess, tout)
  nd = d_out.nrows * d_out.ncols
  i = 0
  while i < nd
    TinyNNCuda.tnn_scratch_set(sess, i, d_out.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, td)
  i = 0
  while i < n_idx
    TinyNNCuda.tnn_scratch_set_i32(sess, i, indices[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tidx)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tout)
  out = Mat.new(vocab_size, d_out.ncols)
  n = vocab_size * d_out.ncols
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.embed_lookup(table, indices) ⇒ `Object`

Embedding lookup: gather rows.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 641

def self.embed_lookup(table, indices)
  n_idx = indices.length
  sess  = TinyNNCuda.tnn_session_new(1)
  ttab  = TinyNNCuda.tnn_input_2d_f32(sess, table.nrows, table.ncols)
  tidx  = TinyNNCuda.tnn_input_1d_i32(sess, n_idx)
  tout  = TinyNNCuda.tnn_get_rows(sess, ttab, tidx)
  TinyNNCuda.tnn_realize(sess, tout)
  nt = table.nrows * table.ncols
  i = 0
  while i < nt
    TinyNNCuda.tnn_scratch_set(sess, i, table.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ttab)
  i = 0
  while i < n_idx
    TinyNNCuda.tnn_scratch_set_i32(sess, i, indices[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tidx)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tout)
  out = Mat.new(n_idx, table.ncols)
  n = n_idx * table.ncols
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.ffn_pipeline(h, w1, w2) ⇒ `Object`

gelu(h * w1) * w2 chained via the persistent CUDA engine.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 514

def self.ffn_pipeline(h, w1, w2)
  pre    = TinyNNCuda.matmul(h, w1)
  hidden = TinyNNCuda.gelu(pre)
  TinyNNCuda.matmul(hidden, w2)
end

.gelu(a) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 410

def self.gelu(a)
  sess = TinyNNCuda.tnn_session_new(1)
  ta = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tc = TinyNNCuda.tnn_gelu(sess, ta)
  TinyNNCuda.tnn_realize(sess, tc)
  n = a.nrows * a.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.nrows, a.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.gelu_back(x, dh) ⇒ `Object`

GeLU backward (tanh approx) via custom CPU kernel. Mirrors TinyNN.gelu_back; same scratch-layout protocol.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 716

def self.gelu_back(x, dh)
  sess = TinyNNCuda.tnn_session_new(1)
  n = x.nrows * x.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, x.flat[i])
    i = i + 1
  end
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, n + i, dh.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_gelu_back_scratch(sess, n)
  out = Mat.new(x.nrows, x.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, 2 * n + i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.matmul(a, b) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 330

def self.matmul(a, b)
  sess = TinyNNCuda.tnn_session_new(1)   # 1 = prefer CUDA

  ta   = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tb_t = TinyNNCuda.tnn_input_2d_f32(sess, b.ncols, b.nrows)
  tc   = TinyNNCuda.tnn_matmul(sess, ta, tb_t)
  TinyNNCuda.tnn_realize(sess, tc)

  i = 0
  na = a.nrows * a.ncols
  while i < na
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)

  bc = b.ncols
  br = b.nrows
  i = 0
  while i < br
    j = 0
    while j < bc
      TinyNNCuda.tnn_scratch_set(sess, j * br + i, b.flat[i * bc + j])
      j = j + 1
    end
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tb_t)

  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)

  out = Mat.new(a.nrows, b.ncols)
  m = a.nrows
  n = b.ncols
  i = 0
  while i < m
    j = 0
    while j < n
      out.flat[i * n + j] = TinyNNCuda.tnn_scratch_get(sess, j * m + i)
      j = j + 1
    end
    i = i + 1
  end

  TinyNNCuda.tnn_session_free(sess)
  out
end

.matmul_t(a, b) ⇒ `Object`

a * b^T (matches Mat#matmul_t).

# File 'lib/toy/ffi/tinynn_cuda.rb', line 521

def self.matmul_t(a, b)
  sess = TinyNNCuda.tnn_session_new(1)
  ta = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tb = TinyNNCuda.tnn_input_2d_f32(sess, b.nrows, b.ncols)
  tc = TinyNNCuda.tnn_matmul(sess, ta, tb)
  TinyNNCuda.tnn_realize(sess, tc)
  na = a.nrows * a.ncols
  i = 0
  while i < na
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  nb = b.nrows * b.ncols
  i = 0
  while i < nb
    TinyNNCuda.tnn_scratch_set(sess, i, b.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tb)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.nrows, b.nrows)
  m = a.nrows
  n = b.nrows
  i = 0
  while i < m
    j = 0
    while j < n
      out.flat[i * n + j] = TinyNNCuda.tnn_scratch_get(sess, j * m + i)
      j = j + 1
    end
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.persistent_free(sess) ⇒ `Object`

798	# File 'lib/toy/ffi/tinynn_cuda.rb', line 798 def self.persistent_free(sess); TinyNNCuda.tnn_session_free(sess); end

.persistent_new(prefer_cuda) ⇒ `Object`

—– Persistent-session API (mirrors TinyNN’s; see lib/toy/ffi/tinynn.rb) —–

797	# File 'lib/toy/ffi/tinynn_cuda.rb', line 797 def self.persistent_new(prefer_cuda); TinyNNCuda.tnn_session_new(prefer_cuda); end

.realize(sess, r) ⇒ `Object`

807	# File 'lib/toy/ffi/tinynn_cuda.rb', line 807 def self.realize(sess, r); TinyNNCuda.tnn_realize(sess, r); end

.rms_norm(x, gamma, eps) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 434

def self.rms_norm(x, gamma, eps)
  sess = TinyNNCuda.tnn_session_new(1)
  tx = TinyNNCuda.tnn_input_2d_f32(sess, x.nrows, x.ncols)
  tg = TinyNNCuda.tnn_input_2d_f32(sess, 1, x.ncols)
  tc = TinyNNCuda.tnn_rms_norm(sess, tx, tg, eps)
  TinyNNCuda.tnn_realize(sess, tc)
  nx = x.nrows * x.ncols
  i = 0
  while i < nx
    TinyNNCuda.tnn_scratch_set(sess, i, x.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tx)
  i = 0
  while i < x.ncols
    TinyNNCuda.tnn_scratch_set(sess, i, gamma[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tg)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(x.nrows, x.ncols)
  i = 0
  while i < nx
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.scale(a, s) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 489

def self.scale(a, s)
  sess = TinyNNCuda.tnn_session_new(1)
  ta = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tc = TinyNNCuda.tnn_scale(sess, ta, s)
  TinyNNCuda.tnn_realize(sess, tc)
  n = a.nrows * a.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.nrows, a.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.sgd_step(param, grad, lr) ⇒ `Object`

SGD: param_new = param - lr * grad. Composed.



710
711
712

# File 'lib/toy/ffi/tinynn_cuda.rb', line 710

def self.sgd_step(param, grad, lr)
  TinyNNCuda.add(param, TinyNNCuda.scale(grad, -lr))
end

.softmax(a) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 465

def self.softmax(a)
  sess = TinyNNCuda.tnn_session_new(1)
  ta = TinyNNCuda.tnn_input_2d_f32(sess, a.nrows, a.ncols)
  tc = TinyNNCuda.tnn_softmax(sess, ta)
  TinyNNCuda.tnn_realize(sess, tc)
  n = a.nrows * a.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, a.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.nrows, a.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.softmax_back(a_softmax, dy) ⇒ `Object`

Per-row softmax backward.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 609

def self.softmax_back(a_softmax, dy)
  sess = TinyNNCuda.tnn_session_new(1)
  tdy = TinyNNCuda.tnn_input_2d_f32(sess, dy.nrows, dy.ncols)
  ta  = TinyNNCuda.tnn_input_2d_f32(sess, a_softmax.nrows, a_softmax.ncols)
  tc  = TinyNNCuda.tnn_softmax_back(sess, tdy, ta)
  TinyNNCuda.tnn_realize(sess, tc)
  n = dy.nrows * dy.ncols
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, dy.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tdy)
  i = 0
  while i < n
    TinyNNCuda.tnn_scratch_set(sess, i, a_softmax.flat[i])
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a_softmax.nrows, a_softmax.ncols)
  i = 0
  while i < n
    out.flat[i] = TinyNNCuda.tnn_scratch_get(sess, i)
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.stage_transposed_and_upload(sess, target, b) ⇒ `Object`

Alias to match the CPU module’s name; used by feed_forward_ffi.



828
829
830

# File 'lib/toy/ffi/tinynn_cuda.rb', line 828

def self.stage_transposed_and_upload(sess, target, b)
  TinyNNCuda.upload_transposed(sess, target, b)
end

.t_matmul(a, b) ⇒ `Object`

a^T * b (matches Mat#t_matmul). Both uploaded transposed.

# File 'lib/toy/ffi/tinynn_cuda.rb', line 560

def self.t_matmul(a, b)
  sess = TinyNNCuda.tnn_session_new(1)
  ta_t = TinyNNCuda.tnn_input_2d_f32(sess, a.ncols, a.nrows)
  tb_t = TinyNNCuda.tnn_input_2d_f32(sess, b.ncols, b.nrows)
  tc = TinyNNCuda.tnn_matmul(sess, ta_t, tb_t)
  TinyNNCuda.tnn_realize(sess, tc)
  ar = a.nrows
  ac = a.ncols
  i = 0
  while i < ar
    j = 0
    while j < ac
      TinyNNCuda.tnn_scratch_set(sess, j * ar + i, a.flat[i * ac + j])
      j = j + 1
    end
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, ta_t)
  br = b.nrows
  bc = b.ncols
  i = 0
  while i < br
    j = 0
    while j < bc
      TinyNNCuda.tnn_scratch_set(sess, j * br + i, b.flat[i * bc + j])
      j = j + 1
    end
    i = i + 1
  end
  TinyNNCuda.tnn_upload(sess, tb_t)
  TinyNNCuda.tnn_compute(sess)
  TinyNNCuda.tnn_download(sess, tc)
  out = Mat.new(a.ncols, b.ncols)
  m = a.ncols
  n = b.ncols
  i = 0
  while i < m
    j = 0
    while j < n
      out.flat[i * n + j] = TinyNNCuda.tnn_scratch_get(sess, j * m + i)
      j = j + 1
    end
    i = i + 1
  end
  TinyNNCuda.tnn_session_free(sess)
  out
end

.upload_int_array(sess, tensor, indices) ⇒ `Object`

Upload an Array<Int> to a 1D int32 tensor in one FFI call.



815
816
817

# File 'lib/toy/ffi/tinynn_cuda.rb', line 815

def self.upload_int_array(sess, tensor, indices)
  TinyNNCuda.tnn_upload_from_int_array(sess, tensor, indices, indices.length)
end

.upload_row_major(sess, tensor, mat) ⇒ `Object`



810
811
812

# File 'lib/toy/ffi/tinynn_cuda.rb', line 810

def self.upload_row_major(sess, tensor, mat)
  TinyNNCuda.tnn_upload_from_float_array(sess, tensor, mat.flat, mat.nrows * mat.ncols)
end

.upload_transposed(sess, tensor, mat) ⇒ `Object`

# File 'lib/toy/ffi/tinynn_cuda.rb', line 819

def self.upload_transposed(sess, tensor, mat)
  # Chunked in C — works for tensors larger than the 16 MiB scratch
  # buffer (Qwen2.5-0.5B's ffn_* are 17 MB; the per-element path
  # silently truncated at the 4M float boundary).
  TinyNNCuda.tnn_upload_transposed_f64(sess, tensor, mat.flat,
                                        mat.nrows, mat.ncols)
end

Module: TinyNNCuda

Class Method Summary collapse

Class Method Details

.adam_step(param, grad, m, v, lr, b1, b2, eps, omc1, omc2) ⇒ Object

.add(a, b) ⇒ Object

.alloc_1d_i32(sess, n) ⇒ Object

.alloc_2d(sess, r, c) ⇒ Object

.build_add(sess, ta, tb) ⇒ Object

.build_gelu(sess, ta) ⇒ Object

.build_matmul(sess, ta, tb) ⇒ Object

.build_rms_norm(sess, x, g, e) ⇒ Object

.build_scale(sess, ta, s) ⇒ Object

.build_softmax(sess, ta) ⇒ Object

.compute(sess) ⇒ Object

.cross_entropy_grad(logits, targets, n_pred) ⇒ Object

.download_matmul(sess, tensor, m, n) ⇒ Object

.download_row_major(sess, tensor, rows, cols) ⇒ Object

.embed_back(d_out, indices, vocab_size) ⇒ Object

.embed_lookup(table, indices) ⇒ Object

.ffn_pipeline(h, w1, w2) ⇒ Object

.gelu(a) ⇒ Object

.gelu_back(x, dh) ⇒ Object

.matmul(a, b) ⇒ Object

.matmul_t(a, b) ⇒ Object

.persistent_free(sess) ⇒ Object

.persistent_new(prefer_cuda) ⇒ Object

.realize(sess, r) ⇒ Object

.rms_norm(x, gamma, eps) ⇒ Object

.scale(a, s) ⇒ Object

.sgd_step(param, grad, lr) ⇒ Object

.softmax(a) ⇒ Object

.softmax_back(a_softmax, dy) ⇒ Object

.stage_transposed_and_upload(sess, target, b) ⇒ Object

.t_matmul(a, b) ⇒ Object

.upload_int_array(sess, tensor, indices) ⇒ Object

.upload_row_major(sess, tensor, mat) ⇒ Object

.upload_transposed(sess, tensor, mat) ⇒ Object