Module: Rpdfium::Util::TextExtraction

Defined in:: lib/rpdfium/util/text_extraction.rb

Overview

Estrazione testo “lineare” da una collezione di char, layout=False. Equivalente di pdfplumber.utils.text.chars_to_textmap nella variante senza preservazione del layout grafico.

Algoritmo:

1. Estrai words con WordExtractor (gli stessi tolerance).
2. Cluster di words per `top` con y_tolerance → righe logiche.
3. Per ogni riga, ordina per x0 e joina con singolo spazio.
4. Joina le righe con "\n".

NOTA su una sottigliezza: pdfplumber permette di usare x_tolerance diverso da y_tolerance sia per word-extraction che per line-clustering. Replichiamo questa flessibilità.

Constant Summary collapse

DEFAULT_X_TOLERANCE =

WordExtractor::DEFAULT_X_TOLERANCE

DEFAULT_Y_TOLERANCE =

WordExtractor::DEFAULT_Y_TOLERANCE

Class Method Summary collapse

.extract_text(chars, x_tolerance: DEFAULT_X_TOLERANCE, y_tolerance: DEFAULT_Y_TOLERANCE, keep_blank_chars: false) ⇒ Object

Class Method Details

.extract_text(chars, x_tolerance: DEFAULT_X_TOLERANCE, y_tolerance: DEFAULT_Y_TOLERANCE, keep_blank_chars: false) ⇒ `Object`