LDA-HSI — Plataforma del Espacio de Diseño de Wordification

Contexto de Negocio

El sensado hiperespectral está cada vez más disponible, pero cómo convertir espectros crudos en un corpus de modelo de tópicos se trata como algo secundario — cuando de hecho puede invertir qué método parece ganar. Sin una comparación sistemática, un practicante no tiene base fundamentada para elegir una representación, y los resultados publicados pueden depender de una decisión de preprocesamiento no examinada.

Valor Estratégico

El titular defendible es un hallazgo sobre metodología, no un récord de exactitud: la elección de wordification cambia materialmente las conclusiones, y no hay ganador universal — hay dos polos y un eje no discriminante. V8 (endmembers NFINDR) es la receta portable y reproducible (mayor NMI tópico–etiqueta entre backbones 0.431, +0.034 sobre el segundo; fiabilidad de re-semilla ≈0.96, estable en Q) — la que se elige cuando el backbone es incierto. V20 (bandas ponderadas por IM) es el pico de escalamiento en Q bajo LDA (el NMI F-7 sube a 0.563 en Q=32; va detrás de V12 en Q=8 y luego el ranking se invierte liderando por +0.030 en Q=32) — la que se elige cuando LDA está fijo y Q≥16 es viable. V11 es un especialista de backbone (gana HDP y ETM, colapsa bajo LDA). Y la exactitud de clasificación F-1 no discrimina — todas las recetas caen ~0.86–0.92 — por lo que la plataforma se niega a titular con una victoria de exactitud. Es totalmente reproducible (grilla Q=8 de 1140 celdas, 100% poblada; ~1726 artefactos versionados; smoke de API 133/133 por despliegue) y se expone vía una app web de 28 pestañas, una API pública de extensión-Q, y un conjunto de manuscritos P3/P4/P5.

Indicadores Clave de Rendimiento

KPI	Línea Base	Resultado	Impacto
Espacio de diseño barrido	1 receta, 1 backbone (el default del campo)	19 recetas × 4 backbones × Q∈{8,16,32}	Elección de representación hecha medible
Líder portable (entre backbones)	sin análisis de portabilidad	V8 — NMI F-7 0.431 (+0.034), fiabilidad ≈0.96	Usar cuando el backbone es incierto
Pico de escalamiento Q en LDA	V20 va detrás de V12 en Q=8	el ranking se invierte; V20 lidera +0.030 en Q=32	Usar cuando LDA fijo, Q≥16

Which Wordification Matters?

LDA-HSI is the current state of the hyperspectral topic-modelling line that began as a 2022 conference paper. It treats spectral variability as a corpus — pixel spectra become documents of quantised spectral tokens — and asks the question the original paper only gestured at: which “wordification” should a topic model actually see, and does that choice change the conclusions? The offline experiment grid is the product; the public web app is a validated projection of its outputs.

The Design Space

Nineteen wordification recipes (V1–V20, V16 reserved) span seven families — band intensities, wavelet/derivative responses, absorption & endmember fractions, learnt codebooks, manifold coordinates, spatial regions, and label-aware MI weights. Each is run across four topic-model backbones (LDA, HDP, ProdLDA, ETM) and three quantisation levels (Q ∈ {8,16,32}), scored on a 12-axis evaluation battery with a hierarchical-Bayesian dominance test per axis. The Q=8 base grid is 1140 cells, 100% populated.

Datasets — Indian Pines Is Only the Headline

Where the 2022 work used a few small private mineral sets, the platform spans a deliberately broad surface so a representation’s win has to hold across sensors and scene types: six public labelled scenes (Indian Pines as the headline, plus Salinas, Salinas-A, Pavia University, KSC, Botswana), public spectral libraries (USGS splib07, ECOSTRESS), unmixing benchmarks (Samson, Jasper Ridge, Urban), the HIDSAG mineral subsets (the bridge back to the geometallurgy origin), and MicaSense MSI field samples.

The Verdict: Two Poles, No Leaderboard

V8 (NFINDR endmembers) is the portable recipe — highest topic–label NMI averaged across all four backbones (0.431, +0.034 over rank two) and reliable across reseeds (≈0.96). V20 (MI-weighted bands) is the LDA Q-scaling peak — its F-7 NMI climbs to 0.563 at Q=32; it trails V12 at Q=8, then the ranking inverts and V20 leads by +0.030 at Q=32. V11 is a backbone specialist (wins HDP and ETM, collapses under LDA). And F-1 classification accuracy does not discriminate — every recipe sits within ~0.86–0.92 — so no recipe is headlined on accuracy. An earlier “triple-axis win” framing was walked back after an internal audit (F-1 ties; V20 ties V12 on F-2 coherence); the surviving claim is the narrow, true one above.

Live, Reproducible

A React/Vite web app exposes a 28-tab interactive workspace + benchmarks; a public Q-extension API serves the topic-count trajectories; ~1726 reproducible artefacts back every figure, with 133/133 API smoke on each deploy. Companion manuscripts (P3 nineteen-recipe sweep, P4 backbone factorial, P5 interpretability) are in preparation. Live at lda-hsi.fasl-work.com.

LDA-HSI — Plataforma del Espacio de Diseño de Wordification

Contexto de Negocio

Valor Estratégico

El Desafío

Nuestro Enfoque