Análisis Mineral Hiperespectral por Modelado de Tópicos (2022)

Contexto de Negocio

En geometalurgia, saber cómo se comportará un mineral en el procesamiento requiere trabajo de laboratorio demasiado lento y costoso para aplicarlo a todo. La imagen hiperespectral promete un proxy barato, pero solo si la evidencia espectral puede mapearse de forma confiable a los objetivos de laboratorio. Este trabajo de 2022 fue el primero en mostrar que la metáfora documento/tópico de la minería de texto hace exactamente eso sobre muestras minerales reales.

Valor Estratégico

Hasta donde sabemos, la primera formalización de la caracterización mineral hiperespectral como un problema probabilístico de modelado de tópicos. La contribución sobre el esquema jerárquico previo (Egaña et al., Minerals 2020) fue hacer la etapa de clustering probabilística e interpretable — cada muestra es una mezcla suave de tópicos minerales latentes inferidos por LDA, en lugar de una asignación dura a un cluster. En el holdout de sondaje DB1, la regresión enrutada por tópicos con LDA Versión 1 redujo el MAE de recuperación de cobre de 4.568 (línea base ingenua) a 0.422 — cerca de 10x de reducción de error — y la Versión 3 fue comparable. Esta es la idea semilla que luego escaló a la plataforma de investigación LDA-HSI completa; aquí se mantiene modesta y fiel a la época: tres recetas, un backbone (LDA), datasets privados pequeños.

KPI	Línea Base	Resultado	Impacto
Error recuperación cobre (DB1)	MAE ingenuo por espectro 4.568	LDA Versión 1 MAE 0.422	~10x reducción de error
Método	Clustering duro + regresión	Enrutamiento de tópicos LDA probabilístico	Pertenencia suave e interpretable

KPI

Línea Base

Resultado

Impacto

Error recuperación cobre (DB1)

MAE ingenuo por espectro 4.568

LDA Versión 1 MAE 0.422

~10x reducción de error

Método

Clustering duro + regresión

Enrutamiento de tópicos LDA probabilístico

Pertenencia suave e interpretable

The Founding Idea (2022)

Presented as “Geometallurgical Estimation of Mineral Samples from Hyperspectral Images and Statistical Topic Modelling” at the 18th International Conference on Mineral Processing and Geometallurgy (Procemin Geomet 2022, Gecamin), from postdoctoral research at ALGES / AMTC, Universidad de Chile. The idea: treat a hyperspectral mineral sample as a document, its quantised spectral patterns as vocabulary, and let an LDA topic model infer a small set of latent mineral “topics” — then use that topic mixture to route a per-topic regression onto the lab targets.

Spectra as Documents

Three “wordification” recipes were compared (Table 2 of the paper): Version 1 — each wavelength band is a word, the document counts summed quantised intensities per band (reduced and interpretable); Version 2 — words are quantised intensity levels; Version 3 — joint per-spectrum band intensities. Reflectance was quantised to Q levels; topic count chosen by coherence score; engine gensim LDA with pyLDAvis for inspection.

The Result

On a 20% holdout of the DB1 drill-core set, topic-routed hierarchical regression with LDA Version 1 cut copper-recovery MAE from 4.568 (naive per-spectrum baseline) to 0.422 — an order-of-magnitude reduction — with Version 3 comparable (0.432) and Version 2 weaker (0.714). Molybdenum recovery improved similarly (18.6 → 2.2). On the smaller DB2 set (7 topics) estimation error dropped ~10–15% versus baselines. Version 1 — band-frequency — was the strong, interpretable recipe and survives as the canonical baseline in the modern platform.

Scope (Period-Accurate)

This entry stays faithful to the 2022 paper: three recipes, one backbone (LDA), a few small private mineral datasets (drill-core DB1/DB2 plus the early HIDSAG geological subsets) — no public benchmark scenes, no neural backbones, no design-space sweep. That breadth came later. The idea seeded here — spectra as documents, topics as structure — scaled into the LDA-HSI platform: 19 recipes, four backbones, six public scenes, and a live web app.

Análisis Mineral Hiperespectral por Modelado de Tópicos (2022)

Contexto de Negocio

Valor Estratégico

El Desafío

Nuestro Enfoque

Indicadores Clave de Rendimiento

Arquitectura

The Founding Idea (2022)

Spectra as Documents

The Result

Scope (Period-Accurate)

Stack Tecnológico