Investigación en curso · 2026
ARGIRA
Sonificación
y Métricas
Perceptuales
Ranero García, Jose
Zenodo · CC BY-NC 4.0
¿Puede la estructura visual de una imagen predecir cómo suena perceptualmente? ARGIRA es un proyecto de investigación que responde esta pregunta a través de resultados negativos sistemáticos — mapeando los límites de lo que las representaciones visuales estándar pueden y no pueden explicar sobre la percepción sonora.
La pregunta central
¿Cómo influye el diseño del mapping en la información visual que sobrevive en la representación acústica?
Pregunta inicial (ARGIRA I–III): ¿Es Δ predecible a partir de características visuales? — Los experimentos mostraron que no. ARGIRA IV explica por qué.
Un mapa de lo que
no explica Δ
ARGIRA no es un modelo predictivo. Es un marco de eliminación representacional estructurada: una secuencia de experimentos diseñada para determinar qué clases de representación visual son insuficientes para capturar la diferencia perceptual entre mappings de sonificación.
El proyecto evalúa tres niveles jerárquicos de representación —estadísticas de bajo nivel, espacios de características expandidos y embeddings semánticos proxy— usando regresión lineal robusta y Random Forest con validación cruzada de 5 folds. El corpus incluye ~86 imágenes de dos colecciones visuales heterogéneas: pinturas postimpresionistas y fotografías de paisaje de museo.
Los resultados negativos no son un problema del programa — son su mecanismo. Serie completa · zenodo.20534327 ↗ (abre en nueva pestaña)
La correlación que
lo empezó todo
Al analizar 45 obras con la regla de conversión de Argira, emergió una correlación estadísticamente robusta entre la variabilidad cromática de una pintura y la complejidad sonora de su sonificación.
Esta correlación —r = 0.8869, R² = 0.8417, p < 0.001— no estaba diseñada. Surgió de los datos. Es la razón por la que el proyecto existe: el color parece estar relacionado con el sonido.
16 obras mostradas · Correlación calculada sobre N = 45 obras (dataset completo) · Zenodo v10 (abre en nueva pestaña)
Esta correlación es el punto de partida, no la conclusión. La pregunta que abre es: ¿qué características visuales explican ese vínculo? Los experimentos 11–15 intentan responderla — y encuentran que las representaciones visuales estándar no son suficientes.
El museo sonoro argira.eus/argira-sonification/ permite escuchar esta correlación en acción: las 16 obras ordenadas de menor a mayor cromatismo, de Malevich a Kandinsky.
Antes de la pregunta,
el programa.
Los experimentos 11–15 no surgieron en el vacío. El proyecto acumuló durante meses un corpus de observaciones previas —pipelines, benchmarks, corpus de naturaleza, análisis de clustering— que establecieron los fenómenos a explicar y descartaron hipótesis tempranas. Estos depósitos son el suelo del que crece ARGIRA I–V.
Corpus adicionales: Dataset unificado 74 imágenes · zenodo.20402536 ↗ · Espacio A=f(H,S,I) · zenodo.20388416 ↗ · Dataset B_v9 (43 obras, umbral v*) · zenodo.20357570 ↗
Tres niveles.
El mismo resultado.
Δ no puede modelarse de forma robusta mediante las representaciones visuales evaluadas.
Aumentar la complejidad representacional —de estadísticas básicas a espacios expandidos a embeddings semánticos— no mejora de forma consistente la predicción de Δ. ARGIRA IV sugiere que esta limitación surge porque Δ combina dos mappings con sensibilidades visuales distintas, ocultando estructuras predictivas que emergen cuando cada mapping se analiza por separado.
ARGIRA II · zenodo.20526610 (abre en nueva pestaña) ↗
ARGIRA III · zenodo.20526682 (abre en nueva pestaña) ↗
| Nivel | Mejor R² CV | Estado |
|---|---|---|
| Bajo nivel Exp 11–13 |
Sin señal | |
| Medio nivel Exp 14 |
Marginal | |
| Semántico Exp 15 |
Sin señal |
Resumen del estudio
De la divergencia perceptual
a la asimetría estructural
ARGIRA IV reexamina los resultados negativos de las fases anteriores desde una perspectiva diferente. En lugar de modelar directamente Δ como variable objetivo, analiza por separado los dos mappings que la componen: OPRS y RTR. Este cambio metodológico revela una asimetría estructural previamente oculta.
Modelado independiente de mappings — ARGIRA IV
Los resultados negativos de ARGIRA I–III no indican ausencia de relaciones imagen-sonido.
La dificultad surge al modelar directamente una variable compuesta (Δ) que combina dos transformaciones con sensibilidades distintas y parcialmente opuestas. Cuando ambos mappings se estudian por separado, emergen estructuras predictivas claramente diferenciadas.
Los algoritmos de sonificación
no son traductores neutros
Cada mapping selecciona, preserva y descarta diferentes propiedades de la imagen. La elección del mapping determina qué aspectos de la obra sobreviven en la representación acústica.
Inversión de predictores
entre dominios
ARGIRA V investiga si las mismas variables visuales predicen la rugosidad en dominios visuales y acústicos. El estudio combina cinco corpus visuales independientes (n=319 imágenes) y un corpus acústico (n=72 sonificaciones), con 391 casos analizados en total.
lum_contrast: secundario (ρ = 0.56–0.74)
edge_density aquí: secundario (ρ = 0.428)
Los resultados apoyan una arquitectura de sonificación multicapa donde la información estructural (edge_density) y la información cromática (hue_entropy) deben representarse de forma independiente, ya que contribuyen información no redundante a dominios de rugosidad distintos.
La pregunta ya no es ¿qué sonido produce una imagen?
Sino: ¿qué aspecto de la imagen quiero que el usuario perciba mediante el sonido?
Un mapping es una
hipótesis perceptual
ARGIRA IV revela que cada algoritmo de sonificación no traduce una imagen: selecciona qué dimensión visual merece sobrevivir en el sonido. Esta selección no es técnica, es epistemológica. El diseñador del mapping decide —implícitamente— qué es la imagen para el oyente.
De este principio se deriva una consecuencia directa: no existe una única sonificación correcta de una imagen. Existen tantas sonificaciones válidas como propiedades visuales se consideren relevantes comunicar.
| Propiedad visual | Mapping posible | Lo que percibe el usuario |
|---|---|---|
| Color (Hue) | hue → frecuencia | Clima cromático |
| Saturación | saturación → amplitud | Intensidad emocional |
| Brillo | luminancia → pitch | Claridad / oscuridad |
| Bordes | edge density → rugosidad | Geometría |
| Textura | roughness → modulación | Relieve |
| Simetría | symmetry → consonancia | Orden |
| Entropía | entropy → ruido espectral | Complejidad |
| Contraste | contrast → rango dinámico | Tensión |
| Profundidad | depth → reverberación | Espacio |
| Movimiento | optical flow → tempo | Dinamismo |
ARGIRA explora actualmente: hue, entropía cromática, rugosidad espacial.
Cuatro tipos de
filtro perceptual
A partir de los resultados de ARGIRA IV, es posible esbozar una primera clasificación de mappings según el tipo de propiedad visual que priorizan y la experiencia perceptual que generan en el oyente.
ARGIRA IV · zenodo.20530682 (abre en nueva pestaña) ↗
Transmiten la geometría de la imagen: bordes, contornos, orientación, composición. El oyente puede «sentir» la estructura visual.
Traducen la paleta de la imagen en dimensiones acústicas. Hue, saturación y brillo como tres canales independientes de información cromática.
Mapean la posición en la imagen al espacio acústico. Posición X al paneo, posición Y a la altura tonal. El oyente navega la imagen como un territorio.
Transmiten el carácter emocional o expresivo de la imagen. No una propiedad medible, sino la sensación que genera.
De estudiar una correlación a proponer una teoría del diseño de mappings.
Si este resultado se consolida con más mappings, ARGIRA podría pasar de analizar Δ como variable estadística a proponer un marco teórico para el diseño de mappings en accesibilidad multimodal — una contribución considerablemente más amplia que explicar una diferencia perceptual entre dos algoritmos.
No «el sonido de la imagen».
Una interpretación acústica de una propiedad concreta de la imagen.
RTR → atmósfera · color · distribución cromática
ARGIRA V publicado.
El programa continúa.
La inversión de predictores entre dominios (edge_density visual / hue_entropy acústico) abre preguntas que el proyecto aún no ha abordado. Cada una es una dirección de investigación independiente.
ARGIRA V · zenodo.20534328 (abre en nueva pestaña) ↗
¿Puedes distinguir las sonificaciones
de dos imágenes de distinta variabilidad cromática?
La encuesta ARGIRA es un test de escucha de 3 minutos. Se presentan dos obras distintas, cada una con su propia sonificación, y se pide elegir cuál suena más compleja / con más variabilidad cromática. Sin conocimiento previo requerido. Para cualquier oyente, con o sin discapacidad visual.
Los datos son anónimos y se publicarán en abierto en Zenodo bajo CC BY-NC 4.0.
Sin registro
El programa ARGIRA
en una página
Un proyecto de investigación en sonificación que evalúa sistemáticamente qué clases de representación visual pueden — y no pueden — predecir la diferencia perceptual entre mappings acústicos. Cinco estudios, todos con acceso abierto en Zenodo.
¿Cómo influye el diseño del mapping en la información visual que sobrevive en la representación acústica? ¿Qué características visuales predicen la diferencia perceptual Δ = OPRS − RTR?
~86 imágenes (pinturas postimpresionistas + fotografías de museo). Regresión Ridge y Random Forest con CV-5 folds. Tres niveles de representación visual evaluados de forma jerárquica. Todos los materiales reproducibles en Zenodo.
| Estudio | Pregunta | Resultado | DOI |
|---|---|---|---|
| ARGIRA I | Features de bajo nivel (8 variables) — Exp 11 | R² CV < 0 | 20524644 ↗ (abre en nueva pestaña) |
| ARGIRA II | Features expandidas con PCA (209 variables) — Exp 11–15 | R² CV ≈ 0.10 | 20526610 ↗ (abre en nueva pestaña) |
| ARGIRA III | Descriptores semánticos LLM — Claude Haiku, n=72 | R² CV = −0.162 | 20526682 ↗ (abre en nueva pestaña) |
| ARGIRA IV | OPRS y RTR modelados por separado — asimetría estructural | OPRS R²=0.582 RTR R²=0.086 |
20530682 ↗ (abre en nueva pestaña) |
| ARGIRA V | Inversión de predictores cross-corpus — n=391, 5 corpus visuales + 1 acústico | edge_density ≠ hue_entropy ρ≈−0.10 |
20534328 ↗ (abre en nueva pestaña) |
Δ no puede modelarse de forma robusta mediante las representaciones visuales evaluadas. ARGIRA IV revela por qué: OPRS y RTR preservan propiedades visuales estructuralmente distintas. ARGIRA V confirma que la asimetría generaliza entre dominios y corpus.
Ranero García, J. (2026). ARGIRA: Sonificación y Métricas Perceptuales
(Serie completa I–V). Zenodo.
doi.org/10.5281/zenodo.20534327 ↗ (abre en nueva pestaña)
ICAD 2026 · Poster #4302 · Barcelona · Jul 2026