Investigación en curso · 2026

ARGIRA
Sonificación
y Métricas
Perceptuales

Ranero García, Jose
Zenodo · CC BY-NC 4.0

Nuevo · ARGIRA V publicado · 4 Jun 2026

¿Puede la estructura visual de una imagen predecir cómo suena perceptualmente? ARGIRA es un proyecto de investigación que responde esta pregunta a través de resultados negativos sistemáticos — mapeando los límites de lo que las representaciones visuales estándar pueden y no pueden explicar sobre la percepción sonora.

Participar en la encuesta

La pregunta central

¿Cómo influye el diseño del mapping en la información visual que sobrevive en la representación acústica?

Pregunta inicial (ARGIRA I–III): ¿Es Δ predecible a partir de características visuales? — Los experimentos mostraron que no. ARGIRA IV explica por qué.

Un mapa de lo que
no explica Δ

ARGIRA no es un modelo predictivo. Es un marco de eliminación representacional estructurada: una secuencia de experimentos diseñada para determinar qué clases de representación visual son insuficientes para capturar la diferencia perceptual entre mappings de sonificación.

El proyecto evalúa tres niveles jerárquicos de representación —estadísticas de bajo nivel, espacios de características expandidos y embeddings semánticos proxy— usando regresión lineal robusta y Random Forest con validación cruzada de 5 folds. El corpus incluye ~86 imágenes de dos colecciones visuales heterogéneas: pinturas postimpresionistas y fotografías de paisaje de museo.

La secuencia · Cómo los resultados negativos llevaron a la pregunta correcta

ARGIRA I–III

¿Predice la imagen a Δ?

Tres niveles de representación visual evaluados: bajo nivel · expandidas · semántico LLM.

R² < 0 en todos

ARGIRA II ↗

ARGIRA IV

Δ oculta dos mappings distintos

OPRS y RTR modelados por separado revelan sensibilidades visuales opuestas.

OPRS R²=0.58 · RTR R²=0.25

ARGIRA IV ↗

ARGIRA V

Nuevo

Inversión de predictores

edge_density domina lo visual. hue_entropy domina lo acústico. n=391, 5 corpus.

ρ≈−0.10 ortogonalidad

ARGIRA V ↗

Los resultados negativos no son un problema del programa — son su mecanismo. Serie completa · zenodo.20534327 ↗ (abre en nueva pestaña)

La correlación que
lo empezó todo

Al analizar 45 obras con la regla de conversión de Argira, emergió una correlación estadísticamente robusta entre la variabilidad cromática de una pintura y la complejidad sonora de su sonificación.

Esta correlación —r = 0.8869, R² = 0.8417, p < 0.001— no estaba diseñada. Surgió de los datos. Es la razón por la que el proyecto existe: el color parece estar relacionado con el sonido.

Pearson r = 0.8869 · R² = 0.8417 · p < 0.001 · N = 45 · Argira v3.5

hue_std (variabilidad de tono) → Ds (dimensión espectral / complejidad sonora)

16 obras mostradas · Correlación calculada sobre N = 45 obras (dataset completo) · Zenodo v10 (abre en nueva pestaña)

Esta correlación es el punto de partida, no la conclusión. La pregunta que abre es: ¿qué características visuales explican ese vínculo? Los experimentos 11–15 intentan responderla — y encuentran que las representaciones visuales estándar no son suficientes.

El museo sonoro argira.eus/argira-sonification/ permite escuchar esta correlación en acción: las 16 obras ordenadas de menor a mayor cromatismo, de Malevich a Kandinsky.

Antes de la pregunta,
el programa.

Los experimentos 11–15 no surgieron en el vacío. El proyecto acumuló durante meses un corpus de observaciones previas —pipelines, benchmarks, corpus de naturaleza, análisis de clustering— que establecieron los fenómenos a explicar y descartaron hipótesis tempranas. Estos depósitos son el suelo del que crece ARGIRA I–V.

Correlación fundacional

Chromatic variance & spectral roughness — Replication study (N=30)

Preprint v4. Corpus de 30 pinturas canónicas (15 artistas, 6 siglos). Resultado principal: hue_std → roughness r = 0.687; con entropía de Shannon, R² = 0.732.

10.5281/zenodo.20364540 ↗

Robustez del mapping

Mapping Variants Series — Pipelines 10–13 · Scanline control (08)

Cinco variantes matemáticas (lineal, log, mel, estocástico, cuadrático) sobre 30 pinturas. Resultado: la forma de la función hue→frecuencia no importa; el vínculo sí (r = 0.878–0.951). El control scanline (pipeline 08, sin hue→frecuencia) da r = −0.116 — el vínculo es necesario.

Pipelines 10–13 ↗ Scanline 08 ↗

Mecanismo

Sine Additive Pipeline — Harmonic vs. Non-Harmonic

Pipeline 09 (sinusoide pura, sin armónicos): r = +0.951 vs pipeline 07 (armónico): r = +0.687. Las interacciones inter-armónicas oscurecen, no generan, el efecto.

10.5281/zenodo.20366185 ↗

Geometría espectral emergente

Emergent Corpus v1.0 — Spectral Geometry (N=14)

Regímenes espectrales separables sin reglas armónicas explícitas. Clustering 92.9% de acuerdo con regímenes cromáticos (shuffle p < 0.005). Ds actúa como invariante estructural, no como variable discriminativa.

10.5281/zenodo.20393823 ↗

Generalización a naturaleza

Nature Corpus v2 — Saturation as Predictor (N=21)

Fotografías de bosque y paisaje móvil. Saturación → harmonic count: r = 0.9644. hue_std y fractal_D débiles en este corpus (r = 0.27 y 0.03). La saturación domina en regímenes de baja varianza cromática.

10.5281/zenodo.20392520 ↗

Clustering no supervisado

Clustering Dataset v1 — 74 obras, k-means + PCA

k-means aisla espontáneamente a Rembrandt (claroscuro como firma acústica). Starry Night: visualmente compleja, acústicamente de baja entropía — complejidad rítmica, no aleatoria. Signac: outlier extremo (visual PC1 = 6.41).

10.5281/zenodo.20323085 ↗

Estabilidad metodológica

Experiment 6 — RTR & Bootstrap · Experiment 7 — Estabilidad OPRS · Experiment 8 — Sensibilidad de umbral

Jerarquía Naive > OPRS > RTR estable con 10.000 bootstraps. OPRS converge en N≈50 runs. El orden visual–acústico es robusto en el rango de corte 1000–1750 Hz.

Exp 6 ↗ Exp 7 ↗ Exp 8 ↗

Generalización entre corpus

Experiment 9 — Generalization Across Independent Corpora

Naive generaliza a corpus independientes (r ≈ 0.54–0.62). RTR produce las correlaciones más débiles. OPRS exhibe efecto dependiente del corpus. Base empírica para los experimentos 11–15.

10.5281/zenodo.20516325 ↗

Paradoja & nota técnica

Stereo Width: Malevich vs. Kandinsky — La paradoja invertida

Malevich (casi monocromático) produce mayor anchura estéreo (W = 0.196) que Kandinsky (W = 0.058). Demo interactiva Web Audio API. Invariante del pipeline confirmada en v1 y v3.

10.5281/zenodo.20353894 ↗

Límites formales del sistema

Cycle Closure Experiment — 74 obras, 3 capas epistemológicas

¿Puede reconstruirse la imagen a partir de su sonificación? No — y eso es un resultado más fuerte de lo que parece. Capa A: centro de masa horizontal preservado con error < 0.05 (aplicación directa en accesibilidad). Capa B: correlaciones estructurales significativas (local_contrast → freq r = 0.949, edge_density → effort r = 0.759). Capa C: inversión imposible — los rangos de tempo no se solapan por diseño. ARGIRA es un sistema de preservación estructural, no de inversión.

10.5281/zenodo.20322821 ↗

Análisis espectro-temporal

B_v9 — Spectro-Temporal Persistence, 72 obras, transición de régimen

2.160 observaciones banda-velocidad (6 bandas × 5 condiciones de velocidad 0.25×–1.50×). Hallazgo central: inversión de signo en la banda 4–8 kHz (ρ = +0.973 → −0.022 al pasar de 0.25× a 0.50×). Ninguna otra banda invierte signo. Robustez confirmada por 4 tests independientes: invariancia ordinal, re-binning, jackknife, reparametrización. Validación cruzada independiente: hue_std predice rugosidad residual con r = 0.8477.

Preprint ↗ Conference paper ↗ Dataset ↗ Aliasing v2 · r=0.8477 ↗

El pipeline intermedio · El más descargado

Argira Pipeline v14 — N=47, r=0.9289 · 275 vistas · 140 descargas

Versión estable antes de la expansión a v17. Incluye test de permutaciones (N=1000), experimentos Dv y tempo, analizador por lotes. Resultado negativo FFT 2D documentado. El depósito más descargado del programa — punto de referencia empírica del corpus canónico.

10.5281/zenodo.20097327 ↗

Versión extendida post-envío

Argira Pipeline v16 · Dataset v17 (74 obras)

Versión extendida posterior al envío a ICAD 2026 (v16, N=47, r = 0.9289) y su expansión independiente al corpus completo (v17, N=74, r = 0.9233). Validación cruzada Sobel: r = 0.9570. Resultado negativo documentado: FFT 2D sin señal diferencial. El envío real a ICAD 2026 fue la v10 (zenodo.18865019 ↗, N=45, r = 0.8869).

Pipeline v16 ↗ Dataset v17 ↗

El pipeline base

Argira Station v15 — Standalone analyzer, 6 métricas validadas

La versión canónica del pipeline: hue_std ↔ Ds r = 0.9289 (N=47, p < 0.001). Irregularidad ↔ Sobel r = 0.9570. FFT 2D eliminada (resultado negativo documentado). Dv ↔ Ds r = 0.0229 (no significativo — límite honesto del sistema). El depósito más citado de todo el programa experimental.

10.5281/zenodo.20113356 ↗

La herramienta · Accesibilidad

Argira Sonification v23 — 4 dimensiones perceptuales, audio espacial

Hue → frecuencia · Saturación → timbre + amplitud · centroid.x → panorámica estéreo · centroid.y → registro. Correlación hue_std ↔ Ds = r = 0.9289 (N=47). Base de todo el programa experimental posterior. Demo viva en argira.eus/argira-sonification/

10.5281/zenodo.20234082 ↗

Feedback háptico · Accesibilidad táctil

B_v9 Dataset v2 — Módulo háptico · Umbral v* = k − m · hue_std

El dataset B_v9 v2 incluye el módulo de feedback háptico (client-side, sin servidor), operativo en el analizador online. La ley del umbral Argira define v* en función de hue_std: v* = 7800 − 12500 · hue_std. Para las 43 obras, todos los valores de v* caen dentro del rango [4000, 8000] Hz. Correlación hue_std ↔ Ds: r = 0.9370 (N=43). La háptica actúa como canal perceptual complementario al sonido para exploración táctil de obras de arte.

Dataset B_v9 v2 ↗ Demo háptica ↗

Descripción hablada de imágenes · Accesibilidad visual

Argira Vision v0.5 — Descripción semántica hablada mediante Claude API

Prototipo de navegador que envía una imagen a la API de Claude (Haiku/Sonnet) y lee la descripción en voz alta mediante síntesis de voz. Complementa el canal sonoro del pipeline ARGIRA con un canal semántico: mientras ARGIRA traduce estructura visual a frecuencia y timbre, Vision traduce semántica visual a lenguaje. No es navegación en tiempo real — es exploración auditiva de contenido visual. En desarrollo · experimental

10.5281/zenodo.18989327 (v0.5) ↗

Corpus adicionales: Dataset unificado 74 imágenes · zenodo.20402536 ↗ · Espacio A=f(H,S,I) · zenodo.20388416 ↗ · Dataset B_v9 (43 obras, umbral v*) · zenodo.20357570 ↗

Experimentos 11 – 15

Tres niveles.
El mismo resultado.

Features de bajo nivel

Tono, saturación, densidad de bordes, rugosidad, contraste de luminancia (~8 features).

R² CV < 0 · Sin señal

ARGIRA I · zenodo.20524644 ↗

Features expandidas + PCA

Histogramas HSV, filtros Laws, estadísticas por cuadrante, Sobel (~209 features).

R² CV ≈ 0.10 · Marginal e inestable

ARGIRA II · zenodo.20526610 ↗

Embedding semántico proxy

Matriz de similitud visual 47×47. El nivel de representación más alto evaluado.

R² CV = −0.337 · Régimen de ruido

ARGIRA III · zenodo.20526682 ↗

Δ no puede modelarse de forma robusta mediante las representaciones visuales evaluadas.

Aumentar la complejidad representacional —de estadísticas básicas a espacios expandidos a embeddings semánticos— no mejora de forma consistente la predicción de Δ. ARGIRA IV sugiere que esta limitación surge porque Δ combina dos mappings con sensibilidades visuales distintas, ocultando estructuras predictivas que emergen cuando cada mapping se analiza por separado.

ARGIRA II · zenodo.20526610 (abre en nueva pestaña) ↗
ARGIRA III · zenodo.20526682 (abre en nueva pestaña) ↗

Mejor R² con validación cruzada por nivel de representación visual
Nivel	Mejor R² CV	Estado
Bajo nivel Exp 11–13	−0.44	Sin señal
Medio nivel Exp 14	+0.10	Marginal
Semántico Exp 15	−0.337	Sin señal

~86

Corpus inicial

47–72

Muestra válida final

11–15

Experimentos

Modelos evaluados

Ridge · Huber · RF

5-fold

Validación cruzada

0.10

Mejor R² CV

No generaliza

De la divergencia perceptual
a la asimetría estructural

ARGIRA IV reexamina los resultados negativos de las fases anteriores desde una perspectiva diferente. En lugar de modelar directamente Δ como variable objetivo, analiza por separado los dos mappings que la componen: OPRS y RTR. Este cambio metodológico revela una asimetría estructural previamente oculta.

Mapping A

OPRS

Ridge Regression

0.582

R² CV

Random Forest

0.528

R² CV

p ≈ 0.002 · test de permutación

Conserva una parte sustancial de la estructura visual de la imagen, especialmente la relacionada con la textura espacial y la rugosidad.

Mapping B

RTR

Ridge Regression

0.247

R² CV

Random Forest

0.086

R² CV

Relación débil · Sin señal de permutación significativa

Relación mucho más débil con la estructura espacial. Parece responder principalmente a características cromáticas globales.

Hallazgo principal · ARGIRA IV

Los resultados negativos de ARGIRA I–III no indican ausencia de relaciones imagen-sonido.

La dificultad surge al modelar directamente una variable compuesta (Δ) que combina dos transformaciones con sensibilidades distintas y parcialmente opuestas. Cuando ambos mappings se estudian por separado, emergen estructuras predictivas claramente diferenciadas.

ARGIRA IV · zenodo.20530682 ↗

Implicaciones

Los algoritmos de sonificación
no son traductores neutros

Cada mapping selecciona, preserva y descarta diferentes propiedades de la imagen. La elección del mapping determina qué aspectos de la obra sobreviven en la representación acústica.

Diseño de sistemas de sonificación

La elección del mapping no es neutral: determina qué estructura visual se transmite acústicamente.

Accesibilidad visual

Implicaciones directas para el diseño de herramientas para personas con discapacidad visual.

Interfaces multimodales

Fundamento empírico para el diseño de sistemas imagen-sonido con fidelidad perceptual.

Museos y exploración auditiva

Herramientas para la exploración auditiva de obras visuales en contextos museísticos.

Los algoritmos de sonificación no son traductores neutrales de información visual.

Cada mapping selecciona, preserva y descarta propiedades diferentes de la imagen, generando representaciones acústicas distintas incluso cuando operan sobre los mismos datos visuales.

Los resultados negativos no señalaron la ausencia de relaciones imagen-sonido.
Señalaron la existencia de múltiples mecanismos de traducción sensorial ocultos bajo una única medida compuesta.

Inversión de predictores
entre dominios

ARGIRA V investiga si las mismas variables visuales predicen la rugosidad en dominios visuales y acústicos. El estudio combina cinco corpus visuales independientes (n=319 imágenes) y un corpus acústico (n=72 sonificaciones), con 391 casos analizados en total.

Dominio visual

edge_density

ρ = 0.49–0.84

Predictor dominante estable en corpus A–D
lum_contrast: secundario (ρ = 0.56–0.74)

Inversión

Dominio acústico

hue_entropy

ρ = 0.595

Predictor dominante en corpus acústico (n=72)
edge_density aquí: secundario (ρ = 0.428)

Corpus total

391

5 corpus visuales + 1 acústico

Ortogonalidad

ρ ≈ −0.10

edge_density ↔ hue_entropy (casi ortogonales)

Regímenes

Cromático · Grayscale-collapse · High-edge

DOI

10.5281/zenodo.
20534328 ↗

Implicación arquitectural

Los resultados apoyan una arquitectura de sonificación multicapa donde la información estructural (edge_density) y la información cromática (hue_entropy) deben representarse de forma independiente, ya que contribuyen información no redundante a dominios de rugosidad distintos.

El giro conceptual · ARGIRA V

La pregunta ya no es ¿qué sonido produce una imagen?
Sino: ¿qué aspecto de la imagen quiero que el usuario perciba mediante el sonido?

Marco conceptual

Un mapping es una
hipótesis perceptual

ARGIRA IV revela que cada algoritmo de sonificación no traduce una imagen: selecciona qué dimensión visual merece sobrevivir en el sonido. Esta selección no es técnica, es epistemológica. El diseñador del mapping decide —implícitamente— qué es la imagen para el oyente.

De este principio se deriva una consecuencia directa: no existe una única sonificación correcta de una imagen. Existen tantas sonificaciones válidas como propiedades visuales se consideren relevantes comunicar.

ARGIRA IV · zenodo.20530682 (abre en nueva pestaña) ↗

Espacio de mappings posibles · Teóricamente infinito

Tabla de mappings posibles: propiedad visual, mapping acústico y experiencia perceptual resultante
Propiedad visual	Mapping posible	Lo que percibe el usuario
Color (Hue)	hue → frecuencia	Clima cromático
Saturación	saturación → amplitud	Intensidad emocional
Brillo	luminancia → pitch	Claridad / oscuridad
Bordes	edge density → rugosidad	Geometría
Textura	roughness → modulación	Relieve
Simetría	symmetry → consonancia	Orden
Entropía	entropy → ruido espectral	Complejidad
Contraste	contrast → rango dinámico	Tensión
Profundidad	depth → reverberación	Espacio
Movimiento	optical flow → tempo	Dinamismo

ARGIRA explora actualmente: hue, entropía cromática, rugosidad espacial.

Taxonomía propuesta

Cuatro tipos de
filtro perceptual

A partir de los resultados de ARGIRA IV, es posible esbozar una primera clasificación de mappings según el tipo de propiedad visual que priorizan y la experiencia perceptual que generan en el oyente.

ARGIRA IV · zenodo.20530682 (abre en nueva pestaña) ↗

Tipo I

Estructurales

Preservan forma

Transmiten la geometría de la imagen: bordes, contornos, orientación, composición. El oyente puede «sentir» la estructura visual.

Ejemplos:

OPRS · edge sonification · contour tracking

Objetivo: sentir la geometría

Tipo II

Cromáticos

Preservan color

Traducen la paleta de la imagen en dimensiones acústicas. Hue, saturación y brillo como tres canales independientes de información cromática.

Ejemplos:

RTR · hue→frequency · color harmony

Objetivo: sentir la paleta

Tipo III

Topológicos

Preservan organización espacial

Mapean la posición en la imagen al espacio acústico. Posición X al paneo, posición Y a la altura tonal. El oyente navega la imagen como un territorio.

Ejemplos:

Modo «Tocar» de Argira · spatial audio scanning

Objetivo: navegar la imagen

Tipo IV

Expresivos

Preservan emoción o atmósfera

Transmiten el carácter emocional o expresivo de la imagen. No una propiedad medible, sino la sensación que genera.

Ejemplos:

Pendiente de definición empírica

Objetivo: sentir el carácter

Una imagen como orquesta:
cada propiedad, una voz.

La mayoría de sistemas de sonificación aplican un único mapping secuencial. La arquitectura multicapa propone algo diferente: cada propiedad visual genera una capa acústica independiente y simultánea, como las secciones de una orquesta.

IMAGEN FUENTE

COLOR

→ Canal 1

TEXTURA

→ Canal 2

GEOMETRÍA

→ Canal 3

PROFUNDIDAD

→ Canal 4

↓ Mezcla acústica final

De estudiar una correlación a proponer una teoría del diseño de mappings.

Si este resultado se consolida con más mappings, ARGIRA podría pasar de analizar Δ como variable estadística a proponer un marco teórico para el diseño de mappings en accesibilidad multimodal — una contribución considerablemente más amplia que explicar una diferencia perceptual entre dos algoritmos.

Lo que el cerebro recibe

No «el sonido de la imagen».

Una interpretación acústica de una propiedad concreta de la imagen.

OPRS → estructura · rugosidad · textura
RTR → atmósfera · color · distribución cromática

ARGIRA IV · zenodo.20530682 ↗
ARGIRA V · zenodo.20534328 ↗

ARGIRA V publicado.
El programa continúa.

La inversión de predictores entre dominios (edge_density visual / hue_entropy acústico) abre preguntas que el proyecto aún no ha abordado. Cada una es una dirección de investigación independiente.

ARGIRA V · zenodo.20534328 (abre en nueva pestaña) ↗

→

Evaluación de mappings adicionales

¿Replican otros mappings el patrón estructural de OPRS, el cromático de RTR, o revelan sensibilidades nuevas?

→

Comparación sistemática entre tipos de mapping

Contraste empírico entre mappings estructurales y cromáticos sobre el mismo corpus. Validación de la taxonomía propuesta.

→

Estudios perceptuales con usuarios

¿Perciben los oyentes la diferencia entre mappings estructurales y cromáticos sin instrucción previa? ¿Qué información recuperan de cada tipo?

→

Aplicaciones en accesibilidad visual

Diseño de sistemas de sonificación para personas con discapacidad visual, basado en la selección deliberada del tipo de información visual a transmitir.

→

Evaluación mediante embeddings multimodales profundos

CLIP y modelos similares como representaciones de orden superior. Pendiente desde ARGIRA III.

→

Diseño y validación de sistemas multicapa

Arquitecturas donde múltiples mappings operan simultáneamente sobre canales acústicos independientes. La imagen como orquesta.

El programa ARGIRA
en una página

Un proyecto de investigación en sonificación que evalúa sistemáticamente qué clases de representación visual pueden — y no pueden — predecir la diferencia perceptual entre mappings acústicos. Cinco estudios, todos con acceso abierto en Zenodo.

Pregunta de investigación

¿Cómo influye el diseño del mapping en la información visual que sobrevive en la representación acústica? ¿Qué características visuales predicen la diferencia perceptual Δ = OPRS − RTR?

Corpus y método

~86 imágenes (pinturas postimpresionistas + fotografías de museo). Regresión Ridge y Random Forest con CV-5 folds. Tres niveles de representación visual evaluados de forma jerárquica. Todos los materiales reproducibles en Zenodo.

Programa ARGIRA: cinco estudios con pregunta de investigación, resultado R² con validación cruzada y enlace DOI
Estudio	Pregunta	Resultado	DOI
ARGIRA I	Features de bajo nivel (8 variables) — Exp 11	R² CV < 0	20524644 ↗ (abre en nueva pestaña)
ARGIRA II	Features expandidas con PCA (209 variables) — Exp 11–15	R² CV ≈ 0.10	20526610 ↗ (abre en nueva pestaña)
ARGIRA III	Descriptores semánticos LLM — Claude Haiku, n=72	R² CV = −0.162	20526682 ↗ (abre en nueva pestaña)
ARGIRA IV	OPRS y RTR modelados por separado — asimetría estructural	OPRS R²=0.582 RTR R²=0.086	20530682 ↗ (abre en nueva pestaña)
ARGIRA V	Inversión de predictores cross-corpus — n=391, 5 corpus visuales + 1 acústico	edge_density ≠ hue_entropy ρ≈−0.10	20534328 ↗ (abre en nueva pestaña)

Hallazgo central

Δ no puede modelarse de forma robusta mediante las representaciones visuales evaluadas. ARGIRA IV revela por qué: OPRS y RTR preservan propiedades visuales estructuralmente distintas. ARGIRA V confirma que la asimetría generaliza entre dominios y corpus.

Citar como

Ranero García, J. (2026). ARGIRA: Sonificación y Métricas Perceptuales (Serie completa I–V). Zenodo.
doi.org/10.5281/zenodo.20534327 ↗ (abre en nueva pestaña)

ICAD 2026 · Poster #4302 · Barcelona · Jul 2026

Acceso abierto
a todos los materiales

ARGIRA V: Cross-Corpus Evidence for Predictor Inversion in Visual-to-Acoustic Mapping Nuevo

Dataset · Zenodo · 4 Jun 2026 · n=391 (5 corpus visuales + acústico)

10.5281/zenodo.20534328 IV

ARGIRA (IV): Structural Asymmetry in Sonification Mappings

Software · Zenodo · 3 Jun 2026 · OPRS vs RTR · Modelado independiente

10.5281/zenodo.20530682 III

ARGIRA (III): Systematic Representational Failure — LLM Semantic Descriptors Cannot Predict Perceptual Sonification Divergence

Dataset · Zenodo · 3 Jun 2026 · Claude Haiku · n=72 · R² CV = −0.162

10.5281/zenodo.20526682 II

From Correlation to Failure: Limits of Visual Feature Spaces in Predicting Perceptual Sonification Differences

Experimentos 11–15 · Preprint · Zenodo · 2026

10.5281/zenodo.20526610 I

Visual Predictors of Acoustic Perceptual Distance in Image Sonification

Experimento 11 · Software · Zenodo · 2026

10.5281/zenodo.20524644

Corpus previo · Experimentos 1–10

E10

Chromatic variance and spectral roughness in image sonification — Replication study (N=30)

Preprint v4 · Zenodo · May 2026 · 30 pinturas · hue_std → roughness r = 0.687 · R² = 0.732 con entropía

10.5281/zenodo.20364540 E9

Experiment 9 — Generalization of Hue Dispersion–Roughness Across Independent Corpora

Dataset · Zenodo · Jun 2026 · Naive r ≈ 0.54–0.62 · Naive > OPRS > RTR

10.5281/zenodo.20516325 E8

Experiment 8 — Robustness of Visual–Acoustic Correspondence Across Roughness Thresholds

Report · Zenodo · Jun 2026 · Jerarquía estable en 1000–1750 Hz · N=69

10.5281/zenodo.20513550 E7

Experiment 7 — Stability of OPRS Under Repeated Random Sampling

Report · Zenodo · Jun 2026 · Convergencia práctica en N_RUNS ≈ 50–100

10.5281/zenodo.20513415 E6

Experiment 6 — RTR, Bootstrap Analysis and the Role of Relative Order

Report · Zenodo · Jun 2026 · 10.000 bootstraps · RTR r = −0.417 · orden relativo importa

10.5281/zenodo.20513340 EC

Emergent Corpus v1.0 — Spectral Geometry from Minimal Hue→Frequency Sonification

Dataset · Zenodo · May 2026 · N=14 · clustering 92.9% · Ds como invariante

10.5281/zenodo.20393823 NC

Nature Corpus v2 — Saturation as Predictor of Emergent Harmonic Count (N=21)

Dataset · Zenodo · May 2026 · Fotografías móvil · saturación → count r = 0.9644

10.5281/zenodo.20392520 CL

Clustering Dataset v1 — Unsupervised Sonic Grouping Across 74 Artworks

Dataset · Zenodo · May 2026 · k-means k=4 · PCA · Rembrandt cluster · Signac outlier

10.5281/zenodo.20323085 MV

Mapping Variants Series — Pipelines 10–13 (log, mel, estocástico, cuadrático)

Software · Zenodo · May 2026 · r = 0.878–0.951 · control scanline r = −0.116

10.5281/zenodo.20366726 SA

Sine Additive Pipeline — Harmonic vs. Non-Harmonic Comparison

Software · Zenodo · May 2026 · Pipeline 09 r = +0.951 · Pipeline 07 r = +0.687

10.5281/zenodo.20366185 TN

Stereo Width: Malevich vs. Kandinsky — La paradoja de complejidad invertida

Technical note · Zenodo · May 2026 · W Malevich = 0.196 · W Kandinsky = 0.058 · Demo Web Audio

10.5281/zenodo.20353894

Infraestructura · Software y corpus fundacionales

ARGIRA B_v9 — Spectro-Temporal Analysis of Sonified Visual Art (72 artworks)

Preprint · Zenodo · May 2026 · 2.160 obs. banda-velocidad · transición de régimen 4–8 kHz · ρ +0.973→−0.22

10.5281/zenodo.20266242 B9D

ARGIRA B_v9 Dataset — Structural Persistence Across Spectro-Temporal Transformations

Dataset · Zenodo · May 2026 · 72 obras · 6 bandas × 5 velocidades · ρ = −0.9524 (4–8 kHz vs hue_std)

10.5281/zenodo.20258314 CC

Cycle Closure Experiment — Geometric Invariants for Sonified Visual Art (74 artworks)

Dataset · Zenodo · May 2026 · Inversión no posible (error medio 0.709) · cx → pan error < 0.05 · edge_density → effort r = 0.759

10.5281/zenodo.20322821 D17

Argira Dataset v17 — 74 obras · hue_std → Ds r = 0.9233

Dataset · Zenodo · May 2026 · 74 obras dominio público · R² = 0.8524 · p < 0.001 (permutaciones N=1000)

10.5281/zenodo.20126917 P16

Argira Sonification Pipeline v16 — N=47, r=0.9289 (extended, not peer-reviewed)

Preprint · Zenodo · May 2026 · VTI → Ds r = 0.9289 · Sobel cross-validation r = 0.9570

10.5281/zenodo.20123821 S15

Argira Station v15 — Standalone Analyzer (6 métricas validadas)

Software · Zenodo · May 2026 · hue_std → Ds r = 0.9289 · irregularidad → Sobel r = 0.9570 · N=47

10.5281/zenodo.20113356 v23

Argira Sonification Analyzer v23 — Spatial audio · centroid.x → pan · centroid.y → registro

Software · Zenodo · May 2026 · 4 dimensiones perceptivas · Web Audio API · versión activa del museo sonoro

10.5281/zenodo.20234082

v18–21

Argira Sonification Analyzer — Versiones v18, v19, v20, v21

Software · Zenodo · May 2026 · Evolución: arquitectura modular → control de velocidad → filtro high-shelf → anuncio de posición espacial

v18 ↗ v19 ↗ v20 ↗ v21 ↗

—

v14

Argira Pipeline v14 — Dataset N=47, r=0.9289

Software · Zenodo · Apr 2026 · Test de permutaciones N=1000 · 275 vistas · 140 descargas

10.5281/zenodo.20097327 B9v2

ARGIRA B_v9 Dataset v2 — Umbral v* y módulo háptico client-side (43 obras)

Dataset · Zenodo · May 2026 · v* = 7800 − 12500 · hue_std · háptica activa en demo · r = 0.9370

10.5281/zenodo.20357570 Vis

Argira Vision v0.5 — Descripción semántica hablada de imágenes (Claude API)

Software · Zenodo · Abr 2026 · Canal semántico complementario · Web Speech API · sin servidor

10.5281/zenodo.18989327 Web

ARGIRA Investiga — Página de investigación interactiva del proyecto (v1.0)

Software · Zenodo · 4 Jun 2026 · Experimentos 1–15 · corpus previo · taxonomía de mappings · WCAG AA

10.5281/zenodo.20538987 v15

Argira Station v15 — Standalone analyzer, 6 métricas validadas

Software · Zenodo · May 2026 · hue_std ↔ Ds r = 0.9289 · N=47 · pipeline canónico

10.5281/zenodo.20113356 v16

Argira Sonification Pipeline v16 — Versión extendida (N=47, r=0.9289)

Preprint · Zenodo · May 2026 · Posterior al envío ICAD (v10) · Sobel r = 0.9570 · FFT 2D resultado negativo documentado

10.5281/zenodo.20123821 v17

Argira Dataset v17 — 74 obras, r = 0.9233

Dataset · Zenodo · May 2026 · Replicación independiente con corpus extendido · R² = 0.8524

10.5281/zenodo.20126917 08

Argira Scanline Pipeline v2 — Control sin hue→frecuencia

Software · Zenodo · May 2026 · r = −0.116 · Arquitectura espacial · Resultado nulo documentado

10.5281/zenodo.20366040 v18

Argira Sonification Analyzer v18 — Versión modular, filtro high-shelf

Software · Zenodo · May 2026 · Browser tool · Web Audio API · Arquitectura modular

10.5281/zenodo.20133939 v19

Argira Sonification Analyzer v19 — Control de velocidad (lupa temporal)

Software · Zenodo · May 2026 · Rango 0.5×–1.5× · Preserva correlación r > 0.92

10.5281/zenodo.20135805 v20

Argira Sonification Analyzer v20 — Sonificación táctil del color, modo noche

Software · Zenodo · May 2026 · Toque de píxel → tono · Saturación → timbre · Brillo → volumen

10.5281/zenodo.20155401 v21

Argira Sonification Analyzer v21 — Anuncio de posición espacial (cuadrícula 3×3)

Software · Zenodo · May 2026 · Posición antes que color · "arriba izquierda, azul"

10.5281/zenodo.20157205

Jose Ranero García

Investigador principal Proyecto ARGIRA 2026

ARGIRA es un proyecto de investigación independiente sobre sonificación y percepción audiovisual, publicado en abierto bajo licencia CC BY-NC 4.0. El proyecto documenta tanto los hallazgos positivos como los negativos, bajo la convicción de que mapear los límites del conocimiento es tan valioso como extenderlos.

Los materiales completos —scripts, datasets, figuras y preprints— están disponibles en Zenodo. Los resultados negativos son resultados.

ARGIRA Sonificación y Métricas Perceptuales

Un mapa de lo queno explica Δ

La correlación quelo empezó todo

Antes de la pregunta,el programa.

Tres niveles.El mismo resultado.

Δ no puede modelarse de forma robusta mediante las representaciones visuales evaluadas.

Resumen del estudio

De la divergencia perceptuala la asimetría estructural

Modelado independiente de mappings — ARGIRA IV

Los algoritmos de sonificaciónno son traductores neutros

Hallazgo central del proyecto ARGIRA

Inversión de predictoresentre dominios

Un mapping es unahipótesis perceptual

Cuatro tipos defiltro perceptual

Una imagen como orquesta:cada propiedad, una voz.

De estudiar una correlación a proponer una teoría del diseño de mappings.

ARGIRA V publicado.El programa continúa.

¿Puedes distinguir las sonificacionesde dos imágenes de distinta variabilidad cromática?

El programa ARGIRAen una página

Acceso abiertoa todos los materiales

Jose Ranero García

ARGIRA
Sonificación
y Métricas
Perceptuales

Un mapa de lo que
no explica Δ

La correlación que
lo empezó todo

Antes de la pregunta,
el programa.

Tres niveles.
El mismo resultado.

De la divergencia perceptual
a la asimetría estructural

Los algoritmos de sonificación
no son traductores neutros

Inversión de predictores
entre dominios

Un mapping es una
hipótesis perceptual

Cuatro tipos de
filtro perceptual

Una imagen como orquesta:
cada propiedad, una voz.

ARGIRA V publicado.
El programa continúa.

¿Puedes distinguir las sonificaciones
de dos imágenes de distinta variabilidad cromática?

El programa ARGIRA
en una página

Acceso abierto
a todos los materiales