Misma capa de memoria. Cuatro familias de modelo. Una metodología.
Última actualización: 2026-05-05
Paridad de modelo
La portabilidad de memoria es lo que hace a Mycelium estructuralmente diferente de un grafo en cloud gestionado. El reclamo de portabilidad merece una prueba pública. La metodología abajo describe cómo Mycelium corre la misma capa de memoria bajo Claude, GPT, Gemini y Llama contra un corpus de tareas idéntico, con scoping de retrieval idéntico, y publica las métricas comparativas.
Qué medimos
Tres métricas por familia de modelo: recall de retrieval sobre el corpus de memoria tipada, accuracy consciente-de-decisiones en una tarea de resolución de decisión held-out, y costo en tokens por tarea normalizado por calidad de output. Recall y accuracy vienen de un eval set público; el costo en tokens viene de la API meterizada de cada vendor. El punto no es coronar a un modelo; el punto es mostrar que la capa de memoria se comporta igual debajo.
Corpus de prueba
Los mismos test fixtures de ai-brain-starter que el benchmark de latencia: 50,000 registros de memoria tipada abarcando 24 meses de valid time, más un eval de 200 tareas de resolución de decisión cubriendo excepciones de pricing, lookups de política, traversal de grafo de personas y queries acotadas por tiempo. El eval set es público para que el harness sea reproducible.
Modelos probados en v1
- Claude (Anthropic): Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5
- GPT (OpenAI): GPT-5 (clase de modelo por default), GPT-4.1
- Gemini (Google): Gemini 2.5 Pro, Gemini 2.5 Flash
- Llama (Meta): Llama 4 Maverick, Llama 4 Scout vía OpenRouter o self-hosted
Cómo funciona el harness
- Paso 1. Carga el fixture del corpus en el runtime.
- Paso 2. Para cada familia de modelo, corre las 200 tareas con scoping de retrieval idéntico y agent prompts idénticos.
- Paso 3. Puntea el recall contra las citas de memoria gold-standard.
- Paso 4. Puntea la accuracy de decisión contra los outputs de decisión gold-standard.
- Paso 5. Registra costo en tokens por tarea desde la API del vendor.
- Paso 6. Publica scores raw más una gráfica pareto de accuracy vs. costo.
Status actual
| Versión de metodología | v1, publicada 2026-05-05 |
| Harness público | En desarrollo; envía en ai-brain-starter v0.5 |
| Primera corrida pública | Programada con el release memory-runtime-pro v1.0 |
| Estándar de verificación | Corridas reproducibles de terceros desde el harness público contra el corpus público y eval set |
Lo que esta página no reclamará
Mycelium no reclamará que un modelo específico sea el mejor para el workload del cliente. El punto del test de paridad es el substrato, no el modelo. El cliente elige el modelo en su propio terreno; Mycelium garantiza que la capa de memoria se comporta idénticamente debajo. Si una familia de modelo falla recall o accuracy en el eval público, esa señal va arriba en esta página junto a las demás.
Mycelium · fundada en 2026