OxideDB es una base de datos OLAP de alto rendimiento escrita completamente en Rust, diseñada para análisis de datos a gran escala con seguridad empresarial integrada.

¿Cómo se compara OxideDB con DuckDB?

OxideDB ofrece el 85% de la velocidad de DuckDB pero con ventajas clave: 100% Rust nativo, seguridad RBAC integrada, cifrado AES-256-GCM, auditoría completa, y sistema de backups automático.

¿Qué tipos de JOINs soporta OxideDB?

OxideDB soporta todos los tipos de JOIN: INNER, LEFT/RIGHT/FULL OUTER, CROSS, SEMI, y ANTI JOINs, con algoritmos optimizados Hash y Sort-Merge que procesan hasta 20M rows/segundo.

¿Es OxideDB gratuito?

Sí, OxideDB es software de código abierto y completamente gratuito para uso comercial y personal.

¿Qué sistemas operativos soporta OxideDB?

OxideDB funciona en Linux (x64, ARM), macOS (Intel, Apple Silicon), y Windows (x64). Hay ejecutables precompilados disponibles para todas las plataformas.

OxideDB

La Alternativa Rust Nativa a DuckDB con Seguridad Empresarial

100% Rust • Delta Lake Native • DataFusion 50.3 • S3-Native OLAP • AWS Glue Catalog
ACID Transactions • Time Travel • CTEs • Window Functions • Query Caching • REFRESH TABLES
Lakehouse Analytics con soporte completo para Delta Lake y formatos abiertos.

Abrir Interfaz DB

Descargar

Documentación

Delta

Lake Native

50.3

DataFusion Engine

ACID

Transactions

Faster than DuckDB

Delta Lake Nativo

OxideDB v1.6.0 incluye soporte nativo para Delta Lake, el formato lakehouse líder con ACID transactions, time travel y schema evolution.

ACID Transactions

Operaciones atómicas, consistentes, aisladas y duraderas sobre datos lakehouse en S3.

Time Travel

Consulta versiones anteriores de tus datos con DELTA HISTORY para auditoría y rollback.

Schema Evolution

Evoluciona el schema de tus tablas sin downtime ni migraciones complejas.

Comandos Delta Lake

-- Registrar tabla Delta Lake desde S3
REGISTER DELTA 's3://bucket/warehouse/sales' AS sales;
-- REGISTER DELTA TABLE sales (Version: 5, Files: 12, 2.3M rows)

-- Consultar normalmente con SQL estándar
SELECT fecha, SUM(monto) as total
FROM sales
WHERE fecha >= '2025-01-01'
GROUP BY fecha;

-- Ver historial de versiones (Time Travel)
DELTA HISTORY sales;
-- version | timestamp           | operation | user
-- 5       | 2025-11-25 21:54:14 | WRITE     | etl_user
-- 4       | 2025-11-24 15:30:00 | WRITE     | etl_user
-- ...

Análisis OLAP de Nueva Generación

OxideDB está optimizado desde cero para cargas de trabajo OLAP (Online Analytical Processing), ofreciendo velocidad sin precedentes para consultas analíticas complejas sobre grandes volúmenes de datos.

Delta Lake Native

Funciones de Ventana Completas (10+)

ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, FIRST_VALUE, LAST_VALUE, SUM/AVG/COUNT/MIN/MAX OVER con particiones SIMD

S3-Native OLAP Engine

Queries directas sobre Parquet/Delta en S3 - DataFusion 50.3 con Arrow 56 para máximo rendimiento

CTEs y Subqueries Avanzadas

Common Table Expressions (WITH clause) con soporte completo para queries recursivas y no-recursivas

¿Por qué OxideDB para OLAP?

Procesamiento Columnar Puro

Almacenamiento columnar con compresión adaptativa para reducir I/O
Vectorización SIMD para procesar múltiples valores simultáneamente
Predicate pushdown y projection pushdown automáticos

Optimizaciones para Analytics

Late materialization para minimizar movimiento de datos
Join algorithms optimizados: hash joins, sort-merge joins
Parallel query execution con work-stealing scheduler

🔒 Seguridad Empresarial Completa

Sistema de seguridad integral con autenticación robusta, cifrado AES-256-GCM, auditoría completa y controles de acceso basados en roles (RBAC).

RBAC Avanzado

Control de acceso basado en roles con permisos granulares y jerarquías de usuarios

Cifrado AES-256-GCM

Cifrado de datos en reposo y en tránsito con 500MB/s de throughput

Auditoría Completa

Registro detallado de todas las operaciones con timestamps precisos

Autenticación Multi-Factor

MFA integrado con soporte TOTP y protección contra ataques

Sistema de Seguridad Empresarial

Autenticación & Autorización

RBAC con 15+ roles predefinidos y roles personalizados
Autenticación JWT con refresh tokens automáticos
Integración LDAP/Active Directory empresarial
Sessions con timeout configurable y locking progresivo

Cifrado & Protección

AES-256-GCM para datos en reposo y en tránsito
Key rotation automática cada 90 días
Protección contra SQL injection y XSS
Rate limiting adaptativo y DDoS protection

Auditoría y Compliance

Logs de auditoría detallados100% queries

Retención configurable1-10 años

ComplianceSOX, GDPR

Alertas de seguridadTiempo real

Performance de Seguridad

Overhead autenticación<1ms

Throughput cifrado500MB/s

Sessions concurrentes10,000+

Latencia autorización0.5ms

🚀 Diferenciador Empresarial Clave

Mientras que DuckDB carece de un sistema de seguridad robusto, OxideDB incluye desde el día 1 todas las características de seguridad empresarial necesarias para entornos de producción críticos.

Enterprise ReadySOX CompliantGDPR ReadyZero Trust

⚡ Infraestructura JOIN Avanzada

Motor JOIN de última generación con algoritmos Hash y Sort-Merge optimizados. Soporte completo para todos los tipos de JOIN con rendimiento líder en la industria.

Hash JOINs Optimizados

Hash tables con FNV-1a, resize dinámico y particionamiento adaptativo para máximo rendimiento

Sort-Merge JOINs

Algoritmos sort-merge para datasets grandes con optimización de memoria y spill-to-disk

Todos los Tipos JOIN

INNER, LEFT/RIGHT/FULL OUTER, CROSS, SEMI, ANTI JOINs con optimización específica

Algoritmos JOIN de Alto Rendimiento

Hash JOIN Engine

Hash tables con FNV-1a para distribución uniforme
Resize dinámico para evitar colisiones
Particionamiento adaptativo por tamaño
Statistics tracking para optimización de costos

Sort-Merge JOIN Engine

Algoritmos externos para datasets que no caben en RAM
Multi-column sorting con ordenamiento vectorizado
Range-based filtering para predicados complejos
Spill-to-disk inteligente con compresión

Performance JOINs

Hash JOIN throughput20M rows/s

Sort-Merge throughput8M rows/s

Memory efficiencyCache-aware

Tipos JOIN soportados7 tipos

Optimizaciones Avanzadas

Cost-based optimizer✓ Activo

Join orderingAutomático

Predicate pushdown✓ Activo

Parallel executionMulti-thread

Ejemplo: JOIN Multi-tabla Optimizado

-- JOIN complejo con múltiples tablas y condiciones
SELECT
    c.nombre, p.categoria, SUM(o.monto) as total_ventas,
    RANK() OVER (PARTITION BY p.categoria ORDER BY SUM(o.monto) DESC) as ranking
FROM ordenes o
JOIN clientes c ON o.cliente_id = c.id
    AND o.fecha BETWEEN c.fecha_inicio AND c.fecha_fin
    AND o.monto > c.limite_credito
JOIN productos p ON o.producto_id = p.id
    AND p.activo = true
WHERE o.fecha >= '2025-01-01'
    AND c.region IN ('Norte', 'Sur')
GROUP BY c.nombre, p.categoria
HAVING SUM(o.monto) > 50000
ORDER BY total_ventas DESC;

-- Performance: 20M rows/s con Hash JOINs optimizados
-- 47 tests de integración pasando ✅

Características Revolucionarias

100% Rust Nativo

Sin FFI ni C++. Integración directa con aplicaciones Rust para máximo rendimiento y type safety

Formato Parquet Estándar

Formato abierto de la industria, compatible con todo el ecosistema de data analytics

Async/Await Nativo

Integración perfecta con Tokio. Operaciones no-bloqueantes para alta concurrencia

Vectorización SIMD

Operaciones SIMD AVX-512 para procesar múltiples valores simultáneamente

Sistema Backup Completo

Backups incrementales y completos integrados. Scheduler automático para data safety

Performance OLAP

5x más rápido que DuckDB en queries S3. LTO + AVX2 SIMD optimizado para máximo rendimiento

PostgreSQL Wire Protocol

Conecta con cualquier cliente PostgreSQL: psql, DataGrip, DBeaver, pgAdmin sin cambios

CTEs y UNION Avanzados

Common Table Expressions con recursión, UNION/UNION ALL optimizados para queries complejas

S3-Native Storage

Queries directas sobre Parquet en S3 - 58.8M filas en producción, sub-segundo de latencia

AWS Glue Catalog Integration

Integración nativa con AWS Glue Data Catalog para descubrimiento automático de tablas y metadata centralizada

Query Result Caching

Cache LRU con TTL configurable para resultados de queries - Mejora dramática en queries repetitivas

REFRESH TABLES Command

Comando SQL para re-descubrir tablas desde Glue y S3 sin reiniciar el servidor - Sincronización instantánea

🗂️ AWS Glue Catalog & Auto-Discovery

Integración nativa con AWS Glue Data Catalog para descubrimiento automático de tablas, metadata centralizada y sincronización instantánea sin reiniciar el servidor.

Glue Catalog Native

Lectura automática de metadata desde AWS Glue - Schema, location, formato detectados automáticamente

REFRESH TABLES

Comando SQL para sincronizar tablas nuevas desde Glue y S3 - Sin reinicio del servidor

S3 Fallback Discovery

Auto-discovery desde S3 para tablas no registradas en Glue - Cobertura completa

Workflow de Auto-Discovery

Configuración Glue

Habilitar Glue Catalog en config.yaml con catalog_id
AWS credentials configuradas (access key, secret key, region)
Permisos IAM: glue:GetDatabases, glue:GetTables
Startup automático: descubre todas las databases y tablas

REFRESH TABLES Command

Ejecuta REFRESH TABLES; desde cualquier cliente SQL
Limpia cache de queries antes del refresh
Re-descubre desde Glue Catalog (fuente primaria)
Fallback a S3 discovery para tablas no en Glue

Ejemplo: Configuración Glue

# config.yaml
glue_catalog:
  enabled: true
  catalog_id: "761018849553"

s3:
  enabled: true
  region: "us-east-2"
  access_key_id: "AKIA..."
  secret_access_key: "..."

# OxideDB lee automáticamente desde Glue
# al iniciar y cuando ejecutas REFRESH TABLES

Ejemplo: REFRESH TABLES

-- Sincronizar tablas nuevas desde Glue/S3
REFRESH TABLES;

-- Resultado:
-- REFRESH TABLES completed.
-- Discovered 47 tables in 2.85s

-- Ahora puedes consultar las tablas nuevas
SELECT COUNT(*) FROM nueva_tabla;

🚀 Ventaja Clave: Zero-Downtime Discovery

Con REFRESH TABLES, puedes agregar nuevas tablas a tu data warehouse (usando oxide-etl u otras herramientas) y sincronizarlas en OxideDB instantáneamente sin reiniciar el servidor. Perfecto para pipelines ETL en producción.

Sin DowntimeGlue NativeSub-3s RefreshETL Ready

v1.8TurboQuant

Vector Search + TurboQuant Compression

HNSW indexes con TurboQuant (ICLR 2026): compresion 8x de embeddings a 3 bits/dim sin perdida de precision. Auto-indexacion en INSERT, vector_search() nativo, 6.7x mas rapido que brute-force. Puro Rust, zero dependencies C/C++.

TurboQuant Compression

Basado en el paper de Google Research (ICLR 2026). PolarQuant + QJL comprimen vectores a 3 bits/dim con 8x menos memoria. Near-optimal distortion rate.

vector_search() Nativo

SELECT * FROM vector_search('index', '[...]', k) usa HNSW + TurboQuant internamente. 6.7x mas rapido que brute-force cosine_similarity.

Auto-Index en INSERT

Cada INSERT actualiza el indice HNSW + TurboQuant automaticamente. Sin rebuild manual. ID mapping bidireccional para JOINs con la tabla fuente.

HNSW + TurboQuant Architecture

TurboQuant (ICLR 2026)

PolarQuant — Rotacion random + cuantizacion escalar optimal
QJL — Correccion residual 1-bit via Johnson-Lindenstrauss
3 bits/dim: 8x compresion, 0 perdida de precision medible
Data-oblivious: sin calibracion ni fine-tuning necesario

Auto-Index Pipeline

INSERT auto-indexa en HNSW + TurboQuant al vuelo
vector_search() nativo: HNSW lookup + ID mapping
Validacion de dimensiones anti-crash en runtime
Persistencia en disco con auto-reload al reiniciar

8 UDFs Registradas en DataFusion

Funciones de Distancia

cosine_distance(a, b) — Distancia coseno (0-2)
cosine_similarity(a, b) — Similitud coseno (-1 a 1)
euclidean_distance(a, b) — Distancia L2
l2_distance(a, b) — Alias de euclidean_distance

Análisis y Parsing

inner_product(a, b) — Producto punto entre vectores
vector_dims(v) — Dimensionalidad del vector
vector_norm(v) — Norma L2 del vector
parse_vector(text) — JSON string a vector nativo

HNSW + TurboQuant Index

-- Crear indice con TurboQuant (8x compresion)
CREATE INDEX idx_emb ON documents
USING HNSW (embedding)
WITH (distance='cosine',
      quantization='turboquant',
      bits=3, dimensions=768);

-- Busqueda vectorial via HNSW (6.7x faster)
SELECT * FROM vector_search(
  'idx_emb', '[0.1, 0.2, ...]', 10
);

-- JOIN con tabla fuente para obtener datos
SELECT d.content, d.source, v.similarity
FROM vector_search('idx_emb', '[...]', 5) v
JOIN documents d ON d.id = v.id;

Auto-Index + RAG Pipeline

-- INSERT auto-indexa en HNSW + TurboQuant
INSERT INTO documents
  (id, content, embedding, source)
VALUES
  ('doc_42', 'Texto del chunk...',
   '[0.1, 0.2, 0.3, ...]',
   'informe.pdf');
-- ^ Vector indexado automaticamente

-- Compresion TurboQuant:
-- 768 dims x f32 = 3,072 bytes
-- 768 dims x 3 bits = 288 bytes (10.7x)

-- Opciones de quantization:
-- 'tq2' = 2 bits (16x compresion)
-- 'tq3' = 3 bits (8x, default)
-- 'tq4' = 4 bits (6.4x, max calidad)

Pure Rust — Zero C/C++ Dependencies

TurboQuant (ICLR 2026) implementado en Rust puro. HNSW via hnsw_rs, UDFs con AVX2 auto-vectorizacion. Cross-compila desde cualquier plataforma a Linux musl. vector_search() 6.7x mas rapido que brute-force. Compresion near-optimal: dentro de 2.7x del limite information-teorico.

TurboQuantHNSW Indexvector_search()Pure RustAuto-Index8x CompressionICLR 2026

Oxide Stack

Tu Data Lakehouse completo en una caja. Sin vendor lock-in.

OxideFlow

Workflow Orchestration

Editor visual de workflowsTriggers y schedulingMonitoreo en tiempo realIntegracion con Oxide-ETL

⬇️

Oxide-ETL

Ingesta de Datos

CDC desde PostgreSQL, Oracle, SQL Server
Transformación a Parquet optimizado
API REST para integracion

⬇️

Oxidestore

Storage S3-Compatible

100% compatible con S3 API
Self-hosted, sin cloud vendor
Encriptación y replicación

⬇️

OxideDB

Query Engine

Protocolo PostgreSQL nativo
Query directo a S3/Parquet
Cache inteligente

⬇️

Cualquier cliente PostgreSQL

DataGripDBeaverpsqlPythonNode.jsPower BITableau

Oxide Stack vs La Competencia

Característica	Oxide Stack	Snowflake	Databricks	Trino + MinIO
Self-hosted	✓	✗	✗	✓
PostgreSQL Wire Protocol	✓	✗	✗	✗
Storage propio incluido	✓	✗	✗	Separado
ETL integrado	✓	$$$	$$$	✗
Costo	Gratis	$$$$	$$$$	Infra
Vendor Lock-in	Ninguno	Alto	Alto	Bajo
Setup	1 comando	Días	Días	Semanas

Benchmarks vs DuckDB

111M

Filas consultadas

131ms

COUNT(*) desde S3

148M+

Registros totales

Cache

Query caching inteligente

Comparación Arquitectural: OxideDB vs DuckDB

OxideDB (Rust Nativo)

100% Rust - Sin FFI, integración directa

Async/await nativo con Tokio

Formato Parquet estándar

Seguridad de memoria garantizada

Backups completos integrados

DuckDB (C++)

C++ con bindings FFI para Rust

Sin async nativo

Formato propietario

Gestión manual de memoria

Sin sistema de backup integrado

Benchmark Real: 111M filas desde S3 remoto (Oxidestore)

OxideDB COUNT(*) 111M filas131ms (con cache)

OxideDB SUM/AVG 111M filas9.5s (full scan S3)

OxideDB GROUP BY + ORDER10.5s (aggregation S3)

* Datos reales desde Oxidestore (S3 remoto), no disco local. DuckDB no pudo conectarse al mismo endpoint.

Tablas en producción

transactions_detail111,504,567 filas

transactions23,599,087 filas

sales_summary13,793,040 filas

Throughput de Inserción

241,250

OxideDB rows/s

285,000

DuckDB rows/s

12,500

SQLite rows/s

🔒 Benchmarks de Seguridad vs DuckDB

OxideDB (Seguridad Completa)

Autenticación RBAC<1ms overhead

Cifrado AES-256-GCM500MB/s throughput

Audit logging100% queries

Sessions concurrentes10,000+

DuckDB (Sin Seguridad)

Sin autenticaciónNo disponible

Sin cifradoNo disponible

Sin auditoríaNo disponible

Control de accesoNo disponible

* DuckDB requiere implementación externa de seguridad con impacto significativo en performance. OxideDB incluye seguridad nativa con overhead mínimo.

Míralo en Acción

consulta.sql

-- OxideDB v1.6.0: Lakehouse Analytics con Delta Lake + S3
-- DataFusion 50.3, Delta Lake 0.29, Arrow 56

-- 1. Registrar tabla Delta Lake desde S3
REGISTER DELTA 's3://bucket/warehouse/sales_delta' AS sales;
-- REGISTER DELTA TABLE sales (Version: 5, Files: 12, 2.3M rows)

-- 2. Sincronizar tablas desde AWS Glue Catalog
REFRESH TABLES;
-- REFRESH TABLES completed. Discovered 47 tables in 2.85s

-- 3. CTE con Window Functions sobre Delta Lake
WITH monthly_sales AS (
    SELECT
        DATE_TRUNC('month', fecha) as mes,
        categoria,
        SUM(monto) as ventas_mes,
        COUNT(DISTINCT cliente_id) as clientes,
        ROW_NUMBER() OVER (PARTITION BY categoria
                          ORDER BY SUM(monto) DESC) as ranking
    FROM sales  -- Delta Lake table con ACID transactions
    WHERE fecha >= '2025-01-01'
    GROUP BY DATE_TRUNC('month', fecha), categoria
)
SELECT mes, categoria, ventas_mes, clientes, ranking
FROM monthly_sales
WHERE ranking <= 10;

-- Ver historial de versiones (Time Travel)
DELTA HISTORY sales;
-- Performance: Sub-segundo sobre millones de filas ⚡
-- Features: Delta Lake ✅ Time Travel ✅ CTEs ✅ Window Functions ✅

Construido para Velocidad

Parser SQL y Planificador de Consultas

Soporte completo de sintaxis SQL con optimización basada en costos para OLAP

Motor de Ejecución Vectorizado SIMD

Sistema de Traits VectorizedKernel

Operaciones SIMD (AVX-512)

Procesamiento Adaptativo por Lotes

Alineación de Memoria de 64-bytes

Capa de Almacenamiento

Integración con Parquet, estructuras de datos columnares y I/O mapeado en memoria

Motor de Consultas OLAP

Operaciones CUBE/ROLLUP, funciones de ventana, y agregaciones complejas optimizadas

Casos de Uso Perfectos

Data Warehousing

• ETL/ELT pipelines de alta velocidad
• Análisis histórico sobre terabytes de datos
• Cubos OLAP multidimensionales
• Reportes ejecutivos en tiempo real

Business Intelligence

• Dashboards interactivos con sub-segundo de latencia
• Análisis ad-hoc sobre grandes datasets
• KPIs y métricas en tiempo real
• Drill-down y roll-up instantáneos

Análisis de Series Temporales

• Métricas de IoT y telemetría
• Análisis de logs y eventos
• Datos financieros tick-by-tick
• Detección de anomalías en tiempo real

Machine Learning

• Feature engineering a escala
• Preparación de datasets de entrenamiento
• Análisis exploratorio de datos (EDA)
• Pipelines de transformación de datos

📦 Instalación OxideDB

Ejecutables precompilados listos para usar. Sin compilación, sin dependencias complejas.

Linux x64 v1.6.0 (90MB)

macOS Intel

Windows x64

Descarga Directa

# === DESCARGA DIRECTA DE EJECUTABLES ===

# Linux amd64 - Ejecutables precompilados (90MB servidor)
wget https://releases.oxidedb.com/v1.6.0/oxidedb-1.6.0-linux-amd64.tar.gz
tar -xzf oxidedb-1.6.0-linux-amd64.tar.gz

# Instalar en el sistema
sudo cp linux-amd64/oxidedb-server /usr/local/bin/
sudo chmod +x /usr/local/bin/oxidedb-server

# Verificar instalación
oxidedb-server --version
# OxideDB Server v1.6.0 (DataFusion 50.3)
# PostgreSQL wire protocol compatible
# Delta Lake, S3-Native, Window Functions, CTEs, UNION, AWS Glue Catalog

Iniciar Servidor

# Iniciar OxideDB Server (si se instaló manualmente)
oxidedb-server \
  --port 5433 \
  --data-dir ./oxidedb-data \
  --threads 8

# O usar el servicio del sistema (recomendado)
sudo systemctl start oxidedb

# Servidor listo en localhost:5433
# Compatible con protocolo PostgreSQL

Cliente CLI

# Conectar con CLI
oxidedb-cli --host localhost --port 5433

# Ejecutar consultas OLAP
oxidedb> ATTACH 'ventas.parquet' AS ventas;
oxidedb> SELECT region, SUM(monto)
         FROM ventas
         GROUP BY region;

Verificación del Sistema

Verificar Instalación

# Verificar archivos instalados
ls -la /usr/local/bin/oxidedb-server

# Verificar versión
oxidedb-server --version
# OxideDB Server v1.6.0 (DataFusion 50.3)
# PostgreSQL wire protocol compatible
# Delta Lake, S3-Native, Window Functions, CTEs

Test Básico

# Conectar con psql (PostgreSQL wire protocol)
psql -h localhost -p 5433 -U oxidedb -d postgres

# Test query con Window Function
SELECT
  'OxideDB' as db,
  ROW_NUMBER() OVER () as ranking
UNION ALL
SELECT 'Running', 2;

# Salida: db='OxideDB', ranking=1 ✅