Quickstart: Crea un agente de voz en 10 minutos con Orga SDK (código listo)

10 feb 2026

El despliegue de agentes de voz en tiempo real requiere gestionar flujos de audio complejos y asegurar una latencia mínima para que la conversación sea natural. El SDK de Orga AI está diseñado para simplificar este proceso, permitiendo a los desarrolladores integrar capacidades multimodales (voz y visión) con pocas líneas de código.

En este quickstart para agente de voz, cubriremos desde la instalación hasta la puesta en marcha de una sesión activa utilizando nuestra infraestructura de streaming.

El despliegue de agentes de voz en tiempo real requiere gestionar flujos de audio complejos y asegurar una latencia mínima para que la conversación sea natural. El SDK de Orga AI está diseñado para simplificar este proceso, permitiendo a los desarrolladores integrar capacidades multimodales (voz y visión) con pocas líneas de código.

En este quickstart para agente de voz, cubriremos desde la instalación hasta la puesta en marcha de una sesión activa utilizando nuestra infraestructura de streaming.



Requisitos previos

Antes de empezar, asegúrate de tener:

  1. Una cuenta en el panel de Orga AI.

  2. Tu API Key activa.

  3. Node.js instalado en tu entorno de desarrollo.

Paso 1: Instalación del SDK

El SDK de Orga es la herramienta principal para interactuar con nuestros agentes. Puedes añadirlo a tu proyecto de JavaScript o TypeScript utilizando tu gestor de paquetes preferido:


Bash

npm install @orga-ai/sdk
# o
yarn add @orga-ai/sdk
npm install @orga-ai/sdk
# o
yarn add @orga-ai/sdk
npm install @orga-ai/sdk
# o
yarn add @orga-ai/sdk

Paso 2: Configuración del Agente y el Cliente

Para iniciar la comunicación, primero debemos configurar el cliente con la API Key y definir los parámetros del agente, como el modelo y las instrucciones de comportamiento.

JavaScript

import { OrgaClient } from '@orga-ai/sdk';
const client = new OrgaClient({
  apiKey: 'TU_API_KEY_AQUI',
});
const startAgent = async () => {
  const agent = await client.createAgent({
    model: 'orga-multimodal-v1', // Modelo oficial Orga
    instructions: 'Eres un asistente técnico de Orga. Responde de forma clara y directa.',
    voice: 'shimmer', // Configuración de voz
  });
  await agent.connect();
  console.log('Sesión iniciada: El agente está escuchando.');
};
import { OrgaClient } from '@orga-ai/sdk';
const client = new OrgaClient({
  apiKey: 'TU_API_KEY_AQUI',
});
const startAgent = async () => {
  const agent = await client.createAgent({
    model: 'orga-multimodal-v1', // Modelo oficial Orga
    instructions: 'Eres un asistente técnico de Orga. Responde de forma clara y directa.',
    voice: 'shimmer', // Configuración de voz
  });
  await agent.connect();
  console.log('Sesión iniciada: El agente está escuchando.');
};
import { OrgaClient } from '@orga-ai/sdk';
const client = new OrgaClient({
  apiKey: 'TU_API_KEY_AQUI',
});
const startAgent = async () => {
  const agent = await client.createAgent({
    model: 'orga-multimodal-v1', // Modelo oficial Orga
    instructions: 'Eres un asistente técnico de Orga. Responde de forma clara y directa.',
    voice: 'shimmer', // Configuración de voz
  });
  await agent.connect();
  console.log('Sesión iniciada: El agente está escuchando.');
};

Paso 3: Gestión de eventos de audio y vídeo

El SDK de Orga funciona de forma asíncrona, emitiendo eventos según el estado de la conversación. Para una integración completa, es fundamental escuchar estos eventos:

  • onConnect: Confirmación de que el túnel de WebSocket está abierto.

  • onSpeechStarted: Se dispara cuando el agente detecta que el usuario empieza a hablar.

  • onSpeechFinished: Indica que la respuesta del agente ha terminado.

JavaScript

agent.on('speech-started', () => {
  console.log('El agente está procesando tu voz...');
});
agent.on('text-delta', (delta) => {
  // Para mostrar el texto en tiempo real en la UI
  console.log('Recibiendo texto:', delta);
});
agent.on('speech-started', () => {
  console.log('El agente está procesando tu voz...');
});
agent.on('text-delta', (delta) => {
  // Para mostrar el texto en tiempo real en la UI
  console.log('Recibiendo texto:', delta);
});
agent.on('speech-started', () => {
  console.log('El agente está procesando tu voz...');
});
agent.on('text-delta', (delta) => {
  // Para mostrar el texto en tiempo real en la UI
  console.log('Recibiendo texto:', delta);
});

Paso 4: Cierre seguro de la sesión

Para optimizar el consumo de recursos y tokens, es importante cerrar la conexión cuando el usuario termina la interacción:

JavaScript

const endConversation = async () => {
  await agent.disconnect();
  console.log('Conexión cerrada correctamente.');
};
const endConversation = async () => {
  await agent.disconnect();
  console.log('Conexión cerrada correctamente.');
};
const endConversation = async () => {
  await agent.disconnect();
  console.log('Conexión cerrada correctamente.');
};

Conclusión

Gracias a la abstracción del SDK, no es necesario configurar servidores de audio o complejos sistemas de orquestación de modelos por separado. Con estos pasos, ya tienes un agente funcional capaz de mantener diálogos fluidos.

Siguientes pasos:

Prueba Orga ya

Conéctate a la plataforma para construir agentes que puedan ver, oír y hablar en tiempo real.

Male developer looking at AI code on the screen.

Prueba Orga ya

Conéctate a la plataforma para construir agentes que puedan ver, oír y hablar en tiempo real.

Female developer looking at her screen with AI code displayed around her.

Prueba Orga ya

Conéctate a la plataforma para construir agentes que puedan ver, oír y hablar en tiempo real.

Female developer looking at her screen with AI code displayed around her.