El mocap (captura de movimiento) ha revolucionado las industrias del cine y los videojuegos. Pero a pesar de estar en uso generalizado desde hace algunas décadas, sigue siendo desmedidamente caro y solo accesible a estudios con presupuestos serios. Eso podría cambiar pronto, porque el YouTuber Made By Dennis construyó un sistema DIY de mocap basado en Raspberry Pi para rivalizar con lo que usa Hollywood.
¿Cómo funciona el mocap?
Los conceptos básicos del mocap son fáciles de entender: múltiples cámaras alrededor de la sala rastrean marcadores colocados sobre actores u objetos. Cuando al menos tres cámaras pueden ver un marcador, un computador puede calcular la posición de ese marcador en el espacio 3D mientras se mueve. Esos se convierten en puntos de referencia para riggear "marionetas" digitales en el espacio virtual.
Pero a nivel técnico, es mucho, mucho más complejo que eso. Las cámaras necesitan grabar a una tasa de fotogramas alta con motion blur mínimo y necesitan mantenerse sincronizadas para que los cálculos de posición sean precisos. Y en este caso, el sistema completo también necesita ser asequible.
Cámaras custom con Compute Module 5 y LEDs infrarrojos
Para cumplir con esos requisitos, Dennis diseñó sus propias cámaras. Cada una hace su propio procesamiento de imagen, gracias a un Raspberry Pi Compute Module 5 integrado. Graban video a través de módulos de cámara a 120 fps y lo hacen sin filtro IR. Eso significó que Dennis pudo integrar tiras de LED infrarrojo estroboscópicas de 2,5 kW para iluminar brillantemente los marcadores retroreflectivos, "congelando" el movimiento para prevenir el blur. Cada cámara entrega las coordenadas dentro del frame de los marcadores detectados a un computador central, que hace los cálculos para producir las coordenadas 3D de todos los marcadores.
Y lo hace en tiempo real, lo que significa que este sistema funciona para aplicaciones como control de lazo cerrado de drones y robots.
¿Por qué hicieron falta tweaks a nivel de kernel?
Cada cámara necesita averiguar dónde están los marcadores en el frame y necesita hacerlo 120 veces cada segundo, todo mientras se mantiene sincronizada con las otras cámaras. Eso es mucho más rápido de lo que se podría lograr con enfoques normales de software, así que Dennis hizo tweaks a nivel de kernel para optimizar el throughput. Usó muchos trucos, incluyendo iniciar el procesamiento de cada frame antes de que la cámara incluso termine de transferir los datos al Raspberry Pi, para lograr el rendimiento deseado.
¿Qué tan bien funcionó todo? Aún no lo sabemos, porque Dennis está guardando el gran reveal para un video futuro. Pero el sistema se ve increíblemente prometedor hasta ahora.
Comparativa con sistemas comerciales
Los sistemas profesionales de mocap como Vicon o OptiTrack cuestan entre USD 50.000 y USD 250.000 para una sala de captura mediana de 6-8 cámaras. Una build DIY con Compute Module 5 (USD 75 cada uno) más módulos de cámara (USD 25) y LEDs (USD 200-300) puede aproximarse a USD 600-1.200 por cámara, incluyendo mecánica y montaje. Para una instalación de 8 cámaras, el costo total se acerca a USD 5.000-10.000, una fracción del precio comercial.
| Sistema | Precio aproximado | FPS típico | Latencia |
|---|---|---|---|
| Vicon Vantage | USD 150.000+ | 250-2.000 | Sub-frame |
| OptiTrack Prime | USD 50.000+ | 240-360 | Sub-frame |
| DIY Made By Dennis | USD 5.000-10.000 (8 cám) | 120 | Real-time |
Contexto chileno: makers locales y robótica
Para makers chilenos del rubro robótica, este enfoque es replicable: el Compute Module 5 se importa por MercadoLibre o desde proveedores especializados como Olimex y SparkFun. La pieza más costosa en CLP suele ser el bank de LEDs infrarrojos de potencia, que en Chile bordea los CLP 250.000-400.000 la implementación de 2,5 kW por la electrónica de driver. Para clubes de robótica universitaria como el de UTFSM o la PUC, una instalación de 4-6 cámaras puede caber dentro de un fondo de proyecto típico.
El detalle más interesante técnicamente es el procesamiento distribuido: cada Pi hace detección de marcadores localmente y solo envía coordenadas 2D al central. Eso elimina el cuello de botella de ancho de banda que mata a sistemas que centralizan todo el video.




