Dennis tiene un canal de YouTube llamado Made By Dennis y, para que conste, él es un maker, no un V-tuber. Sin embargo, su último proyecto (un rig de tracking de nivel profesional con cámaras IR DIY y mucha audacia) significa que ahora está equipado para dar el salto al prestigioso mundo de pretender ser una chica anime.
Por supuesto, no es la razón por la que lo hizo. Como en la mayoría de los proyectos por acá, la motivación fue más bien un "me pregunto si puedo". En este caso, Dennis se preguntó qué le tomaría replicar el tipo de captura de movimiento óptica que se usa en los estudios de Hollywood.
¿Por qué óptico y no IMU?
La captura óptica de movimiento (MoCap óptico) tiene la ventaja de ser muy precisa, capaz de seguir objetos a alta velocidad, y de no estar limitada al cuerpo humano como muchos métodos asistidos por IA que están saliendo al mercado. La desventaja es que hay que poner marcadores en cada parte del sujeto que se quiera trackear, filmarlos desde todos los ángulos y procesar enormes cantidades de píxeles. En el caso de Dennis, terminaron siendo cerca de cuatro mil millones.
Vale recordar que ubicar esos puntos en espacio 3D depende de saber exactamente dónde están las cámaras: si querés precisión sub-milimétrica, las cámaras tienen que estar fijadas con tolerancia sub-milimétrica también. Es un proyecto grande, de ahí el video largo que acompaña la publicación.
El hardware: AR0234 MIPI, M12 y CM5
Las cámaras DIY usan un sensor AR0234 MIPI sobre un PCB custom, con lentes M12 y filtros IR. Para mejorar la relación señal-ruido del MoCap óptico es estándar usar luz near-IR. Los boards de cámara, como cabría esperar dada la interfaz MIPI, se conectan a Raspberry Pi compute modules. El CM4 más barato debería funcionar, aunque Dennis está usando el CM5.
Los compute modules viven en boards custom que proveen alimentación PoE y algunas otras gracias, como un pequeño microcontrolador manejado por el pin pulse-per-second que ayuda a disparar las cámaras en sincronía.
160 W de pulso, pero dentro del presupuesto PoE
Cada cámara lleva un anillo de LEDs near-IR que pulsan a 160 W, una cifra que sería mucho más de lo que PoE puede proveer en régimen continuo. Pero como los LEDs solo se encienden mientras la cámara está capturando un frame, la potencia promedio queda cómodamente dentro de lo permitido. Con 16 cámaras, cada una con su anillo de luz, hay muchos fotones near-IR volando. No se olviden de las gafas de seguridad.
¿Cómo procesa 4.000 millones de píxeles por segundo?
En lugar de procesar las imágenes con OpenCV, Dennis tiene una solución custom optimizada para este caso de uso que, según reporta, es 300× más rápida. Por suerte, publicó su implementación en GitHub, junto con el resto del proyecto. Incluso si no tenés ambiciones de V-tubing, este proyecto es muy impresionante y vale la pena revisarlo entero.
Alternativas más baratas
El MoCap óptico no es la única opción. Si querés hacerlo barato y simple, podés ponerte un montón de sensores IMU encima, pero no esperes la misma precisión.




