생성형 AI 기반 합성 3D 데이터 생성 플랫폼

배경

로봇이 어떤 작업을 학습하려면 수많은 시뮬레이션과 실험 데이터를 필요로 합니다. 예를 들어, 로봇이 문을 여는 행동 하나만 학습하더라도, 다양한 문 손잡이 구조와 재질, 물리적 조건에 대한 경험이 요구됩니다. 하지만 현실에서는 그렇게 다양한 환경을 구성하기 어렵고, 실제 데이터를 수집하는 데도 많은 시간과 비용이 듭니다. 특히 실제 환경에서는 센서 오류, 반복 불가성, 사고 위험 등으로 인해 정밀하고 대규모의 학습 데이터를 얻는 데 한계가 있습니다. 이 때문에 많은 로봇 연구자와 기업들은 시뮬레이터 기반의 가상 환경에서 로봇을 훈련시킵니다.

또한, 로봇 연구의 한 줄기인 Real2Sim2Real(R2S2R) 워크플로우는 로봇이 현실 세계에서의 복잡한 작업을 학습할 수 있도록 도와주는 강력한 구조입니다. 그러나 이 흐름의 핵심 중 하나인 Real2Sim, 즉 현실 데이터를 가상 시뮬레이션 환경으로 변환하는 단계는 여전히 큰 도전 과제를 안고 있습니다. 대부분의 경우 CAD로 설계된 객체를 물리 엔진에서 작동 가능한 형태로 바꾸기 위해 많은 수작업이 필요하고, 이 작업은 숙련된 엔지니어가 장시간에 걸쳐 진행해야 할 만큼 복잡합니다. 아래와 같은 Scan 기반 데이터 생성 연구가 활발히 진행되고 있지만 여전히 데이터의 품질 측면에서 개선해야할 여지가 많습니다.

(*Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardwar

Text/Image-to-3D의 한계 – ‘보이는’ 것과 ‘작동하는’ 것의 차이

최근 Text/Image-to-3D 기술은 단순한 입력 문장 혹은 이미지만으로 시각적으로 훌륭한 3D 모델을 생성할 수 있어 많은 관심을 받고 있습니다. 그러나 이 기술은 시뮬레이션이나 로봇 학습을 위한 사용에는 근본적인 한계를 가지고 있습니다.

첫째, 관절 정보가 존재하지 않습니다. Text/Image-to-3D 모델은 대부분 하나의 통합된 메시(Mesh)를 출력합니다. 시각적으로는 여러 부품처럼 보이더라도, 실제로는 하나의 덩어리로 구성되어 있어 관절을 부여하거나 물리 엔진에서 움직임을 시뮬레이션하는 것이 불가능합니다. 예를 들어 "접히는 로봇 팔"이라는 텍스트로 생성된 모델은 접힐 수 없습니다. 관절이 없기 때문입니다.

둘째, Jitter 현상과 비정형 메시 구조도 문제입니다. Text/Image-to-3D 기술로 생성된 3D 메시(Mesh)는 정형화된 NURBS(Non-Uniform Rational B-Spline) 기반의 CAD와 달리 정밀한 형상을 보장 못하고, 곡선의 연속성이 부족하여 표면이 매끄럽지 못합니다. 이는 시뮬레이터의 충돌 오류(Collision error), 불안정한 물리적 동작 그리고 계산량을 증가시켜 학습 성능을 높이기 어럽게 만듭니다. 결국 저품질 데이터는 현실 세계와 가상 세계의 격차(Gap) 좁히는데 한계가 존재합니다.

셋째, 분리되지 않은 부품 구조 역시 큰 제약입니다. 기계적 동작을 구현하려면 각각의 부품이 독립적으로 정의되어야 하고, 그 사이에 조인트가 연결되어야 합니다. 그러나 Text/Image-to-3D의 출력물은 대부분 이러한 부품 분리 및 계층 구조를 갖추고 있지 않으며, 결과적으로 Articulated object로의 확장이 어렵습니다.

이러한 이유로 Text/Image-to-3D는 시각적 프로토타이핑에는 유용하지만, 로봇 학습이나 물리 기반 시뮬레이션에는 직접적인 활용이 어려운 기술입니다. 엔닷라이트의 Text/Image-to-CAD 기반 3D 데이터 생성 파이프라인은 바로 이 부분을 정면으로 보완합니다. 부품 간의 구조적 관계를 정확히 인식하고, 이를 기반으로 실제 움직임이 가능한 Articulated object를 자동 생성함으로써, 현실의 동작을 가상 세계에서 그대로 재현할 수 있게 만듭니다.

Text/Image-to-CAD 기반 3D 시뮬레이션 데이터 생성 솔루션

보통 CAD 모델은 그저 ‘형태’를 담고 있을 뿐입니다. 부품이 어떻게 생겼는지, 어디에 위치하는지, 어떻게 연결되는지를 정밀하게 표현할 수는 있지만, 그것이 실제로 ‘움직인다’는 정보를 가지고 있지는 않습니다. 즉, 설계된 물건은 현실에 가까운 모양일지 몰라도, 여전히 움직이지 않는 부품들일 뿐입니다.

하지만 엔닷라이트가 개발한 Trinix 솔루션은 이 부품들을 하나하나 들여다보며 스스로 판단합니다. 이 부품과 저 부품이 닿아 있다면 어떤 관계일까? 이 반복되는 구조는 회전축을 암시하는 걸까? 마치 사람의 관절을 바라보듯, 기계의 움직임을 상상하며 움직임의 가능성을 읽어냅니다. 때로는 대칭성과 연결 방식에서, 때로는 두 부품 사이의 틈새에서 작은 단서들을 포착합니다. 그렇게 추론된 움직임은 실제 시뮬레이션에서 사용할 수 있도록 정리되고, 로봇이 그 물체를 집거나 밀거나 회전시키는 행동을 배우는 데 직접 활용됩니다. 정적인 설계가 마침내 동적인 현실로 바뀌는 순간입니다. 더 이상 설계는 단순한 도면이 아니라, 로봇이 이해하고 학습할 수 있는 환경이 됩니다.

우리는 또한 Text/Image-to-CAD 기술과의 연동을 고려한 아키텍처를 설계했습니다. 사용자가 "회전하는 손잡이가 달린 레버"라는 문장 혹은 유사한 이미지를 입력하면, 분리된 파츠 뿐만아니라 조인트 유형까지 포함된 Articulated CAD 모델을 생성합니다. 이는 단순한 3D 형상 생성과는 차원이 다른 작업입니다. 단어 하나에서 힌트를 얻어 기능성과 운동성을 자동 부여하는 기술은 산업 설계 자동화의 핵심이 됩니다.

이러한 기술 덕분에 우리는 이제 텍스트만 입력하면, 별도의 조인트 세팅 없이도 곧바로 물리 엔진과 로봇 학습 환경으로 넘어갈 수 있게 되었습니다. 이것이 바로 기존의 설계 기반 시스템에서는 상상하기 어려웠던 새로운 가능성입니다.

활용 사례 – 로봇 학습, 시뮬레이션, 디지털 트윈

이 기술은 다양한 산업에서 실질적인 변화를 만들고 있습니다.

  • 스마트 팩토리: 기계 부품의 CAD 모델을 자동으로 시뮬레이터에 반영해 로봇이 작업 절차를 학습합니다.

  • 가전제품 테스트: 손잡이, 힌지, 레버 등을 포함한 모델을 시뮬레이션하여 실제 사용성과 마모 시나리오를 예측합니다.

  • 로봇 훈련 환경: Articulation이 자동 정의된 객체들을 통해 강화학습 환경을 다채롭고 현실성 있게 구성합니다.

  • 디지털 트윈: 현실의 기계와 동일한 구조의 가상 모델을 빠르게 생성해 유지보수, 진단, 학습에 활용합니다.

ⓒ 2025 NDotLight Co., Ltd.

ⓒ 2025 NDotLight Co., Ltd.