목차
- 1. 💬 Shape LLM Omni: 3D 모델과 대화하며 만들고 편집한다!
- 2. 🎞️ Flow Mo: AI 생성 비디오, 이제 더 부드럽고 자연스럽게!
- 3. 🖼️ Native Resolution Image Synthesis (NIT): 어떤 크기든, 어떤 비율이든 OK!
- 4. 💥 Control Crash: 자동차 충돌 영상, AI로 현실처럼 시뮬레이션!
- 5. 🎮 Deep Versse: 게임 플레이 영상, AI가 만들어준다! (컨트롤러 입력도 가능!)
- 6. 🎬 Microsoft Sora 무료 이용 가능! (Bing 모바일 앱에서!)
- 7. 🤖 Figure 2 로봇, 더 빨라지고 똑똑해졌다! (패키지 분류 시연)
- 8. 🗣️🎞️ 오디오와 영상의 완벽한 만남! 오픈소스 AI 비디오 립싱크 기술 등장!
- 9. 🧑🔬 Pixel 3DMM: 단 한 장의 사진으로 초정밀 3D 얼굴 모델 만들기!
- 10. 🏆 Google Gemini 2.5 Pro Preview 0605: 현존 최강 모델 등극?
- 11. 🗣️ 새로운 Text-to-Speech (TTS) 모델 소식! (오픈소스 대안 등장!)
여러분 안녕하세요, 아이고입니다. 😄
정말 눈 깜짝할 사이에 새로운 AI 기술들과 그에 대한 AI뉴스들이 쏟아져 나오는 요즘! 🚀 매일매일 업데이트되는 소식들을 다 챙겨보기 버거우셨죠? 걱정 마세요! 저 아이고가 이번 한 주 동안 AI 업계를 뜨겁게 달궜던 흥미진진한 뉴스들만 쏙쏙 골라, 여러분이 놓치지 않도록 깔끔하게 정리해 드릴게요! 마치 AI 기술 종합 선물 세트처럼, 다양한 분야의 혁신적인 소식들을 한눈에 만나보실 수 있을 거예요. 자, 그럼 지금부터 저와 함께 이번 주 AI 핫이슈들을 만나러 가보실까요? 😉
👇🏼 오늘도 오디오 요약본 들으면서 함께 보세요 👇🏼
1. 💬 Shape LLM Omni: 3D 모델과 대화하며 만들고 편집한다!

- 이게 뭔가요?: 텍스트 프롬프트나 이미지를 입력받아 3D 모델을 생성하거나 편집하고, 심지어 3D 모델에 대해 질문하고 답변까지 받을 수 있는 신기한 멀티모달 모델, Shape LLM Omni입니다!
- 주요 특징:
- 오픈소스로 공개! (HuggingFace에 모델, GitHub에 설치/실행 방법 안내)
- 품질이 아주 최고 수준은 아니지만, 3D 모델과 직접 ‘대화’할 수 있다는 개념 자체가 매우 흥미로워요. 🤔
- 70억 개의 파라미터로 구성되어, 대부분의 소비자용 GPU에서도 실행 가능할 것으로 예상됩니다.
- 아이고 생각: 3D 모델링에 대한 지식이 부족해도, AI와 대화하듯 원하는 모델을 만들고 수정할 수 있다면 정말 혁신적일 것 같아요!
2. 🎞️ Flow Mo: AI 생성 비디오, 이제 더 부드럽고 자연스럽게!
- 이게 뭔가요?: AI로 생성된 비디오 결과물을 더욱 부드럽고 일관성 있게 만들어주는 플러그인 AI, Flow Mo입니다!
- 주요 특징:
- 영상의 패치 단위 분산(patch-wise variance)을 측정해서 움직임을 자연스럽게 조정한다고 해요.
- 모델에 구애받지 않고 적용 가능하다는 점이 큰 장점! (Alibaba의 Wan 2.1, Cog Video X 같은 오픈소스 모델에 적용한 예시도 있답니다.)
- 코드는 공개되었지만, 아직 사용하기 쉬운 형태는 아니고 Python 추론 코드만 있다고 하네요. (조금 더 기다려보면 편리한 툴이 나오겠죠? 😊)
- 아이고 생각: AI 비디오의 고질적인 문제 중 하나인 ‘어색한 움직임’을 해결해 줄 수 있다면, 정말 많은 크리에이터들에게 사랑받을 것 같아요!
3. 🖼️ Native Resolution Image Synthesis (NIT): 어떤 크기든, 어떤 비율이든 OK!
- 이게 뭔가요?: 특정 크기로 훈련되지 않아도 어떤 크기나 가로세로 비율의 이미지든 동일한 품질로 생성할 수 있는 이미지 생성 AI, NIT입니다!
- 주요 특징:
- 대부분의 이미지 생성 AI들이 특정 크기에서만 최적의 성능을 내는 한계를 극복했어요! 👏
- Hidream이나 Flux 같은 최첨단 모델만큼 품질이 뛰어나지는 않지만, 아주 넓거나 아주 긴, 극단적인 가로세로 비율의 이미지를 만들 때 유용할 수 있다고 해요.
- 데이터셋과 모델 모두 오픈소스로 공개되었습니다!
- 아이고 생각: 이제 파노라마 사진이나 웹툰 배경처럼 특수한 비율의 이미지를 AI로 더 쉽게 만들 수 있겠네요!
4. 💥 Control Crash: 자동차 충돌 영상, AI로 현실처럼 시뮬레이션!
- 이게 뭔가요?: 단 한 장의 이미지로부터 자동차 충돌 영상을 매우 현실적으로 생성하는 데 특화된 AI, Control Crash입니다! (이름부터 강력하죠? 😮)
- 주요 특징:
- 다양한 유형의 충돌을 시뮬레이션하고, 충돌이 어떻게 발생할지 예측까지 할 수 있다고 해요.
- 안전 분석이나 자율 주행차 알고리즘 훈련에 매우 유용하게 쓰일 수 있을 것 같아요.
- 자동차 충돌 시뮬레이션 분야에서는 OpenAI의 Sora를 포함한 다른 비디오 모델보다 훨씬 뛰어나다고 자신 있게 주장하고 있답니다!
- 코드는 오픈소스로 공개되었습니다.
- 아이고 생각: 영화나 게임 속 자동차 추격씬 제작은 물론, 실제 자동차 안전 기술 발전에도 큰 도움을 줄 수 있는 중요한 기술 같아요!
5. 🎮 Deep Versse: 게임 플레이 영상, AI가 만들어준다! (컨트롤러 입력도 가능!)
- 이게 뭔가요?: 비디오 게임 플레이 영상을 생성하는 AI, Deep Versse입니다! 초기 이미지와 텍스트 프롬프트, 또는 실제 게임 컨트롤러 입력을 받아 동작을 제어할 수 있다고 해요! 🤯
- 주요 특징:
- 물리학, 조명, 캐릭터 움직임 등을 꽤 잘 이해한다고 합니다.
- Google의 게임 엔진(Doom)이나 Microsoft의 Diamond(Counter-Strike)처럼 특정 게임에만 국한되지 않고, 어떤 게임의 플레이 영상이든 생성할 수 있다는 점이 가장 큰 특징!
- GitHub 저장소는 있지만, 아직 코드는 공개되지 않은 것 같아요. (빨리 써보고 싶네요! 🙏)
- 아이고 생각: 내가 상상하는 게임 장면을 AI로 만들거나, 심지어 내가 직접 컨트롤해서 AI가 게임 플레이 영상을 만들어준다면 정말 신세계일 것 같아요! 게임 스트리머나 개발자들에게도 유용하겠고요.
6. 🎬 Microsoft Sora 무료 이용 가능! (Bing 모바일 앱에서!)
- 이게 뭔가요?: 드디어 그 소문이 현실로! Microsoft가 OpenAI의 Sora를 통한 무료 무제한 비디오 생성을 제공하기 시작했어요! 🎉
- 주요 특징:
- Bing 모바일 앱에서만 사용 가능합니다.
- 현재는 5초 길이의 세로 9:16 형식 영상만 생성 가능 (소셜 미디어용으로 딱이죠? 😉 가로 형식은 추후 지원 예정!)
- 사용자당 10번의 빠른 생성(몇 분 소요) 후에는, 무제한으로 표준 속도 생성(몇 시간 소요 가능)을 이용할 수 있어요.
- Sora의 품질이 최신 모델들에 비해 다소 떨어질 수는 있지만, 완전 무료이고 무제한 표준 속도 생성이 가능하다는 점은 엄청난 매력 포인트!
- 아이고 생각: Sora를 직접 경험해 볼 수 있는 절호의 기회! 아이디어만 있다면 누구나 AI 비디오 크리에이터가 될 수 있겠어요! (저도 당장 Bing 앱 깔러 갑니다! 🏃♀️)
7. 🤖 Figure 2 로봇, 더 빨라지고 똑똑해졌다! (패키지 분류 시연)
- 이게 뭔가요?: 자율적으로 패키지를 분류하고 스캔하는 Figure 2 로봇의 새로운 데모 영상이 공개되었어요!
- 주요 특징:
- 몇 달 전 첫 데모 때보다 속도와 민첩성이 훨씬 향상된 모습을 보여줬다고 해요.
- 다양한 모양과 크기의 패키지를 능숙하게 처리하고, 심지어 스캔 효율을 높이기 위해 패키지를 손으로 평평하게 만드는 섬세함까지! 😮
- 아이고 생각: 영화 속에서나 보던 인간형 로봇이 우리 일상으로 점점 더 가까이 다가오고 있다는 걸 실감하게 되네요! 물류센터의 미래가 기대됩니다.
8. 🗣️🎞️ 오디오와 영상의 완벽한 만남! 오픈소스 AI 비디오 립싱크 기술 등장!
드디어 오디오에 맞춰 자연스럽게 말하는 AI 비디오를 만들 수 있는 오픈소스 옵션들이 등장했어요!
- 💧 Skyreels Audio:
- 입력된 오디오를 기반으로 사람이 말하는 비디오를 생성해요.
- 단순히 입술만 움직이는 게 아니라, 전체 몸과 배경까지 애니메이션화하고, 비현실적인 캐릭터도 지원!
- 참조 비디오를 입력하고 그 사람이 다른 말을 하도록 바꾸는 것도 가능하다고 해요.
- 다른 립싱크 AI 툴들과 비교했을 때 일관성과 자연스러운 몸 움직임이 더 좋아 보인다는 평!
- 기술 보고서는 나왔지만, 코드는 아직 미공개. (이전에 모델을 오픈소스화한 적이 있으니 기대해 봐도 좋겠죠?)
- 🎨 Hunyen Custom (오디오 기능 업데이트!):
- 몇 주 전, 참조 이미지나 객체를 비디오에 삽입하는 기능으로 소개되었던 Hunyen Custom이 이번에는 오디오 클립을 입력해서 비디오의 모든 캐릭터에 립싱크하는 강력한 기능을 업데이트했어요!
- 이 오디오 기능은 Google의 VEO3보다 더 낫다고 주장하는데요, VEO3는 오디오를 랜덤 생성하고 사용자 음성 입력을 받지 못하는 반면, Hunyen Custom은 오디오를 완벽하게 제어해서 일관된 캐릭터의 일관된 목소리를 만들 수 있기 때문이라고 해요!
- 참조 비디오를 사용해서 비디오의 어떤 것이든 편집하거나 대체할 수도 있답니다.
- 드디어 이번 주에 오디오 기반 및 비디오 기반 모델이 공개되었어요!
- 다만, 최소 80GB의 Nvidia CUDA GPU가 필요하다고 하니, 사양이 어마어마하네요. 😱 (향후 저사양 버전도 기대해 봅니다!) 아직 공식적인 ComfyUI 통합은 없다고 해요.
아이고 생각: 드디어 오픈소스 진영에서도 쓸만한 오디오 동기화 AI 비디오 기술이 등장했네요! 특히 Hunyen Custom의 발전이 놀라워요. 비록 하드웨어 요구 사양이 높지만, 앞으로 더욱 발전해서 우리도 쉽게 활용할 수 있는 날이 오기를 기대해 봅니다! 😊
9. 🧑🔬 Pixel 3DMM: 단 한 장의 사진으로 초정밀 3D 얼굴 모델 만들기!
- 이게 뭔가요?: 단일 이미지로부터 사람 얼굴의 매우 정확한 3D 모델을 생성하는 Pixel 3DMM입니다!
- 주요 특징:
- 다른 3D 얼굴 생성기보다 오류가 적고, 특히 까다로운 표정이나 각도에서도 더 정확한 결과를 보여준다고 해요.
- 얼굴을 중립적인 표정으로 변환하는 기능도 있고, 정확도 면에서 다른 방법들보다 15% 더 뛰어나다고 주장합니다.
- 코드는 오픈소스로 공개되었습니다!
- 아이고 생각: VR/AR 아바타 제작이나, 영화/게임 캐릭터 제작, 심지어 의료 분야에서도 활용될 수 있는 유용한 기술 같아요!
10. 🏆 Google Gemini 2.5 Pro Preview 0605: 현존 최강 모델 등극?
- 이게 뭔가요?: Google의 Gemini 모델이 또 한 번 업그레이드된 Gemini 2.5 Pro Preview 0605 버전이 등장했어요!
- 주요 특징:
- 코딩 능력이 향상되었고, 수학, 과학 지식 및 추론 능력을 평가하는 여러 어려운 벤치마크에서 성능이 크게 개선되었다고 합니다.
- LM Arena 리더보드에서 전체 1위 및 다양한 카테고리에서 1위를 차지! Artificial Analysis 지능 점수에서는 03 및 04 Mini와 동점이지만, 훨씬 더 큰 컨텍스트 창(100만 토큰!)을 가지고 있다는 강점이 있어요.
- 매우 긴 프롬프트(예: 192,000 단어)의 컨텍스트를 이해하는 데 탁월하고, 생소한 과학 분야 지식을 테스트하는 Humanity’s Last Exam 리더보드에서도 1위를 차지!
- 현재 객관적으로 최고의 모델로 평가받고 있다고 합니다. 👑
- Google의 AI Studio 플랫폼 및 Gemini 앱(2.5 Pro Preview)에서 무료로 사용 가능합니다!
- 아이고 생각: Gemini의 무서운 질주! 특히 방대한 양의 정보를 이해하고 처리하는 능력이 뛰어나서, 복잡한 연구나 분석 작업에 큰 도움을 줄 수 있을 것 같아요.
11. 🗣️ 새로운 Text-to-Speech (TTS) 모델 소식! (오픈소스 대안 등장!)
- ✨ Eleven Labs V3: 감정, 톤, 억양, 음향 효과까지 태그로 제어할 수 있는 매우 사실적인 TTS 모델로 간략히 언급되었어요. (자세한 내용은 이전 제 포스팅을 참고해주세요! 😉)
- 🐟 Fish Audio Open Audio S1 모델 / S1 Mini:
- Eleven Labs V3의 오픈소스 대안으로 등장했어요! 감정 및 톤 태그 추가가 가능하다고 합니다.
- S1 모델(40억 파라미터)은 오픈소스가 아니지만, S1 Mini 모델(더 작고 가벼운 버전)은 오픈소스로 공개되었습니다!
- Eleven Labs V3보다 품질은 약간 떨어질 수 있지만, 대부분의 소비자 기기에서 실행 가능(총 4GB 필요)하고, CPU 및 Mac 지원도 추가되었다는 점이 매력적이에요!
- 모델은 HuggingFace에 있고, 무료 데모 공간 및 GitHub 저장소에 설명서도 있답니다.
- 초기 테스트 결과, 태그를 따르는 성능은 Eleven Labs V3만큼 좋지는 않다고 하네요.
- 아이고 생각: 드디어 강력한 오픈소스 TTS 모델이 등장했네요! S1 Mini는 접근성이 좋아서 많은 분들이 TTS 기술을 경험하고 활용하는 데 큰 도움이 될 것 같아요. 앞으로 더욱 발전하길 기대합니다!
휴, 정말 숨 가쁘게 달려왔죠? 😉 이번 주 AI 업계는 그야말로 혁신적인 기술들의 향연이었던 것 같아요! 3D 모델링부터 비디오, 이미지, 게임, 로봇, 그리고 음성 기술까지! 정말 어느 한 분야도 빠지지 않고 놀라운 발전이 이루어지고 있네요.
오늘 제가 전해드린 소식들이 여러분의 궁금증을 해소하고 새로운 영감을 얻는 데 조금이나마 도움이 되었으면 좋겠습니다! 앞으로 또 어떤 놀라운 AI 기술들이 우리를 기다리고 있을지, 저 아이고와 함께 계속해서 주목해 주세요!
더 궁금한 점이나 이야기하고 싶은 AI 뉴스가 있다면 언제든지 댓글로 알려주시고요, 저는 다음에 더욱 알찬 소식으로 돌아오겠습니다! 즐거운 한 주 보내세요!👋🏼 😄
함께 보면 좋은 글:
- 🎙️🤯 ElevenLabs V3 등장! AI 목소리, 이젠 감정 연기까지 한다고? (이전 아이고 포스팅 링크)