🤯 GPT-4o급 이미지 생성기, 감성 AI? (Bagel, Claude 4, Med-Gemma 등)

안녕하세요, 아이고입니다. 😄 와, 여러분! 이번 주 AI 소식은 정말이지 정신을 못 차릴 정도로 풍성했어요! 쏟아지는 신기술과 업데이트 속에서 길을 잃지 않도록, 제가 또 알기 쉽게 핵심만 쏙쏙 뽑아왔답니다. 걱정 마세요! 저 아이고만 따라오시면 최신 AI 트렌드를 놓치지 않을 수 있어요. 자, 그럼 흥미진진한 AI 세계로 함께 떠나볼까요? 🚀

👇🏼 오디오 요약버젼을 같이 들어보세요! 👇🏼

🎨 바이트댄스 Bagel: GPT-4o급 오픈소스 이미지 생성 및 편집 모델 등장!

여러분, 바이트댄스 (ByteDance)에서 엄청난 물건을 내놓았어요! 바로 Bagel (베이글)🥯이라는 오픈소스 멀티모달 언어 모델인데요, 이게 정말 물건이랍니다! GPT-4o처럼 대화도 가능하고, 이미지 생성 및 편집, 심지어 이미지에 대한 질문까지 이해하는 똑똑한 친구예요.

✨ Bagel의 주요 능력

뛰어난 프롬프트 이해도: 원하는 이미지를 정말 찰떡같이 이해하고 만들어줘요.
이미지 내 텍스트 렌더링: 이미지 안에 글자를 자연스럽게 새겨 넣는 솜씨가 일품!
이미지 편집 마법사: 기존 이미지에 요소를 추가하거나 변경해도 원본과 감쪽같이 어울리게 편집해 준답니다. 다른 부분은 그대로 유지하면서요!
깊은 사고 기능 (Thinking): 질문에 대해 더 오래 고민해서 더 정확하고 깊이 있는 답변을 제공해요. 🤔
다양한 스타일 변환: 3D 애니메이션, 일본 애니메이션, 점토 스타일 등 원하는 스타일로 이미지를 변신시키는 건 식은 죽 먹기!
카메라 워크 시뮬레이션: 카메라를 회전하거나 시점을 이동하는 듯한 연속 이미지 생성도 가능해요. 마치 영화감독이 된 것 같죠?

이 모든 기능을 조합하면 정말 창의적이고 생산적인 작업이 가능해진답니다! 더욱 놀라운 건, Bagel 모델이 이미 HuggingFace (허깅페이스)와 GitHub (깃허브)에 공개되어 있어서 무료로 다운로드해서 오프라인에서도 사용할 수 있다는 점이에요! 🥳

🕺 MTV Crafter: 내 캐릭터가 아이돌 댄스를? 모션 트랜스퍼 비디오 모델!

혹시 여러분의 최애 캐릭터가 멋진 춤을 추는 모습을 상상해 보신 적 있나요? 이제 MTV Crafter (엠티브이 크래프터)만 있다면 그 상상이 현실이 될 수 있어요! 🤩 이 모델은 캐릭터 참조 이미지와 움직이는 사람의 참조 비디오만 있으면, 참조 비디오의 동작을 캐릭터에게 그대로 옮겨주는 모션 트랜스퍼 비디오 모델이랍니다.

🌟 MTV Crafter의 특징:

다양한 캐릭터 적용: 플랫 벡터 아트 스타일이든, 3D 애니메이션 캐릭터든 문제없어요!
동시 다중 캐릭터 모션 적용: 여러 캐릭터에게 동시에 다른 움직임을 적용할 수도 있답니다.
오픈소스 공개: 품질이 아주 최고 수준은 아니지만, 모든 기술을 오픈소스로 공개해서 누구나 활용하고 발전시킬 수 있게 했어요. (이런 개방성, 정말 칭찬해요! 👍)

아직은 조금 어색한 부분이 있을 수 있지만, 오픈소스인 만큼 앞으로 얼마나 더 발전할지 정말 기대되지 않나요? 여러분의 아이디어를 더해 멋진 영상을 만들어보세요!

❤️‍🩹 AI의 EQ: 인간보다 감성 지능이 높다고? 충격적인 연구 결과!

최근 AI 모델들의 감성 지능(EQ)에 대한 흥미로운 연구 결과가 발표되었어요. 표준 EQ 테스트를 진행한 결과, AI 모델들이 평균적으로 인간보다 높은 감성 지능을 보였다고 해요! 😮 AI 모델은 평균 81%의 점수를, 인간 참가자는 56%를 기록했다고 하니 정말 놀랍죠?

AI는 감성적으로 가장 적절한 답변을 선택하는 능력뿐만 아니라, 인간 전문가가 만든 것과 구별하기 어려울 정도로 품질 좋은 새로운 EQ 테스트를 생성할 수도 있었답니다. 이 결과는 AI가 앞으로 코칭, 치료, 분쟁 해결처럼 감성 지능이 중요한 분야에서 인간보다 훨씬 효과적일 수 있다는 가능성을 보여줘요. 물론 아직 더 많은 연구가 필요하겠지만, AI의 잠재력이 어디까지일지 정말 궁금해지네요!

👁️ UniVGR1: 이미지 속 숨은 그림 찾기도 척척! 똑똑한 비전 언어 모델!

시각 분석 분야의 새로운 강자, UniVGR1 (유니브이지알원)이 등장했어요! 이 모델은 여러 이미지에서 공통된 객체를 찾거나, 특정 객체를 식별하고 위치를 찾아내고, 두 이미지 간의 차이점을 파악하는 등 복잡한 시각 분석 작업에 아주 뛰어나답니다. 👀

💡 UniVGR1의 강점:

딥싱킹 (Deep Thinking): 답변을 생성하기 전에 깊이 생각하는 과정을 거쳐 더 정확하고 뛰어난 성능을 보여줘요.
압도적인 벤치마크 성능: 비슷한 크기의 기존 비전 언어 모델들보다 모든 벤치마크에서 우수한 성적을 거뒀다고 해요!
오픈소스 기반: 오픈소스 모델인 Quen 2VL을 기반으로, 체인 오브 소트(Chain-of-Thought) 지도 미세 조정과 강화 학습을 통해 성능을 한층 끌어올렸어요.
무료 공개 및 데모 예정: 모델이 HuggingFace에 공개되어 있어 누구나 무료로 다운로드하고 미세 조정할 수 있으며, 곧 무료 온라인 데모도 출시될 예정이라고 하니 정말 기대돼요!

이제 이미지 분석도 AI에게 맡겨보세요! UniVGR1이 여러분의 눈이 되어줄 거예요. 😉

🚀 구글 I/O 후속 업데이트: 아직 끝나지 않았다! 더 강력해진 AI 서비스들!

지난 구글 I/O 2025에서 발표된 내용 외에도 구글은 계속해서 AI 서비스들을 업그레이드하고 있어요!

일반 업데이트 요약
- VO3 (비오 쓰리): 네이티브 오디오 생성 기능까지 탑재한, 현재까지 최고의 비디오 생성기!
- Imagine 4 (이매진 포): 2K 해상도와 뛰어난 텍스트/타이포그래피 생성 능력을 자랑하는 최고의 이미지 생성기 중 하나!
- Jules (줄스): 무료로 사용 가능한 똑똑한 코딩 에이전트!
- Stitch (스티치): 역시 무료로 제공되는 혁신적인 UI 디자인 플랫폼!
- 실시간 AI 어시스턴트: 카메라를 공유하며 질문에 답하는, 정말 사람 같은 AI 비서!
Notebook LM 비디오 오버뷰 기능
- Notebook LM의 기능이 더 확장되었습니다. 이번에는 여러분이 업로드한 문서, 웹사이트, 심지어 비디오까지 분석해서 전체 내용을 요약 설명하는 비디오를 생성해 주는 놀라운 기능이에요! 😮
- 키노트 영상을 입력했더니 요약 비디오가 뚝딱 만들어지는 시연은 정말 인상적이었답니다. 아직 정식 출시일은 발표되지 않았지만, 정말 유용하게 쓰일 것 같죠?
Med-Gemma (메드-젬마, 의료 분석 AI)
- 의료 분야에 특화된 AI 모델도 등장했어요! Gemma 3 아키텍처를 기반으로 한 소형 언어 모델이라 대부분의 소비자 기기에서도 실행 가능하다고 해요.
- 40억 매개변수 모델 (멀티모달)
  - 의료 텍스트는 물론, 방사선 사진, 병리 사진, 피부과 사진 같은 의료 이미지까지 함께 처리할 수 있어요. 괜히 멀티모달이 아니죠??
  - X선이나 CT 스캔을 분석하고 소견을 제시하며, 어려운 의학 용어도 비전문가가 이해하기 쉽게 설명해 준답니다.
- 270억 매개변수 모델 (텍스트 전용)
  - 의료 분야의 깊이 있는 이해와 추론에 최적화되어 임상 결정 지원, 의료 기록 요약, 환자 면담 등에 활용될 수 있어요.
- 두 모델 모두 오픈소스로 공개되어 HuggingFace에서 무료로 다운로드하고 로컬 환경에서 미세 조정하여 사용할 수 있다고 하니, 의료 AI 분야의 발전이 더욱 기대됩니다!
Learn LM (런 엘엠, 교육용 AI): Gemini 플랫폼 기반의 교육 및 학습 특화 AI예요. 기존 챗봇보다 훨씬 능동적으로 학습을 돕는데요, 학습 주제를 계획에 따라 나누고, 설명 후에는 퀴즈나 관련 활동까지 제안해 준답니다. 📚
Gemini의 인터랙티브 퀴즈: 이제 Gemini에게 주제나 학습 노트를 입력하면 대화형 퀴즈를 만들어 달라고 할 수 있어요! 힌트도 제공해 주니, 시험공부나 새로운 지식을 효과적으로 익히는 데 정말 큰 도움이 될 것 같아요.

🤔 Anthropic Claude 4: 더 똑똑해진 클로드, 과연 성능은?

Anthropic (앤트로픽)에서도 최신 모델인 Claude 4 (클로드 포)를 선보였어요! 이전 모델보다 더 똑똑하고 성능이 뛰어나다고 하는데요, Opus 4 (오퍼스 포)와 Sonnet 4 (소네트 포) 두 가지 버전이 있답니다.

Opus 4: 더 큰 모델로, 복잡한 문제 해결과 추론에 강점을 보여 코딩, 과학, 수학 같은 STEM 분야에 유용해요.
Sonnet 4: 더 가볍고 빨라서 일상적인 사용에 적합하답니다.

두 모델 모두 하이브리드 추론 시스템을 갖추고 있어서, 즉각적인 답변이 필요할 때와 깊이 있는 추론이 필요할 때(확장 사고 모드)를 구분해서 작동해요. 웹 검색, 코드 실행, 파일 분석 등 추가 도구 사용과 멀티태스킹도 가능하고요.

Claude Sonnet 4는 현재 무료 플랜에서도 사용 가능하지만, 확장 사고 기능이나 Claude Opus 4를 사용하려면 Pro 플랜 이상 구독이 필요하다고 해요. Anthropic 자체 벤치마크에서는 코딩 작업에서 OpenAI의 O3나 Gemini 2.5 Pro보다 나은 성능을 보였다고 주장하지만, 독립적인 평가에서는 다른 모델들에 비해 전반적인 지능 면에서 아주 인상적이지는 않다는 결과도 있네요. API 사용 비용은 꽤 비싼 편이라고 하니 참고하세요! (사실 제가 써본 느낌도.. 뭐가 나아진거지.. 싶은..?)

🛠️ 마이크로소프트 오픈소스: 웹사이트 챗봇 & 코딩 에이전트가 무료?!

마이크로소프트 (Microsoft)에서도 아주 유용한 오픈소스 도구들을 공개했어요!

NL Web (엔엘 웹)
- 웹사이트에 AI 기반 챗봇을 손쉽게 추가할 수 있는 오픈소스 도구예요. 사용자가 웹사이트나 제품에 대해 질문하면 AI가 답변하거나 관련 페이지로 안내해 주죠.
- 모델에 구애받지 않아서 (model agnostic) OpenAI, Google Gemini 등 어떤 모델이든 연결해서 사용할 수 있다는 점이 큰 장점이에요! 다른 앱이나 데이터 소스(MCPs)와 통합해서 데이터를 검색하고 처리할 수도 있답니다. 프레임워크 자체는 무료 오픈소스예요!
GitHub Copilot Agent (깃허브 코파일럿 에이전트)
- 기존 GitHub Copilot에 새롭게 추가된 코딩 에이전트 기능이에요. 단순한 코드 완성 도우미를 넘어, 백그라운드에서 자율적으로 작동하며 코드베이스의 여러 파일을 편집하는 복잡한 요청까지 처리할 수 있답니다! 작업이 완료되면 검토 및 병합을 위한 풀 리퀘스트(Pull Request)도 생성해 주고요. 이 놀라운 에이전트 기능은 GitHub Copilot 무료 플랜에서도 월 50회 요청 제한으로 사용해 볼 수 있다고 하니, 개발자분들에게는 정말 희소식이 아닐 수 없네요!

✨ AI, 상상을 현실로 만드는 마법!

휴~ 정말 숨 가쁘게 달려왔죠? 이번 주 AI 소식들은 하나하나가 정말 놀라움의 연속이었어요! 바이트댄스의 Bagel부터 구글과 앤트로픽, 마이크로소프트의 최신 기술까지, AI가 우리 삶을 얼마나 다채롭게 변화시킬 수 있는지 제대로 보여준 것 같아요. 특히 네이티브 오디오 생성, 자율 코딩 에이전트, 온디바이스 AI, 감성 지능을 갖춘 AI 등은 앞으로 우리가 AI와 상호작용하는 방식을 완전히 바꿔놓을 잠재력을 가지고 있다고 생각해요.

물론 아직 발전 중인 기술들이고, 가격이나 접근성 면에서 아쉬운 부분도 있지만, 이 모든 변화가 불과 몇 년, 아니 몇 달 만에 이루어지고 있다는 사실이 정말 놀랍지 않나요? 저 아이고는 앞으로도 여러분께 이렇게 흥미진진한 AI 소식들을 쉽고 재미있게 전달해 드릴 것을 약속드릴게요! 👍

그럼, 오늘도 AI와 함께 즐거운 하루 보내시길 바라며, 저 아이고는 이만 물러갈게요! 다음에 또 만나요! 안녕~ 👋