본문 바로가기
AI !

[AI!] 이미지 생성형 AI 의 시작

by slow AI 2024. 11. 5.

 

최근 이미지 생성형 AI 관련 시장은 그야말로 대폭발의 시기를 맞이했습니다. 특히 2024년 하반기 스테이블 디퓨전 FLUX 모델과 미드저니 V6 버전에 대한 사용자들의 적응력이 높아지면서 활용도면에서 놀라운 수준으로 올라섰는데요. 이런 상황에 구글, 마이크로소프트 등도 기존 대화형 AI 모델에 이미지 생성을 연계해 그 수준을 높이려고 애쓰고 있습니다. 대격변을 맞이하고 있는 이 이미지 생성 AI 의 시작은 어땠을지 한번 흩어보겠습니다.

 

- AI의 뜻과 기원


AI, 즉 인공지능은 인간의 지능을 본떠서 만들어진 시스템을 의미합니다. 이는 데이터를 학습하여 판단하고 결정을 내리는 알고리즘으로 구성되며, 인간의 사고 과정과 유사한 방식으로 작동할 수 있도록 만들고 싶었던 것인데요. 이 AI의 기원은 시초를 따진다면 1950년대까지 거슬러 올라가며, 영화 '이미테이션 게임' 으로도 소개된 2차 세계대전 당시 나치 독일군의 암호화된 글자를 풀어낸  앨런 튜링의 튜링 테스트를 통해 기계가 인간과 유사한 사고를 할 수 있는지를 탐구하였습니다. 튜링테스트란 블란인드테스트를 통해 대화했을때 위화감이 없다면 그 수준이 AI, 인공지능에 가깝다라는 것 입니다. 이러한 기반 위에서 AI는 점차 발전하게 되었던 것이지요

 

- 이미지 생성형 AI 모델의 시작


이미지 생성형 AI 모델의 역사는 2010년대 중반부터 본격화되기 시작했습니다. 이 시기에 생성적 적대 신경망(GAN, Generative Adversarial Network)이 소개되면서 AI가 실제와 유사한 이미지를 생성하는 데 큰 진전을 이루게 됩니다. GAN 구조는 두 개의 네트워크가 서로 경쟁하며 학습하는 방식으로, 이로 인해 더욱 사실적인 이미지 생성이 가능해졌죠. 이러한 기술이 발전할 수 있었던 배경에는 컴퓨팅 파워의 향상과 대량의 데이터 수집이 있습니다.

 

- 발전과정


GAN이 처음 소개된 이후, 다양한 변형 모델들이 만들어지면서 이미지 생성 AI는 눈부신 발전을 이루었습니다. 2014년에는 Ian Goodfellow가 GAN을 발표하였고, 이후 DCGAN, CycleGAN, StyleGAN 등 여러 파생 모델들이 등장하게 됩니다. 각 모델은 특정한 요구사항에 맞춰 최적화되며, 예를 들어 StyleGAN은 얼굴 이미지를 매우 사실적으로 생성하는 데 특화되어 있습니다. 이러한 발전은 AI가 단순한 이미지 생성에서 벗어나, 예술작품 창작, 패션 디자인 등 다양한 분야에서도 활용될 수 있는 토대를 마련하게 되었습니다.

 

- 주요모델


2021년 중반부터 이미지 생성형 AI 모델들이 하나둘 서비스되면서 주목받던 것들은 로는 DALL-E, MidJourney(미드저니), 스테이블 디퓨전(이하 SD) 등이 있었는데 대중화가 시작된 2023년 이후 그리고 큰 발전을 이룬 24년 압도적인 관심을 받고 있는 것은 미드저니와 SD의 FLUX 입니다.는 사용자가 입력한 텍스트를 기반으로 독창적인 이미지를 생성할 수 있으며, MidJourney(미드저니) V6 버전 특유의 예술적인 스타일의 이미지와 캐릭터의 일관성, 편리한 사용성 등을 꾸준히 업데이트해내며 사용자들에게 다가가며 영상 생성형 AI 모델들과 큰 시너지효과를 내고 있습니다. 스테이블디퓨전은 FLUX 모델과 SD3.5 버전을 필두로 오픈소스 특유의 대규모 데이터셋을 활용하여 활용도의 폭이 무척 높은 것이 장점입니다. 언어의 이해력과 세밀한 생성력, 폭넓은 확장성이 가진 것이 SD 의 장점이긴 하지만 미드저니에 비해 편리성과 접근성이 떨어지는 것은 어쩔 수 없는 것 같네요. 

 

- 개인PC 에서 활용방법


이제 개인 사용자도 이러한 이미지 생성 AI를 쉽게 활용할 수 있는 환경이 조성되었습니다. MidJourney 와 같은 플랫폼은 사용자가 해당 사이트에서 유료구독를 통해 텍스트/이미지 프롬프트만 입력하면 멋진 이미지를 생성하고 확장하고 또 변화시킬 수 있습니다. 다소 불편했던 디스코드내에서의 사용을 넘어 편리한 UI 를 장착해 접근성을 높였지요. 스테이블 디퓨전과 같은 오픈소스 모델은 개인의 PC에서도 설치하여 사용할 수 있기 때문에, 창의적인 작업이나 프로젝트에 활용할 수 있는 기회가 늘어났습니다만 모델별로 높은 컴퓨팅파워를 요구하기에 사용자의 작업방식이나 편리에 따라 선택하면 될 것 같네요. 참고로 스테이블 디퓨전 FLUX 모델의 경우 엔비디아의  그래픽카드 중 4090 모델을 사용하는 것이 정신건강에 좋습니다 ^^ 

 

- 앞으로의 발전양상


앞으로 이미지 생성형 AI는 어떻게 발전해 나갈까요? 기술의 발전과 함께 사용자들의 요구도 점차 다양해지고 있습니다. 예를 들어, 실시간으로 이미지를 생성하는 기술이나, 텍스트와 이미지를 융합하여 새로운 형태의 콘텐츠를 만들어내는 가능성 등이 제시되고 있습니다. 또한, AI의 윤리적 문제에 대한 논의도 더욱 중요해질 것이며, 이러한 문제를 해결하는 과정에서 새로운 기술적 접근이 필요할 것입니다. AI의 발전은 단순히 기술적인 진보를 넘어, 사회와 문화 전반에 영향을 미치는 중요한 요소가 될 것입니다만 그러기 위해선 현재 넘어야 할 문제들도 꽤 많습니다. 유료모델들의 경우 아직 사회적인 금기들에 대해 제한된 요소들이 많습니다. 해당 모델들을 직접 운용하거나 또는 서비스하는 업체의 이해에 따라 편향된 결과물이 나올때도 있기도 하고요. 오픈소스모델의 경우 개인 PC의 성능적 한계로 활용이 사실 어려운 경우도 있습니다. 발전을 통해 이러한 문제가 차츰 해결된다면 이미지 생성형 AI는 이제 단순한 도구가 아니라, 우리의 창의성과 아이디어를 실현하는 파트너로 자리잡게 될 것입니다. 앞으로의 변화가 기대되는 만큼, 지속적인 관심과 연구가 필요하겠죠.

 

이제 여러분도 이미지 생성형 AI의 매력에 빠져보세요! 미래의 창의성은 AI와 함께하는 시대가 될 것입니다.

반응형

'AI !' 카테고리의 다른 글

[AI!] AI영상 전문가들은 어떻게 만들고 있을까  (3) 2024.12.15