단 3주 만에 언론사와 기사 이미지 생성 MOU를 이뤄낸 과정
스모어톡은 2024년 4월 30일 서울경제와 생성형 인공지능(AI) 기반 비주얼 콘텐츠 제작을 위한 업무 협약을 마쳤습니다. 단 3주 만에 MOU를 이뤄낸 과정을 소개합니다.
Jul 09, 2024
스모어톡은 지난 4월 30일 서울경제와 MOU를 맺고 기사 이미지 자동 생성 기능을 제공하고 있다. 기사 본문을 그대로 넣으면 최적의 스타일과 장면의 이미지가 생성되는 방식이다. 이는 단 3주 만에 이루어낸 쾌거였다. 이 과정은 창업 관련 책 중에서도 감명깊게 읽었던 "아이디어 불패의 법칙"의 그것과 많이 닮아있었기에 이를 공유해보고자 한다.
글을 작성하기 앞서 우선 이는 감사히도 적극적으로 도와주신 분들이 계셨기에 가능했음을 밝힌다. 하지만 준비가 되어 있어야 기회를 잡을 수 있다는 것을 많이 느꼈던 경험이었다.
MOU 까지의 과정
MOU까지 D-20, 첫 연락
우리가 멤버십 기업으로 있는 AI양재허브에서 서울경제를 연결해주신다는 연락이왔다. 감사히도 AI양재허브에 속해있는 수많은 스타트업 중 서울경제 측에서 직접 협업할 만한 회사 5개를 추려 소개를 요청해주신 것이었다. 작년에 많은 기업들을 상대하며 B2B 소통에는 골든 타임이 있다는 것을 뼈저리게 느꼈었기에 빠르게 오프라인 미팅을 세팅하였다.
MOU까지 D-16, 첫 미팅
감사히도 우리 사무실에서 담당 부장님을 뵐 수 있었고, 현재 어떤 과정으로 기사 이미지가 사용되는지, 해당 workflow에 녹아들려면 어떻게 해야하는지에 대한 니즈 파악을 빠르게 진행했다. 언론사의 실무 구조에 대해서는 잘 알지 못했기에 바보같은 질문도 많았는데, 정말 자세히 설명해주셔 파악이 용이했다. 그 당시의 플라멜 기능으로는 현업에 사용하기에 매우 한계가 있는 점에 대한 피드백도 받았다.
MOU까지 D-15, 인간지능의 PoC 시작
플라멜의 기존 자동 프롬프트 튜닝 엔진은 유저가 “원하는 장면”을 입력하면 유저가 의도한 바를 생성하기 위해 프롬프트가 튜닝되는, 즉 유저의 의도에 수렴하는 구조였다. 이에 기사 내용 전체를 입력하여 AI의 상상력에 맞겨 알아서 추천되기를 바라고 사용한다면 유저 입장에서 실망스러운 것이 당연했다.
하지만 이는 우리가 자동 프롬프트 튜닝 엔진 개발 당시 이미 고민한 적이 있었던 안건이었다. 플라멜 클로즈 베타 당시 유저의 의도는 크게 2가지로 나뉜다는 것을 알았다.
1) 유저가 정확히 원하는 것이 있는, AI는 시키는 걸 최대한 잘하면 되는 케이스 하나, 2) 그리고 유저가 AI의 상상력을 극대화하여 알아서 적당한 것을 추천해주기를 바라는 케이스 하나.
플라멜에 적용된 것은 전자였으나, 후자에 대해서도 가능성을 미리 테스트했었기에 빠르게 구현 가능 할 것이라고 확신했다. 이에 인간지능의 POC를 시작했다.
아직 프로덕트에 연결되어있지 않은 신규 프롬프트 튜닝 모듈을 직접 사람이 진행하고, 결과값에 대한 텍스트로 이미지 생성은 플라멜을 사용하는 방식이었다. 이럴 경우 만족스러운 결과가 나왔을 때 단기간에 프로덕트에 바로 적용할 수 있었다. 다행히 일주일 만에 어느정도 만족스러운 결과를 얻을 수 있었다. 이를 프로덕트에 넣기 위한 수정 개발 과정을 거치고 바로 기업 계정에 세팅하여 단 5일 만에 실무자가 직접 테스트할 수 있도록 했다.
물 들어올 때 노 저을 수 있었던 비결
Do things that don't scale
이 과정이 내게는 Do things that don’t scale, 아이디어 불패의 법칙의 MVP 방식처럼 느껴졌다. 바로 개발을 하는 것이 아닌, 1) 니즈 파악을 위한 문을 만들어두고, 2) 사람이 한땀한땀 만들어 제공하며 반응을 확인하고, 3) 큰 니즈가 있는 것으로 판단되면 그때 개발하고 제공하는 방식이다. 우리의 상황에 대응해보자면 다음과 같다.
- 우리 프로덕트에 아직 들어가있지는 않았지만 긴 글에 대한 이미지 생성이 가능함을 명시해두었다.
- 우리의 능력을 보았을때 빠른 시일 내에 구현 후 실제 서비스에 넣는것이 가능하다고 생각되는 선에서 소개서를 전달하여 니즈를 파악한다.
- 작업은 인간지능으로 직접 진행하고, 고객 피드백을 받는다. 매우 반복적이고 비효율적인 구조였지만 피드백에 즉각 대응할 수 있었다.
- 정말 사용할 만한 퀄리티가 나오면 개발에 대한 기한을 설정하여 고객에게 양해를 구하고 서비스에 넣어 제공한다.
여기서 속도가 매우 중요하다. 피드백에 대응하고, 이를 실제 유저가 서비스할 때 까지의 시간을 최소화해야 물 들어올 때 노젓는 것(?)이 가능하다.
속도전이 가능했던 이유, 다년간 쌓아온 기술과 유연한 시스템 구조
이를 가능하게 한 플라멜의 정말 중요했던 포인트가 있으니, 바로 “매우 유연하고 효율적인 어드민 페이지”이다. 능력자 CTO님 덕에 우리 서비스는 거의 자체적으로 comfyUI 같은, 모듈형 구조가 어드민으로 구현되어있다. 이에 다양한 파이프라인을 거치는 이미지 생성 과정을 아주 약간의 수정만 진행한다면 어드민을 통해 유저에게 제공할 수 있게끔 세팅 되어있다. 덕분에 실제 실무자 분들이 사용하기까지 개발에는 5일이 채 소요되지 않았다.
운도 정말 좋았지만 결국 다년간 쌓아온 LLM 기술과 이미지 생성을 위해 이미 했던 수많은 고민, 그리고 미래를 고려한 시스템 개발로 인해 성과 도출이 가능했다고 생각한다.
MOU, 그 후
Dall-E에 비해 5배 이상 사용량이 많은 플라멜(Flamel)
실무를 담당하시는 기자 분들이 사용할 수 있도록 바로 제공해드린 뒤, 플라멜은 서울경제 내 AI 이미지가 적용될 수 있는 분야 기사에서 꾸준히 사용되고 있다. 기자 분들이 chatGPT를 비교적 많이 사용하시다보니 기사 이미지로 Dall-E를 사용하는 경우를 심심치 않게 볼 수 있는데, 서울 경제에서는 OpenAI의 Dall-E보다 플라멜이 5배 이상 많이 사용되었다. 플라멜에서 기사 본문 내용을 그대로 넣고 자동으로 장면이 추천되어 생성되는 것이 호응을 얻고 있는 것으로 보인다.
기사 이미지의 중요성
글에서 이미지는 매우 중요한 역할을 한다. 썸네일이라면 글을 요약하여 표현함으로써 클릭을 유도한다. 글 안에 들어가는 이미지는 글에 대한 이해를 돕고, 적절한 환기로 집중력을 잃지 않게 도와주기도 한다.
기사 이미지에는 특정 인물의 얼굴 등 실사를 사용하는 것이 중요한 경우도 많지만, 그렇지 않은 경우도 많다. 지금까지 아쉬웠던 점은 후자의 경우에 크게 의미없는 천편일률적인 이미지들이 사용된다는 점이었다. 기사 작성 자체가 훨씬 중요하기 때문에 이미지에 많은 시간을 쓸 수 없는것이 당연하다. 빠르게 적절한 이미지 자료를 찾기도 어렵고, 매번 필요한 이미지를 요청하여 제작하기도 어렵다.
이에 이런 크게 의미 없는 기사 이미지들을 심심치 않게 봤을 것이다.
- 어떤 사건이 벌어진 기사의 경우 수사기관 건물 또는 폴리스 라인 이미지
- AI 관련한 기사의 경우 알고리즘 느낌이 나는 인포그래픽 이미지
- 날씨 관련한 기사의 경우 거리에 사람들이 걸어가는 이미지
현재는 플라멜을 활용하여 이렇게 내용을 적절하게 표현한 이미지들이 사용되고 있다.
긴 글에 대한 자동 이미지 추천 생성 기능을 사용하고 싶다면?
이는 비단 기사만이 아니라, 다양한 글 콘텐츠에 유사하게 적용되고 있는 상황이다. 이를 이미지 생성 AI로 해결할 수 있다. 하지만 이미지 생성 모델은 원하는 장면을 텍스트로 입력하면 이를 구현해내는 방식이다. 정확히 원하는 이미지가 있다면 그대로 활용하면 되지만, 장면조차 모르거나 그런걸 생각할 시간이 없다면
여전히 무용지물이다. 즉, 긴 글에 어울리는 이미지를 자동 추천하여 생성하는 기능은 다른 파이프라인을 가져가야 한다.
스모어톡은 다년간의 LLM 기술을 통해 이러한 파이프라인을 최적화하였다. 해당 기능은 현재 일반 사용자는 사용할 수 없고 기업 고객에만 커스터마이즈하여 제공하고 있다. "긴 글에 대한 자동 이미지 추천 및 생성" 기능에 관심이 있다면 아래 링크를 통해 확인해보기 바란다.
* 해당 기능은
현재 기업 고객에게만 별도 제공 됩니다.
Share article
Write your description body here.