오픈 AI, 음성 기반 챗GPT 기능 발표

이지수

기자

[코이니셜 = 이지수 기자] 지난 오픈AI의 CEO 샘 알트먼이 새로운 음성 기반의 챗GPT 업데이트를 발표했다. 이번 업데이트는 챗GPT Plus 가입자를 대상으로 하며, 대화형 AI의 새로운 차원을 열어 사용자 참여도를 크게 향상시킬 것으로 기대된다.

  • 오픈AI, 주요 업데이트 공개

OpenAI는 GPT-4o 모델을 기반으로 한 새로운 음성 채팅봇을 챗GPT Plus 서비스의 일부 사용자에게 점진적으로 출시하기 시작했다. 이 새로운 기능에는 음성과 텍스트, 비전을 결합하여 감정 인식이 가능한 실시간 커뮤니케이션을 가능하게 한다고 한다. 또한, 2024년 가을까지 모든 챗GPT Plus 사용자에게 제공될 예정이다.

이전에는 안전 문제로 인해 음성 기능을 사용할 수 없었으나, 모델의 안전 조치를 강화한 후 이번에 출시되었다. 오픈AI는 다수의 사용자에게 실시간으로 응답할 수 있는 모델의 능력을 향상시켰다.

더불어 CEO는 “우리는 고급 음성 모드를 소수의 챗GPT Plus 사용자에게 점진적으로 출시하고 있습니다. 이는 보다 자연스러운 실시간 대화를 제공하며, 언제든지 사용자가 대화를 중단할 수 있고 감정을 감지하여 이에 응답할 수 있습니다.”고 전했다.

  • 안전성과 윤리적 문제 해결

오픈AI는 안정성과 윤리적 문제를 피하기 위해 29개국에서 45개의 언어를 사용하는 100명 이상의 실험자들과 함께 다양한 테스트를 수행한 것으로 알려져 있다. 이들은 모델이 많은 수의 입력을 안전하게 처리할 수 있는 능력을 평가했다. 또한, 오픈AI는 모델이 자체적으로 커스텀된 음성을 생성하지 못하도록, 음성 관련 전문가와 협력하여, 사전 정의된 네 가지 종류의 목소리만 사용하도록 훈련했다.

특히 과거에 스칼렛 요한슨을 모방했다는 비판을 받은 ‘스카이’ 목소리는 공적과 법적 압력으로 인해 삭제되었던 바가 있었다. 오픈AI의 린지 맥칼럼은 이번 새로운 모델이 사람이나 인물을 모방하지 않을 것이며, 모델에 등록되지 않은 목소리는 생성되지 않도록 할 것이라고 공식 성명을 통해 밝혔다.

  • 향상된 기능과 향후의 계획

새로운 음성 모드는 이전 챗GPT의 오디오 기능에 비해 크게 향상되었다고 한다. 이전 버전은 음성 인식, 텍스트 처리, 텍스트 음성 변환의 세 가지 모델로 나뉘어 있어 대화가 끊기고 반응이 느렸으나, 새로운 GPT-4o 모델은 이 모든 것을 하나로 통합하여 대화를 더 매끄럽고 반응 빠르게 만들어 준다.

모델은 또한 감정적 톤을 인식하여 대화를 더욱 풍부하게 만들 수 있다.

현재는 음성 기능만 배포되고 있지만, 오픈AI는 향후 추가될 비디오와 화면 공유와 같은 기능도 시연했다. 5월 데모에서는 AI를 사용해 시각 입력을 통해 수학 문제와 코딩 질문을 해결하는 모습을 보여주었으며, 이는 미래에 사용이 확장될 가능성을 예시한다.

  • CoSAI와 SearchGPT

최근 챗GPT 업데이트 외에도 오픈AI는 다양한 AI 발전에 참여하고 있다. 최근 오픈AI는 구글과 마이크로소프트, 엔비디아, 아마존 등 주요 기술 기업들이 참여하는 CoSAI(Coalition for Secure AI)의 회원으로 가입했다.

Aspen Security Forum에서 출범한 CoSAI는 AI 개발 및 사용과 관련된 주요 위험을 해결하기 위해 건전한 보안 원칙과 모범 사례를 개발하는 데 중점을 두고 있다.

또한, 최근 SearchGPT라는 AI 검색 엔진을 출시했으며, 이는 출처와 함께 간결하고 정확한 답변을 제공할 수 있다고 한다. 현재 SearchGPT는 제한된 사용자 및 출판사와 함께 테스트 중이며, 사람들에게 온라인 정보와 상호 작용하는 방식을 크게 변화시키기 위해 관련성 높은 시의적절한 답변을 제공하는 것을 목표로 하고 있다.

이지수

기자

본 기사는 코이니셜의 고유 콘텐츠로 무단 복제는 법적 책임을 물을 수 있습니다.

당신에게 추천하는 인기 뉴스

Leave a Comment