목차

AI 딥리서치, 누가 더 정확할까요? 챗GPT, 퍼플렉시티, 딥시크 등등 모두 비교했습니다

들어가며

앞선 포스팅에서는 PDF 파일도

마크다운 데이터로 치환한 다음

분석의 정확도를 높이는 방식을 시도해봤습니다.


최근에는 연봉을 높여주는

핵심 기능이라고까지 불리는


딥리서치를 이용했을 땐

어느 정도의 결과가 나오는지


챗GPT, 퍼플렉시티, 구글 Gemini 등을 활용해

퀄티리를 비교해보겠습니다.


여기서 나오는 결과물의 만족도에 따라

여러분이 딥리서치의 활용도를 높여나갈지,


Langchain/Llamaindex를 이용한 RAG를

더 적극적으로 활용할 것인지가 결정되겠습니다.



딥리서치에 왜 그렇게 열광할까?

딥리서치는 대규모 언어 모델(LLM)이

사용자의 질문에 답하기 위해

실시간으로 인터넷을 검색하고,


관련 정보를 찾아 분석한 뒤

정리된 답변을 제공하는 기능입니다.


기존의 단순 검색과 달리,

딥리서치는 여러 출처의 정보를 종합하고

분석하여 더 깊이 있는 인사이트를 제공합니다.


딥리서치의 주요 특징:

실시간 정보 접근: 최신 시장 동향과 뉴스 반영

다중 소스 분석: 여러 출처의 정보를 종합하여 균형 잡힌 시각 제공

맞춤형 인사이트: 사용자의 질문에 특화된 분석 제공

정보 요약 능력: 방대한 데이터에서 핵심만 추출


국가별 딥리서치 서비스 제공 특징

서비스명주요 특징딥리서치 기능추천 사용자 및 상황
ChatGPT (OpenAI)자연스러운 대화와 다양한 주제에 대한 높은 이해도를 제공하는 AI 챗봇입니다.다양한 주제에 대한 심층적인 정보 제공이 가능하지만, 최신 정보 반영에는 제한이 있을 수 있습니다.일반적인 정보 탐색이나 창의적인 글쓰기 지원이 필요한 사용자에게 적합합니다.
Gemini (Google)구글 검색과 통합되어 최신 정보를 빠르게 제공하는 AI 서비스입니다.실시간 정보 검색과 통합된 딥리서치 기능을 제공합니다.최신 뉴스나 트렌드 분석이 필요한 사용자에게 유용합니다.
Perplexity AI실시간 데이터 검색과 정확한 답변을 제공하는 AI 서비스입니다.다양한 소스로부터 정보를 수집하여 정확한 답변을 제공합니다.빠르고 정확한 정보 검색이 필요한 연구자나 학생에게 적합합니다.
DeepSeek기술 분야의 연구와 코딩 지원에 특화된 AI 서비스입니다.복잡한 기술적 문제나 수학적 문제에 대한 심층적인 분석을 제공합니다.기술적 문제 해결이나 연구 지원이 필요한 엔지니어와 연구원에게 유용합니다.
Qwen다양한 언어와 문화적 맥락을 이해하는 AI 서비스입니다.다국어 지원과 문화적 맥락을 고려한 딥리서치 기능을 제공합니다.글로벌 비즈니스나 국제 연구를 수행하는 사용자에게 적합합니다.
Felo금융 데이터 분석과 예측에 특화된 AI 서비스입니다.금융 시장 동향과 기업 실적에 대한 심층 분석을 제공합니다.투자자나 금융 분석가에게 유용합니다.
Genspark다양한 AI 에이전트를 활용한 심층 분석 서비스를 제공합니다.복잡한 데이터 세트에 대한 심층 분석과 보고서를 생성합니다.대규모 데이터 분석이 필요한 기업이나 연구 기관에 적합합니다.
Liner신뢰성 있는 학술 논문 작성과 연구를 지원하는 AI 검색 엔진입니다.빠른 처리 속도와 높은 정확도로 학술 정보를 제공합니다.학술 연구나 논문 작성을 준비하는 학생과 연구자에게 유용합니다.


지능형 서비스 개발에 생각보다

큰 비용이 들지 않는다는 명목으로,


딥시크 등 신규 서비스들의 추격이

활발하게 이뤄지고 있습니다.


알리바바가 직접 qwen이라는

서비스도 내놓는가 하면


일본에서는 felo,

한국에서는 liner 등 새로운 경쟁구도가

만들어지고 있는데요


하나의 서비스가 모든 것을

다 충족해줄 수 없다는

현재의 상황을 고려한다면


질문을 입력하고 → 답변을 얻고 → 그 결과를

어떤 식으로 공유할 수 있는지의 흐름 등을 확인하며


결정하는 것이 각자의 입장에서는

최선의 결정이 될 것입니다.



딥리서치 작동, Q&A 구현의 흐름 비교


챗GPT


조금 더 꼼꼼한 단계와

기준을 물어보며 리서치를 진행하는 한편,


하나의 질문당 약 17~20분 가량의

시간이 소요됐습니다.


기존의 챗GPT 플러스 이용자 입장에서

팩트체크가 아쉬운 부분이 있었다면,


퍼플렉시티가 상대적으로

강점을 가졌던 부분까지


챗GPT의 딥리서치가 보완하는

흐름을 보여주고 있습니다.


사고과정에 따라 어떤 소스를 검색해서

어떤 내용을 중점적으로 조사하는지


상세하게 보여주기 때문에, 과정 자체에 대해서도

점검을 희망하는 경우

굉장히 만족도가 높을 수 있습니다.


구글(gemini)

구글 docs로 바로 변환해낼 수 있는 형태의

결과물을 만들어주기 때문에,


구글 드라이브로 공유하며

업무 관련 소통을 하신다면 편하게 쓸 수 있습니다.
 


말그대로 리서치 범위를

아주 폭넓게 잡는다는 특징은 있는 반면,


주로 생각하고 있는 관심사,

데이터를 활용하는 목적 등에 대해


입력을 한 것에 비하면

아직까지는 원론적인 답변으로

느껴질 수 있습니다.


퍼플렉시티

하루 3회 딥리서치 질문을 사용할 수 있고,

핵심 장점은 빠른 답변 도출입니다.
 


다만 조금더 풍부하고

긴 글쓰기를 기대하시는 분들에게는

다소 연관성이 떨어지는 주제들도 섞이기 때문에,


특정 주제는 배제하고 써야 하는 등

글쓰기 조건에 대해서는 조금 더

신경을 써야 할 필요가 있습니다.


Genspark

의외로 편리함을 느낀 부분이 많은데,

마크다운 글쓰기 및 유튜브 참고자료 등


그 자체가 하나의 블로그 작성 글로

느껴질 수 있는 형태의 결과물을 뽑아주었습니다.
 


글쓰기의 형식적인 측면에서

고도화가 필요하다고 하면


genspark가 만들어주는 결과물들이

생각보다 많은 도움이 될 수 있습니다.


여러 AI 모델을 조합하면서

퍼플렉시티의 장점을

흡수해가는 인상을 받았습니다.


Liner

라이너는 원래 내가 읽은 문서에

직접 밑줄을 그어주고 특정 부분만

북마크하는 기능으로 출발했는데,


그 특징을 딥리서치에도 간단히 구현했습니다.
 


즉, 논문을 쓴다고 가정했을 때

부분별 인용이 어디서 됐는지


명확히 대조해서 연구용 문서를 쓸 때의 번거로움을

최대한 줄여주기 위해서

무척 노력했다는 것을 확인하게 해주었습니다.


따라서 인용문 작성이 중시되는 분야의 업무라면

이용가치가 극대화될 수 있는

툴이라고 할 수 있습니다.


Felo

일본에서 개발된 서비스답게

LINE이나 x에서 공유될 만한 형태의 요약 이미지,

공유용 QR코드를 함께 생성해주고 있습니다.


프레젠테이션 형태의 가공까지 지원할만큼

이미지 공유에 많은 신경을 쓰고 있습니다.
 


그런만큼 핵심 키워드만

최대한 추려내어 공유해주고 있어서,


포스트잇이나 메모장으로 붙여서 행동 지침을

결정한다는 수준의 활용은 가능할 것 같습니다.


딥시크


딥시크 공개가 하나의 사태라고 여겨질만큼

업계에 충격을 줬다고는 들었는데,


제법 설득력 있다고 느껴진 이유는

MoE 모델을 차용할 만큼 실제 실무자의 언어에


근접하게 답변을 구현하고 있다는

인상을 줬기 때문입니다.


챗GPT의 딥리서치는 범용성도 좋고,

신뢰도도 높고, 그만큼 온라인 글쓰기나

연구 보고서에 근접한 분량을 쓰는 것으로 보이는 한편


Felo의 핵심요약 + 실제 업무 현장에서의 용어 선정이

살짝 더해지며 보고서 작성 업무를 위해서라면


딥시크의 결과물이 곧바로 쓰여도 될만큼의

익숙함은 있었습니다.


Qwen


알리바바가 계속해서 딥시크를 능가할 모델을

생각하고 있다고 공언해왔는데,


Qwen을 쓰면서 느꼈던 놀라운 점은

여러 경우의 수를 생각해서 상황별 대처방안을

꽤나 구체적으로 제시하고 있습니다.


챗GPT의 딥리서치가 가져가는

포괄적인 기능 중에서도,


구조화된 글쓰기 & 상황별 대응에

조금 더 초점을 맞추고 있습니다.


GPT 4o에게 글쓰기를 시켜보면

아직은 조금 아쉬운 부분이

Chat GPT 4.5에서 보완됐는데,


Chat GPT 4.5의 블로그 글쓰기에 알맞은 분량으로

리서치가 조금 더 정제됐다는 느낌입니다.


개인적인 견해

릴리스AI처럼 텍스트를 종합하며

별도의 요약 페이지를 생성해주는 방식으로


공유의 편리성, 호환성까지 챙기면서

UI/UX의 차별화를 시도할 만큼

여러 LLM들이 본격적인 경쟁구도에 들어갔습니다.


원본 텍스트의 정확성 측면에서는

챗GPT나 구글 Gemini가 뛰어났고


현실적인 상황 판단과 테이블 등

가시성이 뛰어난 글쓰기 측면에서는 딥시크, Qwen

여러 모델을 종합적으로 비교하기에


반복 작업을 줄여준다는

편의성 측면에서는 Genspark

요약 페이지를 생성하고 출처의 리스트를


일일이 검증한다는 측면에서는

퍼플렉시티, Felo, liner가 장점을 지니고 있었습니다.


딱 하나의 서비스만 쓰면서 써놓은 글 자체를

자유자재로 변형하고 가공하는데


쓰는 소스의 퀄리티를 신경쓴다면

결과적으로는 챗GPT가 우수합니다.


대신, 실제로 글을 들여다볼

시간적인 여유가 없는 상황이라면


Felo, Genspark, Qwen이

언어 호환성도 뛰어났기 때문에

초벌 글쓰기로는 생각보다 쓸만했습니다.


딥시크에 긍정적인 평가를 한 것은

단순 자료해석 뿐만 아니라,


별도의 리서치를 위해

무엇을 할 것인가에 대해


사람에게 지시를 하는 뉘앙스를

취하고 있었기 때문에


의사결정을 위한 소통 도구로서의 가치가 있었다고

말씀드릴 수 있을 것 같습니다.


문서화, 시각화 등 사무자동화를 이루기 위한

모든 스텝까지 고려하면

Llangchain/Llamaindex 활용이


어느정도는 병행되어 GPTs로 이어지는 것이

적절하다고 보여지지만,


각 모델별로 내놓는 분량은 천차만별이기에

적정한 작업시간과 적정한 작업결과물은


같이 공유할 사람들과 가이드라인을 정해놓고

작업하는 것이 좋겠습니다.


제 기준에서는 RAG 작업을 병행하면서

Felo, Qwen으로 초안 구상 > 부족한 부분은 챗GPT로

보충하는 흐름이 되어가고 있습니다.


지난 포스팅과 유사한 주제로 입력했을 때 나온

결과물들을 같이 공유해보겠습니다.



딥리서치 서비스별 결과물

챗GPT 딥리서치

퍼플렉시티 딥리서치 : https://www.perplexity.ai/page/2025nyeon-4weol-teureompeu-gwa-J39rgeYqRF2R4YDU2rlUqg


perplexity.ai



구글 Gemini 딥리서치: https://docs.google.com/document/d/1vtWmEGxyawMktBHJ8C1uP6N64ed8t7d_99DK5loTB-E/edit?usp=sharing

https://www.perplexity.ai/page/2025nyeon-4weol-teureompeu-gwa-J39rgeYqRF2R4YDU2rlUqg

docs.google.com
 

https://docs.google.com/document/d/1sfd7TuPIzh3E2gwY2lWfjkfMf6Zd3QaSpNgEL0P7hDw/preview?usp=embed_googleplus



genspark 딥리서치: https://www.genspark.ai/spark/%EA%B8%80%EB%A1%9C%EB%B2%8C-%EC%A3%BC%EC%9A%94-%EC%A7%80%EC%88%98-%EB%B3%80%EB%8F%99-%EB%B0%8F-%EB%8B%A8%EA%B8%B0-%ED%88%AC%EC%9E%90-%EC%A0%84%EB%9E%B5/93d4b3dc-a0d4-40f8-b9b4-65272ce8e912


genspark.ai



Felo 딥리서치: https://felo.ai/search/DhY8HKGuBGd4t6PHHsPuQB?invite=dOKneDoq3z7M8

felo.ai



여러분은 어떤 결과물이 더 마음에 드셨나요?

앞으로 관심이 있는 모델들에 대한

여러분의 궁금함을 남겨주시면,


여러분이 희망하는 것을 같이

만들어나갈 수 있는

상상력집단이 되도록 하겠습니다.


감사합니다.