챗GPT가 엉뚱한 대답을 할때 꼭 확인하세요! 누구나 쉽게 시작하는 RAG

들어가며

챗GPT의 이용률이 늘어나면서,

최대한 사용자에게 공감하는 방식의

답변을 취하는 오픈AI의 시스템은

이따금 부정확한 답변을 내놓기도 합니다.

나의 질문과는

챗GPT와 함께 RAG를 구현하는 쉬운 방법

다음 단계별로 설명하겠습니다.

✅ STEP 1: 내가 원하는 정보를 준비한다

우선, 챗GPT가 읽고 답변할 정보

(텍스트 파일, PDF 문서, 워드 문서 등)를 준비합니다.

예를 들어, 회사 내부 문서,

최신 기사, 제품 설명서 같은

자료를 준비하면 됩니다.

준비물 예시:

회사 제품 소개 자료 (PDF 또는 텍스트 파일)

업계 최신 뉴스나 보고서 (PDF 또는 웹페이지 문서)

투자동향을 파악하기 위해 테스트로 ETF나

산업 리포트에 관한 질문으로 준비해보겠습니다.

기초 검색과 자료 확보, 정확도 개선 작업을

최대한 간략화한 방식으로 시도해보겠습니다.
　

연중 수익률을 비교해봤을 때

미국 기술주 ETF인 QQQ, MAGS보다

오히려 안전한 선택지는 따로 있었다는 것을

investing.com 그래프까지 직접 그려주며

비교적 정확한 추천을 해주고 있습니다.

단순 결과 조회가 아닌

인사이트 점검도 필요하기 때문에,

RAG에 활용할 데이터를 다시 한번 요청하겠습니다.
　

Tip: 자료는 가능하면 깔끔한 텍스트 형태가 좋습니다.

✅ STEP 2: 자료를 ‘작게 쪼갠다’

준비한 자료가 너무 길면

챗GPT가 잘 이해하지 못할 수 있어서,

자료를 작은 문단이나

짧은 텍스트로 나누어야 합니다.

(대부분 자동으로 나눠주는 툴을 씁니다.)

이 과정을 위해 쉽게 쓰이는 도구는 다음과 같습니다.

💡 초보자라면 LlamaIndex를 추천합니다.
클릭 몇 번으로 자료를 자동으로 나누고 쉽게 처리해 줍니다.

세계적으로 공인받은 기관들이

오랜 시간을 들여 작성한 리포트를

어떻게 하면 쉽고 빠르게

정리할 수 있는지 Llamaindex 활용을 통해

예시로 보여드리겠습니다.

아래에서 설명할 단어 중

Parse(추출하다), chunk(분할하다) 와 같은 것만

인지하고 따라오시면

‘지금 첨부하는 파일들이 PDF여도

GPT가 편하게 분석할 수 있는 방식으로

구현할 수 있을지’

검증해보는 과정으로 쉽게 이해가 되실 것입니다.

몇십분만의 검색으로

저는 이러한 원천 정보를 받을 수 있었고,

이 중에서 각자의 입장에서

가장 정확하다고 보는

파일들을 하나씩 추출해보겠습니다.
　

✅ STEP 3: 문서 업로드 및 Parsing
　

좌측 메뉴에서 “Parse” 클릭 또는

상단 “Features”에서 Parse > Playground 버튼 클릭

“Upload File” 버튼을 눌러

PDF, DOCX, TXT 등 문서 업로드

업로드가 완료되면 자동으로 문서 내부의

텍스트, 표, 이미지 등을 파싱해서

내부 구조를 인식합니다.
　

Tip: 업로드 후에는 자동으로 텍스트를 청크 단위로 분할하고, 각 청크별로 내부 ID를 부여합니다.

✅ STEP 4: 문서 내용 확인 및 구조 조정
　

업로드된 문서 이름을 클릭하면

분할된 문서 청크들을 확인할 수 있음

필요 시 청크 크기나 구조를 조정할 수 있으나,

기본 세팅도 꽤 잘 작동합니다

✅ STEP 5: Index 생성 (RAG용)

다시 메인으로 가서 “Index” → Create 클릭
　

“Choose Source”에서 아까 업로드한 문서를 선택

Index 이름 지정 후 생성

이 Index는 이후 LLM과 연결되어 질문-응답을

가능하게 해주는 기초 데이터 역할을 합니다.

　

✅ STEP 6: 추출 (선택 사항)

텍스트에서 구조화된 정보를 뽑아내야 할 경우

→ Extraction (Beta) 메뉴 클릭

예: 보고서에서 산업명, 지역, 수치 등을

테이블 형태로 추출

정확히 어떤 부분이 GPT가

정확히 인식할 수 있는 부분인지 검증하는 단계로,

기본적으로는 markdown 파일 형식으로

해석을 시도해본 다음

*.md 파일의 작업이 성공적이지 않을 경우

원하는 형식대로

데이터를 찾아서 수집하도록

변환을 한번 더 하는 것입니다.

✅ STEP 7: 자료를 챗GPT가 이해할 수 있도록 ‘벡터’로 만든다 (임베딩)

위 과정들이 성공적으로 나타났다면,

GPTs에 관련 정보를 지식으로 주입시키면서

이후의 모든 절차를 간소화할 수도 있고

다시금 Llamaindex로

다른 지식과의 연계를 시도할 수 있습니다.

GPTs로 나머지 작업을 모두 끝낼 경우
　

Llamaindex로 지식관리를 시도할 경우
　

✅ STEP 8: Llamaindex / GPTs 로 정보 저장 후 추출

여기서 챗GPT는 사용자 질문을 이해한 후,

자료가 저장된 벡터DB에서

관련 있는 내용을 찾아옵니다.

이 과정을 자동화하려면

LlamaIndex나 LangChain을 쓰면 됩니다.

이 두 도구는 무료 튜토리얼이

매우 많아서 초보자에게 강력 추천합니다.
　

예를 들어 LlamaIndex를 사용하면:

질문을 입력합니다.

자동으로 관련 자료를 벡터DB에서 검색하여

리서치 본문에 충실한 답변을 내놓고 있습니다.

혹은 앞서 입력한 지식들을 토대로

다시한번 GPTs에도 입력해보겠습니다.
　

본문 요약과 더불어

조금 더 다양한 후속 제안까지

전달해주고 있어서,

정보를 기반으로

별도 아이디어까지 희망하시는 분들에게는

PDF의 파일 인덱싱과 한글 파일에 대한

그래프까지도 깨짐없이 나타나고 있습니다.

이 과정도 코딩 없이 클릭만으로

할 수 있도록 만들어진 도구들이

최근 많아졌습니다.

🔥 최종적으로 얻을 수 있는 효과

이렇게 구축된 RAG 시스템을 통해

다음 효과를 얻을 수 있습니다:

챗GPT가 항상 최신 정보를 기반으로

정확한 답변을 줍니다.

회사 내부 자료를 활용한

사내 챗GPT 도입이 가능합니다.

사용자 만족도와 정확도가 높아집니다.

📌 결론 및 추가 도움말

처음에는 생소해 보일 수 있지만,

최근 나오는 서비스들은

정말 쉽고 직관적으로 바뀌었습니다.

개발자가 아니어도

GUI(화면 클릭)만으로

충분히 가능합니다.

추가로, 각 서비스는

유튜브에 무료 튜토리얼도 많으니

따라 하시면 어렵지 않게

RAG를 구현할 수 있습니다.

만약 추가 도움이 필요하거나

더 자세한 가이드를 원하시면

언제든 댓글이나 메시지로 알려주세요.

친절히 안내해 드리겠습니다.

감사합니다.

목차