들어가며

지난 목요일의 웨비나를 통해 ‘무료라기엔 믿겨지지 않는 퀄리티’ 라는 긍정적인 리뷰를 주신 덕분에,

조금 더 퀄리티를 높여보고자 노력하고 있습니다.

연이은 포스팅에서 강조하듯, ‘답이 아니라 질문하듯 GPT와 대화하자’ 는 요지를 계속 강조드리겠습니다.

코딩을 위한 프롬프트나, 서식 적용/마크다운 변경을 위한 가이드를 보면 어떤 부분까지 세밀화해야할지부터 막막해지는 경우가 더러 있습니다.

제아무리 좋은 GPTs나 크롬 확장, 다른 사람들의 솔루션을 써도 뜻대로 안나오는 이유조차 파악이 안된다면, AI에 대한 관심조차 꺾일 수밖에 없겠죠.

웨비나 진행중에도 데이터 분석 프레임워크를 지칭하는 단 한마디의 유무만으로 퀄리티 차이가 있었음을 모두가 확인하면서, 해당 분야 지식이 없는 상황에서 어떻게 접근할지, 배경이 되는 핵심 지식은 획득했더라도 이것을 나의 필요에 맞게 분석과 적용이 되려면 기본적으로 어떤 것이 필요한지 복습하는 시간 가져보겠습니다.


💬

<웨비나를 진행하면서 확인했던 주요 질문사항들>

i) 업무에서 공유하는 데이터파일을 올렸는데도 왜 제대로 된 분석결과를 안만들어줄까?
ii) 올바른 데이터셋은 어떻게 구할 수 있을까?
iii) 데이터셋을 구했다면, 내가 하려는 일의 성공가능성, 결과의 예상값은 어떻게 설정해볼 수 있을까?


Q1. 데이터 파일이 연이어 깨져나올 때

내가 일상적으로 구하는 데이터 파일들에 대한 신뢰도가 높을 때, 유독 많이 좌절하는 포인트였습니다.

위의 이미지처럼,


파일 분석이 실패했다는 대답을 내놓고 >

원인을 찾고 직접 해결해주겠다고 했지만 또 실패 >

이후 csv 파일로 재변환해서 다시 업로드해도 반복된 에러를 호출하다가 멈춤 상태로 끝나는 흐름의 반복…

혹시 저만 경험해본거 아니죠?

‘데이터를 분석해줘’ 라는 한마디로도 충분한 수준의 작은 파일이라면, 어느정도의 수작업은 직접 해주는 것이 경험상 더 빨리 해결됐습니다.

예를 들면, csv 파일이든 xlsx 파일이든 관계없이 (UTF-8 호환여부를 체크하기 전에)

데이터 분석 절차에 대해 설명했고, 데이터 전처리를 요청한 프롬프트를 입력했음에도

캡처된 화면의 내용을 살펴보시면 첫 20줄이 테이블 형식이 아닌 것은 인지했지만

텍스트가 아닌 따옴표만 제거하겠다는 결론을 내린 것을 보실 수 있습니다.

정상적인 데이터 분석을 위한 전처리는 1열부터 테이블이 등장하게끔 조정하는 것인데,

이 정도의 전처리 조건을 추가했음에도 반영이 안되는 경우가 있습니다.

(GPTs의 지침 설정 등을 통해 데이터분석 및 나의 전문영역 등을 동시에 커버해달라는 요청을 할 수도 있지만, 최근 복합적인 설정 적용이 생각보다 쉽지 않습니다.)

따라서, 전처리를 위한 기초적인 수작업은 내가 직접 해두고 파일에 대한 구조 이해를 같이 해두는 것은 필요하다고 말씀드릴 수 있습니다.

Q2. 모든 데이터를 깔끔히 처리해주는 표본은 어디서 구할까?

핵심 요지는 다소 비슷했지만, 조금 더 직접적인 예제를 구하기 쉬운 곳들을 소개해드리는 차원에서 소제목을 따로 만들었습니다.

전처리/가공을 위한 준비작업까지 끝냈고, 내 역할과 목적에 기반한 질문까지 마쳤는데도 답변이 너무 원론적이라거나 특정한 정보가 부족하다는 답변을 듣는다면

우리가 갖고 있는 데이터셋의 형식에는 이상이 없으나, 핵심문제를 짚어주는 데 도움이 될만한 column이 충분히 생성되어있지 않다고 판단할 수도 있습니다.

특정 분야에 대한 지식이 있고, 최소한의 근거가 되는 지표가 있다면 간접적인 계산으로 문제를 해결해볼 수도 있습니다.

대신 그마저도 여의치 않을때, 진짜 어떤 데이터셋을 모아야 할지에 대한 근거조차 부족할때는 랜덤 데이터셋이라도 만들어서 추론해보겠다는 답을 내놓습니다.

GPT마저 충분한 답을 내놓지 못할땐, 어느정도 모범사례로 인식될만한 대규모 dataset을 수집해볼 수 있습니다.

그러한 데이터셋들의 구성을 참고하면서 데이터 관련 실무자들과 필요한 column이 무엇이고, 앞으로 그것을 어떻게 수집할 것인지 대책을 세워볼 수 있습니다.

데이터 분석 프로젝트를 예시로 수행해볼 수 있는 표본 확보

kaggle

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

kaggle.com

해외에서 데이터분석 및 머신러닝을 위한 샘플을 가장 크게 모은다고 알려져있는 곳으로, 2017년 구글이 인수하면서 구글이 활용하는 ai 프로젝트들의 상당수는 여기서 수집되는 데이터셋을 활용한다고 봐도 크게 이상은 없습니다.

e커머스 데이터, 게임 앱, 스포츠 대회 기록이나 아마존 주식같은 각종 분야의 데이터들이 모여있습니다.

예시로 e커머스 데이터를 열어보면 결제수단과 날짜, 상품 카테고리와 각종 개인정보를 밝혀주는 8개의 column이 필수적으로 있고, 그것을 토대로 매출 예측은 가능하다는 use case에 대한 안내가 있습니다.

비슷한 방식으로 내가 하고자 하는 일과 관련된 프로젝트를 찾은 뒤, 이 예제의 dataset과 use case를 따라서 확인해보신다면 실무에 적용하고 gpt에게 해석시키는 것에는 큰 난관은 없을 것입니다.

어빈대학교 머신러닝 연구소

UCI Machine Learning Repository

Discover datasets around the world!

archive.ics.uci.edu

마찬가지로 머신러닝과 통계분석을 위한 유명한 프로젝트들 상당수가 등록되어있습니다.

(교과서에서 가장 많이 접했던 잎의 패턴, 각도 등을 기준으로 붓꽃의 종류를 나누는 Iris 관련 데이터도 볼 수 있군요.)

금융기관의 고객관리, 마케팅 사례를 다룬 테이블을 살펴보면 인적사항과 더불어 주택대출, 생활비대출, 학력,가정유형, 컨택횟수 등과 같은 정보로 연구가 허용된 데이터들은 공개가 되어있습니다.

은행 관련 데이터들을 보시면, 각 사람의 대출한도(생활자금, 주택대출 구분), 잔여기간, 컨택횟수 및 가정환경에 대한 정보까지 아주 세밀하게 모아놨다는 것을 보실 수 있습니다.

한국통계포털

KOSIS 국가통계포털

코시스, 통계청이 제공하는 원스톱 통계 서비스, 국가승인통계, 국제통계, 북한통계, e-지방지표, 통계시각화콘텐츠, 온라인간행물 등 제공

kosis.kr

ai-hub

AI-Hub

aihub.or.kr

비슷한 유형의 정보들은 마찬가지로 국내에서도 취급하고 있습니다.

통계포털 및 ai-hub, 서울빅데이터캠퍼스와 같은 목적성을 지닌 공공기관에서 민감한 개인정보는 익명화/암호화한 뒤 데이터 분석에는 오류가 없을 내용을 공개하고 있습니다.

AI-Hub

aihub.or.kr

통계포털의 경우, 개인 단위의 정보까지 제공하는 수준은 아니기 때문에 경향성 정도는 참고가 될 수 있을 것입니다.

한국에서도 생각보다 정밀하게 관련 정보를 수집하고 있으나, ai hub의 데이터들은 민감한 정보 유출을 막기 위해 성명 등 인적사항은 암호화/비문화 처리해서 최대한 사생활 보호에 힘쓰고 있다는 것을 확인하실 수 있습니다.

ex> 시기별로 어떠한 상품이나 컨텐츠를 다루는 것이 좋겠는가에 대한 간접적인 판단은 해볼 수 있겠죠

기타 마케팅 관련 솔루션들

만약에 조금 더 직관적으로 수익화에 대한 힌트를 얻어보고 싶다면, 각 플랫폼 내에서 사람들이 어떤 것에 반응하고 있는지를 확인하고 그것에 편승하는 것도 하나의 방법은 될 수 있습니다.

만약 그것을 떠나서 조금 더 직관적으로 수익화에 도움이 되는 컨텐츠를 발굴해야겠다는 관점이라면

대세감을 미리 만들면서 영향력을 확보하는 것이 원론적으로는 최강의 효율을 자랑하겠지만, 그것을 누구나 다 해낼 수는 없는 것이기에 후발주자로서 생존하는 것도 지속성만 있다면 충분히 시도해볼 만한 전략입니다.

플랫폼 내 트렌드를 분석할 수 있는 데이터셋을 요청할 수 있습니다.

✅ 수익화 크리에이터를 위한 데이터 확보처 + 목적

주요 출처는 이렇습니다.

📁 데이터 출처제공 내용활용 예
📊 네이버 데이터랩 (https://datalab.naver.com키워드 트렌드, 연령/성별/지역별 관심도어떤 주제의 콘텐츠를 언제 노출할지 파악
📊 구글 트렌드 (https://trends.google.com글로벌 검색 트렌드, YouTube 검색어 포함유튜브용 인기 주제/패턴 변화 파악
📊 인스타그램·유튜브 해시태그 분석 도구
예: Rival IQ, Noxinfluencer
유튜브 채널 성장 추이, CPM, 해시태그 유효성나와 유사한 주제를 다루는 채널 벤치마킹
📁 Kaggle (크리에이터 관련 데이터 키워드 검색)YouTube Trending Video Dataset, Creator Earnings Dataset 등인기 콘텐츠 유형 분석, 제목·태그 구조 학습
📁 YouTube API + 크롤링영상 제목, 태그, 조회수, 좋아요 수 등 자동 수집콘텐츠 제목/썸네일 A/B 전략 설계
📁 스마트스토어 랭킹 (rankey, 아이템스카우트)검색량 기반 상품 수요 추정수익형 콘텐츠 주제(리뷰/추천/비교) 선택에 활용

✅ 수익화 크리에이터를 위한 데이터 확보처 + 목적

📁 데이터 출처제공 내용활용 예
📊 네이버 데이터랩 (https://datalab.naver.com키워드 트렌드, 연령/성별/지역별 관심도어떤 주제의 콘텐츠를 언제 노출할지 파악
📊 구글 트렌드 (https://trends.google.com글로벌 검색 트렌드, YouTube 검색어 포함유튜브용 인기 주제/패턴 변화 파악
📊 인스타그램·유튜브 해시태그 분석 도구
예: Rival IQ, Noxinfluencer유튜브 채널 성장 추이, CPM, 해시태그 유효성나와 유사한 주제를 다루는 채널 벤치마킹
📁 Kaggle (크리에이터 관련 데이터 키워드 검색)YouTube Trending Video Dataset, Creator Earnings Dataset 등인기 콘텐츠 유형 분석, 제목·태그 구조 학습
📁 YouTube API + 크롤링영상 제목, 태그, 조회수, 좋아요 수 등 자동 수집콘텐츠 제목/썸네일 A/B 전략 설계
📁 스마트스토어 랭킹 (rankey, 아이템스카우트)검색량 기반 상품 수요 추정수익형 콘텐츠 주제(리뷰/추천/비교) 선택에 활용

✅ 실전에서 쓸 수 있는 분석 관점

분석 항목설명예시
키워드 수익성검색량은 많지만 경쟁은 적은 키워드 탐색“골프 스윙 보조기”는 광고도 적고, 콘텐츠도 적음
트렌드 곡선계절성, 특정 이벤트 기반 트렌드 추적“다이어트 도시락”은 1~3월 급등, 8월 재급등
영상 길이 / 제목 / 썸네일 패턴 분석인기 유튜브 영상의 공통 요소 분석평균 6~8분, “~하면 생기는 일” 형태 제목 많음
크리에이터별 CPM 추정유튜브 카테고리별 CPM 비교금융 콘텐츠 $12, 일상 브이로그 $2 수준
리뷰/비교 콘텐츠 기반 매출 연동 분석리뷰형 콘텐츠가 실제 전환으로 이어지는 구조 확인“노션 vs 에버노트 비교 리뷰 → 노션 파트너 수익 발생”

Q3. 데이터 분석의 퀄리티는 어떻게 하면 더 높아질까?

AI가 사람을 아주 쉽게 대체해버릴 거라는 생각이 지배적이지만,

아이러니하게도 사람 없이 AI는 성장할 수 없습니다.

결국 기본 지식을 채워넣기까지는 사람의 데이터 공급으로 AI가 성장하고,

다시 인간의 자리를 완벽히 대체할 수 있다고 믿을 때쯤에 다시 새로운 데이터/견해/비판적 시각을 반복적으로 제공하면서 서로가 새로운 가능성을 만들어가는 것이 서로가 서로를 완벽히 대체하지 않는 방향일 것입니다.

위에 제시한 방법, 혹은 기타 내가 설계한 기준을 충족하지 않는 데이터들이 있다면 스크래핑을 통한 수집, 일치하는 항목들을 기반으로 여러 파일들의 정보를 연동해서 시뮬레이션하는 방식을 시도할 수 있습니다.

저는 실제로 판매 데이터 1개, 아이템스카우트/네이버트렌드 데이터를 각각 1개씩 받은 다음, 각 파일 내에서 공통적으로 발견되는 키워드를 기반으로 파일 내의 정보들을 이어서 새로운 파일을 하나 만들었습니다.

매출 예측에 필요한 외부 변수들을 같이 고려해야 했기 때문인데요,

파일이 여러개로 분산되어 있더라도, 단 한개의 column이 공통적으로 포함되어 있는것만 확인된다면 데이터 통합 & 변수 파악을 통한 새로운 차원의 시뮬레이션을 제공할 수 있습니다.

이것을 토대로 저는 테스트 프로젝트에 대한 적정 예산, 상품판매 수준을 개괄적으로 설계할 수 있었습니다.

웨비나는 끝났지만, 돌아올 순서에서는 꾸준히 여러분들의 의견으로 더욱 풍성한 내용을 준비하고자 합니다.

유익한 피드백 제공해주시면 저 또한 그에 맞는 내용들로 인사드리겠습니다.

감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다