테스트 사이트 - 개발 중인 베타 버전입니다

데이터셋(jsonl) 형식을 가지고 학습 모델을 활요하고 싶은데 어떻게하면 좋을까요?

· 8개월 전 · 195 · 2

데이터셋(jsonl) 형식의 데이터를 가지고 AI학습을 시키고 싶은데 방법을 모르겠습니다.

 

데이터는 예 들어  

 

data = [
    {"병원명" : "병원명", "전화번호" : "02-123-1234"},
    {"병원명" : "명의원", "전화번호" : "02-321-4321"},
    # ... 1000건의 데이터
]

형식인데 학습 시켜서 모델을 이용하고 싶은데 방법을 모르겠습니다.

전문가님들의 조언 좀 부탁드립니다.

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 2개

8개월 전

ai학습은 어쨋든 파이썬으로 머신러닝쪽으로 하셔야하는데

여기 커뮤니티에서 언어가 다른 파이썬의..

그리고 그 안에서도 인공지능쪽인 머신러닝 쪽 조언이 어렵지 않을까?

싶기도합니다.

여러 서적이나 교재를 보시고 직접 파이썬을 설치하시면서 공부를 하시거나,

아니면 서버를 하나 세팅해서 거기에 학습하는 것을 만들던지 해야할텐데

학습도 학습이지만 결국 그 결과물을 산출해서 하는 알고리즘도 필요하기때문에

보통은 인공지능 전문가나 상주하는 인원을 구축해서 하셔야합니다.

개인이 간단하게 할수있는 방법은 없습니다..

8개월 전

젤 쉬운건 openai fine tune 모델을 사용하여 chatbot 을 만드는것입니다.

문장을 추가로 학습하는것만으로 fine tune  결과가 좋게 안나옵니다. 결국은 다 프롬프트질(?) 을 해야 합니다. + funtion calling 으로 사용자 요청에 대한 응답을 적절하게 routing 해줘야 하구요. 그냥 만들면 그저 그런 챗봇이 나오고,,,, 한땀한땀 세심하게 튜닝해야 그나마 원하는 결과가 나옵니다. 학습하는 json 문장도 정교하게 가공해야 하고, 불필요한걸 지나치게 학습시키면 오히려 결과가 안좋게 나옵니다. 테스트 시간도 많이 들어갑니다.

 

좀더 고차원적인 방법은 최근 자주 등장하는 RAG 입니다. 이와 관련된건 기술적으로 여러방법이 있으나,, json 데이타 만으로 튜닝한다면, openai 파인튜닝을 권해드립니다.

 

 

최근 gemini 의 content window 가 백만,2백만 토큰이 허용되는 상황이라,,

입력 프롬프트를 길게 입력하는것으로도 파인튜닝급의 성능이 나올수 있게 되었습니다.(테스트는 안해봤습니다.)

 

openai 의 파인튜닝 모델을 사용해보시고, 다른 선택지를 고려해보시면 될것 같습니다. 
 

 

 

게시글 목록

번호 제목
1081
1080
1078
1074
1070
1068
1061
1056
1053
1046
1045
1044
1036
1033
1028
1027
1025
1023
1016
1014
1013
1012
1009
1008
1005
1004
981
980
979
972