च्याट जीपीटी कसरी तालिम दिइएको छ?

कसरी-सँग-जीपीटी-तालिम-दिईँदैछ।

तपाईंले यदि  ChatGPT सँग परिचित हुनुहुन्छ भने, तपाईले सकेको हुनुहुन्छ कि यो बस्तुतः धेरै डाटामा ट्रेनिङ गरिएको छ। तर यो बिस्तारमा के मतलब हो? यो लेखमा, हामी ChatGPT कसरी ट्रेनिंग गरिएको छ भने विशेषताहरूमा प्रवेश गर्नेछौं।

ChatGPT एक पूर्व-प्रशिक्षित भाषा मॉडल हो जुन सुरक्षित र अनुनातिक शिक्षाको एक संरक्षित संयोजनको माध्यमबाट समायोजित भएको छ। ChatGPT को प्रशिक्षण प्रक्रियाले मोडेलमा एक ठूलो मात्रामा लेखन डाटा दिएको र मोडेलको निपणहरू समायोजित गरेर थाहा पाएको लेखनमा त्यस्तो पाठको छापा लिन सक्दो बहसमा अाउँछ।

यस प्रक्रिया लागि अनसुपर्वाइज्ड लर्निङ एप्रोच प्रयोग गरिएको छ, जसले अरू नमुनाहरूबाट उत्पन्न भएको पाठ सहि वा गलत हो, भन्ने सल्लाह दिनु भएको छैन। बल्कि, यो मोडेल त्रुटिहरू र सहि भएको पाठको समानता निर्धारणगरी प्राप्त गर्नुहोस्।

ChatGPT-3 को मूल मोडेल जसमा १७५ बिलियन पैरामीटर र २०४८-टोकन-लङ्ग कन्टेक्स्ट रहेको छ। यो अंग्रेजीमा कमन क्राल, वेबटेक्स्ट २, बुक्‍स १/२, विकिपीडियाबाट केहि बिलियन कुराहरू र CSS, JSX, पाइथन र अन्य प्रोग्रामिंग भाषाहरूमा कोडका उदाहरणहरू समावेश गरी शिक्षित छ।

GPT-3को लागि प्रशिक्षण विधि उत्पादक पूर्व प्रशिक्षण हो, जो यो प्रशिक्षण लगायत सटिकता बढाउनतर्फ आफूले अगाडि आउने टोकन वा वाक्य को भविष्यवाणी गर्न क्षमता विकसित गर्नु भएको हो।

सर्वश्रेष्ठ चैट जीपीटी विकल्प

निरीक्षित शिक्षा

च्याटजिपिटी मोडेल लागू शिक्षित लोगहरूद्वारा पर्याप्त सूचनाहरु द्वारा एक प्रक्रिया द्वारा फाइन-ट्यून गरिएको थियो। यी ट्रेनरहरू बारेमा वार्तालाप गरे, उपयोगकर्ताको रूप र AI सहायकको दुइपटक लिन्छन्।

उनीहरूलाई मोडेलबाट सुझावहरू दिइएको थियो जो उनीहरूलाई त्यसका उत्तरहरू निर्माण गर्नमा मार्गदर्शन दिइएको थियो, अनि त्यसपछिको अनुवाद गरिएको InstructGPT डेटासेटले संवाद ढाँचामा रूपान्तरित भएको थियो।

पुनर्निर्देशन शिक्षा

माडेललाई प्रोक्सिमल नीति विकास (पीपीओ) प्रयोग गरेर रिनफोर्समेन्ट लर्निङ द्वारा थप अझै सुधार गरिएको थियो। मानव प्रशिक्षकहरूले अघिको कुराकानीबाट उत्पन्न हुने प्रतिक्रियाहरूको मूल्यांकन गर्दा उन इनाम मडलहरू विकास गर्न संलग्न गरेका थिए। त्यसपछि मडल यी इनाम मडलहरूमा आधारित रूपमा सुधार गरिएको थियो।

बेस्ट प्रदर्शन प्राप्त गर्न कई बार फाइन-ट्यूनिंग प्रक्रिया गरिएको थियो। अन्य अल्गोरिथ्महरूसँग तुलना गरेर PPO अल्गोरिथ्मले खर्च उपयुक्त पारदर्शी प्रदर्शन गर्दछ र तेजीदै काम गर्दछ, जसलाई यो प्रक्रिया को लागि आदर्श मानिन्छ। 

ओपनएआई च्याटजीपीटी संग अवसरबाट सम्पर्क गर्ने उपयोगकर्ताहरूबाट विवरण जमा गरिएको छ, जुन अनि थप उनीहरूलाई बेहतर बनाउन र अभिनव माेडल सुधार्न योग्य लाग्छ।

उपयोगकर्ताहरूलाई च्याटजीपीटीको जवाफहरूलाई अपवोट वा डाउनवोट गरेर मत दिन सक्छन् र तिनीहरूलाई अतिरिक्त प्रतिक्रिया दिनको अवसर पनि छ। यो डाटा माेडलको प्रदर्शन बढाउन र मानव जस्तो पाठ उत्पन्न गर्न सक्षम बनाउन प्रयोग हुन्छ।

मोडल ट्रेन गर्न प्रयोग गरिएका डाटाहरु

च्याटजीपीटी-३ ल्याङ्ग्वेज मोडल जीपीटी-३.५ श्रृंखला बाट फाइन-ट्यून गरिएको हो, जुन एक एज्युर्स एआई सुपरकम्प्युटिङ इन्फ्रास्ट्रक्चर प्रयोग गरी ट्रेन गरिएको थियो। इन्टरनेटबाट स्क्रैप गरिएको बहुमोट काठमाडौंमा च्याट फोरम, लेख, वेबसाइट, एकाडेमिक पेपर, कोड र अन्य स्रोतहरू समेत हुन्छ।

च्याट जी.पी.टी.-३ को ट्रेनिंग दिने लेखनी डाटा तात्कालिक ४५ टेराबाइट भएको थियो, जसले यस मोडेलको शक्तिमा योगदान गर्छ र लेखक वा संवाददाता लेख्न सक्ने पाठहरूसँग समान छ जस्ता पाठहरू उत्पन्न गर्न सक्छ।

सम्बन्धित लेखहरु

थप हेर्नुहोस् >>