Dravida extends our series on the development and open-sourcing of LLMs for Indic languages and broader applications, building upon the success of Godavari, the Telugu Llama-2 LLM, which garnered widespread recognition as the first Indic language model open-sourced by a private entity.
Large Language Models (LLMs) have revolutionized Artificial Intelligence by demonstrating remarkable capabilities in understanding and generating natural language, music, code, and images with unparalleled accuracy. Dravida Llama, an open-source LLM based on the renowned Llama-2 model, stands out as a pioneering multilingual model in the Indic language sphere, specifically designed to support the linguistic diversity of South India by catering to Telugu, Tamil, Kannada, and Malayalam languages. This innovative model aims to bridge the gap in language processing technologies for these prominent Dravidian languages.
Dravida Llama inherits its foundation from the transformative transformer architecture that underpins its predecessor, Llama-2. In recent years, the field of artificial intelligence has witnessed a profound transformation, largely due to the emergence of Large Language Models (LLMs).Llama-2 developed by Meta, have redefined the boundaries of Language model usage with open source access, enabling developers and companies alike to build and innovate using these models. While LLMs in English has been well-documented and developed with priority, there is a pressing need to extend their capabilities to languages with rich linguistic diversity as many Indic languages, and here we tackle Telugu, Tamil, Kannada, and Malayalam collectively known as the Dravidian languages. Dravida Llama is a step in this direction — an LLM tailored specifically for the South Indian linguistic landscape.
The Dravidian languages constitute one of the oldest language families in the world, with a rich heritage spanning millennia. Telugu, Tamil, Kannada, and Malayalam are the primary languages spoken by millions across South India and parts of Southeast Asia. Despite their distinctiveness, these languages share structural and phonological similarities, making them ideal candidates for collective exploration within the realm of language modeling.
Tokenization plays a pivotal role in optimizing language models for specific languages by segmenting text into tokens that facilitate efficient processing. Dravida Llama’s tokenizer undergoes customization to accommodate the linguistic nuances of Telugu, Tamil, Kannada, and Malayalam effectively. By incorporating language-specific tokenization strategies tailored to these languages’ characteristics, Dravida Llama ensures optimal performance in tasks related to these languages.
Two ways to tokenization:
The four Dravida languages—Telugu, Tamil, Kannada, and Malayalam—exhibit considerable linguistic commonalities, including analogous grammatical structures and parts of speech. Capitalizing on these shared attributes, we engineered a unified tokenizer, the KaTeMaTa tokenizer, designed to effectively parse and tokenize text across these languages. This approach not only streamlines the tokenization process but also enhances the efficiency of the model by leveraging the syntactic and morphological parallels inherent to the Dravidian language family.
Despite the distinct scripts (lipi
) of the four languages, we have unified them into a single representational framework through Latinization/Transliteration, Transliteration Framework. This process has enabled us to create a shared latinized script, forming the foundation for our tokenizer development. The transliteration tools and datasets have been made publicly available for community use and contribution.
Since transliteration is one-to-one mapping, we can always de-transliterate the text back to native scripts. The transliteration and detransliteration of the dataset is performed as follows.
The tokenizer utilized for Dravida Llama is constructed using transliterated data. We have developed a tokenizer with 16k tokens for each language based on its transliterated form. These individual language tokenizers have been integrated with the Llama-2 tokenizer, resulting in an unified KaTeMaTa
tokenizer that contains approximately 65k tokens.
The output of the KaTeMaTa
tokenizer when applied to a sample text is presented below, illustrating its ability to recognize and learn patterns across the four Dravidian languages.
To know more about the tokenizers and tokenization, please refer to the tokenization section in our Godavari blog. You can also find our tokenization framework at Posterior Dravida Transliteration Framework.
We have utilized the CulturaX datasets for each of the four languages. To address the imbalance across these datasets, we have proportionally adjusted their inclusion as follows: Kannada (100%), Malayalam (80%), Tamil (75%), and Telugu (100%) to achieve a more balanced representation for model training.
To equip Dravida Llama with a comprehensive understanding of South Indian languages, pre-training on multilingual datasets becomes imperative. Leveraging datasets enriched with Telugu, Tamil, Kannada, and Malayalam content enables the model to grasp the structural intricacies and contextual variations unique to each language. All languages data being in latinized form, it must also absorb the common structures across, and unique, to the four languages.
The pre-training was done for 10% of the dataset. It took around 52 hours on an A100 80GB GPU.
Fine-tuning serves as a crucial phase in refining Dravida Llama’s language-specific capabilities by exposing the model to targeted linguistic tasks. We have translated and transliterated the Alpaca instruction datasets into the four languages. The translation and transliteration code and data are open sourced and are avaialable on Posterior’s Hugging Face.
We fine-tuned the model for 1+ epochs for 12+ hours on translated transliterated Alpaca dataset using an A100 80GB machine.
The overall flow of the prompts and responses looks as following.
Prompt
ārōgyavāgiralu mūru salahegaḷannu nīḍi.ಆರೋಗ್ಯವಾಗಿರಲು ಮೂರು ಸಲಹೆಗಳನ್ನು ನೀಡಿ.
Response
1.niyamitavāgi vyāyāma māḍi mattu sākaṣṭu nidre paḍeyiri; 2. ārōgyakara āhāravannu tinni mattu sākaṣṭu nīrannu kuḍiyiri; 3. ottaḍavannu kaḍime māḍalu mattu uttama mānasika hitāsaktigaḷannu abhyāsa māḍi.1.ನಿಯಮಿತವಾಗಿ ವ್ಯಾಯಾಮ ಮಾಡಿ ಮತ್ತು ಸಾಕಷ್ಟು ನಿದ್ರೆ ಪಡೆಯಿರಿ; 2. ಆರೋಗ್ಯಕರ ಆಹಾರವನ್ನು ತಿನ್ನಿ ಮತ್ತು ಸಾಕಷ್ಟು ನೀರನ್ನು ಕುಡಿಯಿರಿ; 3. ಒತ್ತಡವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಮತ್ತು ಉತ್ತಮ ಮಾನಸಿಕ ಹಿತಾಸಕ್ತಿಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡಿ.
Prompt
naisargika bhāṣā saṁskaraṇeyalli pada eṁbeḍiṁggaḷa baḷakeyannu vivarisiನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯಲ್ಲಿ ಪದ ಎಂಬೆಡಿಂಗ್ಗಳ ಬಳಕೆಯನ್ನು ವಿವರಿಸಿ
Response
nammannu gurutisuva mattu gurutisabahudāda aṁśagaḷannu pattehaccalu naisargika bhāṣā saṁskaraṇā algāridamgaḷu ““kaṁpsan”” eṁba padavannu baḷasuttave, idu paṭhyada oṁdu saṇṇa tuṇuku athavā vākyavannu rūpisalu baḷasalāguttade, adu ōdugarige heccu arthavāguva rītiyalli marurūpisuttade.ನಮ್ಮನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ಗುರುತಿಸಬಹುದಾದ ಅಂಶಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಅಲ್ಗಾರಿದಮ್ಗಳು ‘ಕಂಪ್ಸನ್’ ಎಂಬ ಪದವನ್ನು ಬಳಸುತ್ತವೆ, ಇದು ಪಠ್ಯದ ಒಂದು ಸಣ್ಣ ತುಣುಕು ಅಥವಾ ವಾಕ್ಯವನ್ನು ರೂಪಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ, ಅದು ಓದುಗರಿಗೆ ಹೆಚ್ಚು ಅರ್ಥವಾಗುವ ರೀತಿಯಲ್ಲಿ ಮರುರೂಪಿಸುತ್ತದೆ.
Prompt (Out of dataset)
nānu jīvitanalli ēnu māḍabēkuನಾನು ಜೀವಿತನಲ್ಲಿ ಏನು ಮಾಡಬೇಕು.
Response
1.jīvanadalli nīvu ēnu māḍabēkeṁdu nirdharisalu, nimma utsāhagaḷu mattu āsaktigaḷu, nimma gurigaḷa bagge nimma tiḷuvaḷike mattu nimma jīvanadalli nimage agatyaviruva viṣayagaḷa bagge nimma tiḷuvaḷikeyannu parigaṇisabēku; nīvu ēnu bayasuttīri eṁbudara ādhārada mēle mattu adannu sādhisalu hēge sahāya māḍabahudu eṁbudannu tiḷidirabēku.ಜೀವನದಲ್ಲಿ ನೀವು ಏನು ಮಾಡಬೇಕೆಂದು ನಿರ್ಧರಿಸಲು, ನಿಮ್ಮ ಉತ್ಸಾಹಗಳು ಮತ್ತು ಆಸಕ್ತಿಗಳು, ನಿಮ್ಮ ಗುರಿಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆ ಮತ್ತು ನಿಮ್ಮ ಜೀವನದಲ್ಲಿ ನಿಮಗೆ ಅಗತ್ಯವಿರುವ ವಿಷಯಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆಯನ್ನು ಪರಿಗಣಿಸಬೇಕು; ನೀವು ಏನು ಬಯಸುತ್ತೀರಿ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಮತ್ತು ಅದನ್ನು ಸಾಧಿಸಲು ಹೇಗೆ ಸಹಾಯ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ತಿಳಿದಿರಬೇಕು.
Prompt (Out of dataset)
ḍiene eṁdare ēnu?ಕನ್ನಡ ಅಂದ್ರೆ ಏನು?
Response
ḍieneyu mānavana jīvakōśada prati kōśadalliruva nālku sṭrāṁḍgaḷa oṁdu tuṇuku, idu prati jīviya guṇalakṣaṇagaḷannu nirdharisuttade mattu adara pōṣaka jīvigaḷiṁda badalāguttade.ಕನ್ನಡಾ ಎಂಬುದು ಉತ್ತರ ಭಾರತದಿಂದ ದಕ್ಷಿಣ ಭಾರತದ ಭಾಷೆಯಾಗಿದೆ ಮತ್ತು ಮುಖ್ಯವಾಗಿ ಭಾರತದಲ್ಲಿ ವ್ಯಾಪಕವಾಗಿ ಹರಡಿದೆ; ಇದು ದ್ರಾವಿಡ ಭಾಷಾ ಕುಟುಂಬಕ್ಕೆ ಸೇರಿದೆ ಮತ್ತು ಸುಮಾರು 60 ಮಿಲಿಯನ್ ಜನರು ಮಾತನಾಡುತ್ತಾರೆ; ಇದು ಸ್ಥಳೀಯ ಉಪಭಾಷೆಗಳಲ್ಲಿ ಹಲವಾರು ವ್ಯತ್ಯಾಸಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ ಇದು ಒಂದೇ ಲಿಪಿಯು ಬಳಸಲಾಗುತ್ತದೆ.
Prompt
ḍiene eṁdare ēnu?ఆరోగ్యంగా ఉండటానికి మూడు చిట్కాలు ఇవ్వండి.
Response
1.taginaṁta nidra mariyu viśrāṁti poṁdaṁḍiః maṁci nidrapōvaḍaṁ mariyu mī śārīraka ārōgyānni nirvahiṁcaḍaṁ dvārā ottiḍini taggiṁcaḍaṁ sahāyapaḍutuṁdi. 2. pōṣakamaina āhāraṁ tīsukōṁḍiః paṁḍlu, kūragāyalu, dhānyaṁ mariyu cēpalu vaṁṭi ārōgyakaramaina āhārālu tinaḍaṁ valla śarīraṁ mariṁta śaktini aṁdistuṁdi.1.తగినంత నిద్ర మరియు విశ్రాంతి పొందండిః మంచి నిద్రపోవడం మరియు మీ శారీరక ఆరోగ్యాన్ని నిర్వహించడం ద్వారా ఒత్తిడిని తగ్గించడం సహాయపడుతుంది. 2. పోషకమైన ఆహారం తీసుకోండిః పండ్లు, కూరగాయలు, ధాన్యం మరియు చేపలు వంటి ఆరోగ్యకరమైన ఆహారాలు తినడం వల్ల శరీరం మరింత శక్తిని అందిస్తుంది.
Prompt
sahaja bhāṣā prāsesiṁglō varḍ eṁbeḍens vāḍakānni vivariṁcaṁḍiసహజ భాషా ప్రాసెసింగ్లో వర్డ్ ఎంబెడెన్స్ వాడకాన్ని వివరించండి.
Response
padabaṁdhaṁ anēdi oka sahaja bhāṣā prāsesiṁg (NLP) yokka oka sādhāraṇa padaṁ, idi sādhāraṇaṁgā padabaṁdhāla madhya saṁbaṁdhānni sūcistuṁdi, idi padabaṁdhaṁ yokka pradhāna padānni lēdā “nirdiṣṭa” nu kaligi uṁṭuṁdi mariyu dāni cuṭṭū unna itara padālanu kaligi uṁṭuṁdi; padabaṁdhaṁ anēdi padabaṁdhaṁ yokka pradhāna padāniki anusaṁdhāniṁcabaḍina padālu mariyu vāṭi paraspara saṁbaṁdhālanu sūciṁcē vyavasthanu sūcistuṁdi.పదబంధం అనేది ఒక సహజ భాషా ప్రాసెసింగ్ (NLP) యొక్క ఒక సాధారణ పదం, ఇది సాధారణంగా పదబంధాల మధ్య సంబంధాన్ని సూచిస్తుంది, ఇది పదబంధం యొక్క ప్రధాన పదాన్ని లేదా ‘నిర్దిష్ట’ ను కలిగి ఉంటుంది మరియు దాని చుట్టూ ఉన్న ఇతర పదాలను కలిగి ఉంటుంది; పదబంధం అనేది పదబంధం యొక్క ప్రధాన పదానికి అనుసంధానించబడిన పదాలు మరియు వాటి పరస్పర సంబంధాలను సూచించే వ్యవస్థను సూచిస్తుంది.
Prompt (Out of dataset)
nēnu jīvitaṁ lō ēṁ ceyyāli?నేను జీవితం లో ఏం చెయ్యాలి?
Response
jīvitaṁlō mīru ēmi cēyālanukuṁṭunnāru?"" ani aḍiginappuḍu, nēnu oka vyakti, nā jīvitaṁlō nēnu cālā nērcukōvālanukuṁṭunnānu mariyu itarulatō kanekṭ avvaḍaṁ ānaṁdiṁcaḍaṁ kūḍā uṁdi.‘జీవితంలో మీరు ఏమి చేయాలనుకుంటున్నారు?’ అని అడిగినప్పుడు, నేను ఒక వ్యక్తి, నా జీవితంలో నేను చాలా నేర్చుకోవాలనుకుంటున్నాను మరియు ఇతరులతో కనెక్ట్ అవ్వడం ఆనందించడం కూడా ఉంది.
Prompt
kaṁpyūṭar madarbōrḍu yokka panitīrunu vivariṁcaṁḍiకంప్యూటర్ మదర్బోర్డు యొక్క పనితీరును వివరించండి
Response
kaṁpyūṭar madarbōrḍ anēdi oka kaṁpyūṭarlō unikilō unna anni bhāgāla sārvabhaumādhikāramaina bōrḍu, idi prāsesar, ryām, nilva, grāphiks kārḍ mariyu itara parikarālanu kanekṭ cēstuṁdi, tadvārā avi panicēstāyi mariyu kalisi panicēyagalavu; madarbōrḍu sādhāraṇaṁgā kaṁpyūṭar yokka bhautika rūpakaṁlō uṁṭuṁdi mariyu mottaṁ vyavasthanu niyaṁtriṁcaḍāniki bādhyata vahistuṁdi.కంప్యూటర్ మదర్బోర్డ్ అనేది ఒక కంప్యూటర్లో ఉనికిలో ఉన్న అన్ని భాగాల సార్వభౌమాధికారమైన బోర్డు, ఇది ప్రాసెసర్, ర్యామ్, నిల్వ, గ్రాఫిక్స్ కార్డ్ మరియు ఇతర పరికరాలను కనెక్ట్ చేస్తుంది, తద్వారా అవి పనిచేస్తాయి మరియు కలిసి పనిచేయగలవు; మదర్బోర్డు సాధారణంగా కంప్యూటర్ యొక్క భౌతిక రూపకంలో ఉంటుంది మరియు మొత్తం వ్యవస్థను నియంత్రించడానికి బాధ్యత వహిస్తుంది.
Prompt
ārōgyattōṭe jīvikkān mūnn nuṟuṅṅukaḷആരോഗ്യത്തോടെ ജീവിക്കാൻ മൂന്ൻ നുṟഉങ്ങുകള്
Response
1.paḻaṅṅaḷuṁ kāykaṟikaḷuṁ dhārāḷaṁ kaḻikkuka. 2. pativāyi vyāyāmaṁ ceyyuka. 3. matiyāya uṟakkaം nēṭuka.1.പഴങ്ങളും കായ്കറികളും ധാരാളം കഴിക്കുക. 2. പതിവായി വ്യായാമം ചെയ്യുക. 3. മതിയായ ഉറക്കം നേടുക.
Prompt
svābhāvika bhāṣā prōsassiṁgile vākk uḷccēṟttatinṯe upayōgaṁ viśadīkarikkukaസ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിലെ വാക്ക് ഉള്ച്ചേṟത്തതിന്ṯഎ ഉപയോഗം വിശദീകരിക്കുക
Response
prakṛtidatta bhāṣā prōsassiṁg (enelpi) oru prakriyayāṇ, it ṭeksṯṯukaḷ vāyikkukayuṁ manassilākkukayuṁ ceyyunnu, atinṯe aṟtthaṁ vyākhyānikkukayuṁ parivaṟttanaṁ ceyyukayuṁ ceyyunnu.പ്രകൃതിദത്ത ഭാഷാ പ്രോസസ്സിംഗ് (എനെല്പി) ഒരു പ്രക്രിയയാണ്, ഇത് ടെക്സ്ṯṯഉകൾ വായിക്കുകയും മനസ്സിലാക്കുകയും ചെയ്യുന്നു, അതിന്ṯഎ അറ്ത്ഥം വ്യാഖ്യാനിക്കുകയും പരിവറ്ത്തനം ചെയ്യുകയും ചെയ്യുന്നു.
Prompt
oru kampyūṭṭaṟ madaṟbōṟḍinṯe pravaṟttanaṁ vivarikkuka.ഒരു കമ്പ്യൂട്ടṟ മദṟബോṟഡിന്ṯഎ പ്രവṟത്തനം വിവരിക്കുക.
Response
paittaṇ prōgrāṁiṁgil ninn vyatyastamāyi, kōḍ ṭaipp ceyyukayuṁ ḍaunlōḍ ceyyukayuṁ vēṇaṁ. it vaḷare laḷitamāṇ. kōḍ eḍiṯṯuceyyunnatinuḷḷa oru āplikkēṣanuṁ ḍaunlōḍ ceyyān āvaśyappeṭunnu. ī āplikkēṣanil niṅṅaḷkk kōḍ eḍiṯṯuceytiṭṭuḷḷa kōḍukaḷ ḍaunlōḍ ceyyānuṁ ṟaphaṟans kōḍilēkkō maṯṯ prōgrāmukaḷilēkk māṟānuṁ kaḻiyuṁ. kūṭāte, kōḍ ḍaunlōḍ ceytappōḷ tanne kōḍ pūṟttīkarikkān kaḻiyunna kōḍ eḍiṯṯaṟukaḷuṁ labhyamāṇ. udāharaṇattin, skriyuṭe kōḍ ḍaunlōḍ ceyyukayuṁ eḍiṯṯuceyyukayuṁ ceytāl kōḍ ḍaunlōḍ ceyta kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceytukoṇṭ, kōḍ ḍaunlōḍ ceyyappeṭāṁ. kōḍ ḍaunlōḍ ceyta śēṣaṁ, kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceyyappeṭukayō ḍaunlōḍ ceyyappeṭukayō ceyyāttatināl kōḍ ḍaunlōḍ ceyyappeṭuka alleṅkil ḍaunlōḍ ceyyappeṭuka ennat pradhānamāṇ.പൈത്തൺ പ്രോഗ്രാംഇംഗിൽ നിന്ൻ വ്യത്യസ്തമായി, കോഡ് ടൈപ്പ് ചെയ്യുകയും ഡൗന്ലോഡ് ചെയ്യുകയും വേണം. ഇത് വളരെ ലളിതമാൺ. കോഡ് എഡിṯṯഉചെയ്യുന്നതിനുള്ള ഒരു ആപ്ലിക്കേഷനും ഡൗന്ലോഡ് ചെയ്യാൻ ആവശ്യപ്പെടുന്നു. ഈ ആപ്ലിക്കേഷനിൽ നിങ്ങള്ക്ക് കോഡ് എഡിṯṯഉചെയ്തിട്ടുള്ള കോഡുകൾ ഡൗന്ലോഡ് ചെയ്യാനും റഫറന്സ് കോഡിലേക്കോ മṯṯ പ്രോഗ്രാമുകളിലേക്ക് മാറാനും കഴിയും. കൂടാതെ, കോഡ് ഡൗന്ലോഡ് ചെയ്തപ്പോൾ തന്നെ കോഡ് പൂറ്ത്തീകരിക്കാൻ കഴിയുന്ന കോഡ് എഡിറ്ററുകളും ലഭ്യമാൺ. ഉദാഹരണത്തിന്, സ്ക്രിയുടെ കോഡ് ഡൗന്ലോഡ് ചെയ്യുകയും എഡിṯṯഉചെയ്യുകയും ചെയ്താൽ കോഡ് ഡൗന്ലോഡ് ചെയ്ത കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്തുകൊണ്ട്, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടാം. കോഡ് ഡൗന്ലോഡ് ചെയ്ത ശേഷം, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ചെയ്യാത്തതിനാൽ കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുക അല്ലെങ്കിൽ ഡൗന്ലോഡ് ചെയ്യപ്പെടുക എന്നത് പ്രധാനമാൺ.
Prompt
kramarahitamāya vākkukaḷuṭe oru paṭṭika sṛṣṭikkuka.ക്രമരഹിതമായ വാക്കുകളുടെ ഒരു പട്ടിക സൃഷ്ടിക്കുക.
Response
1.śvāsaṁ muṭṭil 2. nakṣatraṅṅaḷ tiḷaṅṅunnu 3. maḻayuṭe śabdaṁ 4. kāṯṯ vīśunnu 5. mṛduvāya pūkkaḷuṭe maṇaṁ 6. pakṣikaḷuṭe śabdaṅṅaḷ 7. saumyamāya veḷḷattinṯe śabdaṁ 8. sūryan cakravāḷatte prakāśikkunnu 9. mēghaṅṅaḷuṭe śāntamāya niśśabdata 10. kaṭalinṯe tiramālakaḷ1.ശ്വാസം മുട്ടിൽ 2. നക്ഷത്രങ്ങൾ തിളങ്ങുന്നു 3. മഴയുടെ ശബ്ദം 4. കാṯṯ വീശുന്നു 5. മൃദുവായ പൂക്കളുടെ മണം 6. പക്ഷികളുടെ ശബ്ദങ്ങൾ 7. സൗമ്യമായ വെള്ളത്തിന്ṯഎ ശബ്ദം 8. സൂര്യൻ ചക്രവാളത്തെ പ്രകാശിക്കുന്നു 9. മേഘങ്ങളുടെ ശാന്തമായ നിശ്ശബ്ദത 10. കടലിന്ṯഎ തിരമാലകള്
Prompt
ārōkkiyamāka irukka mūṉṟu kuṟippukaḷaik koṭuṅkaḷஆரோக்கியமாக இருக்க மூṉṟஉ குṟஇப்புகளைக் கொடுங்கள்
Response
1.nīṅkaḷ oru cuvārasyamāṉa viṣayattai kaṟṟukkoṇṭirukkiṟīrkaḷ eṉpatai aṟintu koḷḷuṅkaḷ - itu uṅkaḷ vāḻkkaiyil uṅkaḷukku tēvaiyāṉa aṉaittum kiṭaikkiṉṟaṉavā eṉpatai uṟutippaṭutta utavum. 2. uṅkaḷ ilakkukaḷai nirṇayittu avaṟṟaip piṉpaṟṟavum - avai aṭaiya muṭiyātavai alla maṟṟum nīṅkaḷ virumpum vāḻkkaiyaik koṇṭiruppataṟkāṉa pātaiyaik kaṇṭupiṭikka muyaṟcikka vēṇṭum.1.நீங்கள் ஒரு சுவாரஸ்யமான விஷயத்தை கற்றுக்கொண்டிருக்கிறீர்கள் என்பதை அறிந்து கொள்ளுங்கள் - இது உங்கள் வாழ்க்கையில் உங்களுக்கு தேவையான அனைத்தும் கிடைக்கின்றனவா என்பதை உறுதிப்படுத்த உதவும். 2. உங்கள் இலக்குகளை நிர்ணயித்து அவற்றைப் பின்பற்றவும் - அவை அடைய முடியாதவை அல்ல மற்றும் நீங்கள் விரும்பும் வாழ்க்கையைக் கொண்டிருப்பதற்கான பாதையைக் கண்டுபிடிக்க முயற்சிக்க வேண்டும்.
Prompt (Out of dataset)
vāḻkkaiyil eṉṉa ceyya vēṇṭum?வாழ்க்கையில் எṉṉஅ செய்ய வேண்டும்?
Response
maṉa aḻuttattai ēṟpaṭuttiya viṣayaṅkaḷait tavirkkavum, uṅkaḷ kavaṉattai ticaitiruppavum. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟci ceyyuṅkaḷ. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavum. avai uṅkaḷukku evvaḷavu nerukkamāka irukkiṉṟaṉa eṉpatai aṟiyavum. avaṟṟil oṉṟaik kaṇṭupiṭittu atai nōkki muṉṉēṟavum. nāḷ muḻuvatum makiḻcciyuṭaṉ vāḻavum. uṅkaḷ uṇarvukaḷukku matippaḷittu uṅkaḷai makiḻvikka nēram eṭuttukkoḷḷuṅkaḷ. makiḻcciyiṉ caktiyai uṇarntu atai aṉupavittukkoṇṭē iruṅkaḷ. oru ciṟappu nāḷil kūṭa. uṅkaḷ aṉupavaṅkaḷ maṟṟum niṉaivukaḷuṭaṉ atai pakirntu koḷḷuṅkaḷ. uṅkaḷ vāḻkkaiyaic cuṟṟiyuḷḷavarkaḷuṭaṉ atai koṇṭāṭuṅkaḷ. makiḻcciyai uṅkaḷ kuṭumpam allatu naṇparkaḷuṭaṉ pakirntu koḷḷuṅkaḷ. uṅkaḷ uṟaviṉarkaḷ maṟṟum kuṭumpattiṉaruṭaṉ ataip pakirntu koḷḷuṅkaḷ. makiḻcciyāṉa nāṭkaḷaik koṇṭu vāruṅkaḷ. uṅkaḷ vāḻkkaiyai nērmaṟaiyāka māṟṟavum. makiḻcciyiṉ caktiyaip payaṉpaṭutti uṅkaḷ cuyavivaram maṟṟum uṅkaḷ ilakkukaḷai uyarttukiṟatu. makiḻcci oru cakti vāynta viṣayam, atai vaḷarkka muṭiyātu. uṅkaḷ atirṣṭattai ārāycci ceytu atai vaḷarppatai uṟutippaṭuttavum. uṅkaḷ eṇṇaṅkaḷil atika nampikkai vaittirukkakkūṭiya oruvaruṭaṉ pēcavum. uṅkaḷ maṉatil makiḻcciyait tūṇṭuvataṟku ētāvatu ceyyuṅkaḷ. makiḻcciyait tēṭuvataṟkāṉa vāyppukaḷait tēṭuṅkaḷ. vāḻkkaiyiṉ aṉaittu pakutikaḷilum atu iruppataik kaṇṭaṟiyuṅkaḷ. uṅkaḷ aṉupavaṅkaḷai aṉupavikkavum. uṅkaḷ vāḻkkaiyaip pāruṅkaḷ. uṅkaḷ viruppattērvukaḷai aṭaiyāḷam kāṇavum. atai nīṅkaḷ virumpukiṟīrkaḷ eṉpatai uṟutippaṭuttavum. makiḻcciyaik kāṇuṅkaḷ. uṅkaḷ kaṉavukaḷai uruvākka nēram eṭuttukkoḷvatu mukkiyam. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟcikkavum. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavumமன அழுத்தத்தை ஏற்படுத்திய விஷயங்களைத் தவிர்க்கவும், உங்கள் கவனத்தை திசைதிருப்பவும். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சி செய்யுங்கள். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும். அவை உங்களுக்கு எவ்வளவு நெருக்கமாக இருக்கின்றன என்பதை அறியவும். அவற்றில் ஒன்றைக் கண்டுபிடித்து அதை நோக்கி முன்னேறவும். நாள் முழுவதும் மகிழ்ச்சியுடன் வாழவும். உங்கள் உணர்வுகளுக்கு மதிப்பளித்து உங்களை மகிழ்விக்க நேரம் எடுத்துக்கொள்ளுங்கள். மகிழ்ச்சியின் சக்தியை உணர்ந்து அதை அனுபவித்துக்கொண்டே இருங்கள். ஒரு சிறப்பு நாளில் கூட. உங்கள் அனுபவங்கள் மற்றும் நினைவுகளுடன் அதை பகிர்ந்து கொள்ளுங்கள். உங்கள் வாழ்க்கையைச் சுற்றியுள்ளவர்களுடன் அதை கொண்டாடுங்கள். மகிழ்ச்சியை உங்கள் குடும்பம் அல்லது நண்பர்களுடன் பகிர்ந்து கொள்ளுங்கள். உங்கள் உறவினர்கள் மற்றும் குடும்பத்தினருடன் அதைப் பகிர்ந்து கொள்ளுங்கள். மகிழ்ச்சியான நாட்களைக் கொண்டு வாருங்கள். உங்கள் வாழ்க்கையை நேர்மறையாக மாற்றவும். மகிழ்ச்சியின் சக்தியைப் பயன்படுத்தி உங்கள் சுயவிவரம் மற்றும் உங்கள் இலக்குகளை உயர்த்துகிறது. மகிழ்ச்சி ஒரு சக்தி வாய்ந்த விஷயம், அதை வளர்க்க முடியாது. உங்கள் அதிர்ஷ்டத்தை ஆராய்ச்சி செய்து அதை வளர்ப்பதை உறுதிப்படுத்தவும். உங்கள் எண்ணங்களில் அதிக நம்பிக்கை வைத்திருக்கக்கூடிய ஒருவருடன் பேசவும். உங்கள் மனதில் மகிழ்ச்சியைத் தூண்டுவதற்கு ஏதாவது செய்யுங்கள். மகிழ்ச்சியைத் தேடுவதற்கான வாய்ப்புகளைத் தேடுங்கள். வாழ்க்கையின் அனைத்து பகுதிகளிலும் அது இருப்பதைக் கண்டறியுங்கள். உங்கள் அனுபவங்களை அனுபவிக்கவும். உங்கள் வாழ்க்கையைப் பாருங்கள். உங்கள் விருப்பத்தேர்வுகளை அடையாளம் காணவும். அதை நீங்கள் விரும்புகிறீர்கள் என்பதை உறுதிப்படுத்தவும். மகிழ்ச்சியைக் காணுங்கள். உங்கள் கனவுகளை உருவாக்க நேரம் எடுத்துக்கொள்வது முக்கியம். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சிக்கவும். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும்
Prompt
nīriṉ kotinilaikku mēlē pāruṅkaḷநீரிṉ கொதிநிலைக்கு மேலே பாருங்கள்
Response
nīr kotinilaikku mēlē uḷḷavarkaḷukku naṉṟāka iruppārkaḷ. oru napariṉ taṉippaṭṭa tēvaikaḷai pūrtti ceyyum vakaiyil uṅkaḷ vāḻkkaiyai vaṭivamaikkavum - inta vaḻiyil uṅkaḷukku niṟaiya nekiḻvuttaṉmai uḷḷatu maṟṟum nīṅkaḷ virumpiya oṉṟaic ceyya muṭiyum. uṅkaḷ kaṉavukaḷaip paṟṟi aṟintu koḷḷuṅkaḷ - itu uṅkaḷ conta cātaṉaikaḷait toṭaralām eṉpatai uṟutippaṭutta utavum. uṅkaḷ ilakkukaḷai aṭaiya kaṭiṉamāka uḻaikkavum - itu uṅkaḷai muṉṉēṟṟattai uṇarac ceyyalām. uṅkaḷ ilakkai nōkki kavaṉam celuttuṅkaḷ - itu vēlaiyiliruntu ōyvu peṟuvataṟkāṉa vaḻiyākātu. uṅkaḷ vāḻkkaiyil makiḻcciyiṉ uṇarvai uruvākka muyaṟcikkavum - atu mikavum eḷitāka irukkakkūṭātu. ovvoru nāḷum ciṟanta muṟaiyil vāḻuṅkaḷ - itu makiḻcciyāṉa vāḻkkaiyaik koṇṭu vara utavukiṟatu. ovvoru nāḷum ciṟappāka irukka muyaṟcippatu mukkiyam.நீர் கொதிநிலைக்கு மேலே உள்ளவர்களுக்கு நன்றாக இருப்பார்கள். ஒரு நபரின் தனிப்பட்ட தேவைகளை பூர்த்தி செய்யும் வகையில் உங்கள் வாழ்க்கையை வடிவமைக்கவும் - இந்த வழியில் உங்களுக்கு நிறைய நெகிழ்வுத்தன்மை உள்ளது மற்றும் நீங்கள் விரும்பிய ஒன்றைச் செய்ய முடியும். உங்கள் கனவுகளைப் பற்றி அறிந்து கொள்ளுங்கள் - இது உங்கள் சொந்த சாதனைகளைத் தொடரலாம் என்பதை உறுதிப்படுத்த உதவும். உங்கள் இலக்குகளை அடைய கடினமாக உழைக்கவும் - இது உங்களை முன்னேற்றத்தை உணரச் செய்யலாம். உங்கள் இலக்கை நோக்கி கவனம் செலுத்துங்கள் - இது வேலையிலிருந்து ஓய்வு பெறுவதற்கான வழியாகாது. உங்கள் வாழ்க்கையில் மகிழ்ச்சியின் உணர்வை உருவாக்க முயற்சிக்கவும் - அது மிகவும் எளிதாக இருக்கக்கூடாது. ஒவ்வொரு நாளும் சிறந்த முறையில் வாழுங்கள் - இது மகிழ்ச்சியான வாழ்க்கையைக் கொண்டு வர உதவுகிறது. ஒவ்வொரு நாளும் சிறப்பாக இருக்க முயற்சிப்பது முக்கியம்.
Reflecting the collaborative spirit essential to AI research, we commit to sharing our contributions with the global community. Continuing our commitment to open source, we are open souricing all our code, data and models. The fine-tuned Dravida Llama model, associated datasets, and training methodologies will be made openly accessible, inviting researchers and practitioners to explore and build upon our foundation. This initiative emphasizes our dedication to fostering an inclusive AI ecosystem where technology transcends language barriers, democratizes access, and encourages innovation from every linguistic background.
On our path to democratizing AI across languages, we are thrilled to including more Indic languages to our specific-languages and multilingual LLMs. This initiative aims to rapidly expand the linguistic reach of our technology, ensuring that more communities can benefit from these advancements. By systematically addressing a wide array of languages, we are not only empowering non-English speakers with AI but also preserving linguistic diversity in the digital age.
Alongside individual language models, we are developing a unified language model, a polyglot AI capable of understanding multiple languages effortlessly. To evaluate these models, we are also creating comprehensive benchmarks for Indic languages, establishing a gold standard for assessing AI language proficiency and ensuring our models meet the highest performance standards.
To increase model accessibility, we are focusing on quantization to ensure our AI runs efficiently on various platforms. We are also exploring multimodal capabilities, integrating text, image, and audio processing to unlock new AI applications. A detailed roadmap of these advancements will be shared, outlining the exciting developments ahead.
While our open-source releases are not licensed for commercial use, we have developed a suite of commercial solutions. For businesses seeking the competitive edge of AI, we offer exclusive licenses to advanced models specifically designed for commercial applications. These enhanced models provide robust AI capabilities, meeting the demanding needs of the enterprise environment.
Our commercial offerings bridge the gap between cutting-edge AI research and practical business applications. We offer personalized services to develop custom LLMs for institutional clients, ensuring that their specific needs are met with precision-engineered AI solutions. Our affordable LLM inference services democratize access to AI, enabling organizations to incorporate state-of-the-art language modeling into their workflows without significant financial investment.
In conclusion, Dravida Llama emerges as a pioneering force in revolutionizing language models for Telugu, Tamil, Kannada, and Malayalam languages by amalgamating advanced AI technologies with linguistic diversity. Through its commitment to enhancing communication across Southern India and beyond, Dravida Llama heralds a new era of inclusive language processing solutions tailored for diverse cultural landscapes. We invite the broader AI community to join us on this journey toward a more linguistically inclusive future, where every language finds its voice in the digital realm.