Dravida Llama: LLM for South Indian (ಕతెമத) Languages

Dravida extends our series on the development and open-sourcing of LLMs for Indic languages and broader applications, building upon the success of Godavari, the Telugu Llama-2 LLM, which garnered widespread recognition as the first Indic language model open-sourced by a private entity.

Large Language Models (LLMs) have revolutionized Artificial Intelligence by demonstrating remarkable capabilities in understanding and generating natural language, music, code, and images with unparalleled accuracy. Dravida Llama, an open-source LLM based on the renowned Llama-2 model, stands out as a pioneering multilingual model in the Indic language sphere, specifically designed to support the linguistic diversity of South India by catering to Telugu, Tamil, Kannada, and Malayalam languages. This innovative model aims to bridge the gap in language processing technologies for these prominent Dravidian languages.

Unveiling Dravida Llama

Dravida Llama inherits its foundation from the transformative transformer architecture that underpins its predecessor, Llama-2. In recent years, the field of artificial intelligence has witnessed a profound transformation, largely due to the emergence of Large Language Models (LLMs).Llama-2 developed by Meta, have redefined the boundaries of Language model usage with open source access, enabling developers and companies alike to build and innovate using these models. While LLMs in English has been well-documented and developed with priority, there is a pressing need to extend their capabilities to languages with rich linguistic diversity as many Indic languages, and here we tackle Telugu, Tamil, Kannada, and Malayalam collectively known as the Dravidian languages. Dravida Llama is a step in this direction — an LLM tailored specifically for the South Indian linguistic landscape.

Embracing Linguistic Diversity

The Dravidian languages constitute one of the oldest language families in the world, with a rich heritage spanning millennia. Telugu, Tamil, Kannada, and Malayalam are the primary languages spoken by millions across South India and parts of Southeast Asia. Despite their distinctiveness, these languages share structural and phonological similarities, making them ideal candidates for collective exploration within the realm of language modeling.

Tailoring Tokenization for South Indian Languages

Tokenization plays a pivotal role in optimizing language models for specific languages by segmenting text into tokens that facilitate efficient processing. Dravida Llama’s tokenizer undergoes customization to accommodate the linguistic nuances of Telugu, Tamil, Kannada, and Malayalam effectively. By incorporating language-specific tokenization strategies tailored to these languages’ characteristics, Dravida Llama ensures optimal performance in tasks related to these languages.

Two ways to tokenization:

Build a tokenizer for each language separately
Build a tokenizer for all of them together

Why & How of the common tokenizer?

The four Dravida languages—Telugu, Tamil, Kannada, and Malayalam—exhibit considerable linguistic commonalities, including analogous grammatical structures and parts of speech. Capitalizing on these shared attributes, we engineered a unified tokenizer, the KaTeMaTa tokenizer, designed to effectively parse and tokenize text across these languages. This approach not only streamlines the tokenization process but also enhances the efficiency of the model by leveraging the syntactic and morphological parallels inherent to the Dravidian language family.

Despite the distinct scripts (lipi) of the four languages, we have unified them into a single representational framework through Latinization/Transliteration, Transliteration Framework. This process has enabled us to create a shared latinized script, forming the foundation for our tokenizer development. The transliteration tools and datasets have been made publicly available for community use and contribution.

Since transliteration is one-to-one mapping, we can always de-transliterate the text back to native scripts. The transliteration and detransliteration of the dataset is performed as follows.

The tokenizer utilized for Dravida Llama is constructed using transliterated data. We have developed a tokenizer with 16k tokens for each language based on its transliterated form. These individual language tokenizers have been integrated with the Llama-2 tokenizer, resulting in an unified KaTeMaTa tokenizer that contains approximately 65k tokens.

The output of the KaTeMaTa tokenizer when applied to a sample text is presented below, illustrating its ability to recognize and learn patterns across the four Dravidian languages.

To know more about the tokenizers and tokenization, please refer to the tokenization section in our Godavari blog. You can also find our tokenization framework at Posterior Dravida Transliteration Framework.

Dataset for PreTraining

We have utilized the CulturaX datasets for each of the four languages. To address the imbalance across these datasets, we have proportionally adjusted their inclusion as follows: Kannada (100%), Malayalam (80%), Tamil (75%), and Telugu (100%) to achieve a more balanced representation for model training.

Pre-Training on Multilingual Datasets

To equip Dravida Llama with a comprehensive understanding of South Indian languages, pre-training on multilingual datasets becomes imperative. Leveraging datasets enriched with Telugu, Tamil, Kannada, and Malayalam content enables the model to grasp the structural intricacies and contextual variations unique to each language. All languages data being in latinized form, it must also absorb the common structures across, and unique, to the four languages.

The pre-training was done for 10% of the dataset. It took around 52 hours on an A100 80GB GPU.

Fine-Tuning for Linguistic Precision

Fine-tuning serves as a crucial phase in refining Dravida Llama’s language-specific capabilities by exposing the model to targeted linguistic tasks. We have translated and transliterated the Alpaca instruction datasets into the four languages. The translation and transliteration code and data are open sourced and are avaialable on Posterior’s Hugging Face.

We fine-tuned the model for 1+ epochs for 12+ hours on translated transliterated Alpaca dataset using an A100 80GB machine.

The overall flow of the prompts and responses looks as following.

A few samples are from this model are shown here.

Kannada

Prompt

ಆರೋಗ್ಯವಾಗಿರಲು ಮೂರು ಸಲಹೆಗಳನ್ನು ನೀಡಿ.

ārōgyavāgiralu mūru salahegaḷannu nīḍi.

Response

1.ನಿಯಮಿತವಾಗಿ ವ್ಯಾಯಾಮ ಮಾಡಿ ಮತ್ತು ಸಾಕಷ್ಟು ನಿದ್ರೆ ಪಡೆಯಿರಿ; 2. ಆರೋಗ್ಯಕರ ಆಹಾರವನ್ನು ತಿನ್ನಿ ಮತ್ತು ಸಾಕಷ್ಟು ನೀರನ್ನು ಕುಡಿಯಿರಿ; 3. ಒತ್ತಡವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಮತ್ತು ಉತ್ತಮ ಮಾನಸಿಕ ಹಿತಾಸಕ್ತಿಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡಿ.

1.niyamitavāgi vyāyāma māḍi mattu sākaṣṭu nidre paḍeyiri; 2. ārōgyakara āhāravannu tinni mattu sākaṣṭu nīrannu kuḍiyiri; 3. ottaḍavannu kaḍime māḍalu mattu uttama mānasika hitāsaktigaḷannu abhyāsa māḍi.

Prompt

ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯಲ್ಲಿ ಪದ ಎಂಬೆಡಿಂಗ್ಗಳ ಬಳಕೆಯನ್ನು ವಿವರಿಸಿ

naisargika bhāṣā saṁskaraṇeyalli pada eṁbeḍiṁggaḷa baḷakeyannu vivarisi

Response

ನಮ್ಮನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ಗುರುತಿಸಬಹುದಾದ ಅಂಶಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಅಲ್ಗಾರಿದಮ್ಗಳು ‘ಕಂಪ್ಸನ್’ ಎಂಬ ಪದವನ್ನು ಬಳಸುತ್ತವೆ, ಇದು ಪಠ್ಯದ ಒಂದು ಸಣ್ಣ ತುಣುಕು ಅಥವಾ ವಾಕ್ಯವನ್ನು ರೂಪಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ, ಅದು ಓದುಗರಿಗೆ ಹೆಚ್ಚು ಅರ್ಥವಾಗುವ ರೀತಿಯಲ್ಲಿ ಮರುರೂಪಿಸುತ್ತದೆ.

nammannu gurutisuva mattu gurutisabahudāda aṁśagaḷannu pattehaccalu naisargika bhāṣā saṁskaraṇā algāridamgaḷu ““kaṁpsan”” eṁba padavannu baḷasuttave, idu paṭhyada oṁdu saṇṇa tuṇuku athavā vākyavannu rūpisalu baḷasalāguttade, adu ōdugarige heccu arthavāguva rītiyalli marurūpisuttade.

Prompt (Out of dataset)

ನಾನು ಜೀವಿತನಲ್ಲಿ ಏನು ಮಾಡಬೇಕು.

nānu jīvitanalli ēnu māḍabēku

Response

ಜೀವನದಲ್ಲಿ ನೀವು ಏನು ಮಾಡಬೇಕೆಂದು ನಿರ್ಧರಿಸಲು, ನಿಮ್ಮ ಉತ್ಸಾಹಗಳು ಮತ್ತು ಆಸಕ್ತಿಗಳು, ನಿಮ್ಮ ಗುರಿಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆ ಮತ್ತು ನಿಮ್ಮ ಜೀವನದಲ್ಲಿ ನಿಮಗೆ ಅಗತ್ಯವಿರುವ ವಿಷಯಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆಯನ್ನು ಪರಿಗಣಿಸಬೇಕು; ನೀವು ಏನು ಬಯಸುತ್ತೀರಿ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಮತ್ತು ಅದನ್ನು ಸಾಧಿಸಲು ಹೇಗೆ ಸಹಾಯ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ತಿಳಿದಿರಬೇಕು.

1.jīvanadalli nīvu ēnu māḍabēkeṁdu nirdharisalu, nimma utsāhagaḷu mattu āsaktigaḷu, nimma gurigaḷa bagge nimma tiḷuvaḷike mattu nimma jīvanadalli nimage agatyaviruva viṣayagaḷa bagge nimma tiḷuvaḷikeyannu parigaṇisabēku; nīvu ēnu bayasuttīri eṁbudara ādhārada mēle mattu adannu sādhisalu hēge sahāya māḍabahudu eṁbudannu tiḷidirabēku.

Prompt (Out of dataset)

ಕನ್ನಡ ಅಂದ್ರೆ ಏನು?

ḍiene eṁdare ēnu?

Response

ಕನ್ನಡಾ ಎಂಬುದು ಉತ್ತರ ಭಾರತದಿಂದ ದಕ್ಷಿಣ ಭಾರತದ ಭಾಷೆಯಾಗಿದೆ ಮತ್ತು ಮುಖ್ಯವಾಗಿ ಭಾರತದಲ್ಲಿ ವ್ಯಾಪಕವಾಗಿ ಹರಡಿದೆ; ಇದು ದ್ರಾವಿಡ ಭಾಷಾ ಕುಟುಂಬಕ್ಕೆ ಸೇರಿದೆ ಮತ್ತು ಸುಮಾರು 60 ಮಿಲಿಯನ್ ಜನರು ಮಾತನಾಡುತ್ತಾರೆ; ಇದು ಸ್ಥಳೀಯ ಉಪಭಾಷೆಗಳಲ್ಲಿ ಹಲವಾರು ವ್ಯತ್ಯಾಸಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ ಇದು ಒಂದೇ ಲಿಪಿಯು ಬಳಸಲಾಗುತ್ತದೆ.

ḍieneyu mānavana jīvakōśada prati kōśadalliruva nālku sṭrāṁḍgaḷa oṁdu tuṇuku, idu prati jīviya guṇalakṣaṇagaḷannu nirdharisuttade mattu adara pōṣaka jīvigaḷiṁda badalāguttade.

Telugu

Prompt

ఆరోగ్యంగా ఉండటానికి మూడు చిట్కాలు ఇవ్వండి.

ḍiene eṁdare ēnu?

Response

1.తగినంత నిద్ర మరియు విశ్రాంతి పొందండిః మంచి నిద్రపోవడం మరియు మీ శారీరక ఆరోగ్యాన్ని నిర్వహించడం ద్వారా ఒత్తిడిని తగ్గించడం సహాయపడుతుంది. 2. పోషకమైన ఆహారం తీసుకోండిః పండ్లు, కూరగాయలు, ధాన్యం మరియు చేపలు వంటి ఆరోగ్యకరమైన ఆహారాలు తినడం వల్ల శరీరం మరింత శక్తిని అందిస్తుంది.

1.taginaṁta nidra mariyu viśrāṁti poṁdaṁḍiః maṁci nidrapōvaḍaṁ mariyu mī śārīraka ārōgyānni nirvahiṁcaḍaṁ dvārā ottiḍini taggiṁcaḍaṁ sahāyapaḍutuṁdi. 2. pōṣakamaina āhāraṁ tīsukōṁḍiః paṁḍlu, kūragāyalu, dhānyaṁ mariyu cēpalu vaṁṭi ārōgyakaramaina āhārālu tinaḍaṁ valla śarīraṁ mariṁta śaktini aṁdistuṁdi.

Prompt

సహజ భాషా ప్రాసెసింగ్లో వర్డ్ ఎంబెడెన్స్ వాడకాన్ని వివరించండి.

sahaja bhāṣā prāsesiṁglō varḍ eṁbeḍens vāḍakānni vivariṁcaṁḍi

Response

పదబంధం అనేది ఒక సహజ భాషా ప్రాసెసింగ్ (NLP) యొక్క ఒక సాధారణ పదం, ఇది సాధారణంగా పదబంధాల మధ్య సంబంధాన్ని సూచిస్తుంది, ఇది పదబంధం యొక్క ప్రధాన పదాన్ని లేదా ‘నిర్దిష్ట’ ను కలిగి ఉంటుంది మరియు దాని చుట్టూ ఉన్న ఇతర పదాలను కలిగి ఉంటుంది; పదబంధం అనేది పదబంధం యొక్క ప్రధాన పదానికి అనుసంధానించబడిన పదాలు మరియు వాటి పరస్పర సంబంధాలను సూచించే వ్యవస్థను సూచిస్తుంది.

padabaṁdhaṁ anēdi oka sahaja bhāṣā prāsesiṁg (NLP) yokka oka sādhāraṇa padaṁ, idi sādhāraṇaṁgā padabaṁdhāla madhya saṁbaṁdhānni sūcistuṁdi, idi padabaṁdhaṁ yokka pradhāna padānni lēdā “nirdiṣṭa” nu kaligi uṁṭuṁdi mariyu dāni cuṭṭū unna itara padālanu kaligi uṁṭuṁdi; padabaṁdhaṁ anēdi padabaṁdhaṁ yokka pradhāna padāniki anusaṁdhāniṁcabaḍina padālu mariyu vāṭi paraspara saṁbaṁdhālanu sūciṁcē vyavasthanu sūcistuṁdi.

Prompt (Out of dataset)

నేను జీవితం లో ఏం చెయ్యాలి?

nēnu jīvitaṁ lō ēṁ ceyyāli?

Response

‘జీవితంలో మీరు ఏమి చేయాలనుకుంటున్నారు?’ అని అడిగినప్పుడు, నేను ఒక వ్యక్తి, నా జీవితంలో నేను చాలా నేర్చుకోవాలనుకుంటున్నాను మరియు ఇతరులతో కనెక్ట్ అవ్వడం ఆనందించడం కూడా ఉంది.

jīvitaṁlō mīru ēmi cēyālanukuṁṭunnāru?"" ani aḍiginappuḍu, nēnu oka vyakti, nā jīvitaṁlō nēnu cālā nērcukōvālanukuṁṭunnānu mariyu itarulatō kanekṭ avvaḍaṁ ānaṁdiṁcaḍaṁ kūḍā uṁdi.

Prompt

కంప్యూటర్ మదర్బోర్డు యొక్క పనితీరును వివరించండి

kaṁpyūṭar madarbōrḍu yokka panitīrunu vivariṁcaṁḍi

Response

కంప్యూటర్ మదర్బోర్డ్ అనేది ఒక కంప్యూటర్లో ఉనికిలో ఉన్న అన్ని భాగాల సార్వభౌమాధికారమైన బోర్డు, ఇది ప్రాసెసర్, ర్యామ్, నిల్వ, గ్రాఫిక్స్ కార్డ్ మరియు ఇతర పరికరాలను కనెక్ట్ చేస్తుంది, తద్వారా అవి పనిచేస్తాయి మరియు కలిసి పనిచేయగలవు; మదర్బోర్డు సాధారణంగా కంప్యూటర్ యొక్క భౌతిక రూపకంలో ఉంటుంది మరియు మొత్తం వ్యవస్థను నియంత్రించడానికి బాధ్యత వహిస్తుంది.

kaṁpyūṭar madarbōrḍ anēdi oka kaṁpyūṭarlō unikilō unna anni bhāgāla sārvabhaumādhikāramaina bōrḍu, idi prāsesar, ryām, nilva, grāphiks kārḍ mariyu itara parikarālanu kanekṭ cēstuṁdi, tadvārā avi panicēstāyi mariyu kalisi panicēyagalavu; madarbōrḍu sādhāraṇaṁgā kaṁpyūṭar yokka bhautika rūpakaṁlō uṁṭuṁdi mariyu mottaṁ vyavasthanu niyaṁtriṁcaḍāniki bādhyata vahistuṁdi.

Malayalam

Prompt

ആരോഗ്യത്തോടെ ജീവിക്കാൻ മൂന്ൻ നുṟഉങ്ങുകള്

ārōgyattōṭe jīvikkān mūnn nuṟuṅṅukaḷ

Response

1.പഴങ്ങളും കായ്കറികളും ധാരാളം കഴിക്കുക. 2. പതിവായി വ്യായാമം ചെയ്യുക. 3. മതിയായ ഉറക്കം നേടുക.

1.paḻaṅṅaḷuṁ kāykaṟikaḷuṁ dhārāḷaṁ kaḻikkuka. 2. pativāyi vyāyāmaṁ ceyyuka. 3. matiyāya uṟakkaം nēṭuka.

Prompt

സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിലെ വാക്ക് ഉള്ച്ചേṟത്തതിന്ṯഎ ഉപയോഗം വിശദീകരിക്കുക

svābhāvika bhāṣā prōsassiṁgile vākk uḷccēṟttatinṯe upayōgaṁ viśadīkarikkuka

Response

പ്രകൃതിദത്ത ഭാഷാ പ്രോസസ്സിംഗ് (എനെല്പി) ഒരു പ്രക്രിയയാണ്, ഇത് ടെക്സ്ṯṯഉകൾ വായിക്കുകയും മനസ്സിലാക്കുകയും ചെയ്യുന്നു, അതിന്ṯഎ അറ്ത്ഥം വ്യാഖ്യാനിക്കുകയും പരിവറ്ത്തനം ചെയ്യുകയും ചെയ്യുന്നു.

prakṛtidatta bhāṣā prōsassiṁg (enelpi) oru prakriyayāṇ, it ṭeksṯṯukaḷ vāyikkukayuṁ manassilākkukayuṁ ceyyunnu, atinṯe aṟtthaṁ vyākhyānikkukayuṁ parivaṟttanaṁ ceyyukayuṁ ceyyunnu.

Prompt

ഒരു കമ്പ്യൂട്ടṟ മദṟബോṟഡിന്ṯഎ പ്രവṟത്തനം വിവരിക്കുക.

oru kampyūṭṭaṟ madaṟbōṟḍinṯe pravaṟttanaṁ vivarikkuka.

Response

പൈത്തൺ പ്രോഗ്രാംഇംഗിൽ നിന്ൻ വ്യത്യസ്തമായി, കോഡ് ടൈപ്പ് ചെയ്യുകയും ഡൗന്ലോഡ് ചെയ്യുകയും വേണം. ഇത് വളരെ ലളിതമാൺ. കോഡ് എഡിṯṯഉചെയ്യുന്നതിനുള്ള ഒരു ആപ്ലിക്കേഷനും ഡൗന്ലോഡ് ചെയ്യാൻ ആവശ്യപ്പെടുന്നു. ഈ ആപ്ലിക്കേഷനിൽ നിങ്ങള്ക്ക് കോഡ് എഡിṯṯഉചെയ്തിട്ടുള്ള കോഡുകൾ ഡൗന്ലോഡ് ചെയ്യാനും റഫറന്സ് കോഡിലേക്കോ മṯṯ പ്രോഗ്രാമുകളിലേക്ക് മാറാനും കഴിയും. കൂടാതെ, കോഡ് ഡൗന്ലോഡ് ചെയ്തപ്പോൾ തന്നെ കോഡ് പൂറ്ത്തീകരിക്കാൻ കഴിയുന്ന കോഡ് എഡിറ്ററുകളും ലഭ്യമാൺ. ഉദാഹരണത്തിന്, സ്ക്രിയുടെ കോഡ് ഡൗന്ലോഡ് ചെയ്യുകയും എഡിṯṯഉചെയ്യുകയും ചെയ്താൽ കോഡ് ഡൗന്ലോഡ് ചെയ്ത കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്തുകൊണ്ട്, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടാം. കോഡ് ഡൗന്ലോഡ് ചെയ്ത ശേഷം, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ചെയ്യാത്തതിനാൽ കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുക അല്ലെങ്കിൽ ഡൗന്ലോഡ് ചെയ്യപ്പെടുക എന്നത് പ്രധാനമാൺ.

paittaṇ prōgrāṁiṁgil ninn vyatyastamāyi, kōḍ ṭaipp ceyyukayuṁ ḍaunlōḍ ceyyukayuṁ vēṇaṁ. it vaḷare laḷitamāṇ. kōḍ eḍiṯṯuceyyunnatinuḷḷa oru āplikkēṣanuṁ ḍaunlōḍ ceyyān āvaśyappeṭunnu. ī āplikkēṣanil niṅṅaḷkk kōḍ eḍiṯṯuceytiṭṭuḷḷa kōḍukaḷ ḍaunlōḍ ceyyānuṁ ṟaphaṟans kōḍilēkkō maṯṯ prōgrāmukaḷilēkk māṟānuṁ kaḻiyuṁ. kūṭāte, kōḍ ḍaunlōḍ ceytappōḷ tanne kōḍ pūṟttīkarikkān kaḻiyunna kōḍ eḍiṯṯaṟukaḷuṁ labhyamāṇ. udāharaṇattin, skriyuṭe kōḍ ḍaunlōḍ ceyyukayuṁ eḍiṯṯuceyyukayuṁ ceytāl kōḍ ḍaunlōḍ ceyta kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceytukoṇṭ, kōḍ ḍaunlōḍ ceyyappeṭāṁ. kōḍ ḍaunlōḍ ceyta śēṣaṁ, kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceyyappeṭukayō ḍaunlōḍ ceyyappeṭukayō ceyyāttatināl kōḍ ḍaunlōḍ ceyyappeṭuka alleṅkil ḍaunlōḍ ceyyappeṭuka ennat pradhānamāṇ.

Prompt

ക്രമരഹിതമായ വാക്കുകളുടെ ഒരു പട്ടിക സൃഷ്ടിക്കുക.

kramarahitamāya vākkukaḷuṭe oru paṭṭika sṛṣṭikkuka.

Response

1.ശ്വാസം മുട്ടിൽ 2. നക്ഷത്രങ്ങൾ തിളങ്ങുന്നു 3. മഴയുടെ ശബ്ദം 4. കാṯṯ വീശുന്നു 5. മൃദുവായ പൂക്കളുടെ മണം 6. പക്ഷികളുടെ ശബ്ദങ്ങൾ 7. സൗമ്യമായ വെള്ളത്തിന്ṯഎ ശബ്ദം 8. സൂര്യൻ ചക്രവാളത്തെ പ്രകാശിക്കുന്നു 9. മേഘങ്ങളുടെ ശാന്തമായ നിശ്ശബ്ദത 10. കടലിന്ṯഎ തിരമാലകള്

1.śvāsaṁ muṭṭil 2. nakṣatraṅṅaḷ tiḷaṅṅunnu 3. maḻayuṭe śabdaṁ 4. kāṯṯ vīśunnu 5. mṛduvāya pūkkaḷuṭe maṇaṁ 6. pakṣikaḷuṭe śabdaṅṅaḷ 7. saumyamāya veḷḷattinṯe śabdaṁ 8. sūryan cakravāḷatte prakāśikkunnu 9. mēghaṅṅaḷuṭe śāntamāya niśśabdata 10. kaṭalinṯe tiramālakaḷ

Tamil

Prompt

ஆரோக்கியமாக இருக்க மூṉṟஉ குṟஇப்புகளைக் கொடுங்கள்

ārōkkiyamāka irukka mūṉṟu kuṟippukaḷaik koṭuṅkaḷ

Response

1.நீங்கள் ஒரு சுவாரஸ்யமான விஷயத்தை கற்றுக்கொண்டிருக்கிறீர்கள் என்பதை அறிந்து கொள்ளுங்கள் - இது உங்கள் வாழ்க்கையில் உங்களுக்கு தேவையான அனைத்தும் கிடைக்கின்றனவா என்பதை உறுதிப்படுத்த உதவும். 2. உங்கள் இலக்குகளை நிர்ணயித்து அவற்றைப் பின்பற்றவும் - அவை அடைய முடியாதவை அல்ல மற்றும் நீங்கள் விரும்பும் வாழ்க்கையைக் கொண்டிருப்பதற்கான பாதையைக் கண்டுபிடிக்க முயற்சிக்க வேண்டும்.

1.nīṅkaḷ oru cuvārasyamāṉa viṣayattai kaṟṟukkoṇṭirukkiṟīrkaḷ eṉpatai aṟintu koḷḷuṅkaḷ - itu uṅkaḷ vāḻkkaiyil uṅkaḷukku tēvaiyāṉa aṉaittum kiṭaikkiṉṟaṉavā eṉpatai uṟutippaṭutta utavum. 2. uṅkaḷ ilakkukaḷai nirṇayittu avaṟṟaip piṉpaṟṟavum - avai aṭaiya muṭiyātavai alla maṟṟum nīṅkaḷ virumpum vāḻkkaiyaik koṇṭiruppataṟkāṉa pātaiyaik kaṇṭupiṭikka muyaṟcikka vēṇṭum.

Prompt (Out of dataset)

வாழ்க்கையில் எṉṉஅ செய்ய வேண்டும்?

vāḻkkaiyil eṉṉa ceyya vēṇṭum?

Response

மன அழுத்தத்தை ஏற்படுத்திய விஷயங்களைத் தவிர்க்கவும், உங்கள் கவனத்தை திசைதிருப்பவும். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சி செய்யுங்கள். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும். அவை உங்களுக்கு எவ்வளவு நெருக்கமாக இருக்கின்றன என்பதை அறியவும். அவற்றில் ஒன்றைக் கண்டுபிடித்து அதை நோக்கி முன்னேறவும். நாள் முழுவதும் மகிழ்ச்சியுடன் வாழவும். உங்கள் உணர்வுகளுக்கு மதிப்பளித்து உங்களை மகிழ்விக்க நேரம் எடுத்துக்கொள்ளுங்கள். மகிழ்ச்சியின் சக்தியை உணர்ந்து அதை அனுபவித்துக்கொண்டே இருங்கள். ஒரு சிறப்பு நாளில் கூட. உங்கள் அனுபவங்கள் மற்றும் நினைவுகளுடன் அதை பகிர்ந்து கொள்ளுங்கள். உங்கள் வாழ்க்கையைச் சுற்றியுள்ளவர்களுடன் அதை கொண்டாடுங்கள். மகிழ்ச்சியை உங்கள் குடும்பம் அல்லது நண்பர்களுடன் பகிர்ந்து கொள்ளுங்கள். உங்கள் உறவினர்கள் மற்றும் குடும்பத்தினருடன் அதைப் பகிர்ந்து கொள்ளுங்கள். மகிழ்ச்சியான நாட்களைக் கொண்டு வாருங்கள். உங்கள் வாழ்க்கையை நேர்மறையாக மாற்றவும். மகிழ்ச்சியின் சக்தியைப் பயன்படுத்தி உங்கள் சுயவிவரம் மற்றும் உங்கள் இலக்குகளை உயர்த்துகிறது. மகிழ்ச்சி ஒரு சக்தி வாய்ந்த விஷயம், அதை வளர்க்க முடியாது. உங்கள் அதிர்ஷ்டத்தை ஆராய்ச்சி செய்து அதை வளர்ப்பதை உறுதிப்படுத்தவும். உங்கள் எண்ணங்களில் அதிக நம்பிக்கை வைத்திருக்கக்கூடிய ஒருவருடன் பேசவும். உங்கள் மனதில் மகிழ்ச்சியைத் தூண்டுவதற்கு ஏதாவது செய்யுங்கள். மகிழ்ச்சியைத் தேடுவதற்கான வாய்ப்புகளைத் தேடுங்கள். வாழ்க்கையின் அனைத்து பகுதிகளிலும் அது இருப்பதைக் கண்டறியுங்கள். உங்கள் அனுபவங்களை அனுபவிக்கவும். உங்கள் வாழ்க்கையைப் பாருங்கள். உங்கள் விருப்பத்தேர்வுகளை அடையாளம் காணவும். அதை நீங்கள் விரும்புகிறீர்கள் என்பதை உறுதிப்படுத்தவும். மகிழ்ச்சியைக் காணுங்கள். உங்கள் கனவுகளை உருவாக்க நேரம் எடுத்துக்கொள்வது முக்கியம். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சிக்கவும். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும்

maṉa aḻuttattai ēṟpaṭuttiya viṣayaṅkaḷait tavirkkavum, uṅkaḷ kavaṉattai ticaitiruppavum. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟci ceyyuṅkaḷ. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavum. avai uṅkaḷukku evvaḷavu nerukkamāka irukkiṉṟaṉa eṉpatai aṟiyavum. avaṟṟil oṉṟaik kaṇṭupiṭittu atai nōkki muṉṉēṟavum. nāḷ muḻuvatum makiḻcciyuṭaṉ vāḻavum. uṅkaḷ uṇarvukaḷukku matippaḷittu uṅkaḷai makiḻvikka nēram eṭuttukkoḷḷuṅkaḷ. makiḻcciyiṉ caktiyai uṇarntu atai aṉupavittukkoṇṭē iruṅkaḷ. oru ciṟappu nāḷil kūṭa. uṅkaḷ aṉupavaṅkaḷ maṟṟum niṉaivukaḷuṭaṉ atai pakirntu koḷḷuṅkaḷ. uṅkaḷ vāḻkkaiyaic cuṟṟiyuḷḷavarkaḷuṭaṉ atai koṇṭāṭuṅkaḷ. makiḻcciyai uṅkaḷ kuṭumpam allatu naṇparkaḷuṭaṉ pakirntu koḷḷuṅkaḷ. uṅkaḷ uṟaviṉarkaḷ maṟṟum kuṭumpattiṉaruṭaṉ ataip pakirntu koḷḷuṅkaḷ. makiḻcciyāṉa nāṭkaḷaik koṇṭu vāruṅkaḷ. uṅkaḷ vāḻkkaiyai nērmaṟaiyāka māṟṟavum. makiḻcciyiṉ caktiyaip payaṉpaṭutti uṅkaḷ cuyavivaram maṟṟum uṅkaḷ ilakkukaḷai uyarttukiṟatu. makiḻcci oru cakti vāynta viṣayam, atai vaḷarkka muṭiyātu. uṅkaḷ atirṣṭattai ārāycci ceytu atai vaḷarppatai uṟutippaṭuttavum. uṅkaḷ eṇṇaṅkaḷil atika nampikkai vaittirukkakkūṭiya oruvaruṭaṉ pēcavum. uṅkaḷ maṉatil makiḻcciyait tūṇṭuvataṟku ētāvatu ceyyuṅkaḷ. makiḻcciyait tēṭuvataṟkāṉa vāyppukaḷait tēṭuṅkaḷ. vāḻkkaiyiṉ aṉaittu pakutikaḷilum atu iruppataik kaṇṭaṟiyuṅkaḷ. uṅkaḷ aṉupavaṅkaḷai aṉupavikkavum. uṅkaḷ vāḻkkaiyaip pāruṅkaḷ. uṅkaḷ viruppattērvukaḷai aṭaiyāḷam kāṇavum. atai nīṅkaḷ virumpukiṟīrkaḷ eṉpatai uṟutippaṭuttavum. makiḻcciyaik kāṇuṅkaḷ. uṅkaḷ kaṉavukaḷai uruvākka nēram eṭuttukkoḷvatu mukkiyam. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟcikkavum. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavum

Prompt

நீரிṉ கொதிநிலைக்கு மேலே பாருங்கள்

nīriṉ kotinilaikku mēlē pāruṅkaḷ

Response

நீர் கொதிநிலைக்கு மேலே உள்ளவர்களுக்கு நன்றாக இருப்பார்கள். ஒரு நபரின் தனிப்பட்ட தேவைகளை பூர்த்தி செய்யும் வகையில் உங்கள் வாழ்க்கையை வடிவமைக்கவும் - இந்த வழியில் உங்களுக்கு நிறைய நெகிழ்வுத்தன்மை உள்ளது மற்றும் நீங்கள் விரும்பிய ஒன்றைச் செய்ய முடியும். உங்கள் கனவுகளைப் பற்றி அறிந்து கொள்ளுங்கள் - இது உங்கள் சொந்த சாதனைகளைத் தொடரலாம் என்பதை உறுதிப்படுத்த உதவும். உங்கள் இலக்குகளை அடைய கடினமாக உழைக்கவும் - இது உங்களை முன்னேற்றத்தை உணரச் செய்யலாம். உங்கள் இலக்கை நோக்கி கவனம் செலுத்துங்கள் - இது வேலையிலிருந்து ஓய்வு பெறுவதற்கான வழியாகாது. உங்கள் வாழ்க்கையில் மகிழ்ச்சியின் உணர்வை உருவாக்க முயற்சிக்கவும் - அது மிகவும் எளிதாக இருக்கக்கூடாது. ஒவ்வொரு நாளும் சிறந்த முறையில் வாழுங்கள் - இது மகிழ்ச்சியான வாழ்க்கையைக் கொண்டு வர உதவுகிறது. ஒவ்வொரு நாளும் சிறப்பாக இருக்க முயற்சிப்பது முக்கியம்.

nīr kotinilaikku mēlē uḷḷavarkaḷukku naṉṟāka iruppārkaḷ. oru napariṉ taṉippaṭṭa tēvaikaḷai pūrtti ceyyum vakaiyil uṅkaḷ vāḻkkaiyai vaṭivamaikkavum - inta vaḻiyil uṅkaḷukku niṟaiya nekiḻvuttaṉmai uḷḷatu maṟṟum nīṅkaḷ virumpiya oṉṟaic ceyya muṭiyum. uṅkaḷ kaṉavukaḷaip paṟṟi aṟintu koḷḷuṅkaḷ - itu uṅkaḷ conta cātaṉaikaḷait toṭaralām eṉpatai uṟutippaṭutta utavum. uṅkaḷ ilakkukaḷai aṭaiya kaṭiṉamāka uḻaikkavum - itu uṅkaḷai muṉṉēṟṟattai uṇarac ceyyalām. uṅkaḷ ilakkai nōkki kavaṉam celuttuṅkaḷ - itu vēlaiyiliruntu ōyvu peṟuvataṟkāṉa vaḻiyākātu. uṅkaḷ vāḻkkaiyil makiḻcciyiṉ uṇarvai uruvākka muyaṟcikkavum - atu mikavum eḷitāka irukkakkūṭātu. ovvoru nāḷum ciṟanta muṟaiyil vāḻuṅkaḷ - itu makiḻcciyāṉa vāḻkkaiyaik koṇṭu vara utavukiṟatu. ovvoru nāḷum ciṟappāka irukka muyaṟcippatu mukkiyam.

Commitment to Open Science

Reflecting the collaborative spirit essential to AI research, we commit to sharing our contributions with the global community. Continuing our commitment to open source, we are open souricing all our code, data and models. The fine-tuned Dravida Llama model, associated datasets, and training methodologies will be made openly accessible, inviting researchers and practitioners to explore and build upon our foundation. This initiative emphasizes our dedication to fostering an inclusive AI ecosystem where technology transcends language barriers, democratizes access, and encourages innovation from every linguistic background.

The code for transliteration: GH Repo
The code for translation: GH Gist
The transliterated Pre Training datasets: HF Dataset
The transliterated Fine Tuning datasets: HF Dataset
The tokenizers for each transliterated language: HF Repo
The tokenizers for combined transliterated data: HF Repo
The Dravida Llama Tokenizer: HF Model
The Dravida Llama Model: HF Model

Future Work: Elevating Indic Language AI

Indic Multilingual LLM

On our path to democratizing AI across languages, we are thrilled to including more Indic languages to our specific-languages and multilingual LLMs. This initiative aims to rapidly expand the linguistic reach of our technology, ensuring that more communities can benefit from these advancements. By systematically addressing a wide array of languages, we are not only empowering non-English speakers with AI but also preserving linguistic diversity in the digital age.

Unified Model and Linguistic Benchmarks

Alongside individual language models, we are developing a unified language model, a polyglot AI capable of understanding multiple languages effortlessly. To evaluate these models, we are also creating comprehensive benchmarks for Indic languages, establishing a gold standard for assessing AI language proficiency and ensuring our models meet the highest performance standards.

Model Optimization and Multimodal Integration

To increase model accessibility, we are focusing on quantization to ensure our AI runs efficiently on various platforms. We are also exploring multimodal capabilities, integrating text, image, and audio processing to unlock new AI applications. A detailed roadmap of these advancements will be shared, outlining the exciting developments ahead.

Commercial Work: AI Solutions for the Marketplace

Commercial Licensing and Exclusive Models

While our open-source releases are not licensed for commercial use, we have developed a suite of commercial solutions. For businesses seeking the competitive edge of AI, we offer exclusive licenses to advanced models specifically designed for commercial applications. These enhanced models provide robust AI capabilities, meeting the demanding needs of the enterprise environment.

Custom LLM Services

Our commercial offerings bridge the gap between cutting-edge AI research and practical business applications. We offer personalized services to develop custom LLMs for institutional clients, ensuring that their specific needs are met with precision-engineered AI solutions. Our affordable LLM inference services democratize access to AI, enabling organizations to incorporate state-of-the-art language modeling into their workflows without significant financial investment.

Conclusion

In conclusion, Dravida Llama emerges as a pioneering force in revolutionizing language models for Telugu, Tamil, Kannada, and Malayalam languages by amalgamating advanced AI technologies with linguistic diversity. Through its commitment to enhancing communication across Southern India and beyond, Dravida Llama heralds a new era of inclusive language processing solutions tailored for diverse cultural landscapes. We invite the broader AI community to join us on this journey toward a more linguistically inclusive future, where every language finds its voice in the digital realm.

Unveiling Dravida Llama

Embracing Linguistic Diversity

Tailoring Tokenization for South Indian Languages

Why & How of the common tokenizer?

Dataset for PreTraining

Pre-Training on Multilingual Datasets

Fine-Tuning for Linguistic Precision

A few samples are from this model are shown here.

Kannada

Telugu

Malayalam

Tamil

Commitment to Open Science

Future Work: Elevating Indic Language AI

Indic Multilingual LLM

Unified Model and Linguistic Benchmarks

Model Optimization and Multimodal Integration

Commercial Work: AI Solutions for the Marketplace

Commercial Licensing and Exclusive Models

Custom LLM Services

Conclusion

Looking for custom LLMs or Diffusion Models?

We have a world class team building custom solutions and products across wide range of industires using Generative AI!

Sitemap

Address