background-shape
feature-image

Dravida extends our series on the development and open-sourcing of LLMs for Indic languages and broader applications, building upon the success of Godavari, the Telugu Llama-2 LLM, which garnered widespread recognition as the first Indic language model open-sourced by a private entity.

Large Language Models (LLMs) have revolutionized Artificial Intelligence by demonstrating remarkable capabilities in understanding and generating natural language, music, code, and images with unparalleled accuracy. Dravida Llama, an open-source LLM based on the renowned Llama-2 model, stands out as a pioneering multilingual model in the Indic language sphere, specifically designed to support the linguistic diversity of South India by catering to Telugu, Tamil, Kannada, and Malayalam languages. This innovative model aims to bridge the gap in language processing technologies for these prominent Dravidian languages.

Unveiling Dravida Llama

Dravida Llama inherits its foundation from the transformative transformer architecture that underpins its predecessor, Llama-2. In recent years, the field of artificial intelligence has witnessed a profound transformation, largely due to the emergence of Large Language Models (LLMs).Llama-2 developed by Meta, have redefined the boundaries of Language model usage with open source access, enabling developers and companies alike to build and innovate using these models. While LLMs in English has been well-documented and developed with priority, there is a pressing need to extend their capabilities to languages with rich linguistic diversity as many Indic languages, and here we tackle Telugu, Tamil, Kannada, and Malayalam collectively known as the Dravidian languages. Dravida Llama is a step in this direction — an LLM tailored specifically for the South Indian linguistic landscape.

Embracing Linguistic Diversity

The Dravidian languages constitute one of the oldest language families in the world, with a rich heritage spanning millennia. Telugu, Tamil, Kannada, and Malayalam are the primary languages spoken by millions across South India and parts of Southeast Asia. Despite their distinctiveness, these languages share structural and phonological similarities, making them ideal candidates for collective exploration within the realm of language modeling.

Tailoring Tokenization for South Indian Languages

Tokenization plays a pivotal role in optimizing language models for specific languages by segmenting text into tokens that facilitate efficient processing. Dravida Llama’s tokenizer undergoes customization to accommodate the linguistic nuances of Telugu, Tamil, Kannada, and Malayalam effectively. By incorporating language-specific tokenization strategies tailored to these languages’ characteristics, Dravida Llama ensures optimal performance in tasks related to these languages.

Two ways to tokenization:

  1. Build a tokenizer for each language separately
  2. Build a tokenizer for all of them together

Why & How of the common tokenizer?

The four Dravida languages—Telugu, Tamil, Kannada, and Malayalam—exhibit considerable linguistic commonalities, including analogous grammatical structures and parts of speech. Capitalizing on these shared attributes, we engineered a unified tokenizer, the KaTeMaTa tokenizer, designed to effectively parse and tokenize text across these languages. This approach not only streamlines the tokenization process but also enhances the efficiency of the model by leveraging the syntactic and morphological parallels inherent to the Dravidian language family.

Despite the distinct scripts (lipi) of the four languages, we have unified them into a single representational framework through Latinization/Transliteration, Transliteration Framework. This process has enabled us to create a shared latinized script, forming the foundation for our tokenizer development. The transliteration tools and datasets have been made publicly available for community use and contribution.

Since transliteration is one-to-one mapping, we can always de-transliterate the text back to native scripts. The transliteration and detransliteration of the dataset is performed as follows.

Transliteration

The tokenizer utilized for Dravida Llama is constructed using transliterated data. We have developed a tokenizer with 16k tokens for each language based on its transliterated form. These individual language tokenizers have been integrated with the Llama-2 tokenizer, resulting in an unified KaTeMaTa tokenizer that contains approximately 65k tokens.

The output of the KaTeMaTa tokenizer when applied to a sample text is presented below, illustrating its ability to recognize and learn patterns across the four Dravidian languages.

Tokenizer

To know more about the tokenizers and tokenization, please refer to the tokenization section in our Godavari blog. You can also find our tokenization framework at Posterior Dravida Transliteration Framework.

Dataset for PreTraining

We have utilized the CulturaX datasets for each of the four languages. To address the imbalance across these datasets, we have proportionally adjusted their inclusion as follows: Kannada (100%), Malayalam (80%), Tamil (75%), and Telugu (100%) to achieve a more balanced representation for model training.

Pre-Training on Multilingual Datasets

To equip Dravida Llama with a comprehensive understanding of South Indian languages, pre-training on multilingual datasets becomes imperative. Leveraging datasets enriched with Telugu, Tamil, Kannada, and Malayalam content enables the model to grasp the structural intricacies and contextual variations unique to each language. All languages data being in latinized form, it must also absorb the common structures across, and unique, to the four languages.

The pre-training was done for 10% of the dataset. It took around 52 hours on an A100 80GB GPU.

Fine-Tuning for Linguistic Precision

Fine-tuning serves as a crucial phase in refining Dravida Llama’s language-specific capabilities by exposing the model to targeted linguistic tasks. We have translated and transliterated the Alpaca instruction datasets into the four languages. The translation and transliteration code and data are open sourced and are avaialable on Posterior’s Hugging Face.

We fine-tuned the model for 1+ epochs for 12+ hours on translated transliterated Alpaca dataset using an A100 80GB machine.

The overall flow of the prompts and responses looks as following.

Dravida Flow


A few samples are from this model are shown here.

Kannada

Prompt

ಆರೋಗ್ಯವಾಗಿರಲು ಮೂರು ಸಲಹೆಗಳನ್ನು ನೀಡಿ.

ārōgyavāgiralu mūru salahegaḷannu nīḍi.

Response

1.ನಿಯಮಿತವಾಗಿ ವ್ಯಾಯಾಮ ಮಾಡಿ ಮತ್ತು ಸಾಕಷ್ಟು ನಿದ್ರೆ ಪಡೆಯಿರಿ; 2. ಆರೋಗ್ಯಕರ ಆಹಾರವನ್ನು ತಿನ್ನಿ ಮತ್ತು ಸಾಕಷ್ಟು ನೀರನ್ನು ಕುಡಿಯಿರಿ; 3. ಒತ್ತಡವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಮತ್ತು ಉತ್ತಮ ಮಾನಸಿಕ ಹಿತಾಸಕ್ತಿಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡಿ.

1.niyamitavāgi vyāyāma māḍi mattu sākaṣṭu nidre paḍeyiri; 2. ārōgyakara āhāravannu tinni mattu sākaṣṭu nīrannu kuḍiyiri; 3. ottaḍavannu kaḍime māḍalu mattu uttama mānasika hitāsaktigaḷannu abhyāsa māḍi.


Prompt

ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯಲ್ಲಿ ಪದ ಎಂಬೆಡಿಂಗ್ಗಳ ಬಳಕೆಯನ್ನು ವಿವರಿಸಿ

naisargika bhāṣā saṁskaraṇeyalli pada eṁbeḍiṁggaḷa baḷakeyannu vivarisi

Response

ನಮ್ಮನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ಗುರುತಿಸಬಹುದಾದ ಅಂಶಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಅಲ್ಗಾರಿದಮ್ಗಳು ‘ಕಂಪ್ಸನ್’ ಎಂಬ ಪದವನ್ನು ಬಳಸುತ್ತವೆ, ಇದು ಪಠ್ಯದ ಒಂದು ಸಣ್ಣ ತುಣುಕು ಅಥವಾ ವಾಕ್ಯವನ್ನು ರೂಪಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ, ಅದು ಓದುಗರಿಗೆ ಹೆಚ್ಚು ಅರ್ಥವಾಗುವ ರೀತಿಯಲ್ಲಿ ಮರುರೂಪಿಸುತ್ತದೆ.

nammannu gurutisuva mattu gurutisabahudāda aṁśagaḷannu pattehaccalu naisargika bhāṣā saṁskaraṇā algāridamgaḷu ““kaṁpsan”” eṁba padavannu baḷasuttave, idu paṭhyada oṁdu saṇṇa tuṇuku athavā vākyavannu rūpisalu baḷasalāguttade, adu ōdugarige heccu arthavāguva rītiyalli marurūpisuttade.


Prompt (Out of dataset)

ನಾನು ಜೀವಿತನಲ್ಲಿ ಏನು ಮಾಡಬೇಕು.

nānu jīvitanalli ēnu māḍabēku

Response

ಜೀವನದಲ್ಲಿ ನೀವು ಏನು ಮಾಡಬೇಕೆಂದು ನಿರ್ಧರಿಸಲು, ನಿಮ್ಮ ಉತ್ಸಾಹಗಳು ಮತ್ತು ಆಸಕ್ತಿಗಳು, ನಿಮ್ಮ ಗುರಿಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆ ಮತ್ತು ನಿಮ್ಮ ಜೀವನದಲ್ಲಿ ನಿಮಗೆ ಅಗತ್ಯವಿರುವ ವಿಷಯಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ತಿಳುವಳಿಕೆಯನ್ನು ಪರಿಗಣಿಸಬೇಕು; ನೀವು ಏನು ಬಯಸುತ್ತೀರಿ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಮತ್ತು ಅದನ್ನು ಸಾಧಿಸಲು ಹೇಗೆ ಸಹಾಯ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ತಿಳಿದಿರಬೇಕು.

1.jīvanadalli nīvu ēnu māḍabēkeṁdu nirdharisalu, nimma utsāhagaḷu mattu āsaktigaḷu, nimma gurigaḷa bagge nimma tiḷuvaḷike mattu nimma jīvanadalli nimage agatyaviruva viṣayagaḷa bagge nimma tiḷuvaḷikeyannu parigaṇisabēku; nīvu ēnu bayasuttīri eṁbudara ādhārada mēle mattu adannu sādhisalu hēge sahāya māḍabahudu eṁbudannu tiḷidirabēku.


Prompt (Out of dataset)

ಕನ್ನಡ ಅಂದ್ರೆ ಏನು?

ḍiene eṁdare ēnu?

Response

ಕನ್ನಡಾ ಎಂಬುದು ಉತ್ತರ ಭಾರತದಿಂದ ದಕ್ಷಿಣ ಭಾರತದ ಭಾಷೆಯಾಗಿದೆ ಮತ್ತು ಮುಖ್ಯವಾಗಿ ಭಾರತದಲ್ಲಿ ವ್ಯಾಪಕವಾಗಿ ಹರಡಿದೆ; ಇದು ದ್ರಾವಿಡ ಭಾಷಾ ಕುಟುಂಬಕ್ಕೆ ಸೇರಿದೆ ಮತ್ತು ಸುಮಾರು 60 ಮಿಲಿಯನ್ ಜನರು ಮಾತನಾಡುತ್ತಾರೆ; ಇದು ಸ್ಥಳೀಯ ಉಪಭಾಷೆಗಳಲ್ಲಿ ಹಲವಾರು ವ್ಯತ್ಯಾಸಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ ಇದು ಒಂದೇ ಲಿಪಿಯು ಬಳಸಲಾಗುತ್ತದೆ.

ḍieneyu mānavana jīvakōśada prati kōśadalliruva nālku sṭrāṁḍgaḷa oṁdu tuṇuku, idu prati jīviya guṇalakṣaṇagaḷannu nirdharisuttade mattu adara pōṣaka jīvigaḷiṁda badalāguttade.


Telugu

Prompt

ఆరోగ్యంగా ఉండటానికి మూడు చిట్కాలు ఇవ్వండి.

ḍiene eṁdare ēnu?

Response

1.తగినంత నిద్ర మరియు విశ్రాంతి పొందండిః మంచి నిద్రపోవడం మరియు మీ శారీరక ఆరోగ్యాన్ని నిర్వహించడం ద్వారా ఒత్తిడిని తగ్గించడం సహాయపడుతుంది. 2. పోషకమైన ఆహారం తీసుకోండిః పండ్లు, కూరగాయలు, ధాన్యం మరియు చేపలు వంటి ఆరోగ్యకరమైన ఆహారాలు తినడం వల్ల శరీరం మరింత శక్తిని అందిస్తుంది.

1.taginaṁta nidra mariyu viśrāṁti poṁdaṁḍiః maṁci nidrapōvaḍaṁ mariyu mī śārīraka ārōgyānni nirvahiṁcaḍaṁ dvārā ottiḍini taggiṁcaḍaṁ sahāyapaḍutuṁdi. 2. pōṣakamaina āhāraṁ tīsukōṁḍiః paṁḍlu, kūragāyalu, dhānyaṁ mariyu cēpalu vaṁṭi ārōgyakaramaina āhārālu tinaḍaṁ valla śarīraṁ mariṁta śaktini aṁdistuṁdi.


Prompt

సహజ భాషా ప్రాసెసింగ్లో వర్డ్ ఎంబెడెన్స్ వాడకాన్ని వివరించండి.

sahaja bhāṣā prāsesiṁglō varḍ eṁbeḍens vāḍakānni vivariṁcaṁḍi

Response

పదబంధం అనేది ఒక సహజ భాషా ప్రాసెసింగ్ (NLP) యొక్క ఒక సాధారణ పదం, ఇది సాధారణంగా పదబంధాల మధ్య సంబంధాన్ని సూచిస్తుంది, ఇది పదబంధం యొక్క ప్రధాన పదాన్ని లేదా ‘నిర్దిష్ట’ ను కలిగి ఉంటుంది మరియు దాని చుట్టూ ఉన్న ఇతర పదాలను కలిగి ఉంటుంది; పదబంధం అనేది పదబంధం యొక్క ప్రధాన పదానికి అనుసంధానించబడిన పదాలు మరియు వాటి పరస్పర సంబంధాలను సూచించే వ్యవస్థను సూచిస్తుంది.

padabaṁdhaṁ anēdi oka sahaja bhāṣā prāsesiṁg (NLP) yokka oka sādhāraṇa padaṁ, idi sādhāraṇaṁgā padabaṁdhāla madhya saṁbaṁdhānni sūcistuṁdi, idi padabaṁdhaṁ yokka pradhāna padānni lēdā “nirdiṣṭa” nu kaligi uṁṭuṁdi mariyu dāni cuṭṭū unna itara padālanu kaligi uṁṭuṁdi; padabaṁdhaṁ anēdi padabaṁdhaṁ yokka pradhāna padāniki anusaṁdhāniṁcabaḍina padālu mariyu vāṭi paraspara saṁbaṁdhālanu sūciṁcē vyavasthanu sūcistuṁdi.


Prompt (Out of dataset)

నేను జీవితం లో ఏం చెయ్యాలి?

nēnu jīvitaṁ lō ēṁ ceyyāli?

Response

‘జీవితంలో మీరు ఏమి చేయాలనుకుంటున్నారు?’ అని అడిగినప్పుడు, నేను ఒక వ్యక్తి, నా జీవితంలో నేను చాలా నేర్చుకోవాలనుకుంటున్నాను మరియు ఇతరులతో కనెక్ట్ అవ్వడం ఆనందించడం కూడా ఉంది.

jīvitaṁlō mīru ēmi cēyālanukuṁṭunnāru?"" ani aḍiginappuḍu, nēnu oka vyakti, nā jīvitaṁlō nēnu cālā nērcukōvālanukuṁṭunnānu mariyu itarulatō kanekṭ avvaḍaṁ ānaṁdiṁcaḍaṁ kūḍā uṁdi.


Prompt

కంప్యూటర్ మదర్బోర్డు యొక్క పనితీరును వివరించండి

kaṁpyūṭar madarbōrḍu yokka panitīrunu vivariṁcaṁḍi

Response

కంప్యూటర్ మదర్బోర్డ్ అనేది ఒక కంప్యూటర్లో ఉనికిలో ఉన్న అన్ని భాగాల సార్వభౌమాధికారమైన బోర్డు, ఇది ప్రాసెసర్, ర్యామ్, నిల్వ, గ్రాఫిక్స్ కార్డ్ మరియు ఇతర పరికరాలను కనెక్ట్ చేస్తుంది, తద్వారా అవి పనిచేస్తాయి మరియు కలిసి పనిచేయగలవు; మదర్బోర్డు సాధారణంగా కంప్యూటర్ యొక్క భౌతిక రూపకంలో ఉంటుంది మరియు మొత్తం వ్యవస్థను నియంత్రించడానికి బాధ్యత వహిస్తుంది.

kaṁpyūṭar madarbōrḍ anēdi oka kaṁpyūṭarlō unikilō unna anni bhāgāla sārvabhaumādhikāramaina bōrḍu, idi prāsesar, ryām, nilva, grāphiks kārḍ mariyu itara parikarālanu kanekṭ cēstuṁdi, tadvārā avi panicēstāyi mariyu kalisi panicēyagalavu; madarbōrḍu sādhāraṇaṁgā kaṁpyūṭar yokka bhautika rūpakaṁlō uṁṭuṁdi mariyu mottaṁ vyavasthanu niyaṁtriṁcaḍāniki bādhyata vahistuṁdi.


Malayalam

Prompt

ആരോഗ്യത്തോടെ ജീവിക്കാൻ മൂന്ൻ നുṟഉങ്ങുകള്

ārōgyattōṭe jīvikkān mūnn nuṟuṅṅukaḷ

Response

1.പഴങ്ങളും കായ്കറികളും ധാരാളം കഴിക്കുക. 2. പതിവായി വ്യായാമം ചെയ്യുക. 3. മതിയായ ഉറക്കം നേടുക.

1.paḻaṅṅaḷuṁ kāykaṟikaḷuṁ dhārāḷaṁ kaḻikkuka. 2. pativāyi vyāyāmaṁ ceyyuka. 3. matiyāya uṟakkaം nēṭuka.


Prompt

സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിലെ വാക്ക് ഉള്ച്ചേṟത്തതിന്ṯഎ ഉപയോഗം വിശദീകരിക്കുക

svābhāvika bhāṣā prōsassiṁgile vākk uḷccēṟttatinṯe upayōgaṁ viśadīkarikkuka

Response

പ്രകൃതിദത്ത ഭാഷാ പ്രോസസ്സിംഗ് (എനെല്പി) ഒരു പ്രക്രിയയാണ്, ഇത് ടെക്സ്ṯṯഉകൾ വായിക്കുകയും മനസ്സിലാക്കുകയും ചെയ്യുന്നു, അതിന്ṯഎ അറ്ത്ഥം വ്യാഖ്യാനിക്കുകയും പരിവറ്ത്തനം ചെയ്യുകയും ചെയ്യുന്നു.

prakṛtidatta bhāṣā prōsassiṁg (enelpi) oru prakriyayāṇ, it ṭeksṯṯukaḷ vāyikkukayuṁ manassilākkukayuṁ ceyyunnu, atinṯe aṟtthaṁ vyākhyānikkukayuṁ parivaṟttanaṁ ceyyukayuṁ ceyyunnu.


Prompt

ഒരു കമ്പ്യൂട്ടṟ മദṟബോṟഡിന്ṯഎ പ്രവṟത്തനം വിവരിക്കുക.

oru kampyūṭṭaṟ madaṟbōṟḍinṯe pravaṟttanaṁ vivarikkuka.

Response

പൈത്തൺ പ്രോഗ്രാംഇംഗിൽ നിന്ൻ വ്യത്യസ്തമായി, കോഡ് ടൈപ്പ് ചെയ്യുകയും ഡൗന്ലോഡ് ചെയ്യുകയും വേണം. ഇത് വളരെ ലളിതമാൺ. കോഡ് എഡിṯṯഉചെയ്യുന്നതിനുള്ള ഒരു ആപ്ലിക്കേഷനും ഡൗന്ലോഡ് ചെയ്യാൻ ആവശ്യപ്പെടുന്നു. ഈ ആപ്ലിക്കേഷനിൽ നിങ്ങള്ക്ക് കോഡ് എഡിṯṯഉചെയ്തിട്ടുള്ള കോഡുകൾ ഡൗന്ലോഡ് ചെയ്യാനും റഫറന്സ് കോഡിലേക്കോ മṯṯ പ്രോഗ്രാമുകളിലേക്ക് മാറാനും കഴിയും. കൂടാതെ, കോഡ് ഡൗന്ലോഡ് ചെയ്തപ്പോൾ തന്നെ കോഡ് പൂറ്ത്തീകരിക്കാൻ കഴിയുന്ന കോഡ് എഡിറ്ററുകളും ലഭ്യമാൺ. ഉദാഹരണത്തിന്, സ്ക്രിയുടെ കോഡ് ഡൗന്ലോഡ് ചെയ്യുകയും എഡിṯṯഉചെയ്യുകയും ചെയ്താൽ കോഡ് ഡൗന്ലോഡ് ചെയ്ത കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്തുകൊണ്ട്, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടാം. കോഡ് ഡൗന്ലോഡ് ചെയ്ത ശേഷം, കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടും. കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ഡൗന്ലോഡ് ചെയ്യപ്പെടുകയോ ചെയ്യാത്തതിനാൽ കോഡ് ഡൗന്ലോഡ് ചെയ്യപ്പെടുക അല്ലെങ്കിൽ ഡൗന്ലോഡ് ചെയ്യപ്പെടുക എന്നത് പ്രധാനമാൺ.

paittaṇ prōgrāṁiṁgil ninn vyatyastamāyi, kōḍ ṭaipp ceyyukayuṁ ḍaunlōḍ ceyyukayuṁ vēṇaṁ. it vaḷare laḷitamāṇ. kōḍ eḍiṯṯuceyyunnatinuḷḷa oru āplikkēṣanuṁ ḍaunlōḍ ceyyān āvaśyappeṭunnu. ī āplikkēṣanil niṅṅaḷkk kōḍ eḍiṯṯuceytiṭṭuḷḷa kōḍukaḷ ḍaunlōḍ ceyyānuṁ ṟaphaṟans kōḍilēkkō maṯṯ prōgrāmukaḷilēkk māṟānuṁ kaḻiyuṁ. kūṭāte, kōḍ ḍaunlōḍ ceytappōḷ tanne kōḍ pūṟttīkarikkān kaḻiyunna kōḍ eḍiṯṯaṟukaḷuṁ labhyamāṇ. udāharaṇattin, skriyuṭe kōḍ ḍaunlōḍ ceyyukayuṁ eḍiṯṯuceyyukayuṁ ceytāl kōḍ ḍaunlōḍ ceyta kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceytukoṇṭ, kōḍ ḍaunlōḍ ceyyappeṭāṁ. kōḍ ḍaunlōḍ ceyta śēṣaṁ, kōḍ ḍaunlōḍ ceyyappeṭuṁ. kōḍ ḍaunlōḍ ceyyappeṭukayō ḍaunlōḍ ceyyappeṭukayō ceyyāttatināl kōḍ ḍaunlōḍ ceyyappeṭuka alleṅkil ḍaunlōḍ ceyyappeṭuka ennat pradhānamāṇ.


Prompt

ക്രമരഹിതമായ വാക്കുകളുടെ ഒരു പട്ടിക സൃഷ്ടിക്കുക.

kramarahitamāya vākkukaḷuṭe oru paṭṭika sṛṣṭikkuka.

Response

1.ശ്വാസം മുട്ടിൽ 2. നക്ഷത്രങ്ങൾ തിളങ്ങുന്നു 3. മഴയുടെ ശബ്ദം 4. കാṯṯ വീശുന്നു 5. മൃദുവായ പൂക്കളുടെ മണം 6. പക്ഷികളുടെ ശബ്ദങ്ങൾ 7. സൗമ്യമായ വെള്ളത്തിന്ṯഎ ശബ്ദം 8. സൂര്യൻ ചക്രവാളത്തെ പ്രകാശിക്കുന്നു 9. മേഘങ്ങളുടെ ശാന്തമായ നിശ്ശബ്ദത 10. കടലിന്ṯഎ തിരമാലകള്

1.śvāsaṁ muṭṭil 2. nakṣatraṅṅaḷ tiḷaṅṅunnu 3. maḻayuṭe śabdaṁ 4. kāṯṯ vīśunnu 5. mṛduvāya pūkkaḷuṭe maṇaṁ 6. pakṣikaḷuṭe śabdaṅṅaḷ 7. saumyamāya veḷḷattinṯe śabdaṁ 8. sūryan cakravāḷatte prakāśikkunnu 9. mēghaṅṅaḷuṭe śāntamāya niśśabdata 10. kaṭalinṯe tiramālakaḷ


Tamil

Prompt

ஆரோக்கியமாக இருக்க மூṉṟஉ குṟஇப்புகளைக் கொடுங்கள்

ārōkkiyamāka irukka mūṉṟu kuṟippukaḷaik koṭuṅkaḷ

Response

1.நீங்கள் ஒரு சுவாரஸ்யமான விஷயத்தை கற்றுக்கொண்டிருக்கிறீர்கள் என்பதை அறிந்து கொள்ளுங்கள் - இது உங்கள் வாழ்க்கையில் உங்களுக்கு தேவையான அனைத்தும் கிடைக்கின்றனவா என்பதை உறுதிப்படுத்த உதவும். 2. உங்கள் இலக்குகளை நிர்ணயித்து அவற்றைப் பின்பற்றவும் - அவை அடைய முடியாதவை அல்ல மற்றும் நீங்கள் விரும்பும் வாழ்க்கையைக் கொண்டிருப்பதற்கான பாதையைக் கண்டுபிடிக்க முயற்சிக்க வேண்டும்.

1.nīṅkaḷ oru cuvārasyamāṉa viṣayattai kaṟṟukkoṇṭirukkiṟīrkaḷ eṉpatai aṟintu koḷḷuṅkaḷ - itu uṅkaḷ vāḻkkaiyil uṅkaḷukku tēvaiyāṉa aṉaittum kiṭaikkiṉṟaṉavā eṉpatai uṟutippaṭutta utavum. 2. uṅkaḷ ilakkukaḷai nirṇayittu avaṟṟaip piṉpaṟṟavum - avai aṭaiya muṭiyātavai alla maṟṟum nīṅkaḷ virumpum vāḻkkaiyaik koṇṭiruppataṟkāṉa pātaiyaik kaṇṭupiṭikka muyaṟcikka vēṇṭum.


Prompt (Out of dataset)

வாழ்க்கையில் எṉṉஅ செய்ய வேண்டும்?

vāḻkkaiyil eṉṉa ceyya vēṇṭum?

Response

மன அழுத்தத்தை ஏற்படுத்திய விஷயங்களைத் தவிர்க்கவும், உங்கள் கவனத்தை திசைதிருப்பவும். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சி செய்யுங்கள். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும். அவை உங்களுக்கு எவ்வளவு நெருக்கமாக இருக்கின்றன என்பதை அறியவும். அவற்றில் ஒன்றைக் கண்டுபிடித்து அதை நோக்கி முன்னேறவும். நாள் முழுவதும் மகிழ்ச்சியுடன் வாழவும். உங்கள் உணர்வுகளுக்கு மதிப்பளித்து உங்களை மகிழ்விக்க நேரம் எடுத்துக்கொள்ளுங்கள். மகிழ்ச்சியின் சக்தியை உணர்ந்து அதை அனுபவித்துக்கொண்டே இருங்கள். ஒரு சிறப்பு நாளில் கூட. உங்கள் அனுபவங்கள் மற்றும் நினைவுகளுடன் அதை பகிர்ந்து கொள்ளுங்கள். உங்கள் வாழ்க்கையைச் சுற்றியுள்ளவர்களுடன் அதை கொண்டாடுங்கள். மகிழ்ச்சியை உங்கள் குடும்பம் அல்லது நண்பர்களுடன் பகிர்ந்து கொள்ளுங்கள். உங்கள் உறவினர்கள் மற்றும் குடும்பத்தினருடன் அதைப் பகிர்ந்து கொள்ளுங்கள். மகிழ்ச்சியான நாட்களைக் கொண்டு வாருங்கள். உங்கள் வாழ்க்கையை நேர்மறையாக மாற்றவும். மகிழ்ச்சியின் சக்தியைப் பயன்படுத்தி உங்கள் சுயவிவரம் மற்றும் உங்கள் இலக்குகளை உயர்த்துகிறது. மகிழ்ச்சி ஒரு சக்தி வாய்ந்த விஷயம், அதை வளர்க்க முடியாது. உங்கள் அதிர்ஷ்டத்தை ஆராய்ச்சி செய்து அதை வளர்ப்பதை உறுதிப்படுத்தவும். உங்கள் எண்ணங்களில் அதிக நம்பிக்கை வைத்திருக்கக்கூடிய ஒருவருடன் பேசவும். உங்கள் மனதில் மகிழ்ச்சியைத் தூண்டுவதற்கு ஏதாவது செய்யுங்கள். மகிழ்ச்சியைத் தேடுவதற்கான வாய்ப்புகளைத் தேடுங்கள். வாழ்க்கையின் அனைத்து பகுதிகளிலும் அது இருப்பதைக் கண்டறியுங்கள். உங்கள் அனுபவங்களை அனுபவிக்கவும். உங்கள் வாழ்க்கையைப் பாருங்கள். உங்கள் விருப்பத்தேர்வுகளை அடையாளம் காணவும். அதை நீங்கள் விரும்புகிறீர்கள் என்பதை உறுதிப்படுத்தவும். மகிழ்ச்சியைக் காணுங்கள். உங்கள் கனவுகளை உருவாக்க நேரம் எடுத்துக்கொள்வது முக்கியம். நீங்கள் விரும்பும் வாழ்க்கையை உருவாக்குங்கள் மற்றும் அதை அடைய வழிவகுக்கும் அனைத்தையும் முயற்சிக்கவும். உங்கள் கனவுகளைப் பற்றி சிந்திக்கவும்

maṉa aḻuttattai ēṟpaṭuttiya viṣayaṅkaḷait tavirkkavum, uṅkaḷ kavaṉattai ticaitiruppavum. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟci ceyyuṅkaḷ. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavum. avai uṅkaḷukku evvaḷavu nerukkamāka irukkiṉṟaṉa eṉpatai aṟiyavum. avaṟṟil oṉṟaik kaṇṭupiṭittu atai nōkki muṉṉēṟavum. nāḷ muḻuvatum makiḻcciyuṭaṉ vāḻavum. uṅkaḷ uṇarvukaḷukku matippaḷittu uṅkaḷai makiḻvikka nēram eṭuttukkoḷḷuṅkaḷ. makiḻcciyiṉ caktiyai uṇarntu atai aṉupavittukkoṇṭē iruṅkaḷ. oru ciṟappu nāḷil kūṭa. uṅkaḷ aṉupavaṅkaḷ maṟṟum niṉaivukaḷuṭaṉ atai pakirntu koḷḷuṅkaḷ. uṅkaḷ vāḻkkaiyaic cuṟṟiyuḷḷavarkaḷuṭaṉ atai koṇṭāṭuṅkaḷ. makiḻcciyai uṅkaḷ kuṭumpam allatu naṇparkaḷuṭaṉ pakirntu koḷḷuṅkaḷ. uṅkaḷ uṟaviṉarkaḷ maṟṟum kuṭumpattiṉaruṭaṉ ataip pakirntu koḷḷuṅkaḷ. makiḻcciyāṉa nāṭkaḷaik koṇṭu vāruṅkaḷ. uṅkaḷ vāḻkkaiyai nērmaṟaiyāka māṟṟavum. makiḻcciyiṉ caktiyaip payaṉpaṭutti uṅkaḷ cuyavivaram maṟṟum uṅkaḷ ilakkukaḷai uyarttukiṟatu. makiḻcci oru cakti vāynta viṣayam, atai vaḷarkka muṭiyātu. uṅkaḷ atirṣṭattai ārāycci ceytu atai vaḷarppatai uṟutippaṭuttavum. uṅkaḷ eṇṇaṅkaḷil atika nampikkai vaittirukkakkūṭiya oruvaruṭaṉ pēcavum. uṅkaḷ maṉatil makiḻcciyait tūṇṭuvataṟku ētāvatu ceyyuṅkaḷ. makiḻcciyait tēṭuvataṟkāṉa vāyppukaḷait tēṭuṅkaḷ. vāḻkkaiyiṉ aṉaittu pakutikaḷilum atu iruppataik kaṇṭaṟiyuṅkaḷ. uṅkaḷ aṉupavaṅkaḷai aṉupavikkavum. uṅkaḷ vāḻkkaiyaip pāruṅkaḷ. uṅkaḷ viruppattērvukaḷai aṭaiyāḷam kāṇavum. atai nīṅkaḷ virumpukiṟīrkaḷ eṉpatai uṟutippaṭuttavum. makiḻcciyaik kāṇuṅkaḷ. uṅkaḷ kaṉavukaḷai uruvākka nēram eṭuttukkoḷvatu mukkiyam. nīṅkaḷ virumpum vāḻkkaiyai uruvākkuṅkaḷ maṟṟum atai aṭaiya vaḻivakukkum aṉaittaiyum muyaṟcikkavum. uṅkaḷ kaṉavukaḷaip paṟṟi cintikkavum


Prompt

நீரிṉ கொதிநிலைக்கு மேலே பாருங்கள்

nīriṉ kotinilaikku mēlē pāruṅkaḷ

Response

நீர் கொதிநிலைக்கு மேலே உள்ளவர்களுக்கு நன்றாக இருப்பார்கள். ஒரு நபரின் தனிப்பட்ட தேவைகளை பூர்த்தி செய்யும் வகையில் உங்கள் வாழ்க்கையை வடிவமைக்கவும் - இந்த வழியில் உங்களுக்கு நிறைய நெகிழ்வுத்தன்மை உள்ளது மற்றும் நீங்கள் விரும்பிய ஒன்றைச் செய்ய முடியும். உங்கள் கனவுகளைப் பற்றி அறிந்து கொள்ளுங்கள் - இது உங்கள் சொந்த சாதனைகளைத் தொடரலாம் என்பதை உறுதிப்படுத்த உதவும். உங்கள் இலக்குகளை அடைய கடினமாக உழைக்கவும் - இது உங்களை முன்னேற்றத்தை உணரச் செய்யலாம். உங்கள் இலக்கை நோக்கி கவனம் செலுத்துங்கள் - இது வேலையிலிருந்து ஓய்வு பெறுவதற்கான வழியாகாது. உங்கள் வாழ்க்கையில் மகிழ்ச்சியின் உணர்வை உருவாக்க முயற்சிக்கவும் - அது மிகவும் எளிதாக இருக்கக்கூடாது. ஒவ்வொரு நாளும் சிறந்த முறையில் வாழுங்கள் - இது மகிழ்ச்சியான வாழ்க்கையைக் கொண்டு வர உதவுகிறது. ஒவ்வொரு நாளும் சிறப்பாக இருக்க முயற்சிப்பது முக்கியம்.

nīr kotinilaikku mēlē uḷḷavarkaḷukku naṉṟāka iruppārkaḷ. oru napariṉ taṉippaṭṭa tēvaikaḷai pūrtti ceyyum vakaiyil uṅkaḷ vāḻkkaiyai vaṭivamaikkavum - inta vaḻiyil uṅkaḷukku niṟaiya nekiḻvuttaṉmai uḷḷatu maṟṟum nīṅkaḷ virumpiya oṉṟaic ceyya muṭiyum. uṅkaḷ kaṉavukaḷaip paṟṟi aṟintu koḷḷuṅkaḷ - itu uṅkaḷ conta cātaṉaikaḷait toṭaralām eṉpatai uṟutippaṭutta utavum. uṅkaḷ ilakkukaḷai aṭaiya kaṭiṉamāka uḻaikkavum - itu uṅkaḷai muṉṉēṟṟattai uṇarac ceyyalām. uṅkaḷ ilakkai nōkki kavaṉam celuttuṅkaḷ - itu vēlaiyiliruntu ōyvu peṟuvataṟkāṉa vaḻiyākātu. uṅkaḷ vāḻkkaiyil makiḻcciyiṉ uṇarvai uruvākka muyaṟcikkavum - atu mikavum eḷitāka irukkakkūṭātu. ovvoru nāḷum ciṟanta muṟaiyil vāḻuṅkaḷ - itu makiḻcciyāṉa vāḻkkaiyaik koṇṭu vara utavukiṟatu. ovvoru nāḷum ciṟappāka irukka muyaṟcippatu mukkiyam.


Commitment to Open Science

Reflecting the collaborative spirit essential to AI research, we commit to sharing our contributions with the global community. Continuing our commitment to open source, we are open souricing all our code, data and models. The fine-tuned Dravida Llama model, associated datasets, and training methodologies will be made openly accessible, inviting researchers and practitioners to explore and build upon our foundation. This initiative emphasizes our dedication to fostering an inclusive AI ecosystem where technology transcends language barriers, democratizes access, and encourages innovation from every linguistic background.

  1. The code for transliteration: GH Repo
  2. The code for translation: GH Gist
  3. The transliterated Pre Training datasets: HF Dataset
  4. The transliterated Fine Tuning datasets: HF Dataset
  5. The tokenizers for each transliterated language: HF Repo
  6. The tokenizers for combined transliterated data: HF Repo
  7. The Dravida Llama Tokenizer: HF Model
  8. The Dravida Llama Model: HF Model

Future Work: Elevating Indic Language AI

Indic Multilingual LLM

On our path to democratizing AI across languages, we are thrilled to including more Indic languages to our specific-languages and multilingual LLMs. This initiative aims to rapidly expand the linguistic reach of our technology, ensuring that more communities can benefit from these advancements. By systematically addressing a wide array of languages, we are not only empowering non-English speakers with AI but also preserving linguistic diversity in the digital age.

Unified Model and Linguistic Benchmarks

Alongside individual language models, we are developing a unified language model, a polyglot AI capable of understanding multiple languages effortlessly. To evaluate these models, we are also creating comprehensive benchmarks for Indic languages, establishing a gold standard for assessing AI language proficiency and ensuring our models meet the highest performance standards.

Model Optimization and Multimodal Integration

To increase model accessibility, we are focusing on quantization to ensure our AI runs efficiently on various platforms. We are also exploring multimodal capabilities, integrating text, image, and audio processing to unlock new AI applications. A detailed roadmap of these advancements will be shared, outlining the exciting developments ahead.

Commercial Work: AI Solutions for the Marketplace

Commercial Licensing and Exclusive Models

While our open-source releases are not licensed for commercial use, we have developed a suite of commercial solutions. For businesses seeking the competitive edge of AI, we offer exclusive licenses to advanced models specifically designed for commercial applications. These enhanced models provide robust AI capabilities, meeting the demanding needs of the enterprise environment.

Custom LLM Services

Our commercial offerings bridge the gap between cutting-edge AI research and practical business applications. We offer personalized services to develop custom LLMs for institutional clients, ensuring that their specific needs are met with precision-engineered AI solutions. Our affordable LLM inference services democratize access to AI, enabling organizations to incorporate state-of-the-art language modeling into their workflows without significant financial investment.

Conclusion

In conclusion, Dravida Llama emerges as a pioneering force in revolutionizing language models for Telugu, Tamil, Kannada, and Malayalam languages by amalgamating advanced AI technologies with linguistic diversity. Through its commitment to enhancing communication across Southern India and beyond, Dravida Llama heralds a new era of inclusive language processing solutions tailored for diverse cultural landscapes. We invite the broader AI community to join us on this journey toward a more linguistically inclusive future, where every language finds its voice in the digital realm.