கி. இரமண்ராஜ், எம்.எல்., வழக்கறிஞர், சென்னை உயர்நீதிமன்றம்
தொன்மை வாய்ந்த தமிழ், நீதிக்கு பெயர் பெற்றது. இன்று, தமிழ் கணிமொழி வடிவம் கொண்டு நீதிக்கு நீதி செய்யும் காலம் வெகு அருகில். அரசாங்க அலுவல்கள் அனைத்தும் தமிழில் செம்மையாக நடைபோட வேண்டும். கணினியுகத்தில், தமிழ் பின்தங்கலாகாது. தமிழ் மொழியில் மட்டுமல்லாது, தமிழ் மரபுகளும், நீதியும் சேர்ந்து ஆட்சி புரிதல் வேண்டும்.
அறஞ்செய விரும்பு, ஆறுவது சினம், இயல்வது கரவேல், ஈவது விலக்கேல் எனவும் கண்டு ஒன்று சொல்லேல், ங போல் வளை என்று தமிழ் நீதி நூல் கற்பிக்கிறது. மழலை முதலே நீதியும், வாய்மையும், எண் எழுத்து பயனும் போற்றி உத்தமனாயிருக்கும் பாதையை வகுக்கிறது. ஐந்தில் வளைவது ஐம்பதில் வளையாது என்பதை நன்கு அறிந்தே, சிறந்த நீதி போதனைகள் இளம் பருவத்திலேயே மனதில் பதியுமாறு அடிப்படை எழுத்துக்களுடனே சேர்த்து நீதி பாடம் வடிவமைக்கப்பட்டுள்ளது.
தமிழால் பேணி வளர்க்கப்பட்ட உத்தம உள்ளங்களுக்கு பிற நீதிகள் ஒருபோதும் உதவாதவை. தேவையற்றவை. இன்றைய சட்ட இயலும், சட்டமும் அறிவிக்கும் கோட்பாடுகளை இரத்தினச்சுருக்கமாக தமிழ் நீதிநூல்களும் காவியங்களும் அன்றே கல்லிலும், சொல்லிலும், உள்ளத்திலும் வாழ்விலும் செதுக்கிவிட்டது.
சொத்து மாற்றுச் சட்டம் மாய்ந்து மாய்ந்து சொல்லும் கருத்துக்களை 'மண் பறித்துண்ணேல்' என மழலை முதல் முதியவர் வரை சிறிதும் பிழையின்றி அறியும்படி வகுத்த சிறப்பு தமிழுக்கு உண்டு. நடைமுறையிலும் அமுலிலும் உள்ள பல சட்ட கோட்பாடுகளை தமிழ் நீதி அளவில் சுருங்கி பொருள் ஓங்கி நிற்கின்றது.
பராக்கிர பாண்டியனை எதிரிகள் டில்லிக்கு இழுத்துசென்றது மட்டுமல்லாமல் இங்கிருந்த இலக்கிய பொக்கிஷங்களை தீயிட்டு கொளுத்தி அழித்தனர். காலம் காலமாக தமிழ் அணிந்திருந்த ஆபரணங்கள் பல அந்த கொடிய தீயில் கருகின. மீண்டும் அந்த அவல நிலை நேராமல் இருக்க ஒரே வழி கணினியில் சேமித்து, வையகம் எங்கும் பரப்பி வாழ்வாங்கு வாழுமாறு செய்தல் வேண்டும்.
ஏட்டிலும், கல்லிலும், நூலிலும் வாழ்ந்த காலம் மாறி இன்று கணினியில் மின்னல் வேகத்தில் உலகம் முழுவதும் எவரையும் சென்றடையும் வசதி அமைந்துள்ளது. கணினியில் தமிழ் மணம் மங்காது வலம் வர வேண்டும். முதற்படியாக, இதற்கு தமிழின் கணிமொழி வடிவத்தை சரியாக அமைத்தல் அவசியம். பல்லாண்டுகாலம் மாறாமல், இளமை குன்றாத தமிழுக்கு சிறந்த கணினி வடிவம் அளிப்பது நமது கடமை.
'எண் எழுத்து இகழேல்' என்பது அவ்வை சொல். அடிப்படையாக, கணினிக்கு ஒன்று-1 மற்றும் சுழி-0 மட்டுமே விளங்கும். அதாவது மின்சாரம் அல்லது காந்தம் அல்லது ஒளி ஓர் இடத்தில் இருந்தால் அதனை ஒன்றாக பாவித்தும், இல்லை என்றால் அதனை சுழியாக பாவித்தும் செயல்படும். கணி மொழியின் முழு அகராதியும் இரண்டே வரிகளில் அடக்கம்:
- 0 - சுழி, ஏதுமில்லை.
- 1 - ஒன்று, உள்ளது.
அடிப்படை எழுத்துக்களான 0 மற்றும் 1 பிட் என அழைக்கப்படுகின்றது. பிட்களை எட்டு எட்டாக இணைத்து எழுதும்போது, மொத்தம் 256 வெவ்வேறு சொற்றொடர்கள் அமையும். ஒவ்வொறு சொற்றொடரும் பைட் என அழைத்து, மனித மொழி எழுத்துக்களோடு இணைத்து கணினியை உபயோகிக்கிறோம்.
ஆங்கிலேயர் வடிவமைத்ததால், கணினி முதலில் ஆங்கில எழுத்துக்களை மட்டுமே அறியும் விதம் அமைக்கப்பட்டிருந்தது. முதல் பிட் சுழியாகவும், அதனை தொடர்ந்து குறிப்பிடத்தக்க மூன்று பிட்களும் [MSB], இறுதியில் நான்கு பிட்களும் இணைந்து [LSB], ஆங்கில எழுத்து குறிகளும், எண்களும் கீழ்கண்டவாறு அமைக்கப்பட்டது.
மிகுந்த புத்திசாலித்தனத்துடன் வடிவமைக்கப்பட்ட அட்டவணை. மேல்வாரியாக எண்களும் குறிகளும் எனலாம். ஆனால் இதில் புலமையும் அடங்கும். எம்.எஸ்.பி. என்ற வரிசையில் உள்ள 100 மற்றும் 101 வரிசையில் ஆங்கில பெரிய எழுத்துகளுக்கும், 110 மற்றும் 111 வரிசையின்கீழ் சிறிய எழுத்துகளுக்கும் ஒதுக்கப்பட்டுள்ளது. அதாவது 1-1 வடிவின் நடுவே '-' குறியிட்ட இடத்தில் சுழி இருந்தால் பெரிய எழுத்தாகவும், ஒன்றிருந்தால் சிறிய எழுத்தாகவும் வருமாறு உள்ளது.
எழுத்து வடிவத்தை, பெரிதிலிருந்து சிறிதாக மாற்ற அந்த ஒரு பிட்டை கவனித்தாலே போதும். இதனை தவிர வேறு எந்த வித்யாசமும் இரு எழுத்துக்களுக்கும் இல்லை. அதேபோல் 0 முதல் 9 வரை உள்ள எண்களுக்கு எல்.எஸ்.பி (LSB) வரிசையில் அதன் சரியான பைனரி மதிப்பே வழங்கப்பட்டுள்ளது. கணினி கோப்புகளில் இந்த அட்டவணை கொண்டே நாம் அறியும் வண்ணம் எழுத்துக்கள் கோர்த்து அச்சிடப்படும்.
காலப்போக்கில் எல்லா மொழிகளையும், ஒரே அட்டவணையில் அடக்கி, மனித மொழிகளிலுள்ள அனைத்து எழுத்துகளுக்கும் ஒரு தனித்த எண்ணை குறியீடாக வழங்கினால், கடல் போல் அட்டவணை விரிந்திருந்தாலும், சிரமமில்லாமல் மனித மொழிகள் அனைத்தையும் கோப்பில் உபயோகிக்கமுடியும் என அறியப்பட்டது. ஒவ்வொரு எழுத்துக்கும் ஒரு எண் குறியீடாக வழங்கும் பணியை யுனிக்கோட் கன்சார்டியம் செய்து வருகின்றது.
பல ஆண்டுகள் ஆய்வுகளும், ஆராய்ச்சிகள் பலவும் மேற்கொண்டு, 1990 களில் நமது இந்திய அரசு வழங்கிய சிபாரிசுகளை கருத்தில் கொண்டு தமிழ் எழுத்துக்களுக்கு எண் குறியீடுகள் வழங்கப்பட்டன. அப்பணி நடந்தேரி, இன்று அமுலிலும் உள்ளது. இந்த கட்டுரை தமிழ் யுனிக்கோட் கொண்டே எழுதப்பட்டது. ஆனால் இதில் சில சிக்கல்கள் நேர்ந்துவிட்டன. தற்போது வழக்கத்திலுள்ள யூனிக்கேட் தமிழ் அட்டவணை மேலே கொடுக்கப்பட்டுள்ளது.
தட்டச்சு இயந்திரத்தில் உபயோகித்த குறிகளுக்கு தனித்த யுனிக்கோட் எண்களை கேட்டு வாங்கிவிட்டது நமது அரசு. மொழி அகர வரிசையில் உள்ள அனைத்து எழுத்துகளுக்கும் தனித்தனி யூனிகோட் எண்கள் வாங்காமல் விட்டது மிகுந்த வேதனையான, ஏமாற்றமான குறைபாடு. சீனா மொழி சுமார் 40,000 எழுத்துகளுக்கு யுனிக்கோட் குறிகளை பெற்றது.
217 அடிப்படை உயிர்மெய் எழுத்துக்களை உடைய தமிழ் 128 குறிகளை மட்டுமே கேட்டு பெற்றது. இதை தவிர, பல தமிழ் அளவு மற்றும் பின்னக் குறிகள் (measurement and fraction symbols) யுனிக்கோட் கன்சார்ட்டியத்திற்கு அனுப்பப்படவேயில்லை.
சுழி விட்டுபோய், அதனை ஏதோ தமிழ் அறியாதது போலும், போனால் போகட்டும் என பிறகு சேர்த்தது என நம்மை நாமே இழிவு செய்துகொண்டோம். 0 என்ற எண் தமிழில் இருந்து பிறந்ததற்கு சுழி என்ற பெயரே சிறந்த ஆதாரம். 0 வடிவம் சுழித்தால் வருவது. சுழல் இயற்கையாகவே சுழி சுருள் வடிவம் கொண்டது. நீரிலும் ஆற்றிலும், கடலிலும் சுழியை கண்ட தமிழ் கணிதத்திலும் அதனை கண்டதில் வியப்பொன்றுமில்லை. சுழி பழமையான தமிழ் வேர்ச் சொல்.
தமிழ் கணிதம் வலுத்திருந்தாலும் அதற்கு சான்றாக இருந்த நூல்கள் பல அழிந்த நிலையில், எஞ்சியிருக்கும் சான்றுகளை ஆராய்ந்து, அனைத்து தமிழ் எழுத்துகளுக்கும் குறிகளுக்கும் யுனிக்கோட் எண்களை பெறுவது அவசியம். தமிழ் மொழியில் உள்ள பின்னக் குறிகள் சில :
இவற்றை இன்று நாம் பரவலாக உபயோகிப்பதில்லை, வீண் செய்துவிட்டோம் என்பது சமாதானமாகாது. இவை தமிழ் ஏந்தி நிற்கும் செல்வங்கள். இவை வேண்டாம் என ஒதுக்கினால் இழுக்கு தமிழுக்கு மட்டுமல்ல.
1/2 அரை, 3/4 முக்கால், 1/4 கால் - இவை நாம் நன்கு அறிந்து அன்றாடம் உபயோகிப்பவை. 1/20 மா என பெயரிட்டு அழைக்கப்பட்டது. ஆகையால் 1/5 நாலுமா, 3/20 மும்மா, 1/10 இருமா, 1/40 அரைமா ஆயின. பின்னங்களுக்கு பெயர்சூட்டி அழைத்த பெருமை தமிழுக்குண்டு. எட்டு எட்டாக வகுத்து octal கணக்கை அன்றே பதம் பார்த்தது தனிச்சிறப்பு.
சில அளவுக் குறிகள்:
தமிழில் கணக்கு இலக்கணத்துடன் பிணைந்தது. இரண்டையும் பிரிக்க இயலாது. தமிழ் கணினி மொழி வடிவம் பெறும் இன்று, நாம் தமிழ் மரபுகளையும், இலக்கணத்தையும், கருத்தில் கொண்டு, சிறந்த பயன்மிக்க அட்டவணை அலகிடுதல் வேண்டும். இலக்கண விதிகளை சுலபமாக மதிக்கவும், செயலுறுத்தவும் இயலும்.
இவ்வாறு, அனைத்து இந்திய மொழிகளுமே பாதிப்பிற்குள்ளாகியுள்ளன. தட்டச்சு குறிகளுக்கு யுனிக்கோட் எண்கள் மாற்றாக பெறப்பட்டுள்ளது. இந்திய அரசியல் அமைப்புச் சட்டம் எட்டாவது விவரக்குறிப்பில் பட்டியலிட்டுள்ள மொழிகளுக்கு, கீழ்கண்டவாறு யுனிக்கோட் எண்கள் வழங்கப்பட்டுள்ளன. மணிப்பூரி மட்டுமே இன்னும் சேர்க்கப்படவில்லை.
Property: Block
0000..007F; Basic Latin
0900..097F; Devanagari
0980..09FF; Bengali
0A00..0A7F; Gurmukhi
0A80..0AFF; Gujarati
0B00..0B7F; Oriya
0B80..0BFF; Tamil
0C00..0C7F; Telugu
0C80..0CFF; Kannada
0D00..0D7F; Malayalam
பிறமொழி குறிகளுக்கு, யுனிக்கோட் பதம் 0, 1 மற்றும் 2 வரிசைகளில் இடமளித்தாகிவிட்டது. ஏற்கனவே வழங்கப்பட்டு நிரப்பிய குறி இடங்களை மாற்றி அமைப்பது முடியாது. யுனிக்கோட் பதம் 3 முதல் 13 வரை காலியாக உள்ளது. இந்திய மொழிகள் முழுமையான வடிவத்துடன் இங்கு வலம் வர சாத்தியமுன்டு.
Plane 0 (0000-FFFF): Basic Multilingual Plane (BMP)
Plane 1 (10000-1FFFF): Supplementary Multilingual Plane (SMP)
Plane 2 (20000-2FFFF): Supplementary Ideographic Plane (SIP)
Planes 3 to 13 (30000-DFFFF) are unassigned
Plane 14 (E0000-EFFFF): Supplementary Special-purpose Plane (SSP)
Plane 15 (F0000-FFFFF) reserved for the Private Use Area (PUA)
Plane 16 (100000-10FFFF), reserved for the Private Use Area (PUA)
தற்போது UTF-8 என்னும் எழுத்து மாற்றுமுறை கொண்டு, யுனிக்கோட் தகவல் பரிமாற்றம் நடைபெறுகின்றது. இதன் அடிப்படை சுருக்கம்:
Unicode Transformation Format :: UTF-8 :: Code range
hexadecimal UTF-8
000000 - 00007F 128 codes 0zzzzzzz
000080 - 0007FF 1920 codes 110yyyyy 10zzzzzz
000800 - 00FFFF 63488 codes 1110xxxx 10yyyyyy 10zzzzzz
010000 - 10FFFF 1048576 codes 11110www 10xxxxxx 10yyyyyy 10zzzzzz
அடிப்படையான ஆங்கில எழுத்துக்களை எழுத ஒரு பைட் மட்டுமே தேவை. பிற மொழிகள் யாவும், மூன்று பைட் எடுத்துக்கொள்ளும். உதாரணத்திற்கு கோ என்ற எழுத்தை சேமிக்க, ஆறு பைட் தேவை. உயிர் மெய் எழுத்துகளுக்கு யுனிக்கோட் குறிகள் பெறப்பட்டிருந்தால் மூன்று பைட் மட்டுமே தேவைப் பட்டிருக்கும்.
நன்னூல் நூற்பா எட்டு என்பதற்கு சிறப்பு விதி வகுத்துள்ளது : "எட்டன் உடம்புணவ் வாகும் என்ப". இதற்கு விளக்கம்: இறுதி உயிர்மெய் கெட்டு நின்ற எட்டு என்னும் எண்ணினது டகர மெய் நாற்கணமும் வரின் ணகர மெய்யாகத் திரியும். ஆதலால், எட்டு + வகை = எண்வகை.
UTF-8 என்பதனை யுனிக்கோட் எண்வகை மாற்று என அழைக்கலாம். UTF-16 = யுனிக்கோட் ஈரெண்வகை மாற்று UTF-32 = யுனிக்கோட் நாலெண்வகை மாற்று. ஒவ்வொறு இலக்கண விதியும் சுலபமாக பயன்படுத்த உபயோகிக்கப்படும் அட்டவணை நேர்த்தியானதாக இருத்தல் வேண்டும்.
யுனிக்கோட் 3வது பதத்தில் ஒதுக்கப்படும் ஒவ்வொரு எழுத்தும் நான்கு பைட் எடுத்துக்கொள்ளும். ஆனால், ஐந்து வருடங்கள் கழித்து, இது ஒரு பெரிய குறையாக கருதப்படமாட்டாது. 32 பைட் அல்லது 64 பைட் ஒரே சமயத்தில் கணிக்கும் காலத்தில், UTF-16 அல்லது UTF-32 வழக்கத்தில் வந்துவிடும்.
அனைத்து இந்திய மொழிகளும் தத்தம் எழுத்துக்களையும், குறிகளையும் விரிவாக பட்டியலிட்டு, நன்கு ஆராய்ந்து, ஞயம்பட அவற்றை வரிசைப்படுத்தி அட்டவணையில் அலகிட்டால் அழகாயிருக்கும். பிறகு, யூனிக்கொட் பதம் மூன்றில் இடம்பிடித்தால் தமிழும், பிற இந்திய மொழிகளும், வலையில் குலவிக்கொள்ளலாம்.
