এআই-র সাহায্যে ভারতে ১২১ ভাষার ডেটাবেস হচ্ছে
৬ ডিসেম্বর ২০২৩দক্ষিণ ভারতের রাজ্য কর্ণাটকের একটি গ্রামের মানুষ কয়েক সপ্তাহ ধরে একটার পর একটা বাক্য কন্নড় ভাষায় বলে যাচ্ছিলেন৷ আর তা একটি অ্যাপে তুলে নেয়া হচ্ছিল৷ এই অ্যাপটি হলো টিবি-র জন্য দেশের প্রথম কৃত্রিম মেধা বা এআই-ভিত্তিক চ্যাটবট৷
ভারতে চার কোটি মানুষ কন্নড় বলেন৷ দেশের ২২টি স্বীকৃত সরকারি ভাষার মধ্যে কন্নড় একটি৷ ভারতে এমন ১২১টি ভাষা আছে, যা ১০ হাজার বা তার বেশি মানুষ ব্যবহার করেন৷ কিন্তু খুব কম ভাষাই ন্যাচরাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি)-তে আছে৷
এনএলপি হলো এআই-এর একটি শাখা, যার মাধ্যমে কম্পিউটার কথ্য ও লিখিত ভাষা বুঝতে পারে৷ তাই এনএলপি-তে তথ্য না থাকলে সেই ভাষাকে কম্পিউটার বা নেটবাহিত বিভিন্ন মাধ্যম মানুষের কাছে পৌঁছে দিতে পারে না৷ ফলে কোটি কোটি ভারতীয় নিজের ভাষায় প্রয়োজনীয় তথ্য জানা থেকে বঞ্চিত হচ্ছেন এবং আর্থিক সুবিধাও পাচ্ছেন না৷
এবার এই খামতিটুকু দূর করতে উদ্যোগী হয়েছে, মাইক্রোসফট, গুগলের মতো সংস্থাগুলি৷ তারা ১২১টি ভারতীয় ভাষায় লিখিত ও কথ্য ডেটা সংগ্রহ করছে, যার মাধ্যমে নিজের ভাষায় সব তথ্য ভারতীয়দের কাছে পৌঁছে যায়৷
মাইক্রোসফট রিসার্চ ইন্ডিয়ার প্রধান গবেষক কালিকা বালি বলেছেন, ‘‘কৃত্রিম মেধাভিত্তিক টুলগুলিকে যদি সকলের কাছে পৌঁছাতে হয়, তাহলে ইংরেজি, ফরাসি, স্প্যানিশ ভাষার বাইরের মানুষদের কাছে যেতে হবে৷'' কালিকা জানিয়েছেন, ‘‘ভারতীয় ভাষাগুলির যদি বিশাল ডেটাবেস তৈরি করতে হয়, তাহলে ১০ বছর সময় লেগে যাবে৷ তাই আমরা পর্যায়ক্রমে কাজটা করতে পারি৷ চ্যাটজিপিটি ও লামার মতো এআই মডেলের সাহায্যে তা করা সম্ভব৷''
মাইক্রোসফট বা গুগলের জন্য ডেটা বা তথ্য সংগ্রহ করছে টেক ফার্ম কারিয়া৷ কর্ণাটকের ওই গ্রামের মানুষের মতো বিভিন্ন জায়গায় মানুষরা তাদের ভাষায় সমানে কথা বলছেন৷ তা রেকর্ড করা হচ্ছে৷ পরে শিক্ষা, স্বাস্থ্য ও অন্য পরিষেবার ক্ষেত্রে এই তথ্য ব্যবহার করবে কৃত্রিম মেধা ভিত্তিক টুলগুলি৷
ভারত সরকারও চাইছে, ডিজিটালি আরো বেশি পরিষেবা মানুষের কাছে পৌঁছে দিতে৷ তারাও একটা ভাষার তথ্যভাণ্ডার গড়ে তুলতে চাইছে৷ এআইয়ের মাধ্যমে ভাষা অনুবাদ ব্যবস্থা ভাষিনী টুলের মাধ্যমে তারা করতে চাইছে৷ এর ফলে এআই টুল তৈরির জন্য স্থানীয় ভাষায় ওপেন ডেটা সোর্স তৈরি থাকছে৷
এই প্ল্যাটফর্মে অংশ নেয়ার জন্য মানুষকে এগিয়ে আসতে বলা হচ্ছে৷ তারা নিজের ভাষায় বাক্য বলছেন৷ টেক্সট অনুবাদ করছেন৷ ভাষিনীতে কয়েক লাখ ভারতীয় অংশ নিয়েছেন৷
মুম্বইয়ের কম্পিউটেশন ফর ইন্ডিয়ান ল্যাঙ্গুয়েজ টেকনলজি ল্যাবের প্রধান পুষ্পক ভট্টাচার্য বলেছেন, ‘‘সরকার বিভিন্ন ভারতীয় ভাষায় ডেটা সেট তৈরির কাজে খুবই গুরুত্ব দিচ্ছে৷ শিক্ষা, পর্যটন ও আদালতে এই অনুবাদ টুলগুলির ব্যবহার শুরু হয়ে গেছে৷''
তিনি জানিয়েছেন, ‘‘এর মধ্যে চ্যালেঞ্জও আছে৷ অনেক ভারতীয় ভাষায় কথা বলার একটা ঐতিহ্য আছে, কিন্তু ইলেকট্রনিক রেকর্ড বেশি নেই৷ তাছাড়া প্রচুর কোড মিক্সিং আছে৷ তাছাড়া যে সব ভাষা খুব প্রচলিত নয় বা খুব বেশি মানুষ কথা বলেন না, তার তথ্য সংগ্রহ করার জন্য বিশেষ তাগিদ দরকার৷''
এনএলপি-তে কয়টা ভাষা?
গোটা বিশ্বে সাত হাজারের বেশি ভাষা প্রচলিত আছে৷ তার মধ্যে এনএলপি-তে আছে একশটিরও কম ভাষা৷ এখানে সবচেয়ে বেশি গুরুত্ব পেয়েছে ইংরেজি ভাষা৷
চ্যাটজিপিটি ও গুগল বার্ডে শুধু ইংরেজি ব্যবহার হয়৷ অ্যামাজন অ্যালেক্সা নয়টি ভাষা ব্যবহার করে৷ তার মধ্যে ইউরোপের বাইরে তিনটি ভাষাই আছে, আরবি, হিন্দি ও জাপানি৷
সরকার ও স্টার্ট আপ কোম্পানিগুলি অন্য ভাষাগুলি যাতে এখানে আসে, তার জন্য কাজ করছে৷
কালিকা বালি মনে করেন, ‘‘ভারতে ক্রাউডসোর্সিং একটা উপযুক্ত ও ভালো পদ্ধতি৷'' কালিকার নাম টাইম ম্যাগাজিনে এআই-র ক্ষেত্রে সবচেয়ে প্রভাবশালী একশ জনের তালিকায় আছে৷ তিনি জানিয়েছেন, ‘‘ভারতীয় ভাষার তথ্য সংগ্রহের সময় তার ভাষাগত, সাংস্কৃতিক, আর্থ-সামাজিক বিষয়টা মাথায় রাখতে হবে৷''
অলাভজনক সংস্থা কারিয়া গরিবি রেখার নিচে থাকা মানুষদের দিয়ে কাজটা করায়৷ এক ঘণ্টার তথ্যের জন্য তাদের পাঁচ ডলার দেয়া হয়৷ এই সব তথ্যের একটা অংশের মালিকানা ওই মানুষদের কাছে থাকে, যাতে তারা ভবিষ্যতে রয়্যালটি পেতে পারে৷
বালি জানিয়েছেন, ‘‘আগে ওড়িয়া ভাষার ডেটা তিন থেকে চার ডলারে কেনা যেত৷ এখন তা কিনতে ৪০ ডলার লাগে৷''
গ্রামের কণ্ঠ
ভারতে ১১ শতংশের মতো মানুষ ইংরাজি ভাষায় কথা বলতে পারেন৷ একটা বড় অংশই ইংরেজি লিখতে বা পড়তে পারেন না৷ তাই বেশ কিছু এআই মডেল স্পিচ ও স্পিচ রেকগনিশনের উপর জোর দিয়েছে৷
গুগলের প্রজেক্ট ‘বাণী' বা ‘ভয়েস' ১০ লাখ ভারতীয়র স্পিচ ডেটা সংগ্রহ করেছে৷ তারা সেটা ওপেন সোর্সিং করেছে, যাতে স্পিচ রেকগনিশনে কাজে লাগে ও স্পিচ টু স্পিচ অনুবাদ করা যেতে পারে৷
বেঙ্গালুরুর একস্টেপ ফাউন্ডেশনের অনুবাদ টুল ভারত ও বাংলাদেশের সুপ্রিম কোর্টে ব্যবহার করা হচ্ছে৷ এআইফরভারত ‘যুগলবন্দি' বলে একটা টুল চালু করেছে৷ তারা এবং এআই ভিত্তিক চ্যাটবট সরকারের জনকল্যাণ প্রকল্প নিয়ে বিভিন্ন ভারতীয় ভাষায় প্রশ্নের জবাব দিতে পারে৷
‘গ্রাম বাণী' নামে সামাজিক প্রকল্প কৃষকদের কাছে তাদের বিভিন্ন প্রশ্নের জবাব দিচ্ছে ও কল্যাণ প্রকল্প সম্পর্কে জানাচ্ছে৷ তারা এআই ভিত্তিক চ্যাটবট ব্যবহার করেই এটা করছে৷ অটোমেটিক স্পিচ রেকগনিশন প্রযুক্তি ব্যবহার করার ফলে তৃণমূল স্তরের মানুষকে তাদের ভাষায় সব তথ্য দেয়া সম্ভব হচ্ছে৷
সময় বদলে যাবে
এই যে এআইয়ের সাহায্যে বিভিন্ন ভারতীয় ভাষার ডেটাবেস তৈরি হচ্ছে, তারপর কথ্য বা লিখিতভাবে তার ব্যবহার করা হবে, অন্য ভাষা থেকে অনুবাদ পৌঁছে যাবে সাধারণ মানুষের কাছে, তাতে কী উপকার হবে? এআই নিয়ে কাজ করেন একটি বেসরকারি সংস্থার কর্মী সৃজনী৷ তিনি ডিডাব্লিউকে বলেছেন, ‘‘ভারতে চালু ১২১টি ভাষায় কথা বলা মানুষের কাছে দিগন্ত খুলে যাবে৷ ইংরেজি জানতেই হবে এমন কোনো বাধ্যবাধকতাও সাধারণ মানুষের থাকবে না৷ অনুবাদের মাধ্যমে তাদের ভাষায় সবকিছু পৌঁছে যাবে৷''
সৃজনী বলেছেন, ‘‘বিশ্বজুড়ে যে তথ্যবিস্ফোরণ চলছে, তার অংশ হতে পারা, নিজের ভাষায় তা মানুষের কাছে পৌঁছে যাওয়া একটা বিশাল ব্যাপার৷ এখনই এআই প্রায় নিখুঁতভাবে লিপ সিংক করে অনুবাদ করে দিতে পারে৷ এআই এখন আমাদের অন্য দুনিয়ায় নিয়ে যাচ্ছে৷ ভারতের মানুষ যদি নিজের ভাষায় সেই দুনিয়ায় পৌঁছতে পারেন, তার থেকে ভালো তো আর কিছু হতে পারে না৷''
জিএইচ/জেডএইচ (থমসন রয়টার্স)