প্রযুক্তি ফলে নতুন সব সুবিধার পাশাপাশি সৃষ্টি হচ্ছে নানা ধরণের অসুবিধার। ভয়েস ক্লোনিং প্রযুক্তি বর্তমানে বেশ জনপ্রিয়তা পেয়েছে। শুরুতে এটি নিছক বিনোদনের জন্য হলেও বর্তমানে এই প্রযুক্তি সঙ্কার কারন হয়ে দাঁড়িয়েছে। সম্প্রতি ডিপফেক প্রযুক্তিতে নকল কণ্ঠস্বরের ব্যবহারের মাধ্যমে লাখ লাখ ডলার হাতিয়ে নেয়ার ঘটনাও ঘটেছে কিন্তু এই ভয়েস ক্লোনিং কিংবা কন্ঠস্বর নকলের প্রযুক্তিটি আসলে কী এটি নিয়ে অনেকের মনেই রয়ে গেছে ধুয়াসা।
মূলত এই প্রযুক্তির মাধ্যমে কারো কণ্ঠ ক্লোন বা হুবহু নকল করা হয় শুধুমাত্র একটি সফটওয়্যার প্রোগ্রাম ব্যবহার করে, যার মাধ্যমে একজন ব্যক্তির কণ্ঠস্বর হুবহু নকল করে একটা কৃত্রিম কণ্ঠস্বর তৈরি করা হয়। এর জন্য কাউকে মাত্র কয়েক মিনিট তার কণ্ঠের রেকর্ডিং করে দিতে হয়। এর থেকেই সফটওয়্যার জেনে যায় তার কণ্ঠের আওয়াজ, তার বাচনভঙ্গি- কীভাবে ওই ব্যক্তি কথা বলেন। বর্তমানে এই প্রযুক্তি এতটাই নিঁখুত হয়েছে যে শুনলে মনেই হবে না এটি একটি যান্ত্রিক কার্যক্রম।
ভোকালআইডি প্রতিষ্ঠানটি তৈরি করেছেন রুপাল প্যাটেল। তিনি সংস্থাটির প্রধান নির্বাহী। তিনি নর্থইস্টার্ন ইউনিভার্সিটির যোগাযোগ বিজ্ঞান ও এ সংক্রান্ত সমস্যা বিষয়ে অধ্যাপক। রুপাল প্যাটেল এই ব্যবসা গড়ে তোলেন ২০১৪ সালে তার চিকিৎসা কাজকে আরও এগিয়ে নেবার লক্ষ্যে। যেসব রোগী অসুস্থতার কারণে বা অস্ত্রোপচারের পর কথা বলার ক্ষমতা হারিয়েছে তাদের কণ্ঠস্বর যন্ত্রের সাহায্যে কৃত্রিমভাবে তৈরি করার তাগিদ থেকে এই প্রযুক্তির ওপর ভিত্তি করে তিনি তার সংস্থাটি প্রতিষ্ঠা করেন।
এই প্রযুক্তির মাধ্যমে একজনের কথা বলার ঢং, অ্যাকসেন্ট বা কথার উচ্চারণভঙ্গি, কত দ্রুত বা ধীরে কথা বলেন, কথা বলার সময় কণ্ঠ কতটা ওঠে বা নামে, শব্দের মাঝে একজন যেভাবে শ্বাস নেন এবং গলার স্বর কতটা হালকা বা গম্ভীর সবই এই সফটওয়্যার হুবহু নকল করে ফেলে। এমনকি এই প্রযুক্তির মাধ্যমে একজনের কণ্ঠস্বরের সব বিশেষত্ব জেনে নেয়ার পর যখন কম্পিউটারের কীবোর্ডে কোন শব্দ বা বাক্য লেখা হবে, সেটা কম্পিউটার হুবহু ঐ ব্যক্তির গলার আওয়াজে উপস্থাপন করবে – অর্থাৎ শুনলে মনে হবে তিনিই সরাসরি কথা বলছেন। শুধু তাই নয়, কারো নকল কণ্ঠস্বরে দরকার হলে নানা ধরনের আবেগও ফুটিয়ে তুলতে পারবে এই সফটওয়্যার- যেমন রাগ, ভয়, আনন্দ, প্রেম, বিরহ বা বিরক্তি।
কিন্তু সম্প্রতি এই চমৎকার প্রযুক্তিটিরই একটি ভয়ানক দিক ধরা পড়েছে। বিশেষজ্ঞরা খুবই উদ্বিগ্ন যে এই প্রযুক্তি সাইবার অপরাধের জন্য খুবই ঊর্বর একটা ক্ষেত্র। কারণ ধরুন যে কথা বলছে সে আসল মানুষ নাকি নকল মানুষ তা বোঝা এর ফলে অসম্ভব হয়ে দাঁড়াবে, এবং আপনাকে ফাঁদে ফেলা অপরাধীদের জন্য খুবই সহজ হবে। ডিজিটাল প্রযুক্তি ব্যবহার করে যেসব ভুয়া ভিডিও তৈরি করা হয়, সেগুলোর মত এভাবে হুবহু নকল করা কণ্ঠকেও “ডিপফেক” বলা হয়।
সাইবার নিরাপত্তা বিশেষজ্ঞ এডি ববরিটস্কি বলছেন, “এতদিন পর্যন্ত যখন আমরা ফোনে কারোর সাথে কথা বলতাম, আমরা অন্তত এটুকু নিশ্চিন্ত থাকতে পারতাম যে যার সাথে কথা বলছি সে আমার পরিচিত কণ্ঠ- তাকে অন্তত বিশ্বাস করা যায়। কিন্তু এখন সেটিও বদলে যাচ্ছে। ধরুন, কোন সংস্থার বস তার কর্মচারীকে ফোন করে বললেন আমার কিছু তথ্য দরকার। সেসব স্পর্শকাতর, গোপন তথ্য। কিন্তু কর্মচারী ভাবলেন আমি তো বসের কণ্ঠ চিনি। কাজেই দ্বিধা না করে বসের নির্দেশ মেনে তিনি সেসব তথ্য দিয়ে দিলেন। সাইবার অপরাধীদের জন্য এ তো সুবর্ণ সুযোগ।” আসলেই ২০১৯ সালে ওয়াল স্ট্রিট জার্নালে এরকম একটি ঘটনার খবর ছাপা হয়েছিল। ব্রিটেনের একটি প্রতিষ্ঠানের ম্যানেজার জার্মানি থেকে তার বসের কণ্ঠের একটি নির্দেশ পেয়ে দু লাখ বিশ হাজার ইউরো (দু লাখ ৬০ হাজার ডলার) অর্থ পাঠিয়েছিল যার কাছে, সে ছিল প্রতারক। জার্মান কোম্পানির বসের ক্লোন করা কণ্ঠ ব্যবহার করেছিল ঐ প্রতারক।
ধারণা করা যাচ্ছে ভয়েস আর্টিস্টদের কাছে এই প্রযুক্তিটি আশীর্বাদ হলেও, পরবর্তীতে অপরাধীদের কাছে এটি হয়ে উঠবে একটি মারাত্মক হাতিয়ার।