ক্লোনিং রোম্যান্স লেখক থেকে YouTube পাইরেসি পর্যন্ত, AI অডিওবুকগুলিকে রূপান্তরিত করছে৷

[ad_1]

এআই এবং অডিওবুকের খবর ঘন এবং দ্রুত আসছে। অস্ট্রেলিয়া ভিত্তিক অডিওবুক প্রযোজক বোলিন্ডা সম্প্রতি ঘোষণা করা হয়েছে এটি তার এস্টেটের সাথে অংশীদারিত্বে রোম্যান্স বেস্টসেলার বারবারা কার্টল্যান্ডের ভয়েসের একটি “বেসপোক” এআই ক্লোন তৈরি করবে। (তিনি 2000 সালে মারা যান।)

দুদিন পর, Spotify ঘোষণা করেছে একটি টুল (সিন্থেটিক ভয়েস কোম্পানি ইলেভেনল্যাবস দ্বারা তৈরি) যা স্ব-প্রকাশিত লেখকদের AI এর প্ল্যাটফর্মে কণ্ঠ দেওয়া অডিওবুকগুলি তৈরি করতে এবং সেগুলিকে যে কোনও জায়গায় প্রকাশ করতে দেয়৷

এদিকে সম্প্রতি একটি ড নিউইয়র্ক টাইমস প্রকাশ করা AI-সক্ষম অডিওবুক পাইরেসি ইউটিউবে ব্যাপক আকারে প্রকাশ করেছে, যেখানে সাহিত্যিক কল্পকাহিনী থেকে হ্যারি পটার, ব্যবসার সেরা বিক্রেতা জন গ্রিশাম পর্যন্ত সব কিছুর সংস্করণ রয়েছে। তার সর্বশেষ আইনি থ্রিলারের একটি পাইরেটেড সংস্করণ, বিধবা, একটি “এআই স্লপ” ভিডিও সহ, 80,000 এর বেশি ভিউ হয়েছে৷ শ্রোতারা ভয়েসটিকে “বিরক্ত” এবং “ভয়ঙ্কর” বলেছেন।

ইউনাইটেড স্টেটস অথরস গিল্ডের প্রধান নির্বাহী বলেন, “আপনি যদি কোনো সেরা বিক্রেতার সন্ধান করেন, তাহলে আপনি YouTube-এ একটি বিনামূল্যের অডিওবুক খুঁজে পাবেন।” 2025 সালের একটি সমীক্ষায় দেখা গেছে যে অডিওবুক ভোক্তাদের 35% একটি YouTube অডিওবুক শুনেছেন – এবং সেই AI- বর্ণনা করা অডিওবুকগুলি এখন হিসাব নতুন রিলিজের 23%।

প্রায় 17% অস্ট্রেলিয়ান অডিওবুক শ্রোতারা (জ্ঞাতসারে) একটি AI অডিওবুক শুনেছেন, অনুযায়ী আমার নিজের সাম্প্রতিক জরিপ 500 টিরও বেশি অস্ট্রেলিয়ান অডিওবুক শ্রোতা। দৃষ্টি প্রতিবন্ধকতা এবং অন্যান্য অক্ষমতা সহ শ্রোতাদের মধ্যে এই হার বেশি, যারা দীর্ঘ সময় ধরে অ্যাক্সেসযোগ্যতার কারণে AI ব্যবহার করেছেন – এবং এই আলোচনাগুলিতে কেন্দ্রীভূত হওয়া উচিত।

কিভাবে অডিওবুক শোনার মধ্যে এআই ভয়েস বিকশিত হয়েছে? এবং এটা কোথায় যাচ্ছে?

এআই ভয়েসের বিবর্তন

ChatGPT এবং Claude এর পিছনের বৃহৎ ভাষার মডেলগুলি কোটি কোটি টেক্সট জুড়ে শব্দের মধ্যে সম্পর্ককে ম্যাপ করে। অনুরূপ মডেল সমসাময়িক “AI ভয়েস” তৈরি করতে রেকর্ড করা বক্তৃতা জুড়ে সাউন্ড প্যাটার্ন ম্যাপ করে।

এআই ভয়েসগুলি মূলত অ্যাক্সেসযোগ্যতার জন্য ব্যবহৃত হয়েছিল। প্রথম স্বয়ংক্রিয় টেক্সট-টু-স্পীচ সিস্টেম ছিল 1968 সালে তৈরি একটি জাপানি গবেষণা গবেষণাগার দ্বারা। প্রথম স্ক্রিন রিডার প্রযুক্তিটি 1980 এর দশকের গোড়ার দিকে আইবিএম দ্বারা তৈরি করা হয়েছিল। 1986 সালে, এটি তার প্রবর্তন করে প্রথম স্ক্রিন রিডার ব্যক্তিগত কম্পিউটারে সাধারণ ব্যবহারের জন্য।

এই টেক্সট-টু-স্পীচ প্রযুক্তি মূলত এর জন্য ছিল দৃষ্টি প্রতিবন্ধী পাঠকযারা ছিল প্রথম এটা আলিঙ্গন করতে

কিন্তু AI ভয়েসগুলি আরও বিশ্বাসযোগ্য হয়ে উঠলে, মানব-বক্তৃত অডিওবুকের উপর তাদের প্রভাব সম্পর্কে উদ্বেগ বেড়েছে। 2009 সালে, মার্কিন লেখক গিল্ড অবরুদ্ধ বাস্তবায়ন Kindle 2 এর টেক্সট-টু-স্পীচ ফাংশন, দাবি করে যে এটি তাদের অডিওবুকের অধিকার লঙ্ঘন করেছে।

অনেক হাই-প্রোফাইল লেখক এই সিদ্ধান্ত এবং অ্যাক্সেসযোগ্যতার উপর এর প্রভাবের বিরুদ্ধে যুক্তি দিয়েছেন। “যেদিন কৃত্রিম বুদ্ধিমত্তা আমাদের নিখুঁত কিন্ডল রিডিং দেয়, আমাদের কাছে অডিওবুকের অধিকারের চেয়ে ভাজার জন্য বড় মাছ থাকবে,” কল্পবিজ্ঞান এবং প্রযুক্তির লেখক কোরি ডক্টরো মধ্যে লিখেছেন অভিভাবক. তিনি এই ধারণাটিকে বলেছেন যে কম্পিউটারের বর্ণনা কখনও গুরুতরভাবে মানুষের বর্ণনাকে “অযৌক্তিক” প্রতিদ্বন্দ্বিতা করতে পারে।

ভয়েস ক্লোন এবং জলদস্যু

সুইডিশ স্টোরিটেল, নর্ডিক বাজারের বৃহত্তম স্ট্রিমিং প্ল্যাটফর্ম, 2024 সালে রিপোর্ট করা হয়েছে যে দশজনের মধ্যে নয়জন শ্রোতা “কোন বর্ণনাটি মানবিক তা বলতে পারেনি” যখন এটি ভয়েস সুইচার প্রোগ্রামে এআই-উত্পন্ন ভয়েসগুলি পরীক্ষা করে।

Spotify এর মত, Storytel ElevenLabs AI প্রযুক্তি ব্যবহার করে। ভয়েস সুইচার সহ, শ্রোতারা মধ্যে নির্বাচন করতে পারেন মূল মানব কথক, তিনটি ভিন্ন এআই-জেনারেটেড ভয়েস, বা জনপ্রিয় সুইডিশ অভিনেতা এবং কথকের একটি এআই সংস্করণ স্টেফান সাউকযিনি স্টোরিটেলের কাছে তার ভয়েস লাইসেন্স করেছেন।

অস্ট্রেলিয়ান অডিওবুকের নেতৃস্থানীয় প্রযোজক বোলিন্ডার সাথে তার এস্টেট একটি একচেটিয়া চুক্তিতে স্বাক্ষর করার আগে বারবারা কার্টল্যান্ডের 723 টি উপন্যাসের মাত্র কয়েকটি অডিওবুক হিসাবে উপলব্ধ ছিল। বোলিন্দা সহজলভ্যতা সামগ্রী বিতরণের মাধ্যমে শুরু করেছিল, যেমন বড় মুদ্রণ এবং কথা বলার বই, 1986 সালেএবং অডিওবুকে সরানো হয়েছে৷ 1995 সালে.

কার্টল্যান্ডের ভয়েস ক্লোনটি তার অডিওবুকগুলির শুরু এবং শেষ ফ্রেম করতে ব্যবহার করা হবে, যখন মানব বর্ণনাকারীরা নিজেরাই বইগুলি বর্ণনা করতে থাকবে। এমনকি এই সীমিত ব্যবহারের জন্য, কার্টল্যান্ড ভক্তরা ঘোষণাটিকে “ভয়ঙ্কর”, “ভুতুড়ে”, “স্থূল” এবং “হতাশাজনক” হিসাবে বর্ণনা করেছেন। সোশ্যাল মিডিয়াতে.

ভয়েস ক্লোন উদ্বেগজনক ব্যবহার করা হচ্ছে. অন্যান্য “ডিপফেকস” এর সাথে, এটি জাতিসংঘকে একটি “ওয়েক-আপ কল” প্রকাশের দিকে পরিচালিত করেছিল সংগঠিত জালিয়াতি করতে মার্চ মাসে অডিওবুক প্রকাশনা অনাক্রম্য নয় এই deepfakes, বা বাস্তব মানুষের কৃত্রিমভাবে তৈরি অনুকরণ.

হ্যারি পটার সিরিজ পড়ার জন্য স্টিফেন ফ্রাইয়ের রেকর্ডিং তৈরি করতে ব্যবহার করা হয়েছিল একটি অবৈধ ক্লোন 2023 সালে তার কণ্ঠস্বর। এবং এই বছর, লেখক শন রেইন তার বইয়ের অধ্যায়গুলি পড়ে YouTube-এ নিজের ডিপফেকগুলি আবিষ্কার করেছিলেন। “ভয়েস ক্লোনটি সম্ভবত লেখকের সর্বজনীনভাবে উপলব্ধ সাক্ষাৎকার থেকে তৈরি করা হয়েছিল,” লিখেছেন প্রকাশনা ভাষ্যকার জেন ফ্রিডম্যান।

অডিওবুক সহ – সাধারণভাবে ডিজিটাল সামগ্রীর জন্য পাইরেসি একটি সমস্যা। ইউটিউব এর দ্বারা পাইরেসি সম্বোধন করে আপলোডগুলি স্বয়ংক্রিয়ভাবে স্ক্যান করা হচ্ছে কপিরাইট বিষয়বস্তুর বিশাল ডাটাবেসের উপাদানের সাথে তারা মেলে কিনা তা দেখতে। জলদস্যুরা এটিকে এড়াতে চেষ্টা করার জন্য বন্ধনী উপাদান পরিবর্তন করে বা যোগ করে। প্রকাশকরা নিউইয়র্ক টাইমসকে জানিয়েছেন যে প্রোগ্রাম, সঙ্গীতের জন্য নির্মিত, অডিওবুকগুলির সাথে “কম কার্যকর” যেখানে “এমনকি সামান্য পরিবর্তন – যেমন গতি, পিচ বা ভয়েসের পরিবর্তন, বা ব্যাকগ্রাউন্ডের শব্দ বা মিউজিক যোগ করা – একটি ম্যাচ প্রতিরোধ করতে পারে”।

শ্রবণযোগ্য, স্পটিফাই এবং প্রজেক্ট গুটেনবার্গ

অ্যামাজনের মালিকানাধীন Audible, বাস্তবায়ন শুরু করেছে এআই-ভয়েসড অডিওবুক 2023 সালের শেষের দিকে। এক বছর পরে, এটি যোগ করেছে একটি সেবা যা নির্বাচিত বর্ণনাকারীদের তাদের নিজস্ব কণ্ঠের প্রতিলিপি তৈরি এবং নগদীকরণ করতে দেয়।

অডিওবুকের অন্যান্য প্রধান গ্লোবাল প্লেয়ার, স্পটিফাই, প্রথম প্রস্তাব 2023 সালে AI- বর্ণনা করা অডিওবুকগুলি, যে বছর এটি চালু হয়েছিল audiobook ব্যবসা.

গত বছর, এটি ElevenLabs এর AI ভয়েস প্রযুক্তি ব্যবহার করে বর্ণিত অডিওবুকগুলি গ্রহণ করা শুরু করেছে, যা স্ব-প্রকাশকদের অনুমতি দেয় একটি অডিওবুক তৈরি করুন একটি ক্যাটালগ থেকে একটি ভয়েস সহ, বা তাদের নিজস্ব ভয়েস ক্লোন তৈরি করুন৷ ক্যাটালগে মাইকেল কেইনের মতো অভিনেতাদের ট্রেডমার্ক করা ক্লোন রয়েছে। এবং এখন, স্ব-প্রকাশকরা স্পটিফাইতে নিজেই এআই-ভয়েসড অডিওবুক তৈরি করতে পারে।

বাণিজ্যিক এবং জলদস্যু অডিওবুকগুলি পাবলিক ডোমেন রিপোজিটরি প্রোজেক্ট গুটেনবার্গের 5,000 কপিরাইট-বহির্ভূত বইগুলির বিনামূল্যের ক্যাটালগ-এর মতো প্রোজেক্টের পাশাপাশি বসে আছে, মাইক্রোসফ্ট এবং এমআইটি দ্বারা তৈরি করা হয়েছে। এটির মধ্যে একটির নামকরণ করা হয়েছিল 2023 সালের সেরা আবিষ্কার টাইম ম্যাগাজিন দ্বারা।

অডিওবুকের ভবিষ্যত

ভয়েস অভিনেতারা তাদের কণ্ঠস্বর লঙ্ঘনের জন্য দক্ষ চাকরির ক্ষয় এবং ক্লোনিং প্রযুক্তির ব্যবহার নিয়ে উদ্বিগ্ন। ইউনিয়ন এবং অ্যাডভোকেসি গ্রুপ কঠোর নিয়ন্ত্রক নিয়ন্ত্রণের জন্য সক্রিয়ভাবে প্রচারণা চালাচ্ছে। এবং লেখক ও প্রকাশক পদক্ষেপ চাই ইউটিউবে পাইরেসি।

এই বিষয়গুলি গুরুত্বপূর্ণ দ্বারা তীব্র হয় নৈতিক এবং পরিবেশগত প্রশ্ন এআই ব্যবহার দ্বারা উত্থাপিত। আইনপ্রণেতা, প্রযুক্তি কোম্পানি এবং প্রধান বাণিজ্যিক খেলোয়াড়দের এআই বর্ণনা প্রযুক্তিগুলি স্বচ্ছ এবং নৈতিকভাবে তৈরি এবং ব্যবহার করা হয় তা নিশ্চিত করার দায়িত্ব রয়েছে।

কিন্তু আছে কোনো উপায় নেই একটি বই পড়তে। শুধুমাত্র প্রকাশিত বইগুলির একটি ভগ্নাংশ মানুষের দ্বারা বর্ণিত অডিওবুক হিসাবে উপলব্ধ হবে, এর কারণে উল্লেখযোগ্য সময় এবং ব্যয় তাদের তৈরীর. এবং অনেক পাঠকের জন্য – যাদের দৃষ্টি প্রতিবন্ধকতা বা কিছু ধরণের নিউরোডাইভারজেন্স রয়েছে, উদাহরণস্বরূপ – অডিওবুক একটি অপরিহার্য সম্পদ।

মানুষের পারফরম্যান্স একটি গোল্ড স্ট্যান্ডার্ড শোনার অভিজ্ঞতা প্রদান করে: অভিব্যক্তিপূর্ণ, নিমগ্ন এবং খাঁটি। কিন্তু অডিওবুকের ভবিষ্যতে এআই বর্ণনার একটি ক্রমবর্ধমান ভূমিকা রয়েছে।

মিলিসেন্ট ওয়েবার হলেন ARC DECRA ফেলো এবং ইংরেজিতে সিনিয়র লেকচারার, অস্ট্রেলিয়ান ন্যাশনাল ইউনিভার্সিটি।

এই নিবন্ধটি প্রথম হাজির কথোপকথন.



[ad_2]

Source link

Leave a Comment