وبلاگ رسانگار
با ما حرفه ای باشید

سرور مجازی NVMe

3 سوال: آنچه باید در مورد دیپ فیک های صوتی بدانید

0 7
زمان لازم برای مطالعه: 4 دقیقه


دیپ‌فیک‌های صوتی اخیراً پس از آن که یک تماس رباتیک تولید شده توسط هوش مصنوعی که ادعا می‌شد صدای جو بایدن است، ساکنان نیوهمپشایر را به صدا درآورد و از آن‌ها خواسته بود در رأی‌گیری شرکت نکنند، مطبوعات بدی داشته‌اند. در همین حال، spear-phishers – کمپین‌های فیشینگ که یک فرد یا گروه خاص را هدف قرار می‌دهند، به ویژه با استفاده از اطلاعاتی که مورد علاقه هدف است – برای پول ماهیگیری می‌کنند و هدف بازیگران حفظ شباهت صوتی خود است.

با این حال، چیزی که کمتر مورد استفاده قرار می گیرد، برخی از کاربردهای دیپ فیک صوتی است که در واقع می تواند به نفع جامعه باشد. در این پرسش و پاسخ که برای MIT News تهیه شده است، دکتر نائومان دولت آباد به نگرانی ها و همچنین نکات مثبت احتمالی فناوری نوظهور می پردازد. نسخه کامل این مصاحبه را می توانید در ویدئوی زیر مشاهده کنید.

س: چه ملاحظات اخلاقی پنهان کردن هویت گوینده منبع در دیپ فیک های صوتی را توجیه می کند، به خصوص زمانی که این فناوری برای ایجاد محتوای نوآورانه استفاده می شود؟

آ: تحقیق در مورد اینکه چرا تحقیق در پنهان کردن هویت گوینده منبع مهم است، علیرغم استفاده اولیه زیاد از مدل‌های تولیدی برای ایجاد صدا در سرگرمی، برای مثال، ملاحظات اخلاقی را مطرح می‌کند. گفتار فقط حاوی اطلاعاتی در مورد «تو کی هستی» نیست. (هویت) یا “آنچه دارید صحبت می کنید؟” (محتوا)؛ این اطلاعات بی شماری از اطلاعات حساس از جمله سن، جنسیت، لهجه، سلامت فعلی و حتی نشانه هایی در مورد شرایط سلامتی آینده را در بر می گیرد. به عنوان مثال، مقاله تحقیقاتی اخیر ما روی “تشخیص زوال عقل از مصاحبه های طولانی عصب روانشناختی” امکان تشخیص زوال عقل از گفتار را با دقت بسیار بالا نشان می دهد. علاوه بر این، چندین مدل وجود دارد که می تواند جنسیت، لهجه، سن و سایر اطلاعات را از گفتار با دقت بسیار بالا تشخیص دهد. نیاز به پیشرفت‌هایی در فناوری وجود دارد که از افشای غیرعمدی چنین داده‌های خصوصی محافظت کند. تلاش برای ناشناس کردن هویت گوینده منبع صرفاً یک چالش فنی نیست، بلکه یک تعهد اخلاقی برای حفظ حریم خصوصی فردی در عصر دیجیتال است.

س: چگونه می‌توانیم با در نظر گرفتن خطرات مرتبط، توسعه اقدامات متقابل، و پیشرفت تکنیک‌های تشخیص، روی چالش‌های ایجاد شده توسط دیپ‌فیک‌های صوتی در حملات فیشینگ نیزه مانور دهیم؟

پیشنهاد می‌کنیم بخوانید:  نقشه برداری از مسیرهای مغزی به یاد ماندنی بصری

آ: به کارگیری دیپ فیک های صوتی در حملات spear-phishing خطرات متعددی از جمله انتشار اطلاعات نادرست و اخبار جعلی، سرقت هویت، نقض حریم خصوصی و تغییر مخرب محتوا را به همراه دارد. انتشار اخیر تماس های رباتیک فریبنده در ماساچوست نشان دهنده تأثیر مخرب چنین فناوری است. ما همچنین اخیرا با صحبت با بوستون گلوب در مورد این فناوری، و چقدر آسان و ارزان است که چنین صداهای دیپ فیک تولید کنید.

هر کسی بدون پیشینه فنی قابل توجه می تواند به راحتی چنین صوتی را با چندین ابزار موجود آنلاین تولید کند. چنین اخبار جعلی از مولدهای دیپ فیک می تواند بازارهای مالی و حتی نتایج انتخابات را مختل کند. سرقت صدای شخص برای دسترسی به حساب های بانکی صوتی و استفاده غیرمجاز از هویت صوتی فرد برای منافع مالی یادآور نیاز فوری به اقدامات متقابل قوی است. خطرات بیشتر ممکن است شامل نقض حریم خصوصی باشد، جایی که مهاجم می تواند بدون اجازه یا رضایت از صدای قربانی استفاده کند. علاوه بر این، مهاجمان همچنین می توانند محتوای صوتی اصلی را تغییر دهند که می تواند تأثیر جدی داشته باشد.

دو جهت اصلی و برجسته در طراحی سیستم‌ها برای تشخیص صدای جعلی پدید آمده است: تشخیص مصنوع و تشخیص زنده بودن. هنگامی که صدا توسط یک مدل مولد تولید می شود، مدل مقداری مصنوع را در سیگنال تولید شده معرفی می کند. محققان الگوریتم ها/مدل هایی را برای شناسایی این مصنوعات طراحی می کنند. با این حال، به دلیل پیچیدگی روزافزون مولدهای دیپ فیک صوتی، چالش هایی با این رویکرد وجود دارد. در آینده نیز ممکن است شاهد مدل هایی با آثار بسیار کوچک یا تقریباً بدون آثار باشیم. تشخیص زنده بودن، روی از سوی دیگر، از ویژگی‌های ذاتی گفتار طبیعی، مانند الگوهای تنفس، آهنگ‌ها یا ریتم‌ها استفاده می‌کند که تکرار دقیق آن‌ها برای مدل‌های هوش مصنوعی چالش برانگیز است. برخی از شرکت ها مانند Pindrop در حال توسعه چنین راه حل هایی برای تشخیص تقلبی های صوتی هستند.

علاوه بر این، استراتژی هایی مانند واترمارک صوتی به عنوان دفاعی فعال عمل می کنند و شناسه های رمزگذاری شده را در صدای اصلی تعبیه می کنند تا منشا آن را ردیابی کنند و از دستکاری جلوگیری کنند. علیرغم سایر آسیب‌پذیری‌های احتمالی، مانند خطر حملات تکراری، تحقیق و توسعه مداوم در این عرصه راه‌حل‌های امیدوارکننده‌ای برای کاهش تهدیدات ناشی از دیپ‌فیک‌های صوتی ارائه می‌دهد.

س: علیرغم احتمال استفاده نادرست از آنها، برخی از جنبه های مثبت و مزایای فناوری دیپ فیک صوتی چیست؟ تصور می کنید رابطه آینده بین هوش مصنوعی و تجربیات ما از درک صوتی چگونه تکامل خواهد یافت؟

پیشنهاد می‌کنیم بخوانید:  استفاده از ایده های نظریه بازی ها برای بهبود قابلیت اطمینان مدل های زبان

آ: برخلاف تمرکز غالب روی این فناوری با کاربردهای شرورانه دیپ فیک های صوتی، پتانسیل بسیار زیادی برای تأثیر مثبت در بخش های مختلف دارد. فراتر از قلمرو خلاقیت، جایی که فناوری‌های تبدیل صدا انعطاف‌پذیری بی‌سابقه‌ای را در سرگرمی و رسانه‌ها ممکن می‌سازد، دیپ‌فیک‌های صوتی نویدهای دگرگون‌کننده در بخش‌های مراقبت‌های بهداشتی و آموزش دارند. به عنوان مثال، کار مداوم فعلی من در ناشناس سازی صدای بیمار و پزشک در مصاحبه های مراقبت های بهداشتی شناختی، به اشتراک گذاری داده های پزشکی حیاتی را برای تحقیقات در سطح جهانی تسهیل می کند و در عین حال از حریم خصوصی اطمینان می دهد. به اشتراک گذاری این داده ها در میان محققان باعث رشد در زمینه مراقبت های بهداشتی شناختی می شود. استفاده از این فناوری در ترمیم صدا، امیدی برای افراد مبتلا به اختلالات گفتاری، به عنوان مثال، برای ALS یا گفتار دیزآرتریک، افزایش توانایی های ارتباطی و کیفیت زندگی است.

من در مورد تأثیر آینده مدل های هوش مصنوعی تولید کننده صوتی بسیار مثبت هستم. تعامل آینده بین هوش مصنوعی و ادراک صوتی برای پیشرفت های پیشگامانه، به ویژه از طریق دریچه روان آکوستیک – مطالعه چگونگی درک صداها توسط انسان ها آماده است. نوآوری‌ها در واقعیت افزوده و مجازی، که نمونه آن دستگاه‌هایی مانند Apple Vision Pro و دیگران است، مرزهای تجربه‌های صوتی را به سمت واقع‌گرایی بی‌نظیر پیش می‌برد. اخیراً تقریباً هر ماه شاهد افزایش تصاعدی در تعداد مدل‌های پیچیده بوده‌ایم. این سرعت سریع تحقیق و توسعه در این زمینه نه تنها نوید اصلاح این فناوری‌ها را می‌دهد، بلکه برنامه‌های کاربردی آن‌ها را به شیوه‌هایی که عمیقاً به نفع جامعه است گسترش می‌دهد. علیرغم خطرات ذاتی، پتانسیل مدل‌های هوش مصنوعی مولد صوتی برای متحول کردن مراقبت‌های بهداشتی، سرگرمی، آموزش و فراتر از آن، گواهی بر مسیر مثبت این حوزه تحقیقاتی است.


منبع: https://news.mit.edu/1403/what-you-need-to-know-audio-deepfakes-0315

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-03-16 04:04:05

امتیاز شما به این مطلب
دیدگاه شما در خصوص مطلب چیست ؟

آدرس ایمیل شما منتشر نخواهد شد.

لطفا دیدگاه خود را با احترام به دیدگاه های دیگران و با توجه به محتوای مطلب درج کنید