از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
3 سوال: آنچه باید در مورد دیپ فیک های صوتی بدانید
دیپفیکهای صوتی اخیراً پس از آن که یک تماس رباتیک تولید شده توسط هوش مصنوعی که ادعا میشد صدای جو بایدن است، ساکنان نیوهمپشایر را به صدا درآورد و از آنها خواسته بود در رأیگیری شرکت نکنند، مطبوعات بدی داشتهاند. در همین حال، spear-phishers – کمپینهای فیشینگ که یک فرد یا گروه خاص را هدف قرار میدهند، به ویژه با استفاده از اطلاعاتی که مورد علاقه هدف است – برای پول ماهیگیری میکنند و هدف بازیگران حفظ شباهت صوتی خود است.
با این حال، چیزی که کمتر مورد استفاده قرار می گیرد، برخی از کاربردهای دیپ فیک صوتی است که در واقع می تواند به نفع جامعه باشد. در این پرسش و پاسخ که برای MIT News تهیه شده است، دکتر نائومان دولت آباد به نگرانی ها و همچنین نکات مثبت احتمالی فناوری نوظهور می پردازد. نسخه کامل این مصاحبه را می توانید در ویدئوی زیر مشاهده کنید.
س: چه ملاحظات اخلاقی پنهان کردن هویت گوینده منبع در دیپ فیک های صوتی را توجیه می کند، به خصوص زمانی که این فناوری برای ایجاد محتوای نوآورانه استفاده می شود؟
آ: تحقیق در مورد اینکه چرا تحقیق در پنهان کردن هویت گوینده منبع مهم است، علیرغم استفاده اولیه زیاد از مدلهای تولیدی برای ایجاد صدا در سرگرمی، برای مثال، ملاحظات اخلاقی را مطرح میکند. گفتار فقط حاوی اطلاعاتی در مورد «تو کی هستی» نیست. (هویت) یا “آنچه دارید صحبت می کنید؟” (محتوا)؛ این اطلاعات بی شماری از اطلاعات حساس از جمله سن، جنسیت، لهجه، سلامت فعلی و حتی نشانه هایی در مورد شرایط سلامتی آینده را در بر می گیرد. به عنوان مثال، مقاله تحقیقاتی اخیر ما روی “تشخیص زوال عقل از مصاحبه های طولانی عصب روانشناختی” امکان تشخیص زوال عقل از گفتار را با دقت بسیار بالا نشان می دهد. علاوه بر این، چندین مدل وجود دارد که می تواند جنسیت، لهجه، سن و سایر اطلاعات را از گفتار با دقت بسیار بالا تشخیص دهد. نیاز به پیشرفتهایی در فناوری وجود دارد که از افشای غیرعمدی چنین دادههای خصوصی محافظت کند. تلاش برای ناشناس کردن هویت گوینده منبع صرفاً یک چالش فنی نیست، بلکه یک تعهد اخلاقی برای حفظ حریم خصوصی فردی در عصر دیجیتال است.
س: چگونه میتوانیم با در نظر گرفتن خطرات مرتبط، توسعه اقدامات متقابل، و پیشرفت تکنیکهای تشخیص، روی چالشهای ایجاد شده توسط دیپفیکهای صوتی در حملات فیشینگ نیزه مانور دهیم؟
آ: به کارگیری دیپ فیک های صوتی در حملات spear-phishing خطرات متعددی از جمله انتشار اطلاعات نادرست و اخبار جعلی، سرقت هویت، نقض حریم خصوصی و تغییر مخرب محتوا را به همراه دارد. انتشار اخیر تماس های رباتیک فریبنده در ماساچوست نشان دهنده تأثیر مخرب چنین فناوری است. ما همچنین اخیرا با صحبت با بوستون گلوب در مورد این فناوری، و چقدر آسان و ارزان است که چنین صداهای دیپ فیک تولید کنید.
هر کسی بدون پیشینه فنی قابل توجه می تواند به راحتی چنین صوتی را با چندین ابزار موجود آنلاین تولید کند. چنین اخبار جعلی از مولدهای دیپ فیک می تواند بازارهای مالی و حتی نتایج انتخابات را مختل کند. سرقت صدای شخص برای دسترسی به حساب های بانکی صوتی و استفاده غیرمجاز از هویت صوتی فرد برای منافع مالی یادآور نیاز فوری به اقدامات متقابل قوی است. خطرات بیشتر ممکن است شامل نقض حریم خصوصی باشد، جایی که مهاجم می تواند بدون اجازه یا رضایت از صدای قربانی استفاده کند. علاوه بر این، مهاجمان همچنین می توانند محتوای صوتی اصلی را تغییر دهند که می تواند تأثیر جدی داشته باشد.
دو جهت اصلی و برجسته در طراحی سیستمها برای تشخیص صدای جعلی پدید آمده است: تشخیص مصنوع و تشخیص زنده بودن. هنگامی که صدا توسط یک مدل مولد تولید می شود، مدل مقداری مصنوع را در سیگنال تولید شده معرفی می کند. محققان الگوریتم ها/مدل هایی را برای شناسایی این مصنوعات طراحی می کنند. با این حال، به دلیل پیچیدگی روزافزون مولدهای دیپ فیک صوتی، چالش هایی با این رویکرد وجود دارد. در آینده نیز ممکن است شاهد مدل هایی با آثار بسیار کوچک یا تقریباً بدون آثار باشیم. تشخیص زنده بودن، روی از سوی دیگر، از ویژگیهای ذاتی گفتار طبیعی، مانند الگوهای تنفس، آهنگها یا ریتمها استفاده میکند که تکرار دقیق آنها برای مدلهای هوش مصنوعی چالش برانگیز است. برخی از شرکت ها مانند Pindrop در حال توسعه چنین راه حل هایی برای تشخیص تقلبی های صوتی هستند.
علاوه بر این، استراتژی هایی مانند واترمارک صوتی به عنوان دفاعی فعال عمل می کنند و شناسه های رمزگذاری شده را در صدای اصلی تعبیه می کنند تا منشا آن را ردیابی کنند و از دستکاری جلوگیری کنند. علیرغم سایر آسیبپذیریهای احتمالی، مانند خطر حملات تکراری، تحقیق و توسعه مداوم در این عرصه راهحلهای امیدوارکنندهای برای کاهش تهدیدات ناشی از دیپفیکهای صوتی ارائه میدهد.
س: علیرغم احتمال استفاده نادرست از آنها، برخی از جنبه های مثبت و مزایای فناوری دیپ فیک صوتی چیست؟ تصور می کنید رابطه آینده بین هوش مصنوعی و تجربیات ما از درک صوتی چگونه تکامل خواهد یافت؟
آ: برخلاف تمرکز غالب روی این فناوری با کاربردهای شرورانه دیپ فیک های صوتی، پتانسیل بسیار زیادی برای تأثیر مثبت در بخش های مختلف دارد. فراتر از قلمرو خلاقیت، جایی که فناوریهای تبدیل صدا انعطافپذیری بیسابقهای را در سرگرمی و رسانهها ممکن میسازد، دیپفیکهای صوتی نویدهای دگرگونکننده در بخشهای مراقبتهای بهداشتی و آموزش دارند. به عنوان مثال، کار مداوم فعلی من در ناشناس سازی صدای بیمار و پزشک در مصاحبه های مراقبت های بهداشتی شناختی، به اشتراک گذاری داده های پزشکی حیاتی را برای تحقیقات در سطح جهانی تسهیل می کند و در عین حال از حریم خصوصی اطمینان می دهد. به اشتراک گذاری این داده ها در میان محققان باعث رشد در زمینه مراقبت های بهداشتی شناختی می شود. استفاده از این فناوری در ترمیم صدا، امیدی برای افراد مبتلا به اختلالات گفتاری، به عنوان مثال، برای ALS یا گفتار دیزآرتریک، افزایش توانایی های ارتباطی و کیفیت زندگی است.
من در مورد تأثیر آینده مدل های هوش مصنوعی تولید کننده صوتی بسیار مثبت هستم. تعامل آینده بین هوش مصنوعی و ادراک صوتی برای پیشرفت های پیشگامانه، به ویژه از طریق دریچه روان آکوستیک – مطالعه چگونگی درک صداها توسط انسان ها آماده است. نوآوریها در واقعیت افزوده و مجازی، که نمونه آن دستگاههایی مانند Apple Vision Pro و دیگران است، مرزهای تجربههای صوتی را به سمت واقعگرایی بینظیر پیش میبرد. اخیراً تقریباً هر ماه شاهد افزایش تصاعدی در تعداد مدلهای پیچیده بودهایم. این سرعت سریع تحقیق و توسعه در این زمینه نه تنها نوید اصلاح این فناوریها را میدهد، بلکه برنامههای کاربردی آنها را به شیوههایی که عمیقاً به نفع جامعه است گسترش میدهد. علیرغم خطرات ذاتی، پتانسیل مدلهای هوش مصنوعی مولد صوتی برای متحول کردن مراقبتهای بهداشتی، سرگرمی، آموزش و فراتر از آن، گواهی بر مسیر مثبت این حوزه تحقیقاتی است.
منبع: https://news.mit.edu/1403/what-you-need-to-know-audio-deepfakes-0315
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-03-16 04:04:05