صوت التزييف العميق
تكفي بضع ثوانٍ من صوت شخص ما لاستنساخ صوته بشكل مقنع. وكانت التكنولوجيا بمثابة فضول بحثي حتى عام 2023؛ وفي عام 2024 أصبحت سلعة. أبلغت فرق الاحتيال عن زيادات حادة في عمليات احتيال انتحال الصوت ضد الأجداد، والمديرين التنفيذيين، والآباء - ولم تتمكن الدفاعات من اللحاق بالركب.
يتم توفير نص المقالة الكامل باللغة الإنجليزية أدناه.
Voice Deepfakes عبارة عن مقاطع صوتية تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تحاكي صوت شخص معين بشكل مقنع. يمكن للنماذج الحديثة (Eleven Labs وOpenAI Voice Engine وMicrosoft VALL-E والعديد من البدائل مفتوحة المصدر) استنساخ الصوت المستهدف من 3 إلى 30 ثانية من الصوت المرجعي. الإخراج جيد بما يكفي لخداع معظم المستمعين في معظم السياقات.
كيفية عمل الاستنساخ
النمط العام:
- قم بتدريب نموذج صوتي أساسي على مجموعة بيانات كبيرة من الأصوات المتنوعة التي تتحدث محتوى متنوعًا. وهذا يجسد البنية العامة للكلام البشري.
- قم بتوفير مقطع مرجعي قصير للصوت المستهدف. يستخرج النموذج تضمينًا صوتيًا — وهو ناقل عالي الأبعاد يلتقط خصائص المتحدث.
- قم بإنشاء خطاب جديد من خلال الجمع بين النص التعسفي مع تضمين الصوت. يبدو الإخراج مثل الهدف الذي يتحدث النص. كما تستنسخ الأنظمة
Modern النغمة العاطفية واللهجة وسرعة التحدث. لقد انتقلت التكنولوجيا من "يمكن اكتشافها عند الاستماع الدقيق" في عام 2022 إلى "غالبًا ما لا يمكن تمييزها عن الصوت الحقيقي" في عام 2025. استنساخ الصوت يلغي الدفاع التاريخي عن "هذا لا يبدو مثلهم". أبلغت ولايات قضائية متعددة عن زيادات كبيرة.
حيث يأتي الصوت المصدر من
يحتاج إنشاء نسخة مفيدة إلى ثوانٍ فقط من الصوت المصدر. المصادر وفيرة:
- تحيات البريد الصوتي
- مقاطع فيديو الوسائط الاجتماعية (TikTok، Instagram Stories، YouTube)
- محادثات المؤتمرات والبودكاست
- مكالمات الأرباح العامة للمديرين التنفيذيين
- الرسائل الصوتية على WhatsApp أو الإشارة إلى أن المستلم مشاركات
- رسائل البريد الصوتي المتبقية في الشركات
بالنسبة لمعظم الأشخاص في عام 2026، يوجد ما يكفي من مصدر الصوت بشكل عام لإنشاء نسخة مقنعة.
ما يدافع ضد التزييف الصوتي العميق
الاكتشاف الفني غير موثوق به. إن الحالة الحالية لاكتشاف التزييف العميق للصوت تعادل تقريبًا اكتشاف التزييف العميق للصور في أوائل عام 2020 - وهو يعمل في بعض الحالات، ويفشل في حالات أخرى، ولن يواكب تحسينات النموذج.
الدفاعات الإجرائية أكثر موثوقية:
- التحقق خارج النطاق. لا تثق بالصوت وحده للمخاطر العالية الإجراءات. اتصل مرة أخرى من خلال رقم معروف. استخدم مكالمة فيديو إذا استطعت.
- عبارات الكود. يوصى بشكل متزايد بعبارات الكود العائلية لطلبات الأموال الطارئة من قبل مجموعات منع الاحتيال.
- أسئلة المعرفة الشخصية. "ما هو اسم كلبنا الأول؟" الأشياء التي لا يمكن للاستنساخ استخراجها من المصادر العامة.
- التحقق المبني على العمليات. يجب أن تطلب فرق تمويل الشركات موافقة من عدة أشخاص وقنوات محددة مسبقًا للتحويلات البنكية، بغض النظر عمن يتصل وكيف يبدو الأمر.
- تبطئ في الإلحاح. تقول الهندسة الاجتماعية الكلاسيكية - "يجب أن يحدث هذا الآن" - ينطبق. حالات الطوارئ الحقيقية التي تتطلب تحويلات مصرفية دون التحقق نادرة للغاية.
الخدمات المصرفية والقياسات الحيوية الصوتية
تحولت العديد من البنوك الكبرى إلى المصادقة البيومترية الصوتية للخدمات المصرفية عبر الهاتف في العقد الأول من القرن الحادي والعشرين. كان سطح الهجوم مقبولا في ذلك الوقت. مع استنساخ الصوت الحديث، لا تعد القياسات الحيوية الصوتية وحدها عاملاً ثانيًا يمكن الدفاع عنه. تنتقل البنوك إلى التحقق الطبقي، لكن الانتقال غير متساوٍ.
إذا كان البنك الذي تتعامل معه لا يزال يقبل المصادقة الصوتية، ففكر في تعطيلها أو استكمالها بطرق تحقق إضافية.
البعد السياسي
أصبح التضليل السياسي الصوتي العميق حقيقيًا في 2023-2024. قضت لجنة الاتصالات الفيدرالية (FCC) في فبراير 2024 بأن الأصوات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي في المكالمات الآلية تخضع لقانون حماية المستهلك عبر الهاتف. اقترحت العديد من الدول قوانين الكشف عن التزييف العميق. التنفيذ متفاوت. تتطور التكنولوجيا بشكل أسرع من السياسة.
بالنسبة للناخبين والمواطنين: افترض أن أي صوت مثير للجدل لشخصية عامة قد يكون اصطناعيًا، خاصة إذا كان يتوافق بشكل ملائم مع السرد الحزبي. تحقق قبل المشاركة.
للمستخدمين العاديين
ثلاث عادات تقلل المخاطر بشكل هادف:
- قم بإنشاء عبارة رمزية مع أفراد العائلة لأي طلب أموال طارئ حقيقي. استخدمه.
- لا تسمح أبدًا بالمال أو الإجراءات الحساسة بناءً على الصوت وحده. تحقق دائمًا خارج النطاق.
- إذا تلقيت مكالمة صوتية عاجلة بشأن المال، فابطئ السرعة وأغلق الخط ثم اتصل مرة أخرى من خلال رقم لديك بالفعل - وليس الرقم الذي اتصل بك.
الأسئلة المتداولة
- هل يمكنني اكتشاف الصوت المزيف العميق عن طريق الأذن؟
- في بعض الأحيان - نغمة موسيقية مفرطة في الكمال، ونغمة آلية طفيفة في الجمل الممتدة، وضوضاء محيطة غير متطابقة. تعتبر الأنظمة الحديثة جيدة بما يكفي بحيث لا يمكن الاعتماد على الكشف عن طريق الأذن. التحقق الإجرائي مهم أكثر من مهارة الكشف.
- ما مقدار الصوت المطلوب لاستنساخ الصوت؟
- تعمل الأنظمة التجارية خلال أقل من 3 ثوانٍ. جودة أعلى خلال 30 ثانية إلى بضع دقائق. بالنسبة لمعظم الشخصيات العامة ومستخدمي وسائل التواصل الاجتماعي النشطين، يمكن العثور بسهولة على مصدر صوتي كافٍ عبر الإنترنت.
- هل هناك أدوات كشف فعالة؟
- نعم لأنظمة توليد محددة وسيناريوهات محددة. يعمل الاكتشاف بشكل أفضل باعتباره فحصًا في المرحلة الثانية بعد ظهور الشك بالفعل لأسباب أخرى. تعد الدفاعات التشغيلية (مكالمات التحقق، وعبارات التعليمات البرمجية) أكثر موثوقية من الكشف عند منع الاحتيال.
- هل استنساخ الصوت قانوني؟
- يعد إنشاء نسخة أمرًا قانونيًا بشكل عام. يعد استخدامه لارتكاب عمليات احتيال أو التشهير أو انتحال شخصية شخص ما لتحقيق مكاسب إجرامية أمرًا غير قانوني. لدى العديد من الولايات القضائية قوانين محددة للكشف عن التزييف العميق الآن. الأدوات ذات الاستخدام المزدوج. الشرعية تتبع الاستخدام.
- هل يجب على البنوك التوقف عن استخدام القياسات الحيوية الصوتية؟
- كعامل ثانٍ وحيد، نعم. يعد التحقق الصوتي + الإضافي (الموقع والجهاز وسجل الحساب) أكثر قابلية للدفاع. لقد انتقلت العديد من البنوك الكبرى بالفعل من المصادقة الصوتية فقط؛ والبعض الآخر لا يزال في مرحلة انتقالية.