آیا می‌توانید صدای انسان را از هوش مصنوعی تشخیص دهید؟

آساف راپاپورت(Assaf Rappaport)، مدیر اجرایی Wiz، یک شرکت پیشرو در امنیت سایبری، در یک کنفرانس فناوری در اکتبر به حضار گفت که شخصی با استفاده از یکی از صحبت‌های اخیرش شبیه‌سازی صوتی انجام داده است. سپس از آن برای ارسال یک پیام صوتی جعل عمیق به ده‌ها کارمند استفاده کرده تا سرقت اطلاعات انجام دهد. کلاهبرداران ناموفق بودند، اما این حادثه، یک زنگ خطر بود.

به نقل از بی‌بی‌سی، اکنون حتی می‌توان از ابزارهای شبیه‌سازی گفتار مبتنی بر هوش مصنوعی برای شبیه‌سازی صدای انسان‌های واقعی استفاده کرد. یکی از این ابزارها به تازگی برای شبیه‌سازی صدای پخش گوینده فقید بریتانیایی سر مایکل پارکینسون(Sir (Michael Parkinson برای تولید یک مجموعه پادکست هشت قسمتی استفاده شد، در حالی که گوینده تاریخ طبیعی سر دیوید آتنبرو(Sir David Attenborough) از شنیدن صدای خودش که توسط هوش مصنوعی شبیه‌سازی شده بود «عمیقاً آشفته» شد.

در برخی موارد از این فناوری برای کلاهبرداری‌های پیچیده استفاده می‌شود تا افراد را فریب دهند که پول را به مجرمان تحویل دهند.

البته همه‌ی صداهای تولید شده توسط هوش مصنوعی برای مقاصد مجرمانه استفاده نمی‌شوند. آنها همچنین در چت‌بات‌های مدل‌های زبانی بزرگ استفاده می‌شوند تا بتوانند به روشی بسیار طبیعی‌تر و قانع‌کننده‌تر صحبت کنند. برای مثال، عملکرد صوتی چت جی‌پی‌تی اکنون می‌تواند با استفاده از تغییرات لحن و تاکید بر کلمات خاص به روش‌های بسیار مشابهی که یک انسان برای انتقال همدلی و احساس بیان می‌کند، پاسخ دهد. همچنین می‌تواند نشانه‌های غیرکلامی مانند آه کشیدن و گریه را دریافت کند و به ۵۰ زبان صحبت کند و لهجه‌ هم داشته باشد. حتی می‌تواند از طرف کاربران برای کمک به آنها، تماس تلفنی برقرار کند.

این قابلیت‌ها یک سوال قابل توجه را بر می‌انگیزد: آیا نکته‌ای منحصر به فرد در صدای انسان وجود دارد که به ما کمک کند آن را از گفتار هوش مصنوعی تمیز دهیم؟

جاناتان هرینگتون(Jonathan Harrington)، استاد آوایی و پردازش گفتار دیجیتال در دانشگاه مونیخ، آلمان، دهه‌ها را صرف مطالعه پیچیدگی‌های نحوه صحبت کردن، تولید صداهای کلمات و لهجه‌های انسان کرده است. حتی او نیز تحت تأثیر قابلیت‌های صوتی هوش مصنوعی قرار گرفته است.

او می‌گوید: در ۵۰ سال گذشته، و به‌ویژه به تازگی، سیستم‌های تولید و ترکیب گفتار به قدری بهبود یافته‌اند که تشخیص صدای تولید شده توسط هوش مصنوعی از صدای واقعی بسیار دشوار است.

اما او معتقد است که هنوز برخی نشانه‌های مهم وجود دارد که می‌تواند به ما کمک کند تا بفهمیم در حال صحبت با یک انسان هستیم یا با یک هوش مصنوعی.

با این حال، قبل از پرداختن به این موضوع، تصمیم گرفتیم یک چالش کوچک ترتیب دهیم تا ببینیم صدای تولید شده توسط هوش مصنوعی تا چه اندازه می‌تواند متقاعد کننده باشد. برای انجام این کار، از معمار هوش مصنوعی استرن دانشگاه نیویورک، کانر گرنان(Conor Grennan)، خواستیم دو کلیپ صوتی ایجاد کند که بخش‌های کوتاهی از متن در آن خوانده می‌شود.

یکی قسمتی از داستان کلاسیک لوئیس کارول، «آلیس در سرزمین عجایب» بود که توسط گرنان خوانده شد و دیگری بخش مشابهی بود که با ابزار شبیه‌سازی گفتار هوش مصنوعی از شرکت نرم‌افزار الون‌لبز(ElevenLabs) تولید شد. می‌توانید هر دوی آنها را در ادامه گوش دهید تا ببینید آیا می‌توانید تفاوت را تشخیص دهید یا خیر. پاسخ این سوال را در انتها خواهیم داد اما پیش از آن به نکاتی می‌پردازیم که می‌توانند برای تشخیص هوش مصنوعی از انسان واقعی مفید باشند.

در کمال تعجب، تقریبا نیمی از افرادی که کلیپ‌ها را برایشان پخش می‌کردیم، نمی‌توانستند تشخیص دهند کدام هوش مصنوعی و کدام انسان است. شایان ذکر است که آزمایش ما علمی نبود و کلیپ‌ها از طریق تجهیزات صوتی پیشرفته پخش نمی‌شدند و فقط از بلندگوهای معمولی لپ‌تاپ و تلفن‌های هوشمند استفاده شد.

استیو گروبمن(Steve Grobman) که به عنوان مدیر ارشد فناوری شرکت امنیت سایبری مک‌آفی(McAfee) خدمت می‌کند، تنها با گوش دادن تلاش کرد تا تشخیص دهد کدام صدای انسان و کدام هوش مصنوعی است.

او می‌گوید: بی‌تردید مواردی فراتر از گفتار وجود داشت، مانند نفس کشیدن که باعث می‌شد بیشتر به سمت انسانی بودن حرکت کنم، اما آهنگ، تعادل، تونالیته مرا به سمت هوش مصنوعی سوق می‌داد. برای گوش آموزش ندیده انسان، درک بسیاری از این موارد می‌تواند دشوار باشد.

گروبمن می‌گوید: وقتی افراد تبهکار صدای واقعی را با بخش‌هایی از صداهای جعلی دستکاری می‌کنند، تشخیص آن چالش برانگیز می‌شود. او به ویدیویی از بیل گیتس، بنیانگذار مایکروسافت، اشاره می‌کند که برای گوش انسان، صدا دقیقا شبیه به صدای این میلیاردر فناوری بود، اما با اجرای آن در یک ابزار تشخیص دهنده کلاه‌برداری، این فیلم به عنوان یک جعل عمیق یا دیپ‌فیک پرچم‌گذاری شد.

یکی دیگر از کارشناسان امنیت سایبری که با او صحبت کردیم به نام پیت نیکولتی(Pete Nicoletti)، مدیر ارشد امنیت اطلاعات جهانی Check Point Software که یک پلتفرم تجزیه و تحلیل تهدید است نیز در چالش «آلیس در سرزمین عجایب»، دچار مشکل شد.

او می‌گوید که معمولا هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکث‌های نامنظم و عبارت‌های نامناسب گوش می‌دهد. مصنوعات عجیب و غریب مانند اعوجاج و نویز پس زمینه نامتناسب نیز می‌تواند یک راه حل باشد.

او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش می‌دهد، زیرا صداهایی که تنها از چند ثانیه صدا شبیه‌سازی می‌شوند، ممکن است دامنه کامل صدای انسان را نداشته باشند.

نیکولتی می‌گوید: ما در جامعه‌ای زندگی می‌کنیم که شبیه‌سازی‌های صوتی تولید شده توسط هوش مصنوعی می‌توانند حتی سیستم‌های اعتبارسنجی صدای شرکت‌های کارت اعتباری را فریب دهند.

دین شرتس(Dane Sherrets)، معمار نوآوری فناوری‌های نوظهور در هکر وان(HackerOne) که جامعه‌ای از شکارچیان باگ برای افشای آسیب‌پذیری‌های امنیتی برخی از بزرگترین شرکت‌های جهان هستند، از جمله کسانی بود که توانست صدای انسان را به درستی شناسایی کنند. او می‌گوید تغییر لحن طبیعی و تنفس در کلیپ‌ها راه حل مناسب بود.

هرینگتون می‌گوید که گوش دادن به تکیه گذاری یا تاکید بر کلماتی که در یک جمله ادا می‌شوند، می‌تواند ترفند خوبی برای تشخیص گفتار تولید شده توسط رایانه از انسان باشد. علت این است که انسانها از تاکید برای ارائه معنی بیشتر به یک جمله در متن گفتگو استفاده می‌کنند.

او می‌گوید: برای مثال، جمله‌ای مانند «ماریانا مارمالاد درست کرد» معمولا بیشترین تاکید را بر ماریانا و مارمالاد دارد، اگر به عنوان یک جمله فردی و بدون زمینه خوانده شود. اما اگر کسی بپرسد که آیا ماریانا مارمالاد را خریده است یا خیر، ممکن است در پاسخ روی کلمه «درست کردن» تاکید شود.

لحن یا تغییر زیر و بم صدا در یک جمله، همچنین می‌تواند کلمات مشابه را از یک جمله خبری به یک جمله پرسشی تبدیل کند.

جمله‌بندی نیز عامل مهمی است. نحوه شکستن یک جمله نیز می‌تواند معنای آن را تغییر دهد. هرینگتون توضیح می‌دهد که جمله‌ی «وقتی خطری تهدید می‌کند، کودکان به پلیس زنگ می‌زنند» معنای بسیار متفاوتی با «وقتی خطر کودکان را تهدید می‌کند، با پلیس تماس بگیرید» دارد.

هرینگتون می‌گوید: این یکی از مواردی است که گفتار تولید شده توسط رایانه در آن بسیار ضعیف بوده و شبیه انسان نیست.

اما با پیشرفت فناوری، هوش مصنوعی در شبیه‌سازی این جنبه‌های گفتار نیز مهارت بیشتری پیدا می‌کند.

شرتس می‌گوید: اگر به آن فکر کنید، اینطور به نظر می‌رسد که این بدترین فناوری است که تا به حال ساخته شده است. حتی چیزی که ۶۰ درصد خوب باشد هم زیادی قدرتمند است و از اینجا به بعد فقط ارزان‌تر، سریع‌تر و بهتر می‌شود.

او و بسیاری از افرادی که با آنها صحبت کردیم به طور خاص نگران شبیه‌سازی صدا هستند. به عنوان مثال، این یک تهدید بسیار واقعی برای مشاغل است.

در مثالی دیگر، یک مدیر مدرسه پس از اینکه یک کلیپ صوتی جعلی نشان می‌داد که او اظهارات عمیقا توهین‌آمیزی می‌کرده، تهدید به مرگ شد. موارد دیگری نیز دیده شده است که کلاهبرداران در تماس‌های تلفنی با استفاده از شبیه‌سازی صدای اعضای خانواده افراد، از آنها تقاضای پول کرده و کلاهبرداری کرده‌اند.

شرتس توصیه می‌کند راه‌های دیگری را برای احراز هویت شخصی که فکر می‌کنید با او صحبت می‌کنید، اتخاذ کنید.

او می‌گوید: برای مثال در خانه، یک رمز خانوادگی تعیین کنید. در محل کار فقط به این دلیل که یک پیام صوتی از مدیر اجرایی شرکت خود دریافت کرده‌اید، کاری انجام ندهید.

‌همچنین می‌توانید سوالات شخصی مانند آهنگ مورد علاقه آنها را بپرسید. اما شاید بهترین کاری که می‌توانید انجام دهید این باشد که اگر مشکوک هستید که یک هوش مصنوعی، هویت شخصی که می‌شناسید را جعل کرده است، به آن فرد بگویید که با او تماس می‌گیرید و با شماره‌ای که از قبل دارید تماس برقرار کنید.

مایکل مک‌نرنی(Michael McNerney)، معاون ارشد امنیت در شرکت بیمه ریسک سایبری، Resilience است که حملاتی که در آن کارکنان فریب داده می‌شوند و با صدای جعلی، پول را انتقال می‌دهند، پوشش می‌دهد. او در چالش «آلیس در سرزمین عجایب» ما نیز به درستی حدس زد که کدام صدای هوش مصنوعی و کدام یک انسان است.

او در حالی که به نمونه‌ها گوش می‌داد، از خودش پرسید: آیا این تنفس واقعی است یا تنفس مصنوعی؟ آیا اشتباهاتی وجود داشت؟ آیا خیلی واضح بود، خیلی عالی؟ تپق زدن و نفس کشیدن بسیار انسانی است، بنابراین اگر همه چیز خیلی عالی باشد، در واقع می‌تواند نشانه‌ای باشد که هوش مصنوعی در حال جعل کردن یک صدا است.

هرینگتون و همکارانش در مؤسسه آوایی دانشگاه مونیخ، با گوش دادن به دو کلیپ صوتی ما، سعی کردند تشخیص دهند. آنها به تعدادی ویژگی اشاره کردند که باید به آنها در شناسایی گفتار انسان کمک می‌کرد.

تغییرات در سرعت گفتار اغلب نشان دهنده صدای انسان است، اما در واقع به نظر می‌رسید که صدای هوش مصنوعی در نمونه‌های ارائه شده‌ی ما، بیشتر از صدای انسان این نشانه را تولید می‌کرد.

نفس گرفتن نیز باید یکی دیگر از نشانه‌ها باشد. چند نفر از آنهایی که کلیپ‌ها را گوش کردند، چیزی در مورد تنفس در هر دو مجموعه کلیپ شناسایی کردند. هرینگتون و همکارانش همچنین گفتند که نفس‌گیری در یکی از کلیپ‌های «آلیس در سرزمین عجایب» تقریبا بیش از حدِ معمول است. اما معلوم شد که آن نمونه انسانی بوده است.

این واقعیت که بسیاری از کارشناسانی که برای این مقاله با آنها صحبت کردیم، تلاش کردند تا هوش مصنوعی و صدای انسان را از هم تمیز دهند، اما موفق نشدند نباید به عنوان یک شکست در توانایی‌های آنها تلقی شود. بلکه نشانه‌ای از این است که هوش مصنوعی در حال حاضر چقدر در تقلید صدای انسان بهبود یافته است.

هرینگتون می‌گوید این چیزی است که می‌تواند پیامدهای نگران کننده‌ای داشته باشد.

هرینگتون می گوید، با این حال، راه دیگری برای تشخیص صدای یک انسان از صدای هوش مصنوعی وجود دارد. او می‌گوید: از چیزی به نام عروضی یا نوای گفتار استفاده کنید. مثال زیر را در نظر بگیرید:

سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟

پاسخ: جان، دیکنز را دوست ندارد.

تاکید بر فعل در پاسخ نشان می‌دهد که پاسخ‌دهنده متوجه می‌شود که دیکنز نویسنده رمان «دوران مشقت» است.

هرینگتون می‌گوید: ترکیب این نوع گفت‌وگوها با یک عروض طبیعی ممکن است هنوز برای بسیاری از سیستم‌های هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپ شده در کتاب است.

اما حتی این نوع آزمون نیز می‌تواند به زودی توسط مدل‌های زبانی بزرگ که از مجموعه داده‌های بزرگی از اینترنت استفاده می‌کنند، پشت سر گذاشته شود. زیرا هوش مصنوعی خود را برای گفتگوی انسانی‌تر آموزش می‌دهد.

سرویس‌های جریان‌ساز مانند عملکرد صوتی چت جی‌پی‌تی قابلیت خندیدن، زمزمه کردن، قطع شدن صحبت و ادامه صحبت را در حال حاضر دارند. همچنین می‌توانند هر آنچه را که تا به حال به آنها گفته‌اید به خاطر بسپارند.

وقتی از اُپن‌ای‌آی پرسیده شد که چه تدابیری در هنگام مکالمه با انسان‌ها برای اطمینان از اینکه هوش مصنوعی نشان می‌دهد که هوش مصنوعی است وجود دارد، اعلام کرد که قصد ندارد هوش مصنوعی را برای قابل شناسایی شدن «واترمارک» کند، زیرا احتمال سوگیری علیه کاربران وجود دارد.

با این حال، این شرکت می‌گوید که فعالانه تلاش می‌کند تا شبیه‌سازی صدای افراد واقعی را با رونمایی از قابلیت‌های پیشرفته چت‌جی‌پی‌تی مسدود کند.

جکی شانون (Jackie Shannon)، سرپرست محصول چندوجهی چت‌جی‌پی‌تی به بی‌بی‌سی گفت: ما تلاش می‌کنیم تا در ساخت صدای مصنوعی خود از کپی کردن صدای افراد واقعی جلوگیری کنیم. ما فقط به مدل اجازه می‌دهیم از صداهای از پیش تعیین شده استفاده کند.

چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که با آن صحبت می‌کنید ممکن است انسانی نباشد، می‌توانید آنها را امتحان کنید. برای مثال می‌توانید از آن بخواهید که فریاد بزند. نیکولتی گفت، بسیاری از سیستم‌های صوتی هوش مصنوعی برای صحبت کردن خارج از محدوده صوتی معمولی مشکل دارند، مگر اینکه به طور خاص آموزش دیده باشند. من از چت جی‌پی‌تی خواستم که فریاد بزند و به من گفت که نمی‌تواند.

گرنان می‌گوید، نقص در گفتار انسان می‌تواند یکی دیگر از نکات مثبت باشد. اصلاح کردن خود و تکرار افکار، کاری بسیار انسانی است. بعید است که هرگز از هوش مصنوعی بشنوید که بگوید: اوه اصلا مهم نیست! یا میدونی چیه!

همچنین اقداماتی برای در دسترس قرار دادن نرم‌افزار تشخیص جعل عمیق در دسترس مصرف‌کنندگان وجود دارد. برای مثال، مک‌آفی (McAfee) با دل(Dell)، اچ‌پی(HP)، لنوو(Lenovo)، سامسونگ(Samsung)، ایسر(Acer) و ایسوس(Asus) همکاری کرده است تا راه حل خود را روی رایانه‌های شخصی مجهز به هوش مصنوعی نصب کند. به گفته گروبمن، این شرکت همچنین انتظار دارد در آینده نزدیک نرم افزار خود را برای دستگاه‌های تلفن همراه عرضه کند.

الون‌لبز(ElevenLabs) که سازنده ابزاری است که برای ایجاد شبیه‌سازی‌های صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» ما استفاده شد نیز همچنین یک ابزار تشخیص هوش مصنوعی رایگان ارائه می‌دهد تا به مردم کمک کند تشخیص دهند که آیا از نرم افزار برای ایجاد یک قطعه صدا استفاده شده است یا خیر.

اما در رقابت تسلیحاتی اجتناب‌ناپذیر بین تولید هوش مصنوعی و تشخیص هوش مصنوعی، ممکن است ارزش جدیدی را در چیزی که در دنیای به‌طور فزاینده‌ای مجازی از دست داده‌ایم بیابیم - تعامل فیزیکی. شاید در جستجوی یافتن اینکه آیا با یک انسان صحبت می‌کنید، راه حل ساده است - زمان بیشتری را صرف ملاقات رو در رو کنید.