Microsoft VALL-E صدای هر کسی را از یک نمونه 3 ثانیه ای بازتولید می کند

مدیریت ژانویه 12, 2023

31 زمان تقریبی مطالعه 6 دقیقه

محققان مایکروسافت اپلیکیشن جدیدی را معرفی کردند که از هوش مصنوعی برای تقلید صدای افراد تنها در چند ثانیه آموزش استفاده می کند. سپس می‌توان از مدل صوتی برای برنامه‌های تبدیل متن به گفتار استفاده کرد.

این برنامه که VALL-E نامیده می شود، می تواند برای ترکیب گفتار شخصی با کیفیت بالا تنها با یک ضبط سه ثانیه ای از یک بلندگو که به عنوان پیام صوتی عمل می کند، استفاده شود، محققان در مقاله ای که به صورت آنلاین در arXiv، یک سرویس توزیع آزاد و آزاد ارسال شده است، نوشتند. . دسترسی به آرشیو مقالات علمی

اکنون برنامه‌هایی وجود دارند که می‌توانند گفتار را به یک جریان صوتی برش داده و جای‌گذاری کنند و آن گفتار از متن نوشته شده به صدای گوینده تبدیل می‌شود. با این حال، نرم افزار باید برای تقلید صدای یک فرد آموزش داده شود که ممکن است یک ساعت یا بیشتر طول بکشد.

راس روبین، تحلیلگر اصلی در Reticle Research، یک شرکت مشاوره فناوری مصرف کننده در شهر نیویورک، به TechNewsWorld گفت: “یکی از نکات قابل توجه در مورد این مدل این است که آن را در عرض چند ثانیه انجام می دهد. این بسیار چشمگیر است.”

به گفته محققان، VALL-E به طور قابل توجهی از سیستم های مدرن متن به گفتار (TTS) هم در طبیعی بودن گفتار و هم از نظر شباهت گوینده بهتر عمل می کند.

علاوه بر این، VALL-E می تواند احساسات و محیط آکوستیک گوینده را حفظ کند. بنابراین، اگر نمونه گفتار از طریق تلفن ضبط شده باشد، برای مثال، متن با استفاده از آن صدا به نظر می رسد که از طریق تلفن خوانده می شود.

“فوق العاده چشمگیر”

جاکومو میشلی، دانشمند کامپیوتر و خالق وب‌سایتی با بحث‌های بی‌پایان ایجاد شده توسط هوش مصنوعی، گفت VALL-E نسبت به آخرین سیستم‌های قبلی، مانند YourTTS که در اوایل سال 2022 منتشر شد، پیشرفت قابل توجهی است. گفتمان ترکیبی توسط ورنر هرتزوگ و اسلاوی چیچک

Miceli به TechNewsWorld گفت: «نکته جالب در مورد VALL-E نه تنها این واقعیت است که برای بازتولید یک صدا فقط سه ثانیه طول می‌کشد، بلکه این است که چقدر می‌تواند با آن صدا، صدای عاطفی و هر نویز پس‌زمینه مطابقت داشته باشد. ریتو جیوتی، نایب رئیس گروه هوش مصنوعی و اتوماسیون در IDC، یک شرکت تحقیقاتی بازار جهانی، VALL-E را “مهم و بسیار چشمگیر” خواند.

جیوتی به TechNewsWorld گفت: «این یک پیشرفت بزرگ نسبت به مدل‌های قبلی است که به دوره آموزشی بسیار طولانی‌تری برای تولید صدای جدید نیاز داشت.

او افزود: «هنوز روزهای اولیه برای این فناوری است و انتظار می‌رود که با پیشرفت‌های بیشتر، آن را شبیه به انسان کند».

شبیه سازی احساسات زیر سوال رفته است

برخلاف OpenAI، سازنده ChatGPT، مایکروسافت VALL-E را برای عموم باز نکرده است، بنابراین سوالاتی در مورد عملکرد آن باقی مانده است. به عنوان مثال، آیا عواملی وجود دارد که می تواند باعث ایجاد گفتار نامفهوم ناشی از برنامه شود؟

میسلی خاطرنشان کرد که «هرچه قطعه صوتی طولانی‌تر تولید شود، شانس بیشتری برای شنیدن چیزهایی که کمی نامطلوب به نظر می‌رسند افزایش می‌یابد». کلمات ممکن است در ساختار گفتار نامشخص، مفقود یا تکرار شونده باشند.

او افزود: «همچنین ممکن است جابجایی بین ثبت احساسات غیرطبیعی به نظر برسد.

توانایی این اپلیکیشن برای شبیه سازی احساسات گوینده نیز دارای شک و تردیدهایی است. مارک ان. ونا، رئیس و تحلیلگر اصلی در SmartTech Research در سن خوزه، کالیفرنیا، گفت: «این جالب خواهد بود که ببینیم این قابلیت چقدر قوی است.

او ادامه داد: «با توجه به محدودیت‌های فعلی الگوریتم‌های هوش مصنوعی که به نمونه‌های صوتی بسیار طولانی‌تری نیاز دارند، باور این واقعیت که آنها ادعا می‌کنند می‌توانند این کار را تنها با چند ثانیه صدا انجام دهند، سخت است.

دغدغه های اخلاقی

کارشناسان برنامه های کاربردی مفیدی را برای VALL-E و همچنین برخی از برنامه های نه چندان مفید می بینند. جیوتی به ویرایش سخنرانی و جایگزینی صداپیشگان اشاره کرد. Miceli خاطرنشان کرد که این فناوری می تواند برای ایجاد ابزارهای ویرایش برای سازندگان پخش، سفارشی کردن صدای بلندگوهای هوشمند و همچنین ادغام در سیستم های پیام رسانی، اتاق های گفتگو، بازی های ویدیویی و حتی سیستم های ناوبری استفاده شود.

میشلی افزود: روی دیگر سکه این است که یک کاربر بدخواه می‌تواند مثلاً یک صدای سیاسی را شبیه‌سازی کند و از آن بخواهد حرف‌هایی بزند که غیرقابل قبول یا تحریک‌آمیز به نظر می‌رسد یا به طور کلی برای انتشار اطلاعات نادرست یا .

اگر به همان خوبی که مایکروسافت ادعا می کند، Vena پتانسیل سوء استفاده زیادی را در این فناوری می بیند. او گفت: «در سطح خدمات مالی و امنیت، تجسم موارد استفاده توسط بازیگران بدجنس کار سختی نیست که می‌تواند صدمات واقعی داشته باشد.

آینده خود را با مدرک آنلاین علوم کامپیوتر از Drexel باز کنید
برنامه های آنلاین علوم کامپیوتر دانشگاه Drexel به گونه ای طراحی شده اند که شما را برای کار بر روی آخرین فناوری آماده کنند. برنامه درسی برای دانش آموزان با هر سطح تجربه یا دانش قبلی طراحی شده است. نیاز به اطلاعات “

Jyoti همچنین نگرانی های اخلاقی را در اطراف VALL-E می بیند. او توضیح داد: “با پیشرفت فناوری، صداهای تولید شده توسط VALL-E و فناوری های مشابه قانع کننده تر می شوند.” “این دری را به روی تماس های هرزنامه واقعی باز می کند که صدای افراد واقعی را که قربانی بالقوه می شناسد تکرار می کند.”

وی افزود: «همچنین می‌توان جعل هویت سایر شخصیت‌های سیاسی و عمومی را جعل کرد.

او افزود: «ممکن است نگرانی‌های امنیتی بالقوه وجود داشته باشد. به عنوان مثال، برخی از بانک‌ها رمز عبور صوتی را مجاز می‌دانند که نگرانی‌هایی را در مورد سوء استفاده ایجاد می‌کند. ما می‌توانیم انتظار تشدید رقابت تسلیحاتی بین محتوای تولید شده توسط هوش مصنوعی و نرم‌افزار تشخیص هوش مصنوعی را داشته باشیم تا از سوء استفاده جلوگیری شود.”

جیوتی افزود: «توجه به این نکته مهم است که VALL-E در حال حاضر در دسترس نیست. “به طور کلی، تنظیم هوش مصنوعی بسیار مهم است. ما باید ببینیم که مایکروسافت چه اقداماتی را برای تنظیم استفاده از VALL-E انجام می دهد.”

وکلا را وارد کنید

مسائل حقوقی نیز ممکن است در مورد این فناوری ایجاد شود. گفت مایکل ال. مدیر ارشد در هارنس IP، یک شرکت حقوقی ملی مالکیت معنوی.

وی ادامه داد: «به عنوان مثال، بازتولید صدا ممکن است منجر به یک دروغگویی عمیق از صدای یک شخص واقعی شود که ممکن است برای فریب شنونده به تقلب یا تقلید صدای یک نامزد انتخاباتی مورد استفاده قرار گیرد. در حالی که چنین تخلفاتی محتمل است. برای طرح مسائل حقوقی در زمینه های تقلب، افترا و یا با این حال، فقدان قوانین خاصی برای هوش مصنوعی وجود دارد که به استفاده از خود این فناوری رسیدگی کند.”

جستجوی تجارت الکترونیک خود را با آموزش روز صفر افزایش دهید

وی افزود: «علاوه بر این، بسته به اینکه نمونه صوتی خام چگونه به دست آمده است، ممکن است تحت قوانین استراق سمع فدرال و استراق سمع ایالتی اگر نمونه صوتی مثلاً از طریق یک خط تلفن به دست آمده باشد، پیامدهایی وجود داشته باشد.

تیش خاطرنشان کرد: «در نهایت، در شرایط محدود، اگر قرار باشد چنین بازتولید صدایی توسط یک بازیگر دولتی برای خاموش کردن، مشروعیت‌زدایی، یا آسیب رساندن به صداهای مشروع در استفاده از حق آزادی بیان استفاده شود، ممکن است در شرایط محدود، نگرانی‌هایی در متمم اول وجود داشته باشد.»

او گفت: «با بلوغ این فناوری‌ها، ممکن است نیاز به قوانین خاصی برای رسیدگی مستقیم به این فناوری و جلوگیری از سوء استفاده از آن با پیشرفت فناوری و دسترسی بیشتر باشد.»

سرمایه گذاری هوشمندانه انجام دهید

در هفته‌های اخیر، مایکروسافت سرفصل اخبار هوش مصنوعی بوده است. انتظار می رود امسال فناوری ChatGPT را در موتور جستجوی Bing و احتمالاً در برنامه های Office خود ادغام کند. همچنین گفته می شود که قصد دارد 10 میلیون دلار در OpenAI سرمایه گذاری کند – و اکنون VALL-E.

Bob O’Donnell، بنیانگذار و تحلیلگر ارشد در Technalysis Research، یک شرکت مشاوره و تحقیقات بازار فناوری در فاستر، کالیفرنیا، گفت: “من فکر می کنم آنها سرمایه گذاری های هوشمندانه زیادی انجام می دهند.”

O’Donnell به TechNewsWorld گفت: “آنها چندین سال پیش از OpenAI استفاده کردند، بنابراین برای مدت طولانی در پشت صحنه این موضوع بودند.

او ادامه داد: «آنها مجبور بودند با گوگل که به هوش مصنوعی معروف است، بازی کنند، اما مایکروسافت در حال انجام برخی حرکات تهاجمی برای پیشروی است. “آنها از محبوبیت و پوشش شگفت انگیزی که همه این چیزها به دست آوردند می پرند.”

روبین اضافه کرد: “مایکروسافت که در 30 سال گذشته پیشرو در بهره وری بوده است، می خواهد این پیشتاز را حفظ کرده و گسترش دهد. هوش مصنوعی می تواند کلید آن باشد.”

مدیریت ژانویه 12, 2023

31 زمان تقریبی مطالعه 6 دقیقه