در این مطلب کارو تک به سؤالاتی همچون دستیار صوتی هوشمند چیست؟، دستیار صوتی چگونه کار میکند؟ و کاربرد دستیار صوتی چیست؟ پاسخ میدهیم و همه چیز درباره دستیار صوتی و انواع همه دستیار صوتی را شرح میدهیم. با ما همراه باشید.
در پاسخ به این سؤال که دستیار صوتی چیست؟ میتوان گفت که دستیار صوتی یا همان Voice Assistant یک دستیار دیجیتالی است که با استفاده از تشخیص صدا، الگوریتمهای پردازش زبان و سنتز صدا، دستورهای خاص را دریافت و اطلاعات مورد نیاز را بازمیگرداند یا عملکردی خاص را با توجه به خواسته کاربر انجام میدهد.
دستیارهای صوتی براساس دستورها خاص که به آنها «Intent» گفته میشود، میتوانند کلمات کلیدی خاص را بشنوند و به درخواستها پاسخ دهند. درحالیکه دستیارهای صوتی میتوانند کاملاً نرمافزاری باشند و قابلیت ادغام با اکثر دستگاهها را داشته باشند، برخی از آنها برای برنامههای تکدستگاهی همچون ساعت دیواریهای آمازون الکسا طراحی شدهاند. آیا میدانید اسپاتیفای چیست؟
امروزه دستیارهای صوتی برای در اکثر دستگاههایی که استفاده میکنیم ازجمله گوشیهای هوشمند، رایانههای شخصی و اسپیکرهای هوشمند وجود دارند و این طیف گسترده موجب میشود تا دستیارهای صوتی متعددی وجود داشته باشند که هرکدام ویژگیهای خاصی را دربربگیرند.
دستیار صوتی سابقهای طولانی دارد و اختراع آن به بیش از 100 سال پیش بازمیگردد و این میتواند تعجببرانگیز باشد چراکه دستیارهای صوتیای همچون Siri اپل در یک دهه گذشته منتشر شدهاند.
اولین محصول مبتنی بر صدا در سال 1922 با عنوان Radio Rex عرضه شد. این محصول یک سگ اسباب بازی بود که در داخل خانه میماند و با فریاد نام Rex از سوی کاربر، این اسباب بازی از خانه بیرون میپرید. تمامی اینها توسط یک آهنربای مغناطیسی که با فرکانس مصوت موجود در کلمه Rex تنظیم شده بود، انجام میشد؛ فناوریای که 20 سال پیش از کامپیوترهای مدرن معرفی شده بود.
Audry نیز اولین بار در نمایشگاه جهانی سال 1952 از سوی آزمایشگاه Bell معرفی شد. این محصول یک دستگاه کوچک نبود، بلکه بدنهای به اندازه 6 فوت ارتفاع داشت میتوانست ده عدد را تشخیص دهد.
شرکت IBM نیز سابقهای طولانی در زمینه دستیاران صوتی دارد و در نمایشگاه سیاتل در سال 1962، IBM Shoebox را معرفی کرد. این دستگاه که بهعنوان یک ماشین حساب ساده شناخته میشد، قادر به تشخیص ارقام 0 تا 9 و شش فرمان ساده همچون “جمع” یا “تفریق” بود.
سپس شرکت Darpa پنج سال به تحقیق و توسعه تکنولوژی تشخیص گفتار پرداخت و برنامه درک گفتار SUR را راهاندازی کرد که نتیجه آن، درک بیش از 1000 کلمه از سوی دستیاران صوتی بود که بهعنوان بزرگترین نوآوری آن زمان شناخته میشود.
این پیشرفت منجر به تحقیقات شگفتانگیز بیشتری در دهههای بعد شد و دستگاههای تشخیص صدا را قادر ساخت تا از تشخیص چندصد کلمه به هزار کلمه دست پیدا کنند و به آرامی به خانه مصرفکنندگان وارد شوند.
سپس در سال 1990، Dragon Dictate با قیمت تکاندهنده 9000 دلار برای مصرفکنندگان عرضه شد. این اولین برنامه تشخیص گفتار برای رایانههای شخصی بود که به کاربران این امکان را میداد تا یک کلمه را به رایانه دیکته کنند. هفت سال بعد، Dragon NaturallySpeaking با قیمت ارزانتر 695 دلاری منتشر شد که از تجربهای طبیعیتر برخوردار بود و میتوانست حداکثر 100 کلمه را در هر دقیقه تشخیص دهد.
در سال 1994 نیز Simon By IBM عرضه شد؛ اولین دستیار هوشمند شرکت IBM. سیمون یک PDA و اولین تلفن هوشمند تاریخ بود، با در نظر گرفتن اینکه 25 سال پیش از HTC Droid عرضه شده بود!
در سال 2008، همزمان با عرضه اولین نسخه اندروید، گوگل راه را برای جستجوی صوتی در برنامههای خود و سیستمعاملهای مختلف باز کرد تا جایی که برنامه Google Voice Search در سال 2011 منتشر شد. این منجر به ویژگیهای پیشرفتهتر و عرضه Google Now و Google Voice Assistant شد.
پس از آن، Siri در سال 2010 به جمع دستیاران صوتی پیوست. این دستیار صوتی که برنامه SRI International شرکت Nuance Communications بود، برای اولین بار در سال 2010 در فروشگاه App Store سیستمعامل iOS منتشر شد و اپل دوماه بعد تصمیم به خرید آن گرفت. سپس با عرضه iPhone 4s، سیری بهطور رسمی بهعنوان دستیار صوتی یکپارچه در iOS منتشر شد و از آن زمان، راه خود را به تمامی محصولات اپل باز کرده و تمامی دستگاههای این شرکت را در یک اکوسیستم واحد به هم متصل کرده است.
سؤال اصلی اینجا است دستیار صوتی چیست و دستیار صوتی چگونه کار میکند و کاربرد دستیار صوتی چیست؛ دستیار صوتی از هوش مصنوعی و تکنولوژی تشخیص صدا برای ارائه دقیق و کارآمد نتیجهای که کاربران بهدنبالشان هستند، استفاده میکند؛ موضوعی که فناوری پشت آن را بسیار جذاب میکند.
تشخیص گفتار با گرفتن یک سیگنال آنالوگ از صدای کاربران و تبدیل آن به یک سیگنال دیجیتالی کار میکند. پس از آن، رایانه سیگنال دیجیتال را دریافت کرده و سعی میکند آن را با کلمات و عبارات تطبیق داده تا بتواند دستور کاربران را تشخیص دهد.
برای انجام این کار، رایانه به پایگاه دادهای از کلمات و هجاهای از پیش تعیین شده در یک زبان خاص نیاز دارد تا بتواند سیگنال دیجیتال را با آن مطابقت دهد. بررسی سیگنال ورودی با پایگاه داده بهعنوان تشخیص الگو شناخته میشود. با اونواع ترفند ویندوز آشنا شوید.
هوش مصنوعی از ماشین برای شبیهسازی و تکرار هوش انسان استفاده میکند. در سال 1950، آلن تورینگ مقالهای با عنوان “Computing Machinery and Intelligence” منتشر کرد که با مطرح کردن یک سؤال آغاز شد: آیا ماشینها میتوانند فکر کنند؟ آلن تورینگ سپس به توسعه تست تورینگ پرداخت؛ روشی برای ارزیابی رایانه جهت آزمایش توانایی تفکر انسانی. در ادامه این ارزیابی، چهار رویکرد ایجاد شد که هوش مصنوعی، تفکر انسانی/منطقی و رفتار انسانی/منطقی را دربرمیگرفت.
درحالیکه دو مورد اول با استدلال سروکار دارند، دو مورد دوم به رفتار واقعی انسانها مرتبط هستند. هوش مصنوعی مدرن معمولاً بهعنوان یک سیستم رایانهای طراحی میشود که وظایف مرتبط با تعامل انسان را انجام میدهند. این سیستمها میتوانند با استفاده از فرایندی که تحت عنوان یادگیری ماشین شناخته میشوند، خودبهخود بهبود یابند.
یادگیری ماشین به زیرمجموعه هوش مصنوعی اطلاق میشود که در آن برنامهها بدون استفاده از کدنویسی دستی برنامهنویسان ایجاد میشوند. به جای نوشتن یک برنامه بهطور کامل، برنامهنویسان الگوهای هوش مصنوعی و مقادیر زیادی از داده را برای تشخیص و یادگیری به ماشینها میدهند تا مورد مطالعه قرار گیرد.
بدین ترتیب هوش مصنوعی به جای داشتن قوانین خاص، الگوهای موجود در دادهها را جستجو میکند و از آن برای بهبود عملکرد خود استفاده میکند. یکی از موارد استفاده از یادگیری ماشین در تشخیص گفتار و هوش مصنوعی مبتنی بر صدا است که دادههای لهجه و گویش را دربرمیگیرد.
دو روش برای یادگیری ماشین وجود دارد: یادگیری تحت نظارت و یادگیری بدون نظارت. در یادگیری تحت نظارت، برخی از دادهها برچسبگذاری شده و صحت آنها مورد تأیید قرار گرفته است. این مدل به دستهبندی دیگر دادهها و ساخت یک الگوریتم صحیح نیز کمک میکند.
در مدل بدون نظارت، دادهها برچسبگذاری نمیشوند و بدین ترتیب، الگو باید بهدرستی پیدا شود. این روش زمانی کارآمد است که مدل به یافتن الگوهای صحیحی دست یابد که توسط سازندگان قابل تشخیص نبوده است.
امروزه بسیاری از دستیاران صوتی، شیوههای کاری واکنشگرا و دانشمحور را با یکدیگر ترکیب میکنند تا هر وظیفهای که توسط کاربر مشخص میشود را انجام دهند. شیوههای کاری مبتنی بر وظایف ممکن است شامل پر کردن یک فرم باشد درحالیکه شیوههای دانشمحور به پاسخ دادن سرمایهیک ایالت یا تعیین مشخصات فنی یک محصول مرتبط است.
رویکرد وظیفهمحور با استفاده از اهداف مختلف، به انجام وظایف میپردازد تا نیازهای کاربران را رفع کند. این رویکرد اغلب خود را با سایر برنامهها ادغام میکند تا به تکمیل وظایف کمک کند. بهعنوان مثال، اگر از دستیار صوتی خود بخواهید تا زنگ ساعت خود را برای ساعت 3 بعد از ظهر تنظیم کند، دستیار متوجه میشود که این یک وظیفه است و با برنامه ساعت ارتباط برقرار میکند تا زنگ ساعت را تنظیم کند.
سپس جستجو میکند تا ببیند که آیا چیز دیگری مانند عنوان یا نوع زنگ برای برنامه مورد نیاز هست یا خیر و نیازها را کاربر بازمیگرداند. این رویکرد عموماً به پایگاه داده گستردهای نیاز ندارد چراکه دانش و مهارتهای خود را از برنامههای نصب شده دریافت میکند.
در رویکرد دانشمحور از دادههای تحلیلی برای کمک به کاربران و انجام وظایف استفاده میشود که بر پایگاههای داده آنلاین و دانش ثبت شده متمرکز است. به عنوان مثال، زمانی که کاربران درخواستی برای جستجوی اینترنتی میکنند، دستیار صوتی در پایگاه آنلاین به یافتن نتایج مربوطه پرداخته و بالاترین نتایج جستجو را پیشنهاد میکند.
در ادامه به معرفی دستیارهای صوتی موجود میپردازیم که هر کدام برای سیستمعاملهای مختلف و با ویژگیهای خاص ساخته و عرضه شدهاند:
سیری چیست ؟سیری امروزه یکی از محبوبترین دستیارهای صوتی است که در سال 2010 توسط شرکت Nuance Communications ایجاد و در سال 2011 از سوی اپل خریداری شد. سیری امروزه به بخشی جداییناپذیر از اکوسیستم اپل تبدیل شده که تمامی دستگاهها و برنامههای اپل را در کنار هم قرار میدهد.
الکسا در سال 2014 توسط آمازون ایجاد شد و بهدلیل شباهتاش به کتابخانه اسکندریه، این نام را بهخود گرفت. الکسا در اصل از سیستم صوتی مکالمه موجود در U.S.S. Enterprise فیلم پیشتازان فضا الهام گرفته شده و در کنار The Amazon Echo، بلندگوی هوشمندی که برای استفاده کاربران در دنیای اتوماسیون خانگی ساخته شده، عرضه شد. از پلتفرم الکسا برای تعامل کاربران با اکوسیستم آمازون و اتصال آن با تعداد زیادی از دستگاههای هوشمند استفاده میشود.
Google Assistant که در ابتدا در سال 2016 رونمایی شد، جانشین معنوی Google Now بود که بهبود اصلی آن، افزودن مکالمات دوطرفه محسوب میشد؛ جایی که گوگل پاسخها را در قالب یک صفحه نتایج جستجو بازمیگرداند و Google Assistant با زبانی دیگر و در قالب جملاتی طبیعی، توصیههایی را در اختیار کاربران قرار میدهد.
مایکروسافت از سال 2009 در تلاش برای توسعه Cortana بود؛ محصولی که طولانیترین چشمانداز را در زمینه دسترسی افراد به دستیاران صوتی در زندگی روزمره داشته است. بدین منظور، مایکروسافت Cortana را به ویندوز 10 و سیستمعامل ایکس باکس اضافه کرد و موجب رشد زیاد کاربران آن شد. طبق گزارش منتشر شده در سال 2018، Cortana بیش از 800 میلیون کاربر فعال را بهخود اختصاص داده است.
در این مطلب به سؤالاتی همچون دستیار صوتی هوشمند چیست؟، دستیار صوتی چگونه کار میکند و کاربرد دستیار صوتی چیست؟ پاسخ دادیم و همه چیز درباره دستیار صوتی و انواع همه دستیار صوتی را شرح دادیم. امیدواریم از خواندن این مطلب لذت برده باشید.
برخی از سؤالات رایج:
بهترین دستیار صوتی چیست؟ سیری بهسبب پیشرفته بودن و داشتن ویژگیهای پیشرفته بهعنوان یکی از برترین دستیارهای صوتی تبدیل شده است. دستیار صوتی آمازون چه نام دارد؟ دستیار صوتی آمازون که تحت عنوان الکسا شناخته میشود، در سال ۲۰۱۴ توسط آمازون عرضه شد.