فشردهسازی دادههای صوتی
نوعی از فشردهسازی دادهاست که به منظور کاهش اندازه فایلهای صوتی طراحی شدهاست. الگوریتمهای فشردهسازی صوتی در نرمافزارهای کامپیوتری تحت عنوان رمزگذارهای صوتی(audio codecs) اجرا میشوند. نوعی الگوریتمهای فشردهسازی صوتی عملکرد ضعیفی در برابر دادههای صوتی دارند و به ندرت کاهش اندازه فایل به میزان کمتر از ۸۷٪ اندازه فایل اصلی میرسد و برای استفاده در زمان کنونی طراحی نشدهاند. در نتیجه الگوریتمهای بدون اتلاف و پراتلاف صوتی خاصی ایجاد شدهاند. الگوریتمهای پراتلاف ضریب تراکم بیشتری را فراهم میکنند و در وسایل صوتی اصلی مصرفکنندگان استفاده شدهاند. همچون فشردهسازی عکس، در فشردهسازی صوتی هم از هر دو روش بدون اتلاف و پراتلاف استفاده میشود، اما پراتلاف برای مصارف روزانه رایجتر است. در هر دو روش فشردهسازیبدون اتلاف و پراتلاف با استفاده از روشهایی مثل کدگذاری، شناسایی الگو و محاسبه خطی برای کاهش مقدار اطلاعات استفاده شده برای توصیف دادهها افزونگی(redundancy) اطلاعات کاهش مییابد.
فشردهسازی بدون اتلاف صوت
از زمانی که ذخیرهساز فایل(file storage)و پهنایباند ارتباطات (communications bandwidth)ارزانتر و در دسترس بیشتر قرار گرفتهاندمحبوبیت فرمتهای بدون اتلاف مثلMonkey's Audio,FLAC,Shorten بسرعت افزایش یافتهاست و مردم برای ذخیرهکردن دایمی فایلهای صوتی خود آنها را انتخاب میکنند. کاربران اولیه فشردهسازی بدون اتلاف مهندسین صدا، علاقهمندان به موسیقی و مشتریان آنها بودند که در مقایسه با تغییرات برگشتناپذیر تکنیکهای فشردهسازی پراتلاف ترجیح میدادند یک کپی دقیق از فایلهای صوتی خود داشتهباشند و از روشهای بدون اتلاف استفاده میکردند. نرخهای فشردهسازی برای فشردهسازی بدوناتلاف دادههاهم مشابه با آنهاست (نزدیک به ۵۰–۶۰٪ اندازه اصلی). فرمتهای بدوناتلاف مثل Dolby TrueHD به وسیلهٔ فرمتهای high definition DVD معرفیشدهاند.
ذخیرهکردن تمام دادههای درون یک رشته صوتی و
دستیافتن به یک فشردهسازی اساسی بسیار دشوار است. ابتدا اینکه، اکثریت وسیع ضبط کنندههای صدا بسیار پیچیده هستند چون از دنیای واقعی ضبط میکنند. یکی از روشهای کلیدی فشردهسازی پیدا کردن الگو و تکرار است، دادههای با بینظمی بیشتر مثل صوت نمیتوانند به خوبی فشرده شوند. در وضعیت مشابه، عکسها با روشهای بدوناتلاف هم نسبت به عکسهای کامپیوتری تولید شده کمتر فشرده میشوند. اما بهطور قابل توجه حتی صداهای کامپیوتری تولیدشده هم میتوانند شامل شکلموجهای(waveform) بسیار پیچیده باشند تا مورد استفاده بسیاری از الگوریتمهای فشردهسازی قرار بگیرند. ماهیت شکلموجهای صداکه معمولاًسادهکردن آنها (لزوماً پراتلاف) بدون اطلاعات فرکانسی مکالمه که به وسیله گوش انسان قابل تشخیص هستند دشوار است لازم است.
ودلیل دوم هم این است که ارزشهای الگوهای صوتی
به سرعت تغییر میکنند بنابراین الگوریتمهای فشردهسازی عمومی برای صوت، و رشتههای بایتی متوالی که معمولاً مورد استفاده قرار نمیگیرند خوب عمل نمیکند. بههرحال حلقه بافیلتر [-۱ ۱] (که اولین متفاوت را میگیرد) دقت میکند تا کمی طیف را سفید کند(>decorrelate یا یکنواخت کند) بدین وسیله به رمزگشای فشردهسازی بدون اتلاف اجازه میدهد تا این کار را انجام دهد. کدگشایی به وسیله کدگشا(decoder)سیگنال اصلی را برمیگرداند. رمزگذارهایی مثل >FLAC, Shorten وTTA از پیشبینی خطی برای تخمین طیف سیگنال استفاده میکنند. در کدکننده، معکوس تخمینزننده برای یکدست کردن سیگنال به وسیلهٔ حذف نقاط ماکزیمم طیفی استفاده میشود در حالی که به هنگام بازکردن کد تخمینزننده برای ساخت مجدد سیگنال اصلی استفاده میشود.
کدکنندههای صوتی بدون اتلاف مشکل کیفیتی ندارند
بنابراین قابلیتهای استفاده از آنها میتواند پیشبینی شود به وسیله:
· سرعت فشردهسازی و
بازکردن آن
· درجه فشردهسازی · نرمافزار و سختافزار
حمایتکننده
· نیرومندی و تصحیح
خطا
فشردهسازی صوتی پراتلاف
فشردهسازی صوتی پراتلاف در محدوده وسیعی
از برنامههای کاربردی بشدت استفاده میشود. به عبارت دیگر در استفاده مستقیم(mp3 playerها یا کامپیوترها)، رشتههای صوتی دیجیتالی فشردهشدهاستفاده شده در اکثر DVDهای تصویری، تلویزیونهای دیجیتال، رسانههای موجود در اینترنت، ماهواره و کابل رادیو و به صورت تصاعدی در خبرگزاریهای رادیویی زمینی. فشردهسازی پراتلاف با دور انداختن دادههای کم اهمیت به نحوی به فشردگی خیلی بیشتری نسبت به فشردهسازی بدون اتلاف دست مییابد (دادهها به ۵تا۲۰ درصد رشته اصلی کاهش مییابند در مقایسه با۵۰ تا۶۰درصد در بدون اتلاف).
نوآوری فشردهسازی صوتی پراتلاف این است.
که برای شناخت روح صوت (psychoacoustic) استفاده شود برای شناسایی دادههایی که درون رشته صوتی وجود دارند ولی نمیتوانند توسط سیستم شنوایی انسان درک شوند. فشرده سازی پراتلاف به وسیله شناسایی صداهایی که فکر میکند نامربوط درک شده، صداهایی که شنیدن آنها بسیار دشوار است افزونگی دریافتی را کاهش میدهد. نمونههایی شامل فرکانسهای بالا یا صداهایی که همزمان با صداهای بلندتر رخ میدهند یا اصلاً کد نمیشوند یا با دقت پایین کد میشوند. در حالی که کاهش یا حذف این صداهای «غیرقابل شنیدن» ممکن است درصد کمتری از بیتهای ذخیره شده در فشردهسازی پراتلاف را باعث شوند، ذخیرهسازی واقعی از تکمیل پدیده شکلدهی پارازیت حاصل میشود.
کاهش تعداد بیتهای استفاده شده در کد یک
سیگنال مقدار پارازیت درون سیگنال را افزایش میدهد. در فشردهسازی براساس شناخت روح صوت (psychoacoustic) کلید واقعی «مخفی کردن» پارازیت تولید شده توسط بیتهای ذخیره شده در نواحی غیرقابل شنیدن رشته صوتی است. این امر با استفاده کردن از تعداد بسیار کم بیتها برای کد کردن فرکانسهای بالای بیشتر سیگنالها نه برای اینکه سیگنال کمی اطلاعات فرکانسی بالا دارد (هرچند که این امراغلب درست است) بلکه بیشتر به این دلیل که گوش انسان تنها میتواند سیگنالهای خیلی بلند درون منطقه رادرک کند صورت میگیرد؛ بنابراین پارازیتهای صوتی نازک تر «مخفی شده» و به سادگی شنیده نمیشوند.
اگر با کاهش افزونگی دریافتی، فشردگی کافی
برای کاربرد خاصی بدست نیامد ممکن است نیاز به فشردگی پراتلاف بیشتری داشته باشیم و با توجه به فایل صوتی اصلی هنوز هم ممکن است تفاوت قابل درکی ایجاد نشود. به عنوان مثال یک سخنرانی میتواند بسیار بیشتر از موسیقی فشرده شود. اکثر برنامههای فشردهسازی پراتلاف اجازه میدهند تا پارامترهای فشردهسازی برای رسیدن به یک نرخ مورد نظر ازدادهها منطبق شوند که به آن نرخ بیت میگویند. کاهش دادهها ممکن است به وسیلهٔ برخی از مدلها بسته به اینکه چقدر نحوه درک صدا به وسیلهٔ گوش انسان مهم است. با هدف کار آمدی وبهینگی کیفیت برای نرخ داده مورد نظر عمل میکنند (مدلهای مختلفی برای این آنالیزهای ادراکی استفاده میشوند که برخی از آنها برای انواع مختلف صدا نسبت به بقیه مناسب تر هستند) حتی، با توجه به پهنای باند و حافظه لازم، استفاده از فشردهسازی پراتلاف ممکن است در یک کاهش کیفیت صدا که محدوده آن از صفرتا بسیار زیاد است دیده شود اما معمولاًکاهش کیفیت آشکارا شنیدنی برای شنونده قابل قبول نیست.
با توجه به این که دادهها در طول فشردهسازی
پراتلاف از دست میروند و به وسیلهٔ بازگشایی قابل برگشت نیستند بعضی از مردم برای آرشیو کردن فایلها در حافظه ممکن است ترجیح دهند که از فشردهسازی پراتلاف استفاده نکنند. با این وجود، حتی ممکن است کسانی که از فشردهسازی پراتلاف استفاده میکنند (برای استفادههای صوتی قابل حمل) بخواهند که یک نسخه بدون اتلاف آرشیوی برای سایر کاربردها حفظ کنند. به عبارت دیگر، تکنولوژی فشردهسازی برای دست یافتن به حالتی از هنر فشردهسازی پراتلاف که نیازی به فشردهسازی بدون اتلاف نداشته باشد به پیشرفت خود ادامه میدهد، تا دادههای صوتی اصلی توسط کدگذار پراتلاف جدید فشرده شوند. طبیعتاً در فشردهسازی پراتلاف (هم برای صوت و هم عکس) اگر دادهها باز شوند و مجدداً به صورت پراتلاف فشرده شوند کاهش کیفیت بیشتری حاصل میشود.
' ' '
روشهای کد کردن
روشهای دگرگونی دامنه
برای تصمیمگیری دربارهٔ اطلاعاتی در سیگنال صوتی که نامفهوم دریافت شدهاند اکثرالگوریتمهای فشردهسازی پراتلاف از تغییر شکل برای تبدیل دامنه زمانی شکل موجهای نمونه گرفته شده به دامنه دگرگونی استفاده میکنند مثال: moditied discrete cosine transform
روشهای دامنه زمانی
نوعی دیگری از فشردهسازهای پراتلاف مثل کد کردن پیشگویانه خطی (به انگلیسی: (linear predictive coding (lpc)
کاربردها
دراثرطبیعت الگوریتمهای پراتلاف کیفیت صداوقتی
که فایل فشرده میشود ودوباره باز میشود از دست میرود و این امر باعث میشود که فشردهسازی پراتلاف برای ذخیره کردن نتایج مداخلهکننده در کاربردهای حرفهای مهندسی صدامثل تدوین صداوضبط چند رسانهای مناسب نباشد ولی به هر حال این روشها در بین کاربران بسیار مطرح هستند (خصوصاً mp۳) که یک مگابایت آن میتواند یک دقیقه موسیقی با کیفیت کافی ذخیره کند.
کد کردن سخنرانی
کدکردنسخنرانی یکیازانواعمهم فشردهسازیدادههای
صوتی است. مدلهای ادراکی برای تخمین آنچه که گوش انسان میتواند به صورت معمول بشنود استفاده میشوند که قدری با روش استفاده شده برای موسیقی متفاوت است این امر با ترکیب دو روش زیر صورت میگیرد:
۱. تنها با کد کردن صداهایی که با صوت یک انسان میتوانند
ایجاد شوند.
۲. دورریختن داههای اضافی درون یک سیگنال-- تنها
نگهداری صداهای کافی برای ساخت مجدد «مفهوم» در مقایسه با محدوده کامل فرکانسی قابل شنیدن برای انسان