کلانداده
کلان دادهها، مه دادهها یا بزرگ دادهها (به انگلیسی: big data) داراییهای دادهای اند بسیار انبوه، پرشتاب و/یا گوناگون که نیاز به روشهای پردازشی تازهای دارند تا تصمیمگیری، بینش تازه و بهینگی پردازش پیشرفته را فراهم آورند». کلان داده یا بزرگ دادهها مسیر حرکت کسب و کار و فرایند چرخش کار در سازمانها را مشخص میکنند. در بزرگداده با دادههای متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم.
در اینجا، دادههای پرشتاب دادههاییاند که با شتاب بالایی تولید میشوند. کلانداده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعهٔ داده دارد میگسترد. نمونههایی از کلانداده چنیناند: گزارشهای وبی، سامانههای بازشناسی با موجهای رادیویی، شبکههای حسگر، شبکههای اجتماعی، متنها و سندهای اینترنتی، نمایههای جستجوهای اینترنتی، اخترشناسی، مدرکهای پزشکی، بایگانی عکس، بایگانی ویدئو، پژوهشهای زمینشناسی و بازرگانی در اندازههای بزرگ.
رویکرد
آناکاوی مجموع دادهها میتواند همبستگیهای جدید را پیدا کند، که مربوط به روندهای بازرگانی نقطهای، جلوگیری از بیماری، جُرمهای جنگی و … است. دانشمندان، بازرگانی، کارورزان صدا و سیما، تبلیغات و دولت، همانند مقررات، باعث مشکلاتی برای کلانداده در حوزههای مانند جستجوی اینترنتی، مالی و اطلاعات بازرگانی میشوند. دانشمندان با محدودیتهایی در کارهای علوم مواجهند که دربردارندهٔ هواشناسی، ژنتیک و اطلاعات، شبیهسازی فیزیکی پیچیده، و پژوهشهای محیط زیستی و زیستشناختی میباشد.
اندازه مجموعه اطلاعات در بخشی افزایش مییابد، به دلیل اینکه آنها از طریق ابزار موبایل که ارزان و بیش شمارند، آنتن هوایی (دریافت از راه دور)، وقفه نرمافزاری، دوربینها، میکروفنها، خواننده فرکانس رادیویی مشخص، و شبکههای دریافت بیسیم، جمعآوری میشوند. ظرفیت جهانی فناوری در هر واحد سرمایه، به منظور جمعآوری اطلاعات از دهه ۱۹۸۰ هر ۴۰ ماه دو برابر میشود. از سال ۲۰۱۲ هر روزه ۲٫۵ اگزابایت (۲٫۵×۱۰^۱۸) اطلاعات ایجاد شدهاست. چالش موسسات بزرگ این است تعیین کنند که چه کسی ابتکار عملیات کلانداده را دارا میباشد که کل سازمان را در بر میگیرد. کار کردن با کلانداده بهطور ضروری نادر میباشد؛ بیشتر آناکاویها در مورد اطلاعات سایز PC، مربوط به صفحه نمایش PC یا نوت بوک است، که میتواند مربوط به مجموعه اطلاعات قابل دسترسی باشد.
سیستمهای مدیریت پایگاه داده رابطهای، و وضعیت صفحه نمایش و بسته تصویری بیشتر با مشکلاتی در رابطه با دستکاری در کلانداده مواجهند. در عوض اینکار به اجرای نرمافزاری بهطور همزمان در حجم گسترده و با دهها، صدها، و حتی هزاران سرور، نیاز دارد. آن چیزی که به عنوان کلانداده در نظر گرفته میشود، بر مبنای تواناییهای استفادهکنندگان از وسایل تفاوت دارد و گسترش تواناییها برای ایجاد کلانداده یک هدف میباشد؛ بنابراین، هر آنچه که کلان در نظر گرفته میشود یک سال بعد عادی میشود. برای برخی سازمانها، که با صدها گیگابایت اطلاعات برای اولین بار مواجهند، ممکن به در نظر گرفتن دوباره اختیارات مدیریت اطلاعات نیاز احساس شود. برای دیگران، ممکن است دهها یا صدها ترابایت باید حجم اطلاعات افزایش یابد تا به عنوان قابل توجه در نظر گرفته شود.
تعریف
تعریف گارتنر از 3V همچنان در سطح وسیعی مورد استفاده قرار میگیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که " کلانداده بیانگر داراییهای اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، فناوری و سرعت و تنوع نیاز به روشهای آناکاویی مخصوص برای اطلاعات مربوط به ارزش، میباشد.
کلانداده معمولاً دربردارندهٔ مجموعه اطلاعاتی است که بهطور معمول فراتر از حدی است که بتواند در ابزارهای تصویر، مدیریتی و فرایند اطلاعات در زمان قابل قابل تحمل که تمام میشود، استفاده شود. اندازه کلانداده بهطور ثابت به مقدار هدف نزدیک میشود، از سال ۲۰۱۲ که در حد چند ترابایت بوده به پتا بایت رسیدهاست. کلانداده مجموعهای تکنیکها و فناوریهایی است که که به فرم جدیدی از دستهبندی به منظور روشن کردن ارزشهای پنهانی از پایگاه کلانداده که تغییر کرده، پیچیده شده و دارای مقیاس بالایی است، مورد نیاز میباشد.
در سال ۲۰۰۱ گزارش پژوهشی و ادبیات مربوطه، گروه متا (الان گارتنر)، داگ لنی به این نتیجه رسید که چالشها و فرصتهای توسعه اطلاعات دارای سه بعد میباشد، به معنای حجم افزایشی (مقدار اطلاعات)، سرعت (سرعت اطلاعات خروجی و ورودی)، و تنوع (دامنه نوع اطلاعات و منابع). گراتنر، و تعداد بیشتری از صنایع، به استفاده از این مدل 3V برای توصیف کلانداده استفاده کردند. در ۲۰۱۲، گارتنر تعریف خود را به صورت زیر بروز کرد: کلانداده دارای حجم زیاد، سرعت بالا، و/یا تنوع بالای داراییهای اطلاعاتی است که به فرم جدیدی از ترفیع فرایند توانایی تصمیمگیری، اکتشافات درونی، و فرایند بهینهسازی، نیاز دارد.
3V در خصوصیات تکمیلی مربوط به کلانداده توسعه یافتهاست:
- اندازه: اندازه اطلاعات نمونه ندارد. این فقط اتفاقات را مشاهده و ثبت میکند
- تندای: کلانداده بیشتر در زمان واقعی در دسترس است.
- گوناگونی: کلانداده از متن، تصاویر، صدا، ویدئو بدست میآید، به علاوه از طریق اتصال دادهها قیمتهای جامانده را کامل میکند.
- یادگیری ماشین:کلانداده بیشتر چرایی را نمیپرسند و فقط الگوها را پیدا میکنند
- جایگاه دیجیتالی: کلانداده بیشتر محصولات بدون هزینه از تعاملات دیجیتالی میباشد.
رشد مفهوم باعث ایجاد تفاوتهایی بین کلانداده و هوش کسب و کار، در رابطه با اطلاعات و استفادههای آنها میشود:
- هوش کسب و کار از آمارهای توصیفی همراه با اطلاعات و حجم بالای اطلاعاتی برای اندازهگیری و پیدا کردن روندها استفاده میکند
- کلانداده از آمارهای استقرایی و مفاهیم برابرسازی سیستمی غیر خطی، برای قوانین استنباطی (رگرسیون، رابطه غیر خطی، و تأثیر علی) از مجموعههای بزرگ اطلاعات که دارای حجم اطلاعاتی کمتری هستند، استفاده میکند. برای نشان دادن رابطهها، وابستگیها و انجام پیشگوییهای مربوط به درآمد و رفتارها استفاده میشود.
ویژگیها
کلان داده میتوانند بر اساس ویژگیهای زیر تعریف شود:
اندازه - اندازه دادههای آزانیده (تولید شده) و انباریده (ذخیره شده). اندازهٔ داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده خُرد باشد، کلان داده خوانده نمیشود.
گوناگونی - گونهٔ داده. دستهبندی دادهها به گونهها به شناخت بهتر میانجامد.
نرخ آزانش - همان سرعت تولید دادهاست. نرخ بالای آزانش (تولید) داده، چالشهایی را در زمینهٔ انبارش (ذخیرهسازی) و پردازش داده پدیدمیآورد.
ورتندگی- ناپایستگی داده میتواند پردازشها را از رسیدگی و مدیریت داده بازدارد.
درستی- کیفیت دادهٔ گردآوری شده میتواند بر آناکاوی دقیق داده اثر بگذارد.
کلانداده و اینترنت اشیاء باهم مرتبطاند. از دید رسانهای، اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدفگذاری دقیق کمک میکند. اینترنت اشیاء، به کلانداده کمک میکند، بنابراین تبدیل صنعت، شرکتها و حتی دولتهای راستهای، حوزه جدیدی را برای رقابتپذیری و رشد اقتصادی فراهم میسازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانهای است. ثروت اطلاعات جمعآوری شده به بیان کردن لایههای موجود در مکانیزم هدف موجود صنعت، کمک میکند.
فناوری ایبی از انباره اطلاعاتی ۷٫۵ پتا بایت و ۴۰ پتا بایت و ۴۰ پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرفکنندگان و بازرگانی استفاده میکند. در شرکت ایبی۹۰ پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیونها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش میکند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا میکند و از ۲۰۰۵ سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن ۷٫۸ پتا بایت، ۱۸٫۵ پتا بایت و ۲۴٫۷ پتا بایت میباشد. فیسبوک با بیش از ۵۰ میلیارد عکس استفادهکنندگان سرو کار دارد. از اوت ۲۰۱۲ گوگل در حدود ۱۰۰ میلیارد پژوهش در هر ماه اجرا میکند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در ۸ قالب آزمایش کرده و به بیش از ۱٫۲ مگ عملیات در هر ثانیه در ۱۰ قالب رسیدهاست.
کاربردها
بهداشت و درمان آناکاوی کلان دادهها میتواند در صنعت بهداشت و درمان در قالب ارائه خدمات بهتر به عموم مردم کمک کند که این امر منجر به شناسایی روشهایی شخصیسازی شده برای درمان بیماران میشود. این شخصیسازی درمان میتواند منتج به افزایش سلامت جامعه و کاهش هزینههای دولت در بخش بهداشت و درمان شود.
آموزش کلان دادهها در صنعت آموزش میتواند به شخصیسازی فرایند یادگیری کمک کند. موضوعی که تا قبل از پیدایش سیستمهای یادگیری الکترونیکی و جمعآوری دادههای آموزشی مطرح نبود. این شخصیسازی به نوبه خود میتواند باعث شکوفایی استعدادهای دانشآموزان و دانشجویان شود و پویایی محیط یادگیری را افزایش دهد.
تولید در صنعت تولید استفاده از کلان دادهها میتواند به تولید طبق نیازهای مشتری کمک کند، زمان تولید محصول را کاهش دهد. همینطور با استفاده از شبیهسازی و بهینهسازی با استفاده از کلان دادهها میتوان خط تولید را به صورت بهینه طراحی کرد و بسیاری از عیوب خط تولید و کالاها را پیش از شروع به کار خط تولید شناسایی کرد.
خرده فروشی در صنعت خرده فروشی از کلان دادهها برای شناسایی بهتر نیازهای مشتریان و ارائه تبلیغات و بازاریابی سفارشیشدهاستفاده میشود. این شرکتها در تلاشند با جمعآوری دادههای عددی، متنی و تصویری تجربه خرید مشتری از کانالهای مختلف را بهبود بخشند و بتوانند نیازهای آنان را برآورده سازند.
دولت دولت میتواند از کلان دادهها برای ایجاد شفافیت، خدمترسانی بهتر به مردم، استفاده بهینه از منابع محدود و تخصیص بودجه به فعالیتهای موجود استفاده کند. همینطور میتواند برای کمک به مردم در زمان بحران، اطلاعرسانی به روشهای جدید به مردم و مبارزه با فقر و جرم و جنایت کلان دادهها را بکار بگیرد.
علوم اجتماعی در مطالعات علوم اجتماعی کلان دادهها میتواند ابزاری جدید برای بررسی پیچیدگی رفتار انسانها اعم از رفتارهای فردی و اجتماعی باشد و دریچهای جدید برای مطرح کردن سؤالهای جالب تر و یافتن الگوهایی که تا پیش از این ناشناخته بودند باشد.
ورزش در علوم ورزشی از کلان دادهها برای افزایش کارایی ورزشکاران در تمرین و مسابقه، پیشگیری از بروز مصدومیت و یافتن بهترین راهبرد برای مسابقات پیش رو استفاده میشود.
انتقاد
انتقادات از الگوی کلانداده دو معنی دارد، اینکه سؤال در مورد کاربرد هر رهیافت و سؤال در مورد روش که هماکنون انجام میشود.
جستارهای وابسته
منابع
- ↑ ماهنامه دیدهبان فناوری. «مقدمهای بر بزرگ داده ها». بایگانیشده از اصلی در ۲۷ اوت ۲۰۱۶. دریافتشده در ۲۴ ژوئیه ۲۰۱۶.
- ↑ http://isna.ir/news/94100200756/تازه-ترین-واژه-های-مصوب-فرهنگستان
- ↑ Beyer, Mark A (2012). "The importance of 'big data': a definition". Stamford, CT: Gartner.
- ↑ «کتاب مدیریت کلان دادهها در بخشهای خصوصی و عمومی - تألیف دکتر بابک سهرابی و حمیده ایرج - انتشارات سمت». بایگانیشده از اصلی در ۸ مه ۲۰۱۶. دریافتشده در ۲۱ آوریل ۲۰۱۶.
https://en.wikipedia.org/wiki/Big_data
کتاب "واژه نامه کلان داده" نگارش دکتر امین نظارات، انتشارات مجتمع فنی تهران