حجم دادهای که امروزه در جهان تولید میشود به طرز خارقالعادهای در سالهای اخیر افزایشیافته است. طبق گزارش World Economic Forum در سال ۲۰۱۸، روزانه بیش از ۲.۵ کوئینتیلیون بایت داده ایجاد شده و این رقم در سال ۲۰۲۰، ۴۴ زتا بایت تخمین زده شده است. به این معنا که در آغاز سال ۲۰۲۰، تعداد بایتهای جهان دیجیتال، ۴۰ برابر بیشتر از تعداد ستارگان قابلمشاهده در جهان بود. پیشبینی میشود تا سال ۲۰۲۵، میزان دادههای تولید شده در هر روز به ۴۶۳ اگزابایت در سطح جهان خواهد رسید. برای کسانی که نمیدانند، هر اگزابایت، ۱۰۰۰ بایت به توان شش است.

حال این حجم عظیم از دادهای که در اختیار انسان قرار دارد دقیقاً به چهکار میآید و چگونه به انسان کمک میکند؟
ژیاوی هان، دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»، معتقد است: «… در حقیقت، بشر در عصر دادهها زندگی میکند. با تبدیل این دادهها به اطلاعات، میتوان آنها را به شمشهایی از طلا مبدل ساخت.» به این معنا که دادههایی که پردازش نشده و به اطلاعات تبدیل نشده باشند، فاقد ارزشاند.
اینجاست که علم داده به کمک انسان میآید. «علم داده» (data science)، یک زمینه میانرشتهای است که از روشها، فرایندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختاریافته و ساختار نیافته) استفاده میکند. در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر بهمنظور درک و تحلیل پدیدهها با استفاده از دادهها استفاده میشود.

علوم داده شامل چرخهای است از ۴ زیرشاخه؛
- کسب اطلاعات: این مرحله شامل بهدستآوردن اطلاعات خام (طبقهبندی شده و طبقهبندی نشده) است.
- ابقا اطلاعات: در این مرحله اطلاعات خام بهدستآمده، به شکل مناسب و موردنیاز، تبدیل و پردازش میشوند.
- پیشرفت مداوم: متخصصان علوم داده از اطلاعات بهدستآمده در دو مرحله اول استفاده میکنند تا الگوهای موردنظر را عملیاتی کرده و نتیجهگیری کنند که تا چه میزان با فرضیههای از پیش تعیین شده همخوانی دارند.
- آنالیز و ایجاد ارتباط اجتماعی: در این مرحله نوبت به آنالیز تمام فرضیهها میرسد تا در نتیجهی آن بهترین فرضیهها انتخاب شده و سپس با انواع جداول و گرافها، نتایج قابلفهم شوند.
متخصصین علوم داده سعی دارند تا مشکلات موجود در حوزهی کسبوکار و تجارت را از طریق مراحل ذکر شده حل کنند. شایانذکر است که متخصصان علم داده بهصورت تیمی کار میکنند که میتواند شامل آنالیزور کسبوکار، مهندس فناوری اطلاعات، گسترشدهنده اپلیکیشن و مهندس داده باشد.

علاقهمندان به حوزه علوم داده باید با برخی پیشنیازها آشنا باشند:
- یادگیری ماشین: این زیرشاخه را میتوان به هسته اصلی علم داده تشبیه کرد که هر متخصص علم دادهای باید فهم کاملی نسبت به آن داشته باشد.
- مدلسازی: مدلهای ریاضی به شما کمک میکنند تا با محاسبه سریع از دادههایی که در دسترس دارید، فرضیهسازی کنید. شایانذکر است که مدلسازی خود بخشی از یادگیری ماشین است و موجب میشود تا الگوریتم متناسب برای حل مشکل ایجاد شده، یافت شود.
- آمار: پس از یادگیری ماشین این مبحث مهمترین پیشنیاز یک علاقهمند به علم داده است. شما از طریق آمارهای بهدستآمده میتوانید به اطلاعات بیشتر و نتایج بهتری دست پیدا کنید.
- برنامهنویسی: باید دانش پایهای از برنامهنویسی داشت تا بتوان به یک متخصص علوم داده کارآمد تبدیل شد. عمومیترین زبانهای برنامهنویسی مورداستفاده در این حوزه، پایتون و R.پایتون هستند.
- دیتابیس: یک متخصص علوم داده باید بداند که چگونه با دیتابیس کار کند، چگونه آن را مدیریت کند و چگونه اطلاعات موردنیاز را از آن استخراج کند.
افرادی که بر پروژههای علم داده نظارت دارند عبارت هستند از:
- مدیران کسبوکار
- مدیران فناوری اطلاعات
- مدیران علم داده
اما از علم داده چه استفادههایی میشود؟
- تشخیص بینظمیها (فریب، جرم، بیماری و …)
- تصمیمگیری (ارزیابیکردن گذشته افراد، ارزیابیکردن ارزشمند بودن یا نبودن و …)
- طبقهبندیکردن
- تشخیص الگوهای مختلف (آبوهوا، بازار بورس و …)
- پیشبینی کردن (میزان فروش، عایدی و …)
- شناسایی افراد (از روی صدا، تصویر و …)
- پیشنهادات (بر اساس اطلاعات بهدستآمده از فرد، موتورهای جستوجو میتوانند بر اساس علاقهمندی شما پیشنهادهای مختلفی بدهند. برای مثال فیلم، رستوران و …)
در ادامه باید گفت که علم داده در شاخههای مهم دیگری از جمله سلامت و بهداشت، ماشینهای خودران، سرگرمی سرمایهگذاری، امنیت سایبری و … ایفای نقش میکنند.
علم داده به انسان کمک میکند تا با تصمیمسازیهای هوشمندانه با استفاده از تحلیل دادهها، در استراتژیهای رشد و توسعه کسبوکار خود تغییر ایجاد کنند و در نهایت با استفاده از بیزینس مدلهای جدید مبتنی بر داده ارزشآفرینی کند. مجله (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد کرده و بسیاری از این علم بهعنوان سوخت قرن ۲۱ نام میبرند. در آینده نیاز به دانشمند داده و تواناییهای وی در تحلیل و استخراج اطلاعات از دادهها، از اساسیترین نیازهای بیزینسهای بزرگ و کوچک خواهد بود.
