Big Dataما هي


نعيش الآن في عصر المعلومات، ومعظم ما نقوم به يتأثر بشكلٍ كبير بقدرتنا على الوصول إلى كميات هائلة من البيانات سواء أكان ذلك عبر الإنترنت، أم حواسيبنا، أم هواتفنا المحمولة. والكلمة الطنانة التي تصف هذا الكمّ من المعلومات هي البيانات الضخمة .Big Data

 وفي العام 2012 حددت الحكومة البريطانية البيانات الضخمة بوصفها واحدة من ثمان تقنيات مستقبلية عظيمة، ولذلك فما هو التحدي الذي تطرحه البيانات الضخمة؟ وكيف يُمكننا مواجهته؟
من أين أتت البيانات الضخمة؟    ربما يكون المصدر الرئيسي للبيانات الضخمة حالياً هو الإنترنت، ووفقاً لتقدير حديث، فإنّ حوالي 10^21 بايت أي زيتا بايت zettabyte من المعلومات تُضاف إلى الإنترنت كل عام، ويكون معظمها على شكل محتوى غرافيكي. وتتجاوز تغطية الإنترنت في المملكة المتحدة 80%، ولكنها لا يتجاوز 20% في بعض الدول.

إنّ المصدر الرئيسي لهذه البيانات، الذي يستمر في النمو، هو المحتوى الموجود على مواقع التواصل الاجتماعي. فعلى سبيل المثال لدى موقع فيسبوك  facebook     الذي انطلق في العام 2004 حوالي 2 مليار مستخدم مسجّل  ما يُعادل ربع عدد سكان العالم    ، منهم 1.5 مليار مستخدم نشط. ويوميًا يُضاف إلى هذا الموقع حوالي 2.5 مليار محتوى  أي ما يُعادل 500 تيرابايت من المعلومات    ، معظمها يُخزّن على شكل صور. ويُقدر أنّ محرك البحث غوغل يُجري عمليات البحث عن المعلومات الموجودة في 15 إكسابايت  exabytes     -أي 10^15 بايت- من البيانات، ويُقوم بتلك المهمة بالاعتماد على خوارزمية رياضية ذكية. للبيانات الضخمة مصدرٌ آخر وهو الهواتف المحمولة والذكية، فاليوم يتجاوز عدد من الهواتف المحمولة في العالم عدد سكانه، مع احتمالية وجود 25000000000000000000 محادثة في الوقت نفسه. وستقدم الخطة المستقبلية المتعلقة بوجود شبكة 5G قدرة وصول إلى البيانات بمعدل 1 غيغابايت في الثانية الواحدة بالنسبة لعشرات العاملين في الوقت نفسه وفي نفس المكتب. وتظهر الحسّاسات التي يُمكنها تقديم مراقبة مستمرة لحالتنا الصحية - مع وجود آثار أخلاقية معتبرة- كإحدى التقنيات التي تتقدم بسرعة في هذا المجال. وستدعم شبكة 5G بضع مئات الآلاف من عمليات الاتصال المتزامنة لعمليات نشر ضخمة لتلك الحساسات. وفي الواقع، فالمستقبل ليس بعيدا، وقريباً ستتصل أجهزتنا مع بعضها البعض بوجود القليل من التدخّل البشري، أو حتى بدونه، فعلى سبيل المثال ستتحدث آلة الطبخ مع آلة الجلي والتنظيف، ومع السوبرماركت أيضا في كل لحظة يتم فيها تحضير وجبة، وهذا ما يُعرف بإنترنت الأشياء  Internet of things   . 

تأتي كمية معتبرة من البيانات المهمة بالنسبة للعلوم الاجتماعية من الطريقة التي نستخدمها للتعامل مع أجهزتنا، والمعلومات التي تُعطيها تلك الأجهزة عن نمط حياتنا. ففي كل مرة نشتري فيها شيئاً ما من أمازون  Amazon    ، أو نستخدم حسابنا البنكي، أو نُشغّل جهازا كهربائيا، أوهاتفنا، أو نكتب بريدا إلكترونيا، فإننا نُنشئ بيانات ستحتوي معلومات يُمكن من حيث المبدأ تحليلها. وعلى سبيل المثال يُمكن تحديد عادات الشراء، أو المواقع المتتبعة وتسجيلها. ويُمكن استخدام الرياضيات في كل مراحل هذه العملية، لكن يجب ألا نفقد أبدا البعد الأخلاقي عند القيام بذلك.

طبيعة البيانات الضخمة كانت البيانات الضخمة محط اهتمام ودراسة الرياضيات للأعوام المئة الأخيرة بشكلٍ من الأشكال. وكمثال كلاسيكي على ذلك نجد علم الأرصاد الجوية  meteorology     الذي نحتاج فيه إلى كميات هائلة من الأعداد التي يجب ضغطها لتوليد تنبؤات طقسية واقعية.

 وبشكلٍ مشابه تنتج مجموعات البيانات الضخمة عن النماذج المناخية، والجيوفيزياء، وعلم الفلك. وعلى أية حال، فإنّ مجموعات البيانات الموجودة في هذه المسائل - على الرغم من ضخامتها- مرتبة بشكلٍ جيد ومفهومة أيضا، مع وجود مستويات معروفة من الارتياب طبعا.

وهو أمرٌ ناتج عن كونها قادمة من عمليات فيزيائية يفهمها العلماء جيداً. تكمن التحديات الحقيقية في فهم البيانات الضخمة والتعامل معها في العلوم الإحيائية، والعلوم الاجتماعية، وبشكلٍ خاص تلك المبنية على النشاط الإنساني. وغالبا ما تكون مثل هذه البيانات مشوّهة، وغير كاملة، ولا يُمكن الاعتماد عليها، ومعقدة، وقصصية بدلاً من كونها الأشياء نفسها. أما البيانات الفيزيائية فليست كذلك. ما هي الأسئلة التي يجب طرحها حول البيانات الضخمة؟ كيف يُمكن تصوير البيانات الضخمة؟ ووضع التخمينات انطلاقاً منها؟ وكيف نُحاكيها ونفهمها؟ وكيف نُجري التجارب على الأنظمة التي ولّدتها، وفي نهاية المطاف كيف بمقدورنا التحكم بمثل هذه الأنظمة؟ إنّ التحديات العلمية والرياضية الكامنة وراء هذه الأسئلة متغيرة بمقدار ما هي مهمة، كما أنّ حجم البيانات الضخم يجعل من عملية الأتمتة حتمية. وهذه الأتمتة  automation     تعتمد على الخوارزميات الرياضية. تتضمن الأسئلة التي قد نسألها بخصوص البيانات الضخمة ما يلي:  كيف نُصنّف أهمية المعلومات في شبكات واسعة موجودة في متصفحات الإنترنت مثل غوغل؟  كيف نُحدد فعاليات المستهلكين، وولاءهم وحتى مشاعرهم، وكيف نُجري عمليات الاقتراح الشخصية؟ كيف نُحاكي الارتيابات الموجودة في الاتجاهات الصحيّة للمرضى الأفراد؟ كيف نُنجز ونتعامل مع عملية المراقبة الصحية بالوقت الحقيقي خصوصا في البيئة التي سيقودنا إليها انترنت 5G؟  كيف نستخدم البيانات الذكية في مزودات الطاقة؟ على ما أعتقد فإنّ من العدل القول بأنّ العديد من التطورات المستقبلية في مجال الرياضيات الحديثة  جنباً إلى جنب مع علوم الحاسوب     ستقودنا إما إلى عمليات محاكاة من قبل تطبيقات البيانات الضخمة، أو أنها ستعتمد على الحاجة لفهم البيانات الضخمة.

إنّ العديد من التقنيات الرياضية الموجودة حاليا  وبعضها لم يُعتبر رياضيات بحتة حتى وقت حديث     تجد الآن تطبيقاتٍ عملية لها في مجال فهمنا للبيانات الضخمة، وكمثال رئيسي على ذلك نذكر نظرية الشبكات  network theory    .

شبكات في كل مكان تصف نظرية الشبكات – كما يقترح الاسم- الأجسام المعروفة بالعُقَد  nodes     والمرتبطة مع بعضها البعض عبر ما يُعرف بالحواف  edges    . يُمكن أن تكون هذه العقد حواسيب، أو شبكات عنكبوتية. أما الحواف فهي الوصلات الموجودة بين الحواسيب، أو الروابط بين مواقع الإنترنت. كما يُمكن أن تكون تلك العقد أيضاً البشر، أما الوصلات فهي في هذه الحالة أصدقاؤهم على الفيسبوك، أو تويتر. أو يُمكن أن تكون مجموعات الهواتف المحمولة، وتكون الروابط في هذه الحالة هي المحادثات أو ببساطة الجوار القريب الذي قد يقود إلى تداخل. تشرح نظرية الشبكات طبيعة الشبكات وتسمح لنا بالبحث عن الوصلات الكائنة بين النقاط المفردة لمجموعات البيانات، ويُمكنها وصف حركة المعلومات حول الشبكة. في الواقع، تُعتبر عملية إدارة شبكة الهواتف المحمولة  المستخدمة في الواقع في تحميل البيانات أيضاً     مهمة جدا وتطبيقا مستمرا بالنمو لمجال نظرية تلوين الرسوم  graph colouring    : إيجاد طرق لتلوين الحواف أو العقد الموجودة في الشبكة وفقاً لقيود محددة مثل وجوب امتلاك العقد المتجاورة لألوان مختلفة. فعلى سبيل المثال قد تُمثّل تلك الألوان الترددات المنسوبة لمُرسلات الهواتف المحمولة التي يجب اختيارها بحيث تُقلل من عملية التداخل، ومن ثَمّ يجب أن تكون مختلفة بالنسبة للمرسلات المتجاورة. ولم يتم حتى وقتٍ متأخر النظر إلى تلوين الرسوم على أنه يعود إلى مجال الرياضيات البحتة. تتضمن الأمثلة الأخرى التي تقود إلى البيانات الضخمة عملية الشبكات التنظيمية مثل شبكات الإدارة، وعصابات الجرائم، وحتى سلوك التصويت في مسابقة الأغنية الأوروبية، إضافة إلى الشبكات التكنولوجية مثل شبكات الطاقة والدارات الكهربائية، وشبكات المعلومات المصنوعة من تفاعلات البروتين-بروتين والجينات ونشر المعلومات والأساطير والشائعات، وأيضاً شبكات النقل مثل الخطوط الجوية، والخدمات اللوجستية الغذائية وأنظمة القطارات تحت الأرض وفوقها، والشبكات البيئية، مثل سلاسل الغذاء والأمراض وآليات العدوى.