بحيرة البيانات (Data Lake) هي مستودع تخزين بيانات يحتوي على كمية هائلة من البيانات الأولية بتنسيقها الأصلي حتى يتم الاحتياج إليها.
تم تصميم بحيرات البيانات لتخزين البيانات بتنسيقها الأصلي ، دون أي تغييرات أو تحويلات ، وبدون أي مخطط (schema) محدد مسبقًا.
تُستخدم بحيرات البيانات لتخزين البيانات لفترات طويلة ، وغالبًا ما تُستخدم لتحليلات البيانات والتعلم الآلي.
أنواع البيانات المخزنة في بحيرة البيانات
- البيانات المهيكلة (Structured): هذه هي البيانات التي يتم تخزينها بتنسيق محدد مسبقًا ، مثل جدول قاعدة البيانات.
- البيانات شبه المنظمة (Semi-structured): هذه هي البيانات التي يتم تخزينها بتنسيق غير محدد مسبقًا ، ولكنها لا تزال منظمة ، مثل ملف XML أو CSV أو JSON.
- البيانات غير المهيكلة (Unstructured): هذه هي البيانات التي لم يتم تخزينها بتنسيق محدد مسبقًا ، مثل ملف نصي أو بريد إلكتروني أو صورة أو فيديو.