Rafael Alikhanli

Spark-da niyə RDD-dən DataFrame-ə keçdik?

Spark 1.0-da əsas abstraksiya RDD (Resilient Distributed Dataset) idi. Paylanmış və dəyişdirilə bilməyən obyektlər üzərində işləməyə imkan verirdi və uzun müddət Spark-ın əsas hesablama modeli oldu. Amma problem burda idi. RDD-lər struktur məlumatın nə olduğunu bilmirdi. Gələn datanın: * hansı tipdə olduğunu * hansı sütunun nə ifadə etdiyini * ümumiyyətlə strukturunu anlamırdı.

Niyə Apache Spark?

Məlumatla işləyərkən işin ilk və ən ağır hissəsi adətən məlumatın ilkin emalıdır. Təmizləmə, fərqli mənbələrdən gələn dataların birləşdirilməsi və xüsusiyyət mühəndisliyi — yəni ML-ə keçməzdən əvvəl datanı “istifadə edilə bilən” hala salmaq. Problem burda başlayır. Analitika və ML pipeline qurarkən eyni əməliyyatları dəfələrlə edirik: fayl oxuma, join etmə, filter, transformasiya və