Rafael Alikhanli

Latest

Spark-da niyə RDD-dən DataFrame-ə keçdik?

Spark-da niyə RDD-dən DataFrame-ə keçdik?

Spark 1.0-da əsas abstraksiya RDD (Resilient Distributed Dataset) idi. Paylanmış və dəyişdirilə bilməyən obyektlər üzərində işləməyə imkan verirdi və uzun müddət Spark-ın əsas hesablama modeli oldu. Amma problem burda idi. RDD-lər struktur məlumatın nə olduğunu bilmirdi. Gələn datanın: * hansı tipdə olduğunu * hansı sütunun nə ifadə etdiyini * ümumiyyətlə strukturunu anlamırdı.

By Rafael Alikhanli
Niyə Apache Spark?

Niyə Apache Spark?

Məlumatla işləyərkən işin ilk və ən ağır hissəsi adətən məlumatın ilkin emalıdır. Təmizləmə, fərqli mənbələrdən gələn dataların birləşdirilməsi və xüsusiyyət mühəndisliyi — yəni ML-ə keçməzdən əvvəl datanı “istifadə edilə bilən” hala salmaq. Problem burda başlayır. Analitika və ML pipeline qurarkən eyni əməliyyatları dəfələrlə edirik: fayl oxuma, join etmə, filter, transformasiya və

By Rafael Alikhanli