Databricks, veri gölü ve veri ambarı rakiplerinin geçmişteki şüphelerini gidermek amacıyla Salı günü yaptığı açıklamada, Delta Lake 2.0 sürümünün bir parçası olarak tüm Delta Lake API’lerini açık kaynaklı hale getirdiğini söyledi. Şirket ayrıca Delta Gölü’nün tüm iyileştirmelerine katkıda bulunacağını duyurdu. Linux Vakfı.
Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) ve Vertica gibi Databricks rakipleri şirketi eleştirdi ve Delta Lake’in açık kaynak mı yoksa tescilli mi olduğu konusunda şüphe uyandırdı ve böylece şirketin hissesini elinden aldı. Analistler, potansiyel müşterilerin
Ventana Research araştırma direktörü Matt Aslett, “Yeni duyuru, kullanıcılar için süreklilik ve netlik sağlamalı ve Delta Lake’in tescilli mi yoksa açık kaynak mı olduğu konusundaki kafa karışıklığını (kısmen rakipler tarafından stoklanan) önlemeye yardımcı olmalıdır” dedi.
Constellation Research’ün baş analisti Doug Henschen, duyurularla birlikte Databricks’in müşteri endişelerini ve rekabet eleştirilerini ortadan kaldırdığını söyledi.
Henschen, “Rekabetçi anlaşmalarda Snowflake gibi rakipler, müstakbel müşterilere Delta Lake’in bazı özelliklerinin özel olduğunu gösterecekti,” dedi ve Databricks müşterilerinin artık verilerinin açık bir platformda olduğuna ve olmadıklarına güvenebileceklerini de sözlerine ekledi. Delta Gölü’ne kilitlendi.
Databricks, verileri yerel biçimde depolayan veri gölleri ve yapılandırılmış verileri (genellikle SQL biçiminde) depolayan veri ambarları kavramlarının aksine, hem depolama hem de analitik yetenekleri sunan bir veri mimarisi olan bir veri göl evi olarak Delta Lake’e atıfta bulunur. ).
Ticari açık kaynak pazarında rekabet artıyor
Data Lake pazarında artan sayıda ticari açık kaynak projesi ile Databricks’in Delta Lake’i, çok büyük analitik tablolar için yüksek performanslı sorgulama sunan Apache Iceberg dahil olmak üzere yeni rekabetle karşı karşıya kalabilir.
Amalgam Insights baş analisti Hyoun Park, “Apache Hudi için OneHouse ve Apache Iceberg teklifleriyle birlikte çıkan Starburst ve Dremio gibi yakın zamanda ticarileştirilmeye başlanan açık kaynaklı projeler de var” dedi.
Park, “Bu tekliflerin ortaya çıkmasıyla birlikte, göl evi pazarı parçalanmaya başladıkça ve teknoloji uzmanlarının birden fazla seçeneğe sahip olması nedeniyle Delta Lake, diğer açık kaynaklı göl evi formatlarından işlevsel olarak daha sağlam hale gelme baskısı ile karşı karşıya kaldı.”
Venatana’dan Aslett, bu alandaki diğer birçok oyuncunun Delta Lake masalarına alternatif olarak Apache Iceberg’e odaklandığını söyledi. Delta tabloları, verileri satır ve sütunlarda depolayan geleneksel tabloların aksine, daha hızlı veri alımına yardımcı olmak için meta verileri depolamak için ACID (Atomisite, Tutarlılık, Yalıtım ve Dayanıklılık) işlemlerine erişebilir.
Nisan ayında Google, Big Lake ve Iceberg desteğini duyurdu ve bu ayın başlarında Snowflake, özel önizlemede Apache Iceberg tabloları için desteği duyurdu.
Henschen, Iceberg duyurularının, Databricks’in açık kaynak stratejisi gibi, tek bir satıcıya taahhütte bulunma konusunda endişeleri olabilecek ve yolun aşağısında kendi verilerine erişme olasılığı olan potansiyel müşterilere hitap etmeyi amaçladığını söyledi.
Gartner eski araştırma başkan yardımcısı Sanjeev Mohan, yenilenen rekabet karşısında Databricks’in açık kaynaklı Delta Lake’e geçişinin iyi bir hamle olduğunu söyledi.
Gartner’da büyük veri ve analitikten sorumlu eski araştırma başkan yardımcısı Sanjeev Mohan, “Databricks’in Delta Lake’in tüm yeteneklerini açık kaynak olarak duyurması, daha geniş çapta benimsemeyi sağlamak için mükemmel bir adım” dedi.
Delta Lake 2.0, daha hızlı sorgu performansı sunar
Şirket, Databricks’in bu yıl içinde tamamen kullanıma sunulacak olan Delta Lake 2.0’ın veri analizi için daha hızlı sorgu performansı sunması beklendiğini söyledi.
Salı günü Databricks, uçtan uca makine öğrenimi yaşam döngüsünü (MLOps) yönetmek için açık kaynaklı bir platform olan MLflow’un ikinci baskısını da yayınladı.
Şirket, MLflow 2.0’ın, üretim mühendislerinin müdahalesine gerek kalmadan model geliştirmeyi hızlandırmalarını sağlamak için oluşturdukları model türüne göre önceden tanımlanmış, üretime hazır şablonlar sunan MLflow Pipelines ile birlikte geldiğini söyledi.
Analistlere göre, makine öğrenimi üretimi zorlu bir süreç olmaya devam ederken ve algoritmik modellerin güvenli yönetilen kaynaklar üzerinde üretim düzeyinde uygulama koduna dönüştürülmesi zor olmaya devam ederken, MLflow 2.0 veri bilimcileri için daha olgun bir seçenek olarak hizmet edecek.
“Bu alanda Amazon Sagemaker, Azure Machine Learning, Google Cloud AI, Datarobot, Domino Data, Dataiku ve Iguazio dahil olmak üzere bir dizi satıcı çözümü var. Ancak Databricks, hiper ölçekleyicilere ve Databricks’in birleşik yaklaşımına kıyasla tarafsız bir satıcı olarak hizmet ediyor. Amalgam’s Park, veri ve model yönetimi, model operasyonelleştirmenin kodlama ve üretim zorluklarına odaklanan MLOps satıcıları için farklılaştırıcı olarak hizmet ediyor” dedi.
Henschen, MLflow 2.0’ın piyasaya sürülmesinin üretim verisi boru hatlarına akış ve akış analizi getirme yolunu kolaylaştırdığını belirterek, birçok şirketin MLOps ile mücadele ettiğini ve makine öğrenimi modellerini başarılı bir şekilde oluşturduktan sonra bile başarısız olduğunu da sözlerine ekledi.
Telif Hakkı © 2022 IDG Communications, Inc.
Kaynak : https://www.infoworld.com/article/3665117/databricks-open-sources-its-delta-lake-data-lake.html#tk.rss_all