Databricks ฟรี! คู่มือเริ่มต้นใช้งานและสร้างตารางแรกอย่างมืออาชีพ

Databricks ฟรี! คู่มือเริ่มต้นใช้งานและสร้างตารางแรกอย่างมืออาชีพ

Databricks คือแพลตฟอร์ม Lakehouse ที่ทรงพลัง ซึ่งรวมเอาความสามารถของ Data Lake และ Data Warehouse เข้าไว้ด้วยกัน ช่วยให้นักวิทยาศาสตร์ข้อมูล, วิศวกรข้อมูล และนักวิเคราะห์สามารถจัดการ, ประมวลผล และวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ

แพลตฟอร์มนี้สร้างขึ้นบน Apache Spark ที่เป็นหัวใจหลัก ทำให้การทำงานกับข้อมูลเป็นไปอย่างรวดเร็วและยืดหยุ่น สำหรับผู้ที่ต้องการเริ่มต้นทดลองใช้งาน Databricks มี Community Edition ที่เป็นเวอร์ชันฟรีให้คุณได้สัมผัสกับพลังของมันโดยไม่มีค่าใช้จ่าย

สมัครใช้งาน Databricks Community Edition อย่างไรให้ไม่พลาด

การเริ่มต้นใช้งาน Databricks Community Edition เป็นเรื่องง่าย แค่ไปที่เว็บไซต์ Databricks แล้วมองหาตัวเลือกสำหรับ Community Edition หรือเวอร์ชันฟรี

ขั้นตอนการสมัครจะเริ่มจากการกรอกอีเมล, รหัสผ่าน และชื่อบริษัท (สามารถใช้ชื่ออะไรก็ได้) จากนั้นระบบจะส่งอีเมลยืนยันเพื่อยืนยันตัวตนของคุณ เมื่อยืนยันแล้ว คุณจะเข้าสู่หน้าเลือก Cloud Provider ซึ่งมักจะเป็น AWS, Azure หรือ GCP แต่สำหรับ Community Edition ระบบจะเลือกให้เองในภูมิภาคที่รองรับ

สิ่งสำคัญที่ต้องรู้คือ Databricks มีสองเวอร์ชันฟรีให้เลือก: Trial และ Community Edition

Trial เป็นเวอร์ชันทดลองที่มีคุณสมบัติครบถ้วน แต่จะใช้งานได้เพียง 14 วันเท่านั้น หลังจากนั้นจะหมดอายุและข้อมูลอาจถูกลบออกไป

ส่วน Community Edition คือเวอร์ชันฟรีที่คงอยู่ถาวร แม้จะมีข้อจำกัดบางอย่าง เช่น เป็นผู้ใช้คนเดียว, ขนาดคลัสเตอร์ที่จำกัด และสามารถเลือกภูมิภาคได้ไม่มากนัก แต่ก็เพียงพอสำหรับการเรียนรู้และทดลองใช้งานพื้นฐานอย่างต่อเนื่อง การเลือก Community Edition ตั้งแต่แรกจึงเป็นทางเลือกที่ดีที่สุดเพื่อหลีกเลี่ยงการเริ่มต้นใหม่เมื่อ Trial หมดอายุลง

รู้จักกับ Unity Catalog: หัวใจของการจัดระเบียบข้อมูล

เมื่อเข้าสู่พื้นที่ทำงานของ Databricks แล้ว คุณจะพบกับแนวคิดของ Catalog ซึ่งเป็นองค์ประกอบสำคัญสำหรับการจัดระเบียบข้อมูล

โดยปกติแล้ว Databricks จะมี hive_metastore เป็น Catalog เริ่มต้น แต่สำหรับแนวทางการจัดการข้อมูลที่ทันสมัยและมีประสิทธิภาพสูง Unity Catalog คือสิ่งที่คุณควรมุ่งเน้น

Unity Catalog มอบความสามารถด้าน data governance ที่เหนือกว่า ไม่ว่าจะเป็นการจัดการสิทธิ์การเข้าถึงข้อมูลที่ละเอียดอ่อน การตรวจสอบข้อมูล หรือการจัดการเมตาดาต้าที่ครอบคลุม การสร้าง Catalog ใหม่ใน Unity Catalog จะช่วยให้ข้อมูลของคุณถูกจัดเก็บและเข้าถึงได้อย่างปลอดภัยและเป็นระบบระเบียบมากยิ่งขึ้น

การสร้าง Catalog สามารถทำได้ง่ายๆ ผ่าน User Interface (UI) ในหน้า Admin Console หรือจะใช้คำสั่ง SQL ก็ได้เช่นกัน

หลังจากสร้าง Catalog แล้ว ภายใน Catalog แต่ละอันจะประกอบด้วย Schema (หรือที่เรียกว่า Database) ซึ่งเป็นที่สำหรับจัดเก็บ Table และ Object อื่นๆ การจัดลำดับแบบนี้ช่วยให้การค้นหาและจัดการข้อมูลเป็นไปอย่างมีระเบียบ

สร้างตารางข้อมูลแรกของคุณใน Databricks

เมื่อมี Catalog และ Schema ที่พร้อมใช้งานแล้ว ก็ถึงเวลาสร้างตารางข้อมูลแรกของคุณ

คุณสามารถสร้างตารางได้สองวิธีหลักๆ คือผ่าน UI หรือโดยใช้คำสั่ง SQL

หากใช้ UI คุณสามารถนำทางไปยัง Data Explorer เลือก Catalog และ Schema ที่ต้องการ จากนั้นคลิกเพื่อสร้างตารางใหม่ และระบุชื่อตาราง, กำหนด Column (คอลัมน์) และเลือก Data Type (ชนิดข้อมูล) ให้กับแต่ละคอลัมน์ เช่น STRING, INTEGER หรือ TIMESTAMP

แต่สำหรับสาย SQL การสร้างตารางทำได้ง่ายและทรงพลังกว่า โดยใช้คำสั่ง CREATE TABLE:

CREATE TABLE your_catalog.your_schema.my_first_table (
  id INT,
  name STRING,
  created_at TIMESTAMP
);

คำสั่งนี้จะสร้างตารางชื่อ my_first_table ภายใต้ your_catalog และ your_schema ที่มีสามคอลัมน์ เมื่อสร้างตารางแล้ว คุณสามารถใส่ข้อมูลเข้าไปด้วยคำสั่ง INSERT INTO:

INSERT INTO your_catalog.your_schema.my_first_table VALUES (1, 'Alice', current_timestamp());
INSERT INTO your_catalog.your_schema.my_first_table VALUES (2, 'Bob', current_timestamp());

และเมื่อต้องการดูข้อมูลในตาราง ก็ใช้คำสั่ง SELECT:

SELECT * FROM your_catalog.your_schema.my_first_table;

การได้ลองสร้างตารางและใส่ข้อมูลด้วยตัวเองจะทำให้คุณเข้าใจพื้นฐานการทำงานของ Databricks ได้อย่างแท้จริง แพลตฟอร์มนี้เปิดโอกาสให้คุณสำรวจและประมวลผลข้อมูลในรูปแบบต่างๆ ได้อย่างกว้างขวาง ทั้งหมดนี้อยู่ในมือคุณเพื่อเริ่มต้นการเดินทางในโลกของข้อมูลขนาดใหญ่