- บทความ
สำคัญ
Direct Lake อยู่ในตอนนี้ดูตัวอย่าง. ข้อมูลนี้เกี่ยวข้องกับผลิตภัณฑ์ก่อนวางจำหน่ายที่อาจได้รับการแก้ไขในสาระสำคัญก่อนที่จะวางจำหน่าย Microsoft ไม่รับประกันไม่ว่าโดยชัดแจ้งหรือโดยปริยายเกี่ยวกับข้อมูลที่ให้ไว้ที่นี่ ก่อนการทดสอบในสภาพแวดล้อมของคุณ โปรดอ่านปัญหาและข้อจำกัดที่ทราบในบทความนี้
ทะเลสาบโดยตรงโหมดเป็นความสามารถชุดข้อมูลใหม่ที่ก้าวล้ำสำหรับการวิเคราะห์ปริมาณข้อมูลขนาดใหญ่มากใน Power BI Direct Lake ขึ้นอยู่กับการโหลดไฟล์ที่จัดรูปแบบ parquet โดยตรงจาก Data Lake โดยไม่ต้องสอบถามตำแหน่งข้อมูล Lakehouse และไม่ต้องนำเข้าหรือทำซ้ำข้อมูลลงในชุดข้อมูล Power BI Direct Lake เป็นเส้นทางด่วนในการโหลดข้อมูลจากทะเลสาบตรงไปยังเครื่องมือ Power BI พร้อมสำหรับการวิเคราะห์ ไดอะแกรมต่อไปนี้แสดงการเปรียบเทียบโหมดการนำเข้าแบบคลาสสิกและ DirectQuery กับโหมด Direct Lake ใหม่
บันทึก
คลังข้อมูลไม่รองรับในขณะนี้ดูตัวอย่าง.
ในโหมด DirectQuery เครื่องมือ Power BI จะสืบค้นข้อมูลที่ต้นทาง ซึ่งอาจช้าแต่ไม่ต้องคัดลอกข้อมูล การเปลี่ยนแปลงใดๆ ที่แหล่งข้อมูลจะมีผลทันทีในผลลัพธ์ของคิวรี
ในทางกลับกัน เมื่อใช้โหมดการนำเข้า ประสิทธิภาพอาจดีขึ้นเนื่องจากข้อมูลถูกแคชและปรับให้เหมาะสมสำหรับการสืบค้นข้อมูลข่าวกรองธุรกิจ โดยไม่ต้องสืบค้นแหล่งข้อมูลสำหรับการสืบค้น DAX แต่ละรายการที่ส่งโดยรายงาน อย่างไรก็ตาม กลไก Power BI จะต้องคัดลอกข้อมูลลงในชุดข้อมูลก่อนระหว่างการรีเฟรช การเปลี่ยนแปลงใด ๆ ที่ต้นทางจะถูกเลือกด้วยต่อไปการรีเฟรชชุดข้อมูล
โหมด Direct Lake ช่วยลดความต้องการในการนำเข้าโดยการโหลดข้อมูลโดยตรงจาก OneLake ซึ่งแตกต่างจาก DirectQuery คือไม่มีการแปลเป็นภาษาคิวรีอื่นหรือการดำเนินการคิวรีบนระบบฐานข้อมูลอื่น ซึ่งให้ประสิทธิภาพคล้ายกับโหมดนำเข้า เนื่องจากไม่มีกระบวนการนำเข้าที่ชัดเจน จึงเป็นไปได้ที่จะรับการเปลี่ยนแปลงใดๆ ที่แหล่งข้อมูลเมื่อเกิดขึ้น โดยรวมเอาข้อดีของทั้ง DirectQuery และโหมดนำเข้าไว้ในขณะที่หลีกเลี่ยงข้อเสีย โหมด Direct Lake สามารถเป็นตัวเลือกที่เหมาะสำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่มากและชุดข้อมูลที่มีการอัปเดตบ่อยครั้งที่แหล่งข้อมูล
ข้อกำหนดเบื้องต้น
Direct Lake ได้รับการสนับสนุนบน Power BI Premium P และ Microsoft Fabric F SKU เท่านั้น ไม่รองรับ Power BI Pro, Premium Per User หรือ Power BI Embedded A/EM SKU
เลคเฮาส์
ก่อนที่จะใช้ Direct Lake คุณต้องจัดเตรียม Lakehouse ด้วยตารางเดลต้าหนึ่งตารางขึ้นไปในพื้นที่ทำงานที่โฮสต์บนความจุของ Power BI หรือ Microsoft Fabric ที่รองรับ จำเป็นต้องมี Lakehouse เนื่องจากมีตำแหน่งจัดเก็บสำหรับไฟล์ที่จัดรูปแบบปาร์เกต์ของคุณใน OneLake Lakehouse ยังมีจุดเชื่อมต่อเพื่อเปิดใช้งานการสร้างแบบจำลองเว็บเพื่อสร้างชุดข้อมูล Direct Lake
หากต้องการเรียนรู้วิธีจัดเตรียม Lakehouse สร้างตารางเดลต้าใน Lakehouse และสร้างชุดข้อมูลสำหรับ Lakehouse โปรดดูที่สร้างเลคเฮาส์ในบทความนี้
จุดสิ้นสุดของ SQL
ในฐานะส่วนหนึ่งของการจัดเตรียม Lakehouse ตำแหน่งข้อมูล SQL สำหรับการสอบถาม SQL และชุดข้อมูลเริ่มต้นสำหรับการรายงานจะถูกสร้างขึ้นและอัปเดตด้วยตารางใดๆ ที่เพิ่มไปยัง Lakehouse แม้ว่าโหมด Direct Lake จะไม่สอบถามตำแหน่งข้อมูล SQL เมื่อโหลดข้อมูลโดยตรงจาก OneLake แต่ก็จำเป็นเมื่อชุดข้อมูล Direct Lake ต้องถอยกลับไปใช้โหมด DirectQuery อย่างราบรื่น เช่น เมื่อแหล่งข้อมูลใช้คุณลักษณะเฉพาะ เช่น การรักษาความปลอดภัยขั้นสูงหรือมุมมองที่สามารถ' ไม่สามารถอ่านผ่าน Direct Lake
ปัญหาและข้อจำกัดที่ทราบ
ต่อไปนี้เป็นปัญหาและข้อจำกัดที่ทราบในระหว่างดูตัวอย่าง:
ขีดจำกัดขนาด Direct Lake มีแนวโน้มที่จะเปลี่ยนแปลงในระหว่างดูตัวอย่าง. ขีดจำกัดที่ชัดเจนยิ่งขึ้นจะถูกกำหนดและอธิบายไว้ในบทความนี้โดย GA (ความพร้อมใช้งานทั่วไป) หากถึงขีดจำกัด แบบสอบถามจะดำเนินการในโหมด DirectQuery ขีดจำกัดขึ้นอยู่กับจำนวนแถวต่อตารางที่ใช้โดยแบบสอบถาม DAX จำนวนแถวจะแตกต่างกันไปตามขนาดของ SKU หากต้องการตรวจสอบว่าการสืบค้นกลับไปสู่โหมด DirectQuery หรือไม่ โปรดดูที่วิเคราะห์การประมวลผลแบบสอบถามสำหรับชุดข้อมูล Direct Lake.
คุณต้องใช้ประสบการณ์การสร้างแบบจำลองเว็บที่รวมอยู่ใน Lakehouse เพื่อสร้างชุดข้อมูล Direct Lake ยังไม่รองรับการสร้างชุดข้อมูล Direct Lake โดยใช้ Power BI Desktop หรือเครื่องมืออัตโนมัติที่ใช้ XMLA
เมื่อสร้างชุดข้อมูล Direct Lake ในพื้นที่ทำงานที่เปิดใช้งาน QSO คุณต้องซิงค์ชุดข้อมูลด้วยตนเองโดยใช้คำสั่ง PowerShell ต่อไปนี้ด้วย Power BI Management cmdlets ที่ติดตั้ง (แทนที่ WorkspaceID และ DatasetID ด้วย GUID ของพื้นที่ทำงานและชุดข้อมูลของคุณ):
เข้าสู่ระบบ-PowerBIInvoke-PowerBIRestMethod -Url 'groups/WorkspaceId/datasets/DatasetId/sync' -Method Post | ConvertFrom-Json | รูปแบบ-รายการ
ยังไม่รองรับคอลัมน์จากการคำนวณและตารางจากการคำนวณ
อาจไม่รองรับข้อมูลบางประเภท
รองรับการลงชื่อเพียงครั้งเดียว (SSO) เท่านั้น
ยังไม่รองรับสถานการณ์จำลองแบบฝังที่อาศัยบริการหลัก รุ่น Direct Lake ใช้การลงชื่อเพียงครั้งเดียว (SSO)
อินเทอร์เฟซผู้ใช้ชุดข้อมูลอาจแสดงไอคอนคำเตือนบนตาราง แม้ว่าตารางจะไม่มีปัญหาก็ตาม สิ่งนี้จะได้รับการแก้ไขในการอัปเดตในอนาคต
ชุดข้อมูลเริ่มต้นที่เป็นค่าเริ่มต้น/สร้างขึ้นโดยอัตโนมัติอาจไม่อยู่ในโหมด Direct Lake หากมีเพียงตารางเดียวใน Lakehouse หากต้องการให้ชุดข้อมูลใช้โหมด Direct Lake ให้ทำการเปลี่ยนแปลงเล็กน้อยในตารางใน Lakehouse เช่น เปลี่ยนชื่อตาราง การเปลี่ยนชื่อควรทำให้ชุดข้อมูลเปลี่ยนเป็นโหมด Direct Lake
สร้างเลคเฮาส์
ทำตามขั้นตอนต่อไปนี้เพื่อสร้าง Lakehouse ตารางเดลต้า และชุดข้อมูลในพื้นที่ทำงาน Microsoft Fabric หรือ Power BI
เพื่อสร้างเลคเฮาส์
ในพื้นที่ทำงาน Microsoft Fabric หรือ Power BI ของคุณ ให้เลือกใหม่>แสดงทั้งหมดแล้วเข้าไปวิศวกรรมข้อมูลให้เลือกเลคเฮาส์กระเบื้อง.
ในนิวเลคเฮาส์กล่องโต้ตอบ ป้อนชื่อ จากนั้นเลือกสร้าง. ชื่อสามารถประกอบด้วยอักขระที่เป็นตัวอักษรและตัวเลขคละกันและเครื่องหมายขีดล่างเท่านั้น
ตรวจสอบว่าสร้าง Lakehouse ใหม่และเปิดสำเร็จแล้ว
สร้างตารางเดลต้าใน Lakehouse
หลังจากสร้าง Lakehouse ใหม่ คุณต้องสร้างตารางเดลต้าอย่างน้อยหนึ่งตาราง เพื่อให้ Direct Lake สามารถเข้าถึงข้อมูลบางอย่างได้ Direct Lake สามารถอ่านไฟล์ที่จัดรูปแบบ parquet ได้ แต่เพื่อประสิทธิภาพที่ดีที่สุด วิธีที่ดีที่สุดคือการบีบอัดข้อมูลโดยใช้วิธีการบีบอัด VORDER VORDER บีบอัดข้อมูลโดยใช้อัลกอริธึมการบีบอัดดั้งเดิมของเครื่องมือ Power BI ด้วยวิธีนี้เครื่องยนต์สามารถโหลดข้อมูลลงในหน่วยความจำได้เร็วที่สุด
มีหลายตัวเลือกในการโหลดข้อมูลลงใน Lakehouse รวมถึงไปป์ไลน์ข้อมูลและสคริปต์ ขั้นตอนต่อไปนี้ใช้ PySpark เพื่อเพิ่มตารางเดลต้าไปยัง Lakehouse ตามชุดข้อมูล Azure Open.
ในการเพิ่มตารางเดลต้าให้กับ Lakehouse
ใน Lakehouse ที่สร้างขึ้นใหม่ให้เลือกเปิดสมุดบันทึกแล้วเลือกโน๊ตบุ๊คใหม่.
คัดลอกและวางข้อมูลโค้ดต่อไปนี้ลงในเซลล์โค้ดแรกเพื่อให้ SPARK เข้าถึงชุดข้อมูลที่เปิดอยู่ จากนั้นกดเปลี่ยน + เข้าสู่เพื่อรันโค้ด
# การเข้าถึงที่เก็บข้อมูล Azure infoblob_account_name = "azureopendatastorage"blob_container_name = "holidaydatacontainer"blob_relative_path = "Processed"blob_sas_token = r""# อนุญาตให้ SPARK อ่านจาก Blob จากระยะไกลwasbs_path = 'wasbs://%s@%s.blob.core.windows net/%s' % (blob_container_name, blob_account_name, blob_relative_path)spark.conf.set( 'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)พิมพ์ ('เส้นทางหยดระยะไกล:' + wasbs_path)
ตรวจสอบว่ารหัสส่งออกเส้นทาง blob ระยะไกลสำเร็จ
คัดลอกและวางโค้ดต่อไปนี้ลงในเซลล์ถัดไป จากนั้นกดเปลี่ยน + เข้าสู่.
# อ่านไฟล์ Parquet ใน DataFrame.df = spark.read.parquet(wasbs_path)print(df.printSchema())
ตรวจสอบว่าโค้ดแสดงผล DataFrame schema สำเร็จ
คัดลอกและวางบรรทัดต่อไปนี้ลงในเซลล์ถัดไป จากนั้นกดเปลี่ยน + เข้าสู่. คำสั่งแรกเปิดใช้งานวิธีการบีบอัด VORDER และคำสั่งถัดไปจะบันทึก DataFrame เป็นตารางเดลต้าใน Lakehouse
# บันทึกเป็นตารางเดลต้า spark.conf.set("spark.sql.parquet.vorder.enabled", "true")df.write.format("delta").saveAsTable("holidays")
ตรวจสอบว่างาน SPARK ทั้งหมดเสร็จสมบูรณ์ ขยายรายการงาน SPARK เพื่อดูรายละเอียดเพิ่มเติม
หากต้องการยืนยันว่าสร้างตารางสำเร็จแล้ว ในพื้นที่ด้านซ้ายบน ถัดจากตารางให้เลือกจุดไข่ปลา (…) จากนั้นเลือกรีเฟรชแล้วขยายตารางโหนด
ใช้วิธีเดียวกับด้านบนหรือวิธีอื่นๆ ที่รองรับ เพิ่มตารางเดลต้าสำหรับข้อมูลที่คุณต้องการวิเคราะห์
เพื่อสร้างชุดข้อมูล Direct Lake พื้นฐานสำหรับ Lakehouse ของคุณ
ใน Lakehouse ของคุณ เลือกชุดข้อมูลใหม่แล้วในชุดข้อมูลใหม่กล่องโต้ตอบ เลือกตารางที่จะรวมในชุดข้อมูล
เลือกยืนยันเพื่อสร้างชุดข้อมูล Direct Lake ชุดข้อมูลจะถูกบันทึกโดยอัตโนมัติในพื้นที่ทำงานตามชื่อ Lakehouse ของคุณ จากนั้นจึงเปิดชุดข้อมูลนั้น
เลือกเปิดโมเดลข้อมูลเพื่อเปิดประสบการณ์การสร้างโมเดลเว็บที่คุณสามารถเพิ่มความสัมพันธ์ของตารางและการวัด DAX
เมื่อคุณเพิ่มความสัมพันธ์และหน่วยวัด DAX เสร็จแล้ว คุณจะสามารถสร้างรายงาน สร้างแบบจำลองผสม และค้นหาชุดข้อมูลผ่านจุดสิ้นสุด XMLA ได้ในลักษณะเดียวกับชุดข้อมูลอื่นๆ ในระหว่างดูตัวอย่างยังไม่รองรับการดำเนินการเขียน XMLA
วิเคราะห์การประมวลผลแบบสอบถาม
ในการตรวจสอบว่าการสืบค้น DAX ของภาพรายงานไปยังแหล่งข้อมูลนั้นให้ประสิทธิภาพที่ดีที่สุดโดยใช้โหมด Direct Lake หรือถอยกลับไปที่โหมด DirectQuery คุณสามารถใช้ตัววิเคราะห์ประสิทธิภาพใน Power BI Desktop เพื่อวิเคราะห์แบบสอบถาม หากต้องการเรียนรู้เพิ่มเติม โปรดดูที่วิเคราะห์การประมวลผลแบบสอบถามสำหรับชุดข้อมูล Direct Lake.