TL; DR: ชุดข้อมูลของ Pinax ทำให้การเข้าถึงข้อมูลบล็อกเชนง่ายขึ้นโดยใช้ไฟล์ Parquet และ S3 การผสมผสานนี้ให้พื้นที่จัดเก็บข้อมูลที่มีประสิทธิภาพ ประสิทธิภาพการสืบค้นที่รวดเร็ว และการผสานรวมกับเครื่องมือวิเคราะห์ที่หลากหลายได้อย่างราบรื่น ข้อมูลบล็อคเชนดิบมีโครงสร้างโดยใช้สคีมา SQL ทำให้ง่ายต่อการวิเคราะห์ ชุดข้อมูลของเรามอบโซลูชันที่ใช้งานง่ายสำหรับการเข้าถึงและวิเคราะห์ข้อมูลบล็อกเชนที่ซับซ้อนหลายรายการ
ในบล็อกโพสต์ก่อนหน้านี้ เราได้แนะนำชุดข้อมูลของ Pinpoint และวิธีที่ชุดข้อมูลเหล่านี้จะทำให้การเข้าถึงข้อมูลบล็อกเชนง่ายขึ้น ในบทความนี้ เราจะเจาะลึกเกี่ยวกับเครื่องมือและโครงสร้างที่ทำให้ชุดข้อมูลของเรามีประสิทธิภาพมาก เช่น ไฟล์ Parquet และ SQL Schema เราจะหารือเกี่ยวกับวิธีที่ Pinax ใช้ไฟล์ Parquet เพื่อการจัดเก็บข้อมูลที่มีประสิทธิภาพ รวมถึงสถาปัตยกรรม SQL ที่ครอบคลุมซึ่งสนับสนุนชุดข้อมูลบล็อกเชนดั้งเดิมของเรา เรียนรู้วิธีที่เราวางแผนที่จะมอบเทคโนโลยีที่ใช้งานง่ายและล้ำสมัยแก่นักวิเคราะห์ข้อมูล
ชุดข้อมูล Pinax ทำให้สามารถเข้าถึงข้อมูลบล็อคเชนได้อย่างง่ายดาย ขจัดอุปสรรคสำหรับผู้ที่ต้องการวิเคราะห์ข้อมูลบล็อคเชนแต่อาจไม่มีเครื่องมือหรือโครงสร้างพื้นฐานระดับมืออาชีพ เราใช้ประโยชน์จากไฟล์ Parquet ที่โฮสต์บน S3 เพื่อให้มืออาชีพในสาขาต่างๆ ตั้งแต่การวิเคราะห์แบบมหภาคไปจนถึงแชทบอท AI และการวิเคราะห์ทางการเงิน เพื่อมุ่งเน้นไปที่การวิเคราะห์ ไม่ใช่การถกเถียงเรื่องข้อมูล
เราออกแบบชุดข้อมูลของเราให้เข้ากันได้กับเครื่องมือวิเคราะห์ที่มีอยู่ ช่วยให้นักวิเคราะห์สามารถเสียบปลั๊กและเล่นกับการตั้งค่าปัจจุบันได้อย่างง่ายดาย ซึ่งหมายความว่าคุณสามารถใช้ Amazon S3 เป็นตารางภายนอกเพื่อผสานรวมชุดข้อมูลของเราเข้ากับเวิร์กโฟลว์ที่มีอยู่ของคุณได้อย่างราบรื่น ตารางภายนอกได้รับการสนับสนุนอย่างกว้างขวางในฐานข้อมูลที่หลากหลาย ดังนั้นคุณจึงสามารถสืบค้นข้อมูลได้โดยตรงจาก S3 โดยไม่ต้องมีการตั้งค่าที่ครอบคลุมหรือโครงสร้างพื้นฐานแบบกำหนดเอง ทำให้การจัดการข้อมูลง่ายขึ้น
ลองใช้ชุดข้อมูล Ethereum ของเรา: ทดลองใช้ฟรีบน Snowflake เป็นเวลา 30 วัน
การเข้าถึง การประมวลผล และการวิเคราะห์ข้อมูลบล็อกเชนอาจเป็นเรื่องที่ท้าทาย โดยเฉพาะอย่างยิ่งเมื่อเทคโนโลยียังคงมีการพัฒนาอย่างต่อเนื่องในอุตสาหกรรมต่างๆ และเพิ่มปริมาณและความซับซ้อนของข้อมูล Pinax ช่วยให้มีชุดข้อมูลที่ใช้งานง่ายซึ่งทำให้การเข้าถึงง่ายขึ้นและได้รับการออกแบบโดยคำนึงถึงผู้ใช้ทั้งด้านเทคนิคและไม่ใช่ด้านเทคนิค หัวใจของแนวทางที่เรียบง่ายของเราคือไฟล์ Parquet ซึ่งเป็นรูปแบบการจัดเก็บข้อมูลแบบเรียงเป็นแนวอันทรงพลังที่ปรับปรุงประสิทธิภาพและความสามารถในการปรับขนาด โดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลขนาดใหญ่
แต่จริงๆ แล้วไฟล์ Parquet คืออะไร และเหตุใดจึงมีความสำคัญในการเข้าถึงข้อมูลบล็อคเชน
Parquet เป็นรูปแบบไฟล์จัดเก็บข้อมูลแบบเรียงเป็นแนวที่ใช้กันอย่างแพร่หลายสำหรับการประมวลผลข้อมูลเนื่องจากมีการบีบอัดและประสิทธิภาพที่มีประสิทธิภาพ แตกต่างจากรูปแบบการจัดเก็บข้อมูลแบบแถวที่จัดเก็บข้อมูลตามลำดับ Parquet ปรับประสิทธิภาพการจัดเก็บและการสืบค้นให้เหมาะสมโดยการจัดข้อมูลเป็นคอลัมน์ ทำให้มีประสิทธิภาพโดยเฉพาะสำหรับการวิเคราะห์
--- รูปนี้เปรียบเทียบเค้าโครงแถว (แต่ละแถวจะถูกจัดเก็บตามลำดับ) และเค้าโครงคอลัมน์ (แต่ละคอลัมน์จะถูกเก็บไว้อย่างสมบูรณ์ (ที่มา))
รูปแบบแนวเสาของไฟล์ Parquet ทำให้เหมาะสำหรับการจัดการชุดข้อมูลที่ซับซ้อนและมีปริมาณมากในบล็อกเชน ด้วยการเปิดใช้การสืบค้นแบบคอลัมน์แบบเลือก Parquet จะเพิ่มความเร็วการสืบค้นและลดต้นทุนการจัดเก็บข้อมูล ซึ่งเป็นโซลูชันที่ใช้งานได้จริงสำหรับการประมวลผลข้อมูลบล็อกเชนขนาดเทราไบต์
ข้อดีที่สำคัญ ได้แก่ :
รูปแบบแนวเสาของไฟล์ Parquet ทำให้เหมาะสำหรับการจัดการชุดข้อมูลที่ซับซ้อนและมีปริมาณมากในบล็อกเชน ด้วยการเปิดใช้งานการสืบค้นแบบคอลัมน์แบบเลือก Parquet จะเพิ่มความเร็วการสืบค้นและลดต้นทุนการจัดเก็บข้อมูล ซึ่งเป็นโซลูชั่นที่ใช้งานได้จริงสำหรับการประมวลผลข้อมูลบล็อกเชนขนาดเทราไบต์
ข้อดีที่สำคัญ ได้แก่ :
- การจัดเก็บที่มีประสิทธิภาพ: Parquet ช่วยลดต้นทุนการจัดเก็บโดยการบีบอัดข้อมูลโดยไม่สูญเสียคุณภาพ ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับชุดข้อมูลบล็อกเชนขนาดใหญ่
- การสืบค้นที่รวดเร็วยิ่งขึ้น: พื้นที่จัดเก็บแบบคอลัมน์ช่วยให้นักวิเคราะห์สามารถเข้าถึงเฉพาะข้อมูลที่ต้องการ และปรับปรุงประสิทธิภาพของเครื่องมืออย่าง Messari
- ความเข้ากันได้ในวงกว้าง: Parquet ผสานรวมเข้ากับเครื่องมือวิเคราะห์ที่หลากหลายได้อย่างราบรื่น รองรับเวิร์กโฟลว์ใน SQL, Python, R และอื่นๆ อีกมากมาย
Pinax ให้ข้อมูลบล็อคเชนในรูปแบบที่ใช้งานง่าย:
- การบูรณาการอย่างราบรื่น: เราให้ข้อมูลบล็อกเชนดิบในรูปแบบ Parquet ทำให้ผู้ใช้สามารถรวมข้อมูลเข้ากับไปป์ไลน์ที่มีอยู่ได้อย่างราบรื่น
- ข้อมูลเชิงลึกล่าสุด: ชุดข้อมูลได้รับการอัปเดตทุกวัน เพื่อให้มั่นใจว่าผู้ใช้สามารถเข้าถึงข้อมูลบล็อกเชนล่าสุดได้
- การใช้งานที่เพิ่มขึ้น: รูปแบบที่คุ้นเคยของ Parquet ช่วยให้กระบวนการวิเคราะห์ง่ายขึ้น ช่วยให้นักวิเคราะห์มุ่งเน้นไปที่การวิเคราะห์มากกว่าโครงสร้างพื้นฐาน
โครงการนำร่องชุดข้อมูลของเรากำลังดำเนินไปด้วยดีและมีความก้าวหน้าครั้งใหม่โดยมีเป้าหมายเพื่อปรับปรุงการเข้าถึงข้อมูลและประสิทธิภาพ นี่คือข้อมูลล่าสุดเกี่ยวกับการตั้งค่าของเรา:
- ตัวเลือกการแยกข้อมูลและการเข้าถึง: การตั้งค่าตารางภายนอก S3 ช่วยให้นักวิเคราะห์สามารถจัดการการเข้าถึงข้อมูลได้อย่างอิสระ ตัวเลือกต่างๆ ได้แก่ การคัดลอกข้อมูล S3 ลงในตารางแบบกำหนดเอง การเชื่อมต่อโดยตรงกับตารางภายนอก S3 หรือใช้มุมมอง Snowflake ที่กำหนดค่าไว้ล่วงหน้าของเรา นอกจากนี้ ยังสามารถดาวน์โหลดข้อมูลไปยังการประมวลผลดิสก์ภายในเครื่องได้ ซึ่งให้ความยืดหยุ่นในการประมวลผลข้อมูล
- การมีส่วนร่วมน้อยที่สุดในข้อกำหนดการปรับแต่ง: การตั้งค่านี้ทำให้บทบาทของ Pinex ไม่สำคัญ เรามุ่งเน้นที่การรับรองความสมบูรณ์ของข้อมูลและคำจำกัดความของสคีมาที่แม่นยำเป็นหลัก ในขณะที่นักวิเคราะห์ยังคงควบคุมความต้องการข้อมูลเฉพาะ
- การซิงโครไนซ์และการจัดรูปแบบข้อมูล: การอัปโหลดการซิงค์ S3 อัตโนมัติช่วยให้มั่นใจว่าสามารถอ่านรูปแบบข้อมูลได้ ช่วยให้สามารถสร้างมุมมองที่กำหนดเองบนชุดข้อมูลเพื่อตอบสนองความต้องการในการวิเคราะห์ได้ดียิ่งขึ้น
- การเพิ่มประสิทธิภาพประสิทธิภาพ: เราจะทดสอบการกำหนดค่าต่อไปเพื่อปรับปรุงประสิทธิภาพการสืบค้นชุดข้อมูลขนาดใหญ่ รวมถึงการจัดระเบียบพาร์ติชันใหม่เพื่อปรับปรุงความเร็ว
ชุดข้อมูล Pinax มีศักยภาพเพื่อรองรับการใช้งานที่หลากหลาย:
- การวิเคราะห์ระดับมหภาค: แพลตฟอร์มอย่าง Messari และ Snowflake ได้รับประโยชน์จากชุดข้อมูลของเรา โดยการบูรณาการข้อมูลเชิงลึกบล็อกเชนเข้ากับการวิเคราะห์ตลาดในวงกว้างได้อย่างราบรื่น
- การบัญชี: บันทึกบล็อคเชนให้บัญชีแยกประเภทที่โปร่งใสและไม่เปลี่ยนรูป ทำให้มีคุณค่าสำหรับวัตถุประสงค์ด้านบัญชีและการตรวจสอบ
- นิติวิทยาศาสตร์บล็อคเชน: ชุดข้อมูลสามารถช่วยผู้ตรวจสอบทางนิติวิทยาศาสตร์ติดตามธุรกรรม ตรวจจับการฉ้อโกง และติดตามกิจกรรมที่น่าสงสัยบนบล็อคเชน
- แชทบอท AI และ LLM: การเข้าถึงข้อมูลบล็อกเชนที่มีโครงสร้างทำหน้าที่เป็นข้อมูลการฝึกอบรมคุณภาพสูงสำหรับโมเดล AI โดยเฉพาะโมเดลภาษาขนาดใหญ่ (LLM) ที่ออกแบบมาเพื่อทำความเข้าใจคำถามที่เกี่ยวข้องกับบล็อกเชนหรือทำการวิเคราะห์
- การวิเคราะห์ทางการเงิน: แอปพลิเคชัน DeFi สามารถรวมข้อมูล Pinax เพื่อแสดงสถิติการทำธุรกรรมในอดีต ให้ข้อมูลเชิงลึกสำหรับการตัดสินใจทางการเงินที่ชาญฉลาดยิ่งขึ้น
ข้อมูลบล็อคเชนจะปรากฏในรูปแบบดิบ โดยบันทึกธุรกรรมและการโต้ตอบที่สำคัญทั้งหมดบนเครือข่าย Pinax ให้การเข้าถึงตารางข้อมูล Ethereum ฐานเพิ่มเติม เช่น บล็อก ธุรกรรม การติดตามเพิ่มเติม และบันทึก ชุดข้อมูลของเราช่วยให้สามารถวิเคราะห์แบบละเอียด ตั้งแต่การติดตามธุรกรรมแต่ละรายการไปจนถึงการทำความเข้าใจแนวโน้มข้ามบล็อก ทำให้เหมาะสำหรับการใช้งานในหลากหลายสาขา
---ข้อมูลบล็อกเชน EVM ที่ครอบคลุม ครอบคลุมบล็อก ธุรกรรม บันทึก และการติดตามแบบขยายสำหรับการวิเคราะห์เชิงลึก
เพื่อให้เข้าถึงได้อย่างมีประสิทธิภาพ Pinax ใช้สถาปัตยกรรม SQL เพื่อจัดโครงสร้างข้อมูลบล็อกเชน สคีมานี้กำหนดโครงสร้างของข้อมูลในไฟล์ Parquet ทำให้การเข้าถึงและการวิเคราะห์ข้อมูลในแอปพลิเคชันต่างๆ ง่ายขึ้น สคีมา EVM SQL มีตารางโดยละเอียดสำหรับการติดตามข้อมูล EVM รวมถึงบล็อก ธุรกรรม บันทึก และการเปลี่ยนแปลงสถานะ แต่ละตารางจะรวบรวมข้อมูลแบบละเอียดเพื่อการวิเคราะห์เชิงลึก ช่วยให้ผู้ใช้สำรวจการโต้ตอบบล็อกเชนได้อย่างมีประสิทธิภาพ
หากต้องการสำรวจสคีมา SQL สำหรับการสร้างข้อมูล Ethereum โปรดดูสคีมา EVM SQL ของ Pinpoint บน GitHub
หากต้องการสำรวจสคีมา SQL สำหรับการสร้างข้อมูล Ethereum โปรดดูสคีมา EVM SQL ของ Pinpoint บน GitHub
เพื่อแสดงให้เห็นว่า SQL Schema นี้สามารถนำไปใช้ในการวิเคราะห์ในโลกแห่งความเป็นจริงได้อย่างไร ต่อไปนี้คือตัวอย่างแบบสอบถามบางส่วนที่สาธิตวิธีการดึงข้อมูลเฉพาะจากข้อมูลบล็อกเชน
-- This query calculates the number of unique active users per minute on a specific date.
SELECT
date_trunc('minute', block_time) AS minute,
count(distinct "from") AS user
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY minute
ORDER BY minute ASC;
-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count.
SELECT
"to" AS contract,
count(*) AS transactions
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY contract
ORDER BY transactions DESC
LIMIT 10;
-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range.
SELECT
block_date,
count(*) as total
FROM ethereum.traces
WHERE
tx_success = true AND
SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom
AND block_date >= '2024-09-01' AND block_date <= '2024-09-07'
GROUP BY block_date
ORDER BY block_date;
Pinax 数据集可在 Snowflake 上使用,Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻名。Snowflake Marketplace允许您以最少的设置将区块链数据集成到您的工作流程中。
Snowflake Marketplace 将向更广泛的受众提供我们的数据集,从而促进跨行业更大的数据可访问性。
区块链数据通常被认为难以访问和分析,但 Pinax数据集将改变这种思维方式。我们专注于用户友好的格式和易于访问,使区块链数据可用于多种用途,从财务分析到AI 模型训练。
如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察。
หากคุณสนใจที่จะสำรวจวิธีที่เราสามารถทำให้การเข้าถึงข้อมูลบล็อกเชนง่ายขึ้นตามความต้องการของคุณ โปรดเยี่ยมชมเว็บไซต์ของเราหรือติดต่อเราเพื่อเรียนรู้เพิ่มเติม ขอการสาธิตเพื่อดูว่าเราสามารถเปลี่ยนข้อมูลเชิงลึกเกี่ยวกับบล็อกเชนของคุณได้อย่างไร
โปรดจำไว้ว่าชุดข้อมูล ETH ของเรามีให้บริการฟรีบน Snowflake เป็นเวลา 30 วัน!
(สำหรับคำศัพท์ทางวิชาชีพที่เกี่ยวข้อง ความคิดเห็น ไลบรารีโค้ด ไฮเปอร์ลิงก์ ฯลฯ โปรดติดตามบล็อกเพื่อค้นหา)
💡 บทความนี้ตอบคำถามต่อไปนี้:
- Pinax สร้างชุดข้อมูล blockchain เพื่อให้ใช้งานง่ายและมีประสิทธิภาพสูงสุดได้อย่างไร
- อุตสาหกรรมและกรณีการใช้งานประเภทใดที่จะได้ประโยชน์จากชุดข้อมูลของ Pinax
- ไฟล์ปาร์เก้คืออะไร?
- เหตุใดไฟล์ Parquet จึงเหมาะสำหรับข้อมูลบล็อคเชน
- มีอะไรบันทึกไว้ในข้อมูล blockchain แบบดิบ?
- บทบาทของสคีมา SQL ในการจัดโครงสร้างข้อมูลบล็อคเชนคืออะไร?
- จะลองใช้ชุดข้อมูล Pinax ฟรีได้อย่างไร
#blockchaindataanalysis#dataset#web3data#blockchaindevelopment
ความคิดเห็นทั้งหมด