Entschuldigung im Voraus für die sehr detaillierte Frage. Ich habe Abfragen zum Generieren eines vollständigen Datensatzes zum Reproduzieren des Problems eingefügt, und ich führe SQL Server 2012 auf einem 32-Core-Computer aus. Ich glaube jedoch nicht, dass dies spezifisch für SQL Server 2012 ist, und ich habe für dieses Beispiel eine MAXDOP von 10 erzwungen.
Ich habe zwei Tabellen, die nach demselben Partitionsschema partitioniert sind. Als ich sie in der für die Partitionierung verwendeten Spalte zusammenfügte, bemerkte ich, dass SQL Server einen parallelen Merge-Join nicht so optimieren kann, wie es zu erwarten war, und entschied sich stattdessen für die Verwendung eines HASH JOIN. In diesem speziellen Fall kann ich einen viel optimaleren parallelen MERGE JOIN manuell simulieren, indem ich die Abfrage basierend auf der Partitionsfunktion in 10 disjunkte Bereiche aufteile und jede dieser Abfragen gleichzeitig in SSMS ausführe. Wenn Sie WAITFOR verwenden, um alle Abfragen genau zur gleichen Zeit auszuführen, werden alle Abfragen in ~ 40% der Gesamtzeit ausgeführt, die von der ursprünglichen parallelen HASH JOIN-Operation verwendet wird.
Gibt es eine Möglichkeit, SQL Server zu veranlassen, diese Optimierung bei entsprechend partitionierten Tabellen selbst durchzuführen? Ich verstehe, dass SQL Server im Allgemeinen viel Aufwand verursachen kann, um einen MERGE JOIN parallel zu machen, aber es scheint, als gäbe es in diesem Fall eine sehr natürliche Sharding-Methode mit minimalem Aufwand. Vielleicht handelt es sich nur um einen speziellen Fall, für den der Optimierer noch nicht klug genug ist, um ihn zu erkennen?
Hier ist die SQL zum Einrichten eines vereinfachten Datensatzes, um dieses Problem zu reproduzieren:
/* Create the first test data table */
CREATE TABLE test_transaction_properties
( transactionID INT NOT NULL IDENTITY(1,1)
, prop1 INT NULL
, prop2 FLOAT NULL
)
/* Populate table with pseudo-random data (the specific data doesn't matter too much for this example) */
;WITH E1(N) AS (
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
)
, E2(N) AS (SELECT 1 FROM E1 a CROSS JOIN E1 b)
, E4(N) AS (SELECT 1 FROM E2 a CROSS JOIN E2 b)
, E8(N) AS (SELECT 1 FROM E4 a CROSS JOIN E4 b)
INSERT INTO test_transaction_properties WITH (TABLOCK) (prop1, prop2)
SELECT TOP 10000000 (ABS(CAST(CAST(NEWID() AS VARBINARY) AS INT)) % 5) + 1 AS prop1
, ABS(CAST(CAST(NEWID() AS VARBINARY) AS INT)) * rand() AS prop2
FROM E8
/* Create the second test data table */
CREATE TABLE test_transaction_item_detail
( transactionID INT NOT NULL
, productID INT NOT NULL
, sales FLOAT NULL
, units INT NULL
)
/* Populate the second table such that each transaction has one or more items
(again, the specific data doesn't matter too much for this example) */
INSERT INTO test_transaction_item_detail WITH (TABLOCK) (transactionID, productID, sales, units)
SELECT t.transactionID, p.productID, 100 AS sales, 1 AS units
FROM test_transaction_properties t
JOIN (
SELECT 1 as productRank, 1 as productId
UNION ALL SELECT 2 as productRank, 12 as productId
UNION ALL SELECT 3 as productRank, 123 as productId
UNION ALL SELECT 4 as productRank, 1234 as productId
UNION ALL SELECT 5 as productRank, 12345 as productId
) p
ON p.productRank <= t.prop1
/* Divides the transactions evenly into 10 partitions */
CREATE PARTITION FUNCTION [pf_test_transactionId] (INT)
AS RANGE RIGHT
FOR VALUES
(1,1000001,2000001,3000001,4000001,5000001,6000001,7000001,8000001,9000001)
CREATE PARTITION SCHEME [ps_test_transactionId]
AS PARTITION [pf_test_transactionId]
ALL TO ( [PRIMARY] )
/* Apply the same partition scheme to both test data tables */
ALTER TABLE test_transaction_properties
ADD CONSTRAINT PK_test_transaction_properties
PRIMARY KEY (transactionID)
ON ps_test_transactionId (transactionID)
ALTER TABLE test_transaction_item_detail
ADD CONSTRAINT PK_test_transaction_item_detail
PRIMARY KEY (transactionID, productID)
ON ps_test_transactionId (transactionID)
Jetzt können wir endlich die suboptimale Abfrage reproduzieren!
/* This query produces a HASH JOIN using 20 threads without the MAXDOP hint,
and the same behavior holds in that case.
For simplicity here, I have limited it to 10 threads. */
SELECT COUNT(*)
FROM test_transaction_item_detail i
JOIN test_transaction_properties t
ON t.transactionID = i.transactionID
OPTION (MAXDOP 10)
Die Verwendung eines einzelnen Threads zur Verarbeitung jeder Partition (Beispiel für die erste Partition unten) würde jedoch zu einem viel effizienteren Plan führen. Ich habe dies getestet, indem ich eine Abfrage wie die folgende für jede der 10 Partitionen genau im selben Moment ausgeführt habe und alle 10 in etwas mehr als 1 Sekunde fertig waren:
SELECT COUNT(*)
FROM test_transaction_item_detail i
INNER MERGE JOIN test_transaction_properties t
ON t.transactionID = i.transactionID
WHERE t.transactionID BETWEEN 1 AND 1000000
OPTION (MAXDOP 1)