geometric-intelligence · dleko11 · Nov 3, 2025 · Nov 3, 2025 · Nov 4, 2025 · Nov 19, 2025
diff --git a/.gitignore b/.gitignore
@@ -186,6 +186,10 @@ notebooks/tmp
 /tutorials/lightning_logs/
 /tutorials/datasets/
 
+# Sweep outputs
+/tools/sweep_tools/outputs
+/tools/memory_usage_tracking/outputs
+
 # wandb
 wandb/
 

diff --git a/configs/dataset/graph/cocitation_citeseer_for_partitioning.yaml b/configs/dataset/graph/cocitation_citeseer_for_partitioning.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.PlanetoidDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: citeseer
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk_cluster          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition settings
+    cluster:
+      num_parts: 32                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                                # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 3703
+  num_classes: 6
+  num_nodes: 3327
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/cocitation_citeseer_on_disk.yaml b/configs/dataset/graph/cocitation_citeseer_on_disk.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.OnDiskDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: citeseer_on_disk
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition setting
+    cluster:
+      num_parts: 32                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                               # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 3703
+  num_classes: 6
+  num_nodes: 3327
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/cocitation_cora_for_partitioning.yaml b/configs/dataset/graph/cocitation_cora_for_partitioning.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.PlanetoidDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: Cora
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk_cluster          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition settings
+    cluster:
+      num_parts: 32                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                                # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 1433
+  num_classes: 7
+  num_nodes: 2708
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/cocitation_cora_on_disk.yaml b/configs/dataset/graph/cocitation_cora_on_disk.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.OnDiskDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: Cora_on_disk
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition setting
+    cluster:
+      num_parts: 32                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                               # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 1433
+  num_classes: 7
+  num_nodes: 2708
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/cocitation_pubmed_for_partitioning.yaml b/configs/dataset/graph/cocitation_pubmed_for_partitioning.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.PlanetoidDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: PubMed
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk_cluster          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition settings
+    cluster:
+      num_parts: 64                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                                # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 500
+  num_classes: 3
+  num_nodes: 19717
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/cocitation_pubmed_on_disk.yaml b/configs/dataset/graph/cocitation_pubmed_on_disk.yaml
@@ -0,0 +1,55 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.OnDiskDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: cocitation_on_disk
+    data_name: PubMed_on_disk
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+    # Choose memory mode
+    memory_type: on_disk          # "in_memory", "on_disk", or "on_disk_cluster"
+
+    # Global partition setting
+    cluster:
+      num_parts: 64                       # number of clusters for single global partition
+      recursive: false                    # forwarded to PyG ClusterData
+      keep_inter_cluster_edges: false     # standard Cluster-GCN style
+      sparse_format: csr                  # required by our block-stream loader
+
+    # Streaming / loader settings for block-wise training
+    stream:
+      q: 4                               # clusters per batch (Cluster-GCN "bsize")
+      num_workers: 0                      # increase if needed
+      pin_memory: false                   # true if you want faster H2D
+      with_edge_attr: false               # WebKB has no edge_attr
+      precompute_split_parts: true        # write parts_with_{train,val,test}.npy
+
+    # How to store features on disk
+    dtype_policy: float32                 # current ClusterOnDisk uses float32
+
+# Dataset parameters (unchanged)
+parameters:
+  num_features: 500
+  num_classes: 3
+  num_nodes: 19717
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+# Splits (unchanged; used by pack_global_partition)
+split_params:
+  learning_setting: transductive # transductive # inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters for legacy paths (kept; ignored in on_disk_cluster mode)
+dataloader_params:
+  batch_size: 1
+  drop_last: True  
+  num_workers: 0
+  pin_memory: False