Merge branch 'main' into dualreinit

ChrisRackauckas · web-flow · commit 6fcfbefe4e92 · 2025-12-08T19:48:32.000-01:00
diff --git a/Project.toml b/Project.toml
@@ -1,7 +1,7 @@
 name = "LinearSolve"
 uuid = "7ed4a6bd-45f5-4d41-b270-4a48e9bafcae"
 authors = ["SciML"]
-version = "3.48.0"
+version = "3.48.1"
 
 [deps]
 ArrayInterface = "4fba245c-0d91-5ea0-9b3e-6abc04ee57a9"
@@ -86,7 +86,7 @@ ArrayInterface = "7.17"
 BandedMatrices = "1.8"
 BlockDiagonals = "0.2"
 CUDA = "5.5"
-CUDSS = "0.4, 0.6.1"
+CUDSS = "0.6.3"
 CUSOLVERRF = "0.2.6"
 ChainRulesCore = "1.25"
 CliqueTrees = "1.11.0"
diff --git a/ext/LinearSolveCUDAExt.jl b/ext/LinearSolveCUDAExt.jl
@@ -5,11 +5,9 @@ using LinearSolve: LinearSolve, is_cusparse, defaultalg, cudss_loaded, DefaultLi
                    DefaultAlgorithmChoice, ALREADY_WARNED_CUDSS, LinearCache,
                    needs_concrete_A,
                    error_no_cudss_lu, init_cacheval, OperatorAssumptions,
-                   CudaOffloadFactorization, CudaOffloadLUFactorization,
-                   CudaOffloadQRFactorization,
+                   CudaOffloadFactorization, CudaOffloadLUFactorization, CudaOffloadQRFactorization,
                    CUDAOffload32MixedLUFactorization,
-                   SparspakFactorization, KLUFactorization, UMFPACKFactorization,
-                   LinearVerbosity
+                   SparspakFactorization, KLUFactorization, UMFPACKFactorization, LinearVerbosity
 using LinearSolve.LinearAlgebra, LinearSolve.SciMLBase, LinearSolve.ArrayInterface
 using SciMLBase: AbstractSciMLOperator
 
@@ -19,23 +17,30 @@ function LinearSolve.is_cusparse(A::Union{
         CUDA.CUSPARSE.CuSparseMatrixCSR, CUDA.CUSPARSE.CuSparseMatrixCSC})
     true
 end
+LinearSolve.is_cusparse_csr(::CUDA.CUSPARSE.CuSparseMatrixCSR) = true
+LinearSolve.is_cusparse_csc(::CUDA.CUSPARSE.CuSparseMatrixCSC) = true
 
 function LinearSolve.defaultalg(A::CUDA.CUSPARSE.CuSparseMatrixCSR{Tv, Ti}, b,
         assump::OperatorAssumptions{Bool}) where {Tv, Ti}
     if LinearSolve.cudss_loaded(A)
         LinearSolve.DefaultLinearSolver(LinearSolve.DefaultAlgorithmChoice.LUFactorization)
     else
-        error("CUDSS.jl is required for LU Factorizations on CuSparseMatrixCSR. Please load this library.")
+        if !LinearSolve.ALREADY_WARNED_CUDSS[]
+            @warn("CUDSS.jl is required for LU Factorizations on CuSparseMatrixCSR. Please load this library. Falling back to Krylov")
+            LinearSolve.ALREADY_WARNED_CUDSS[] = true
+        end
+        LinearSolve.DefaultLinearSolver(LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES)
     end
 end
 
-function LinearSolve.defaultalg(A::CUDA.CUSPARSE.CuSparseMatrixCSC{Tv, Ti}, b,
-        assump::OperatorAssumptions{Bool}) where {Tv, Ti}
+function LinearSolve.defaultalg(A::CUDA.CUSPARSE.CuSparseMatrixCSC, b,
+        assump::OperatorAssumptions{Bool})
     if LinearSolve.cudss_loaded(A)
-        LinearSolve.DefaultLinearSolver(LinearSolve.DefaultAlgorithmChoice.LUFactorization)
+        @warn("CUDSS.jl does not support CuSparseMatrixCSC for LU Factorizations, consider using CuSparseMatrixCSR instead. Falling back to Krylov", maxlog=1)
     else
-        error("CUDSS.jl is required for LU Factorizations on CuSparseMatrixCSC. Please load this library.")
+        @warn("CuSparseMatrixCSC does not support LU Factorization falling back to Krylov. Consider using CUDSS.jl together with CuSparseMatrixCSR", maxlog=1)
     end
+    LinearSolve.DefaultLinearSolver(LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES)
 end
 
 function LinearSolve.error_no_cudss_lu(A::CUDA.CUSPARSE.CuSparseMatrixCSR)
@@ -45,13 +50,6 @@ function LinearSolve.error_no_cudss_lu(A::CUDA.CUSPARSE.CuSparseMatrixCSR)
     nothing
 end
 
-function LinearSolve.error_no_cudss_lu(A::CUDA.CUSPARSE.CuSparseMatrixCSC)
-    if !LinearSolve.cudss_loaded(A)
-        error("CUDSS.jl is required for LU Factorizations on CuSparseMatrixCSC. Please load this library.")
-    end
-    nothing
-end
-
 function SciMLBase.solve!(cache::LinearSolve.LinearCache, alg::CudaOffloadLUFactorization;
         kwargs...)
     if cache.isfresh
@@ -66,15 +64,14 @@ function SciMLBase.solve!(cache::LinearSolve.LinearCache, alg::CudaOffloadLUFact
     SciMLBase.build_linear_solution(alg, y, nothing, cache)
 end
 
-function LinearSolve.init_cacheval(
-        alg::CudaOffloadLUFactorization, A::AbstractArray, b, u, Pl, Pr,
+function LinearSolve.init_cacheval(alg::CudaOffloadLUFactorization, A::AbstractArray, b, u, Pl, Pr,
         maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool},
         assumptions::OperatorAssumptions)
     # Check if CUDA is functional before creating CUDA arrays
     if !CUDA.functional()
         return nothing
     end
-
+    
     T = eltype(A)
     noUnitT = typeof(zero(T))
     luT = LinearAlgebra.lutype(noUnitT)
@@ -102,7 +99,7 @@ function LinearSolve.init_cacheval(alg::CudaOffloadQRFactorization, A, b, u, Pl,
     if !CUDA.functional()
         return nothing
     end
-
+    
     qr(CUDA.CuArray(A))
 end
 
@@ -119,42 +116,35 @@ function SciMLBase.solve!(cache::LinearSolve.LinearCache, alg::CudaOffloadFactor
     SciMLBase.build_linear_solution(alg, y, nothing, cache)
 end
 
-function LinearSolve.init_cacheval(
-        alg::CudaOffloadFactorization, A::AbstractArray, b, u, Pl, Pr,
+function LinearSolve.init_cacheval(alg::CudaOffloadFactorization, A::AbstractArray, b, u, Pl, Pr,
         maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool},
         assumptions::OperatorAssumptions)
     qr(CUDA.CuArray(A))
 end
 
 function LinearSolve.init_cacheval(
         ::SparspakFactorization, A::CUDA.CUSPARSE.CuSparseMatrixCSR, b, u,
-        Pl, Pr, maxiters::Int, abstol, reltol,
-        verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
+        Pl, Pr, maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
     nothing
 end
 
 function LinearSolve.init_cacheval(
         ::KLUFactorization, A::CUDA.CUSPARSE.CuSparseMatrixCSR, b, u,
-        Pl, Pr, maxiters::Int, abstol, reltol,
-        verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
+        Pl, Pr, maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
     nothing
 end
 
 function LinearSolve.init_cacheval(
         ::UMFPACKFactorization, A::CUDA.CUSPARSE.CuSparseMatrixCSR, b, u,
-        Pl, Pr, maxiters::Int, abstol, reltol,
-        verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
+        Pl, Pr, maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
     nothing
 end
 
 # Mixed precision CUDA LU implementation
-function SciMLBase.solve!(
-        cache::LinearSolve.LinearCache, alg::CUDAOffload32MixedLUFactorization;
+function SciMLBase.solve!(cache::LinearSolve.LinearCache, alg::CUDAOffload32MixedLUFactorization;
         kwargs...)
     if cache.isfresh
-        fact, A_gpu_f32,
-        b_gpu_f32,
-        u_gpu_f32 = LinearSolve.@get_cacheval(cache, :CUDAOffload32MixedLUFactorization)
+        fact, A_gpu_f32, b_gpu_f32, u_gpu_f32 = LinearSolve.@get_cacheval(cache, :CUDAOffload32MixedLUFactorization)
         # Compute 32-bit type on demand and convert
         T32 = eltype(cache.A) <: Complex ? ComplexF32 : Float32
         A_f32 = T32.(cache.A)
@@ -163,14 +153,12 @@ function SciMLBase.solve!(
         cache.cacheval = (fact, A_gpu_f32, b_gpu_f32, u_gpu_f32)
         cache.isfresh = false
     end
-    fact, A_gpu_f32,
-    b_gpu_f32,
-    u_gpu_f32 = LinearSolve.@get_cacheval(cache, :CUDAOffload32MixedLUFactorization)
-
+    fact, A_gpu_f32, b_gpu_f32, u_gpu_f32 = LinearSolve.@get_cacheval(cache, :CUDAOffload32MixedLUFactorization)
+    
     # Compute types on demand for conversions
     T32 = eltype(cache.A) <: Complex ? ComplexF32 : Float32
     Torig = eltype(cache.u)
-
+    
     # Convert b to Float32, solve, then convert back to original precision
     b_f32 = T32.(cache.b)
     copyto!(b_gpu_f32, b_f32)
diff --git a/ext/LinearSolveCUDSSExt.jl b/ext/LinearSolveCUDSSExt.jl
@@ -4,6 +4,5 @@ using LinearSolve: LinearSolve, cudss_loaded
 using CUDSS
 
 LinearSolve.cudss_loaded(A::CUDSS.CUDA.CUSPARSE.CuSparseMatrixCSR) = true
-LinearSolve.cudss_loaded(A::CUDSS.CUDA.CUSPARSE.CuSparseMatrixCSC) = true
 
 end
diff --git a/ext/LinearSolveCUSOLVERRFExt.jl b/ext/LinearSolveCUSOLVERRFExt.jl
@@ -1,6 +1,6 @@
 module LinearSolveCUSOLVERRFExt
 
-using LinearSolve: LinearSolve, @get_cacheval, pattern_changed, OperatorAssumptions
+using LinearSolve: LinearSolve, @get_cacheval, pattern_changed, OperatorAssumptions, LinearVerbosity
 using CUSOLVERRF: CUSOLVERRF, RFLU, CUDA
 using SparseArrays: SparseArrays, SparseMatrixCSC, nnz
 using CUSOLVERRF.CUDA.CUSPARSE: CuSparseMatrixCSR
diff --git a/ext/LinearSolveForwardDiffExt.jl b/ext/LinearSolveForwardDiffExt.jl
@@ -200,6 +200,11 @@ function SciMLBase.init(prob::DualAbstractLinearProblem, alg::GenericLUFactoriza
     return __init(prob, alg, args...; kwargs...)
 end
 
+# Opt out for SparspakFactorization
+function SciMLBase.init(prob::DualAbstractLinearProblem, alg::SparspakFactorization, args...; kwargs...)
+    return __init(prob, alg, args...; kwargs...)
+end
+
 function SciMLBase.init(prob::DualAbstractLinearProblem, alg::DefaultLinearSolver, args...; kwargs...)
     if alg.alg === DefaultAlgorithmChoice.GenericLUFactorization
         return __init(prob, alg, args...; kwargs...)
diff --git a/ext/LinearSolveSparseArraysExt.jl b/ext/LinearSolveSparseArraysExt.jl
@@ -129,7 +129,7 @@ function LinearSolve.init_cacheval(
         maxiters::Int, abstol, reltol,
         verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions) where {T <: BLASELTYPES}
     if LinearSolve.is_cusparse(A)
-        ArrayInterface.lu_instance(A)
+        LinearSolve.cudss_loaded(A) ? ArrayInterface.lu_instance(A) : nothing
     else
         SparseArrays.UMFPACK.UmfpackLU(SparseMatrixCSC{T, Int64}(
             zero(Int64), zero(Int64), [Int64(1)], Int64[], T[]))
@@ -141,7 +141,7 @@ function LinearSolve.init_cacheval(
         maxiters::Int, abstol, reltol,
         verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions) where {T <: BLASELTYPES}
     if LinearSolve.is_cusparse(A)
-        ArrayInterface.lu_instance(A)
+        LinearSolve.cudss_loaded(A) ? ArrayInterface.lu_instance(A) : nothing
     else
         SparseArrays.UMFPACK.UmfpackLU(SparseMatrixCSC{T, Int32}(
             zero(Int32), zero(Int32), [Int32(1)], Int32[], T[]))
@@ -344,7 +344,13 @@ function LinearSolve.init_cacheval(alg::NormalCholeskyFactorization,
             Symmetric{T, <:AbstractSparseArray{T}}}, b, u, Pl, Pr,
         maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool},
         assumptions::OperatorAssumptions) where {T <: BLASELTYPES}
-    ArrayInterface.cholesky_instance(convert(AbstractMatrix, A))
+    if LinearSolve.is_cusparse_csc(A)
+        nothing
+    elseif LinearSolve.is_cusparse_csr(A) && !LinearSolve.cudss_loaded(A)
+        nothing
+    else
+        ArrayInterface.cholesky_instance(convert(AbstractMatrix, A))
+    end
 end
 
 # Specialize QR for the non-square case
diff --git a/src/LinearSolve.jl b/src/LinearSolve.jl
@@ -478,6 +478,8 @@ ALREADY_WARNED_CUDSS = Ref{Bool}(false)
 error_no_cudss_lu(A) = nothing
 cudss_loaded(A) = false
 is_cusparse(A) = false
+is_cusparse_csr(A) = false
+is_cusparse_csc(A) = false
 
 export LUFactorization, SVDFactorization, QRFactorization, GenericFactorization,
        GenericLUFactorization, SimpleLUFactorization, RFLUFactorization, ButterflyFactorization,
diff --git a/src/common.jl b/src/common.jl
@@ -357,8 +357,8 @@ function __init(prob::LinearProblem, alg::SciMLLinearSolveAlgorithm,
     u0_ = u0 !== nothing ? u0 : __init_u0_from_Ab(A, b)
 
     # Guard against type mismatch for user-specified reltol/abstol
-    reltol = real(eltype(prob.b))(reltol)
-    abstol = real(eltype(prob.b))(abstol)
+    reltol = real(eltype(prob.b))(SciMLBase.value(reltol))
+    abstol = real(eltype(prob.b))(SciMLBase.value(abstol))
 
     precs = if hasproperty(alg, :precs)
         isnothing(alg.precs) ? DEFAULT_PRECS : alg.precs
diff --git a/src/factorization.jl b/src/factorization.jl
@@ -395,7 +395,13 @@ end
 function init_cacheval(
         alg::CholeskyFactorization, A::AbstractArray{<:BLASELTYPES}, b, u, Pl, Pr,
         maxiters::Int, abstol, reltol, verbose::Union{LinearVerbosity, Bool}, assumptions::OperatorAssumptions)
-    ArrayInterface.cholesky_instance(convert(AbstractMatrix, A), alg.pivot)
+    if LinearSolve.is_cusparse_csc(A)
+        nothing
+    elseif LinearSolve.is_cusparse_csr(A) && !LinearSolve.cudss_loaded(A)
+        nothing
+    else
+        ArrayInterface.cholesky_instance(convert(AbstractMatrix, A), alg.pivot)
+    end
 end
 
 const PREALLOCATED_CHOLESKY = ArrayInterface.cholesky_instance(rand(1, 1), NoPivot())
diff --git a/test/forwarddiff_overloads.jl b/test/forwarddiff_overloads.jl
@@ -3,6 +3,7 @@ using ForwardDiff
 using Test
 using SparseArrays
 using ComponentArrays
+using Sparspak
 
 function h(p)
     (A = [p[1] p[2]+1 p[2]^3;
@@ -203,6 +204,12 @@ prob = LinearProblem(A, b)
 
 @test init(prob) isa LinearSolve.LinearCache
 
+# Test that SparspakFactorization doesn't create a DualLinearCache
+A, b = h([ForwardDiff.Dual(5.0, 1.0, 0.0), ForwardDiff.Dual(5.0, 0.0, 1.0)])
+
+prob = LinearProblem(sparse(A), b)
+@test init(prob, SparspakFactorization()) isa LinearSolve.LinearCache
+
 # Test ComponentArray with ForwardDiff (Issue SciML/DifferentialEquations.jl#1110)
 # This tests that ArrayInterface.restructure preserves ComponentArray structure
 
diff --git a/test/gpu/cuda.jl b/test/gpu/cuda.jl
@@ -1,7 +1,65 @@
 using LinearSolve, CUDA, LinearAlgebra, SparseArrays, StableRNGs
-using CUDA.CUSPARSE, CUDSS
+using CUDA.CUSPARSE
 using Test
 
+@testset "Test default solver choice for CuSparse" begin
+    b = Float64[1, 2, 3, 4]
+    b_gpu = CUDA.adapt(CuArray, b)
+
+    A = Float64[1 1 0 0
+                0 1 1 0
+                0 0 3 1
+                0 0 0 4]
+    A_gpu_csr = CUDA.CUSPARSE.CuSparseMatrixCSR(sparse(A))
+    A_gpu_csc = CUDA.CUSPARSE.CuSparseMatrixCSC(sparse(A))
+    prob_csr = LinearProblem(A_gpu_csr, b_gpu)
+    prob_csc = LinearProblem(A_gpu_csc, b_gpu)
+
+    A_sym = Float64[1 1 0 0
+                    1 0 0 2
+                    0 0 3 0
+                    0 2 0 0]
+    A_gpu_sym_csr = CUDA.CUSPARSE.CuSparseMatrixCSR(sparse(A_sym))
+    A_gpu_sym_csc = CUDA.CUSPARSE.CuSparseMatrixCSC(sparse(A_sym))
+    prob_sym_csr = LinearProblem(A_gpu_sym_csr, b_gpu)
+    prob_sym_csc = LinearProblem(A_gpu_sym_csc, b_gpu)
+
+    @testset "Test without CUDSS loaded" begin
+        # assert CuDSS is not loaded yet
+        @test !LinearSolve.cudss_loaded(A_gpu_csr)
+        # csr fallback to krylov
+        alg = solve(prob_csr).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+        # csc fallback to krylov
+        alg = solve(prob_csc).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+        # csr symmetric fallback to krylov
+        alg = solve(prob_sym_csr).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+        # csc symmetric fallback to krylov
+        alg = solve(prob_sym_csc).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+    end
+
+    using CUDSS
+
+    @testset "Test with CUDSS loaded" begin
+        @test LinearSolve.cudss_loaded(A_gpu_csr)
+        # csr uses LU
+        alg = solve(prob_csr).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.LUFactorization
+        # csc fallback to krylov
+        alg = solve(prob_csc).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+        # csr symmetric uses LU/cholesky
+        alg = solve(prob_sym_csr).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.LUFactorization
+        # csc symmetric fallback to krylov
+        alg = solve(prob_sym_csc).alg
+        @test alg.alg == LinearSolve.DefaultAlgorithmChoice.KrylovJL_GMRES
+    end
+end
+
 CUDA.allowscalar(false)
 
 n = 8
@@ -96,9 +154,9 @@ end
 @testset "CUDSS" begin
     T = Float32
     n = 100
-    A_cpu = sprand(T, n, n, 0.05) + I
+    A_cpu = sprand(rng, T, n, n, 0.05) + I
     x_cpu = zeros(T, n)
-    b_cpu = rand(T, n)
+    b_cpu = rand(rng, T, n)
 
     A_gpu_csr = CuSparseMatrixCSR(A_cpu)
     b_gpu = CuVector(b_cpu)
diff --git a/test/verbosity.jl b/test/verbosity.jl
@@ -101,19 +101,19 @@ end
     prob = LinearProblem(A, b)
 
     @test_logs (:warn,
-        "LU factorization failed, falling back to QR factorization. `A` is potentially rank-deficient.") solve(
+        r"LU factorization failed, falling back to QR factorization\. `A` is potentially rank-deficient\.") solve(
         prob,
         verbose = LinearVerbosity(default_lu_fallback = WarnLevel()))
 
     @test_logs (:info,
-        "LU factorization failed, falling back to QR factorization. `A` is potentially rank-deficient.") solve(
+        r"LU factorization failed, falling back to QR factorization\. `A` is potentially rank-deficient\.") solve(
         prob,
         verbose = LinearVerbosity(default_lu_fallback = InfoLevel()))
 
     verb = LinearVerbosity(default_lu_fallback = WarnLevel())
 
     @test_logs (:warn,
-        "LU factorization failed, falling back to QR factorization. `A` is potentially rank-deficient.") solve(
+        r"LU factorization failed, falling back to QR factorization\. `A` is potentially rank-deficient\.") solve(
         prob,
         verbose = verb)
 end