首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
陈亮  赵磊  李珂 《北京测绘》2017,(4):9-12
为了满足栅格数据空间分析的高性能计算需求,本文以坡度计算为例,提出在CUDA环境下将串行地形因子算法进行并行优化的方法:根据地形因子计算过程中无数据相关性,适合进行数据并行计算的特点,将CPU上可以并行执行的计算任务通过CUDA并行处理机制映射到GPU线程块上,从而提高计算效率。试验测试了不同栅格规模下串行算法和并行算法的执行时间差异,测试结果表明,并行地形因子算法的性能明显优于串行算法,在网格规模为12800×11200时,获得最高串-并加速比24.39。  相似文献   

2.
三维多视角立体视觉算法(patch-based multi-view stereo,PMVS)以其良好的三维重建效果广泛应用于数字城市等领域,但用于大规模计算时算法的执行效率低下。针对此,提出了一种细粒度并行优化方法,从任务划分和负载均衡、主系统存储和GPU存储、通信开销等3方面加以优化;同时,设计了基于面片的PMVS算法特征提取的GPU和多线程并行改造方法,实现了CPUs_GPUs多粒度协同并行。实验结果表明,基于CPU多线程策略能实现4倍加速比,基于统一计算设备架构(compute unified device architecture,CUDA)并行策略能实现最高34倍加速比,而提出的策略在CUDA并行策略的基础上实现了30%的性能提升,可以用于其他领域大数据处理中快速调度计算资源。  相似文献   

3.
根据球面四元三角网(quaternary triangular mesh,QTM)的离散特征及图形处理器(graphics processing unit,GPU)的多线程原理,用距离的计算与比较代替传统的扩张操作,提出了一种基于QTM的球面Voronoi图并行生成算法,并给出了Voronoi边界提取算法。利用C++语言及统一计算设备架构(compute unified device architecture,CUDA)开发了实验系统。实验结果表明,本文算法能够在球面上快速生成点、线、面数据集的Voronoi图,且能够将Voronoi误差控制在两个格网以内。同时,GPU并行计算的使用,提高了算法的效率。  相似文献   

4.
赵海娜  吴远峰  张兵 《遥感学报》2014,18(Z1):49-55
高光谱图像经过辐射校正后,消除了探测元的响应差异,能更好地满足专题信息提取的数据要求.利用探测元的列均值、列标准差等统计信息对天宫一号高光谱短波红外数据进行辐射校正检验,并基于GPU CUDA计算模型对均值归一化、矩匹配、相邻列均衡等3种相对辐射校正算法进行了并行计算优化.通过辐射校正计算流程拆分,CPU控制流程逻辑,GPU执行数据级并行计算,并建立CUDA的计算单元与数据单元的映射关系,获得5—7倍的计算加速比,这些辐射校正算法依据图像自身统计信息,且易于进行并行计算优化,满足实时校正的处理时效要求,为未来高光谱数据在轨实时辐射校正提供了新思路.  相似文献   

5.
王宗跃  马洪超  明洋 《遥感学报》2014,18(6):1217-1222
针对EM(Expectation Maximization)波形分解算法具有多次迭代和大量乘、除、累加等高密集运算的特点,提出一套将EM算法在通用计算图形处理器GPGPU上并行化的方案。针对通用并行计算架构CUDA的存储层次特点,设计总体的并行方案,充分挖掘共享存储器、纹理存储器的高速访存的潜能;根据波形采样值采用字节存储的特征,利用波形采样值的直方图求取中位数,从而降低求噪音阈值的计算复杂度;最后,采用求和规约的并行策略提高EM算法迭代过程中大量累加的计算效率。实验结果表明,当设置合理的并行参数、EM迭代次数大于16次、数据量大于64 M时,与单核CPU处理相比,GPU的加速比达到了8,能够显著地提高全波形分解的效率。  相似文献   

6.
基于GPGPU的并行影像匹配算法   总被引:7,自引:1,他引:6  
肖汉  张祖勋 《测绘学报》2010,39(1):46-51
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280×1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。  相似文献   

7.
波形分解是机载激光雷达全波形数据处理的重要基础工作,通过求解波形函数模型的参数,将波形数据利用具体的函数模型拟合出来,实现对全波形及其中各个子波形函数表达。LM(Levenberg-Marquardt)算法及其改进的算法是波形分解中对参数进行拟合求解的常用方法。针对LM算法在参数拟合计算的过程中存在大量迭代和矩阵运算,提出了基于线程块组和线程两级并行粒度的并行计算方案。将串行多次循环迭代求解参数改为单次并行计算取最佳值实现对参数的选择,将矩阵运算进行线程块的协同并行计算,实现了LM算法在通用计算图形处理器上的并行计算。实验证明,在规定阈值条件下,并行LM降低了算法的迭代次数,提高了波形分解LM算法的计算效率,为提高波形分解的处理效率提供了研究思路。  相似文献   

8.
针对现有侵蚀学坡长串行算法在处理大区域海量数据时计算能力的不足,基于消息传递接口(MPI)并行化工具,提出了一种格网DEM的侵蚀学坡长并行计算方法,采用缓冲区更新计算策略,解决了并行计算过程中的数据依赖性问题。选取陕北黄土高原的两组不同分辨率的DEM数据对并行算法进行了测试,结果表明,提出的并行计算方法可以有效降低侵蚀学坡长的计算时间,并取得了较好的并行效率。  相似文献   

9.
本文简述了CUDA编程模型高性能并行计算的特性,在实现了基于GPU的数字影像正射纠正的基础上,阐述了基于GPU的加速技术在数字影像处理方面的应用情景.  相似文献   

10.
水文模拟计算具有数据量较大、过程连续性较强的特点。随着数据采集技术的不断发展,大范围、高分辨率的地形数据使得传统串行算法难以满足性能要求,而并行化水文分析算法研究受到越来越多的关注。本文在对GIS空间分析算法并行化进行分析的基础上,对主要并行计算框架进行了对比,并选用OpenMP框架对水文分析若干过程进行了并行化算法的研究和实践。实验结果表明,基于OpenMP框架的并行化水文分析算法是在多核平台下进行性能优化的有效手段。  相似文献   

11.
辐射度模型是虚拟植物冠层内光分布模拟的主要算法之一,针对其形状因子计算量大,辐射能量计算效率低等问题,提出了一种辐射度计算加速方法。以虚拟枇杷冠层内光分布模拟为例,利用均匀体素剖分场景包围盒及三维体素遍历方法进行光源与树模型之间的遮挡判断,同时结合CUDA技术使辐射度算法的形状因子求解并行化。采用归约求和算法和共享内存实现植物模型接受辐射总能量的快速求解。该方法较CPU串行方法有150多倍的加速比。将太阳直射光合有效辐射(photosynthetically active radiation,PAR)分布模拟结果与光线跟踪模型、传统辐射度模型模拟结果进行对比,天空散射PAR分布模拟结果与龟型算法、传统辐射度模拟对比。计算所得PAR值接近,变化趋势一致,表明该方法有较好的精度保证。  相似文献   

12.
K均值算法是一种常用的聚类分析方法,广泛应用于图像处理和机器学习等领域。但该算法具有较高的计算复杂度,导致了算法具有较大的局限性。为了提高算法的运行效率,本文在深入分析算法基本原理的基础上,利用CUDA架构提供的强大计算能力对该算法进行了并行化改进。实验结果表明,算法在取不同的聚类数时均取得了较高的加速比。  相似文献   

13.
基于CUDA的高效并行遥感影像处理   总被引:2,自引:1,他引:1  
近年来,随着空间遥感技术的发展,使得遥感影像数据呈几何级数增长,遥感影像的处理面临数据量大、密集度高、计算复杂度高和运算量大等问题。在分析最新GPU(图形处理单元)的并行架构和统一计算设备架构(CUDA)灵活的可编程性的基础上,提出了一种基于CUDA的遥感影像的高效处理方法,以遥感影像处理中常用的快速傅里叶变换、边缘检...  相似文献   

14.
遥感影像正射纠正的GPU-CPU协同处理研究   总被引:1,自引:0,他引:1  
提出了一种基于CUDA的遥感影像正射纠正GPU-CPU协同处理方法,以实现重采样操作的GPU细粒度并行化。根据GPU的并行结构和硬件特点,采用执行配置优化技术提高warp占有率,利用共享存储器优化减少对效率低下的全局存储器中坐标变换系数的重复访问,通过纹理存储器代替全局存储器优化对原始影像数据的访问。实验结果表明,并行算法能够充分发挥GPU的并行处理能力,利用GeForce 9500 GT显卡,对大小为6 000像素×6 000像素的全色影像进行多项式纠正对比实验,最邻近灰度内插重采样和双线性灰度内插重采样的最终加速比分别能够达到8倍和10倍以上。  相似文献   

15.
遥感影像CVA变化检测的CUDA并行算法设计   总被引:1,自引:1,他引:0  
随着遥感影像数据量以及复杂程度的日益增加,遥感图像的快速处理成为实际应用过程中亟需解决的问题。为了实现遥感影像的实时变化检测,针对基于变化矢量分析CVA的变化检测算法,设计了一种基于统一计算设备构架CUDA的并行处理模型。首先利用地理空间数据提取库GDAL实现大数据量遥感影像的分块读取、操作和保存;其次将基于变化矢量分析的变化检测过程分为变化强度检测、映射表构建和变化方向检测,并借助CUDA C将变化矢量分析算法的3个步骤嵌入到CPU和GPU组成的异构平台上进行实验;最后利用该模型对不同数据量的遥感影像进行CVA变化检测并作对比分析。实验结果表明:与CPU串行相比,基于GPU/CUDA的遥感影像CVA的变化检测速度提高了10倍左右;在一定程度上,达到了实时变化检测的效果。  相似文献   

16.
刘鑫  姜超  冯存永 《测绘科学》2012,(4):123-125
CUDA架构与传统GPU通用计算相比,编程更简单、应用领域更广泛,将CUDA架构引入到图像处理中可以提高图像的处理效率。本文提出了一种基于CUDA和OpenCV的图像并行处理方法,实现了图像二值化以及融合,经实验结果表明基于该方法可以提高图像处理效率;将该方法集成到MFC框架,能够应用到实际工程开发领域。  相似文献   

17.
计算全息三维显示是一种非常理想的真三维裸眼3D技术。对分裂查找表(split look-up tables,S-LUT)算法进行改进,以提高计算全息图的生成效率:(1)改变原竖直调制因子查找表内容为存储物点每一列对全息面每一行像素的贡献,进一步减少全息图在线计算次数,并对基于新查找表内容的全息图在线计算过程进行统一计算设备架构(compute unified device architecture,CUDA)并行加速;(2)吸收相位迭代计算思想,以加、减运算替换耗时长的平方、开根号运算来提高查找表离线生成效率。对两种不同大小的三维点云进行计算全息图生成实验,结果表明:改进算法的查找表存储空间与原算法相当,但查找表离线生成效率提高约1~1.5倍;改进算法的全息图图形处理器(graphic processing unit,GPU)在线计算时间比原算法节约至少15%,且在线计算过程的并行化设计、实现更为简单;相同全息面分辨率下物体空间点数越多,改进算法的查找表离线生成效率及全息图在线计算效率提升幅度越大,对于计算全息三维显示技术的实施具有一定的参考意义。  相似文献   

18.
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。  相似文献   

19.
This research develops a parallel scheme to adopt multiple graphics processing units (GPUs) to accelerate large‐scale polygon rasterization. Three new parallel strategies are proposed. First, a decomposition strategy considering the calculation complexity of polygons and limited GPU memory is developed to achieve balanced workloads among multiple GPUs. Second, a parallel CPU/GPU scheduling strategy is proposed to conceal the data read/write times. The CPU is engaged with data reads/writes while the GPU rasterizes the polygons in parallel. This strategy can save considerable time spent in reading and writing, further improving the parallel efficiency. Third, a strategy for utilizing the GPU's internal memory and cache is proposed to reduce the time required to access the data. The parallel boundary algebra filling (BAF) algorithm is implemented using the programming models of compute unified device architecture (CUDA), message passing interface (MPI), and open multi‐processing (OpenMP). Experimental results confirm that the implemented parallel algorithm delivers apparent acceleration when a massive dataset is addressed (50.32 GB with approximately 1.3 × 108 polygons), reducing conversion time from 25.43 to 0.69 h, and obtaining a speedup ratio of 36.91. The proposed parallel strategies outperform the conventional method and can be effectively extended to a CPU‐based environment.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号