Programming/openCL & CUDA2011. 1. 18. 22:20
별건없고, 멀티프로세서와 core의 출력방식이 변경되었다.

CUDA SDK 3.1

D:\CUDA\NVIDIA GPU Computing SDK\C\bin\win32\Release\deviceQuery.exe Starting...


 CUDA Device Query (Runtime API) version (CUDART static linking)

There are 2 devices supporting CUDA

Device 0: "GeForce 8800 GT"
  CUDA Driver Version:                           3.20
  CUDA Runtime Version:                          3.10
  CUDA Capability Major revision number:         1
  CUDA Capability Minor revision number:         1
  Total amount of global memory:                 536543232 bytes
  Number of multiprocessors:                     14
  Number of cores:                               112
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       16384 bytes
  Total number of registers available per block: 8192
  Warp size:                                     32
  Maximum number of threads per block:           512
  Maximum sizes of each dimension of a block:    512 x 512 x 64
  Maximum sizes of each dimension of a grid:     65535 x 65535 x 1
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             256 bytes
  Clock rate:                                    1.50 GHz
  Concurrent copy and execution:                 Yes
  Run time limit on kernels:                     Yes
  Integrated:                                    No
  Support host page-locked memory mapping:       Yes
  Compute mode:                                  Default
                             (multiple host threads can use this device simultaneously)
  Concurrent kernel execution:                   No
  Device has ECC support enabled:                No

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 3.20, CUDA Runtime Vers
ion = 3.10, NumDevs = 2, Device = GeForce 8800 GT, Device = GeForce 8800 GT


PASSED

Press <Enter> to Quit...
-----------------------------------------------------------




CUDA SDK 3.2
D:\CUDA\NVIDIA GPU Computing SDK 3.2\C\bin\win32\Release\deviceQuery.exe Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

There are 2 devices supporting CUDA

Device 0: "GeForce 8800 GT"
  CUDA Driver Version:                           3.20
  CUDA Runtime Version:                          3.20
  CUDA Capability Major/Minor version number:    1.1
  Total amount of global memory:                 536543232 bytes
  Multiprocessors x Cores/MP = Cores:            14 (MP) x 8 (Cores/MP) = 112 (Cores)
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       16384 bytes
  Total number of registers available per block: 8192
  Warp size:                                     32
  Maximum number of threads per block:           512
  Maximum sizes of each dimension of a block:    512 x 512 x 64
  Maximum sizes of each dimension of a grid:     65535 x 65535 x 1
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             256 bytes
  Clock rate:                                    1.50 GHz
  Concurrent copy and execution:                 Yes
  Run time limit on kernels:                     Yes
  Integrated:                                    No
  Support host page-locked memory mapping:       Yes
  Compute mode:                                  Default
                             (multiple host threads can use this device simultaneously)
  Concurrent kernel execution:                   No
  Device has ECC support enabled:                No
  Device is using TCC driver mode:               No

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 3.20, CUDA Runtime Vers
ion = 3.20, NumDevs = 2, Device = GeForce 8800 GT, Device = GeForce 8800 GT


PASSED

Press <Enter> to Quit...
-----------------------------------------------------------

Posted by 구차니
Programming/openCL & CUDA2011. 1. 18. 22:12
warp 크기는 32 라는데,
그 이하로도 묶어서 사용이 가능한지 테스트를 해보았다.

VectorAdd를 변형해서 int 형으로 계산하고, 변수는 총 64개의 int형 배열로 선언
그리고 커널코드는 단순하게 두개의 배열을 더해서 세번째로 던져주게 해놓았다.

단, 커널은 1 block / 5 thread로 설정했다.
// Device code
__global__ void VecAdd(const int* A, const int* B, int* C, int N)
{
int i = threadIdx.x;
C[i] = A[i] + B[i];
}

VecAdd<<<1,5>>>(d_A, d_B, d_C, N);

결과는 아래와 같이 5개만 계산이 되어 나온다.
Vector addition
[000] h_A[0] + h_B[0] = 0, h_C[0]
[001] h_A[1] + h_B[1] = 2, h_C[2]
[002] h_A[2] + h_B[2] = 4, h_C[4]
[003] h_A[3] + h_B[3] = 6, h_C[6]
[004] h_A[4] + h_B[4] = 8, h_C[8]
[005] h_A[5] + h_B[5] = 10, h_C[133]- not ok
[006] h_A[6] + h_B[6] = 12, h_C[134]- not ok
[007] h_A[7] + h_B[7] = 14, h_C[135]- not ok
[008] h_A[8] + h_B[8] = 16, h_C[136]- not ok
[009] h_A[9] + h_B[9] = 18, h_C[137]- not ok
[010] h_A[10] + h_B[10] = 20, h_C[138]- not ok
[011] h_A[11] + h_B[11] = 22, h_C[139]- not ok
[012] h_A[12] + h_B[12] = 24, h_C[140]- not ok
[013] h_A[13] + h_B[13] = 26, h_C[141]- not ok
[014] h_A[14] + h_B[14] = 28, h_C[142]- not ok
[015] h_A[15] + h_B[15] = 30, h_C[143]- not ok
[016] h_A[16] + h_B[16] = 32, h_C[144]- not ok
[017] h_A[17] + h_B[17] = 34, h_C[145]- not ok
[018] h_A[18] + h_B[18] = 36, h_C[146]- not ok
[019] h_A[19] + h_B[19] = 38, h_C[147]- not ok
[020] h_A[20] + h_B[20] = 40, h_C[148]- not ok
[021] h_A[21] + h_B[21] = 42, h_C[149]- not ok
[022] h_A[22] + h_B[22] = 44, h_C[150]- not ok
[023] h_A[23] + h_B[23] = 46, h_C[151]- not ok
[024] h_A[24] + h_B[24] = 48, h_C[152]- not ok
[025] h_A[25] + h_B[25] = 50, h_C[153]- not ok
[026] h_A[26] + h_B[26] = 52, h_C[154]- not ok
[027] h_A[27] + h_B[27] = 54, h_C[155]- not ok
[028] h_A[28] + h_B[28] = 56, h_C[156]- not ok
[029] h_A[29] + h_B[29] = 58, h_C[157]- not ok
[030] h_A[30] + h_B[30] = 60, h_C[158]- not ok
[031] h_A[31] + h_B[31] = 62, h_C[159]- not ok
[032] h_A[32] + h_B[32] = 64, h_C[160]- not ok
[033] h_A[33] + h_B[33] = 66, h_C[161]- not ok
[034] h_A[34] + h_B[34] = 68, h_C[162]- not ok
[035] h_A[35] + h_B[35] = 70, h_C[163]- not ok
[036] h_A[36] + h_B[36] = 72, h_C[164]- not ok
[037] h_A[37] + h_B[37] = 74, h_C[165]- not ok
[038] h_A[38] + h_B[38] = 76, h_C[166]- not ok
[039] h_A[39] + h_B[39] = 78, h_C[167]- not ok
[040] h_A[40] + h_B[40] = 80, h_C[168]- not ok
[041] h_A[41] + h_B[41] = 82, h_C[169]- not ok
[042] h_A[42] + h_B[42] = 84, h_C[170]- not ok
[043] h_A[43] + h_B[43] = 86, h_C[171]- not ok
[044] h_A[44] + h_B[44] = 88, h_C[172]- not ok
[045] h_A[45] + h_B[45] = 90, h_C[173]- not ok
[046] h_A[46] + h_B[46] = 92, h_C[174]- not ok
[047] h_A[47] + h_B[47] = 94, h_C[175]- not ok
[048] h_A[48] + h_B[48] = 96, h_C[176]- not ok
[049] h_A[49] + h_B[49] = 98, h_C[177]- not ok
[050] h_A[50] + h_B[50] = 100, h_C[178]- not ok
[051] h_A[51] + h_B[51] = 102, h_C[179]- not ok
[052] h_A[52] + h_B[52] = 104, h_C[180]- not ok
[053] h_A[53] + h_B[53] = 106, h_C[181]- not ok
[054] h_A[54] + h_B[54] = 108, h_C[182]- not ok
[055] h_A[55] + h_B[55] = 110, h_C[183]- not ok
[056] h_A[56] + h_B[56] = 112, h_C[184]- not ok
[057] h_A[57] + h_B[57] = 114, h_C[185]- not ok
[058] h_A[58] + h_B[58] = 116, h_C[186]- not ok
[059] h_A[59] + h_B[59] = 118, h_C[187]- not ok
[060] h_A[60] + h_B[60] = 120, h_C[188]- not ok
[061] h_A[61] + h_B[61] = 122, h_C[189]- not ok
[062] h_A[62] + h_B[62] = 124, h_C[190]- not ok
[063] h_A[63] + h_B[63] = 126, h_C[191]- not ok
PASSED


2개씩 3개 블럭을 사용해도 제대로 나온다.
__global__ void VecAdd(const int* A, const int* B, int* C, int N)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
C[i] = A[i] + B[i];
}
VecAdd<<<3,2>>>(d_A, d_B, d_C, N);

Vector addition
[000] h_A[0] + h_B[0] = 0, h_C[0]
[001] h_A[1] + h_B[1] = 2, h_C[2]
[002] h_A[2] + h_B[2] = 4, h_C[4]
[003] h_A[3] + h_B[3] = 6, h_C[6]
[004] h_A[4] + h_B[4] = 8, h_C[8]
[005] h_A[5] + h_B[5] = 10, h_C[10]
[006] h_A[6] + h_B[6] = 12, h_C[134]- not ok
[007] h_A[7] + h_B[7] = 14, h_C[135]- not ok
[008] h_A[8] + h_B[8] = 16, h_C[136]- not ok
[009] h_A[9] + h_B[9] = 18, h_C[137]- not ok
[010] h_A[10] + h_B[10] = 20, h_C[138]- not ok
[011] h_A[11] + h_B[11] = 22, h_C[139]- not ok
[012] h_A[12] + h_B[12] = 24, h_C[140]- not ok
[013] h_A[13] + h_B[13] = 26, h_C[141]- not ok
[014] h_A[14] + h_B[14] = 28, h_C[142]- not ok
[015] h_A[15] + h_B[15] = 30, h_C[143]- not ok
[016] h_A[16] + h_B[16] = 32, h_C[144]- not ok
[017] h_A[17] + h_B[17] = 34, h_C[145]- not ok
[018] h_A[18] + h_B[18] = 36, h_C[146]- not ok
[019] h_A[19] + h_B[19] = 38, h_C[147]- not ok
[020] h_A[20] + h_B[20] = 40, h_C[148]- not ok
[021] h_A[21] + h_B[21] = 42, h_C[149]- not ok
[022] h_A[22] + h_B[22] = 44, h_C[150]- not ok
[023] h_A[23] + h_B[23] = 46, h_C[151]- not ok
[024] h_A[24] + h_B[24] = 48, h_C[152]- not ok
[025] h_A[25] + h_B[25] = 50, h_C[153]- not ok
[026] h_A[26] + h_B[26] = 52, h_C[154]- not ok
[027] h_A[27] + h_B[27] = 54, h_C[155]- not ok
[028] h_A[28] + h_B[28] = 56, h_C[156]- not ok
[029] h_A[29] + h_B[29] = 58, h_C[157]- not ok
[030] h_A[30] + h_B[30] = 60, h_C[158]- not ok
[031] h_A[31] + h_B[31] = 62, h_C[159]- not ok
[032] h_A[32] + h_B[32] = 64, h_C[160]- not ok
[033] h_A[33] + h_B[33] = 66, h_C[161]- not ok
[034] h_A[34] + h_B[34] = 68, h_C[162]- not ok
[035] h_A[35] + h_B[35] = 70, h_C[163]- not ok
[036] h_A[36] + h_B[36] = 72, h_C[164]- not ok
[037] h_A[37] + h_B[37] = 74, h_C[165]- not ok
[038] h_A[38] + h_B[38] = 76, h_C[166]- not ok
[039] h_A[39] + h_B[39] = 78, h_C[167]- not ok
[040] h_A[40] + h_B[40] = 80, h_C[168]- not ok
[041] h_A[41] + h_B[41] = 82, h_C[169]- not ok
[042] h_A[42] + h_B[42] = 84, h_C[170]- not ok
[043] h_A[43] + h_B[43] = 86, h_C[171]- not ok
[044] h_A[44] + h_B[44] = 88, h_C[172]- not ok
[045] h_A[45] + h_B[45] = 90, h_C[173]- not ok
[046] h_A[46] + h_B[46] = 92, h_C[174]- not ok
[047] h_A[47] + h_B[47] = 94, h_C[175]- not ok
[048] h_A[48] + h_B[48] = 96, h_C[176]- not ok
[049] h_A[49] + h_B[49] = 98, h_C[177]- not ok
[050] h_A[50] + h_B[50] = 100, h_C[178]- not ok
[051] h_A[51] + h_B[51] = 102, h_C[179]- not ok
[052] h_A[52] + h_B[52] = 104, h_C[180]- not ok
[053] h_A[53] + h_B[53] = 106, h_C[181]- not ok
[054] h_A[54] + h_B[54] = 108, h_C[182]- not ok
[055] h_A[55] + h_B[55] = 110, h_C[183]- not ok
[056] h_A[56] + h_B[56] = 112, h_C[184]- not ok
[057] h_A[57] + h_B[57] = 114, h_C[185]- not ok
[058] h_A[58] + h_B[58] = 116, h_C[186]- not ok
[059] h_A[59] + h_B[59] = 118, h_C[187]- not ok
[060] h_A[60] + h_B[60] = 120, h_C[188]- not ok
[061] h_A[61] + h_B[61] = 122, h_C[189]- not ok
[062] h_A[62] + h_B[62] = 124, h_C[190]- not ok
[063] h_A[63] + h_B[63] = 126, h_C[191]- not ok
PASSED

원래는 32개씩 묶여서 원하는 수량대로만 돌라고
커널 코드에 if(i<N) 식으로 제한이 되어있는줄 알았는데, 없어도 의도한 대로는 돈다.
물론 돌아야 할 데이터의 갯수가 grid.x * gird.y * thread.x * thread.y 의 갯수만큼
떨어지지 않는다면 제한을 두어야겠지만 말이다.

결론 : warp은 최소단위로 묶이는 쓰레드의 갯수이긴 하지만, 실제로 그 이하로도 묶인다.
         블럭단위라고 해서 달라지는건 없는듯?
Posted by 구차니
Programming/openCL & CUDA2011. 1. 17. 22:45
CUDA Device에는 수 많은(?) 종류의 메모리가 있다.
이러한 메모리들의 특성에 대해 정리한 도표이다.
출처는 NVIDIA_CUDA_C_BestPracticesGuide.pdf 파일

의외(?)로 Local 메모리가 Local에 존재하지 않는다는 쇼킹한 이야기 -_-
쓰레드에 사용하는 메모리이지만, Off chip 즉 Device memory에 존재한다.


Posted by 구차니
Programming/openCL & CUDA2011. 1. 16. 22:11
CUDA의 kernel 부분에서 사용되는 내장변수는 다음과 같다.
아직 내용이 헷갈리지만 -_-

kernel<<<grid, thread_block>>>(vars, ... );

이런식으로 커널을 사용하는데
현재 block의 인덱스는 blockIdx에
현재 thread의 인덱스는 threadIdx에 들어간다.

blockDim 에는 전체 블럭의 카운트 값이 들어가는데
그렇다면 쓰레드의 전체 카운트 값은 어디에 들어갈려나?

아래는 Programming Guid에서 검색한 kernel 코드의 인덱스 부분
int row = blockIdx.y * blockDim.y + threadIdx.y
int col = blockIdx.x * blockDim.x + threadIdx.x;


Posted by 구차니
Programming/openCL & CUDA2011. 1. 16. 10:11
귀찮아서 CUDA 3.2 SDK만 설치하고, CUDA Toolkit 3.2는 설치하지 않고
비쥬얼 스튜디오에서 3.2용 SDK 샘플 파일을 열려고 하니 다음과 같은 에러가 발생한다.

음.. C:\Program Files\Microsoft Visual Studio 9.0\VC\VCProjectDefaults\NvCudaRuntimeApi.rules 이 파일은 머지?

머 결론은 프로젝트 파일 열수 없음 배째! 라는 건데..

3.1과 3.2의 프로젝트 파일을 비교해보니
ToolFiles의 경로가 달라졌다 -_-

부랴부랴 Toolkit 3.2를 설치하는데

경로를 바꾸니 졸라 겁준다 -_-
줸장! 내가 쫄아서 "Yes" 누르는 건 아냐 ㅠ.ㅠ

아무튼 3.2 Toolkit을 설치하고 나니 이제야 파일이 생성되고, 제대로 프로젝트 파일이 열린다.

Posted by 구차니

예상완료시간 583시간의 위엄 -_-
예상시간이라면 대략 24일 내내 돌려서 못 끝낼 건데
거기에 거의 빠듯하게 맞추어서 준 2011-02-10일 마감시간 ㅠ.ㅠ

으헝헝 요즘에 CUDA로 팍팍 돌린다고 이상한걸 나에게 던진 것 같은데 크윽!
그래도 10초씩 팍팍 줄어서 밤에만 꾸준히 돌려서 어떻게 될려나?

'프로그램 사용 > BOINC - seti@home' 카테고리의 다른 글

astropulse... 끝나긴 해?  (0) 2011.04.21
BOINC 와 CUDA와 드라이버  (4) 2011.01.31
8800GT 512MB on BOINC  (2) 2011.01.05
BOINC seti@home on WindowsXP SP3 32bit  (0) 2010.10.31
BOINC with CUDA  (2) 2010.10.17
Posted by 구차니
추가된 부분보다는 과거의 번역내용을 옮기는 작업에 가까움.



'모종의 음모 > UFO:AI 한글화' 카테고리의 다른 글

한글 맞춤법 검사  (0) 2011.12.17
UFO:AI SLI 시스템에서의 문제점  (5) 2011.01.08
UFO:AI 관련 프로젝트  (0) 2011.01.07
UFO:AI 2.3  (6) 2009.11.29
UFO:AI 2.3 용 po 파일  (2) 2009.11.27
Posted by 구차니
kdiff3는 KDE에 포함된 녀석으로 윈도우용으로 포팅이 되어있다.
하지만, merge가 아니라 diff인 관계로 수정은 불가능 한것으로 보이고
그나마도 UTF-8이나 한글은 오작동 하는 모습이 보여진다.

3개 파일을 선택하면 "3 way comparison" 이라고 뜬다.

하지만, 버그가 있는지 WinXP 에서는 한글 경로가 깨져버리는 상황 발생 -_-

그리고 기본값으로는 내용의 한글도 죄다 깨지는 문제가 발생!
옵션에서 지역설정 - Encoding을 UTF-8 BOM으로 해주니 해결!

아무튼 경로를 다시 설정해주고 나면 이렇게 비교를 시작하는 창이 뜬다.

하지만, 볼수만 있지 편집은 불가능하며

드래그를 하면 아래와 같이 글씨가 사라지는 등 한글지원은 많이 부족해 보인다.


Posted by 구차니
Programming/openCL & CUDA2011. 1. 14. 21:32
아래의 것들이 추가되었음

bilateralFilter
conjugateGradient
cudaEncode
Interval
MonteCarloCURAND
randomFog
simplePrintf
simpleSurfaceWrite
SLID3D10Texture
VFlocking

H.264 지원으로는 cudaEncode 정도 밖에 없는 느낌?


Interval.exe GTX260 이상부터 지원하는 녀석이다 ㅠㅠ
[Interval Computing]  starting ...

> Using CUDA device [0]: GeForce 8800 GT
> GPU Device has Compute Capabilities SM 1.1

Interval Computing: requires minimum of Compute Capability 1.3 or higher, waiving test...
PASSED


Posted by 구차니
프로그램 사용/GIMP2011. 1. 14. 18:16
윈도우에서 기본 포함된 폰트들에 대한 글꼴 정보이다.
문서를 수정할때 아무래도 유사한 폰트들에 대한 정보가 있음 좋겠다는 생각이 드는 1인 -_-


Serif 계열 폰트 (i 식으로 삐침이 있음)
BELL MT
Book Antiqua
Bookman Old Style
Californian FB
Cambria
Centaur
Century
Consolas
Constantia
Courier New
Courier
Dejavu Sans Mono
Dejavu Serif
Garamond
Gentium Basic
Gerogia
Lucida Bright
Lucida Fax
Monospace
Serif
Times New Roman

고정폭 폰트 (i등의 글자 간격이 넓음)
Consolas
Courier New
Courier
Dejavu Sans Mono
Monospace
Simhei

숫자의 높이가 다름
Candara
Constantia
Corbel
Gerogia

숫자 0의 중앙에 점
Courier
Dejavu Sans Mono

숫자 0의 중앙을 가로지르는 선
Consolas

굽은 7
arial
arial_bold
arial_bold_condensed
arial_condensed
BELL MT
berlin sans FB
Bookman Old Style
Californian FB
Century
Cordia New
Franklin Gothic Medium
Lucida Bright
Lucida Fax
Sans

곧은 7
Book Antiqua
Calibri
Cambria
Candara
Centaur
Consolas
Constantia
Corbel
Courier New
Courier
Dejavu Sans Mono
Dejavu Sans Semi-Condensed
Dejavu Sans
Dejavu Serif
Fixedsys
Garamond
Gentium Basic
Gerogia
Impact Condensed
MicroSoft Sans Serif
Monospace
MS Sans Serif
MS_Serif
Serif
Simhei
system
Tahoma
Terminal
Times New Roman
Verdana


gimp_font_arial.png

gimp_font_arial_bold.png

gimp_font_arial_bold_condensed.png

gimp_font_arial_condensed.png

gimp_font_BELL MT.png

gimp_font_berlin sans FB.png

gimp_font_Book Antiqua.png

gimp_font_Bookman Old Style.png

gimp_font_Calibri.png

gimp_font_Californian FB.png

gimp_font_Cambria.png

gimp_font_Candara.png

gimp_font_Centaur.png

gimp_font_Century.png

gimp_font_Consolas.png

gimp_font_Constantia.png

gimp_font_Corbel.png

gimp_font_Cordia New.png

gimp_font_Courier New.png

gimp_font_Courier.png

gimp_font_Dejavu Sans Mono.png

gimp_font_Dejavu Sans Semi-Condensed.png

gimp_font_Dejavu Sans.png

gimp_font_Dejavu Serif.png

gimp_font_Fixedsys.png

gimp_font_Franklin Gothic Medium.png

gimp_font_Garamond.png

gimp_font_Gentium Basic.png

gimp_font_Gerogia.png

gimp_font_Impact Condensed.png

gimp_font_Lucida Bright.png

gimp_font_Lucida Fax.png

gimp_font_MicroSoft Sans Serif.png

gimp_font_Monospace.png

gimp_font_MS Sans Serif.png

gimp_font_MS_Serif.png

gimp_font_Sans.png

gimp_font_Serif.png

gimp_font_Simhei.png

gimp_font_system.png

gimp_font_Tahoma.png

gimp_font_Terminal.png

gimp_font_Times New Roman.png

gimp_font_Verdana.png




'프로그램 사용 > GIMP' 카테고리의 다른 글

GIMP 창 모두 닫기 기능이 있었다니!  (0) 2011.04.28
gimp 메뉴 언어 바꾸기(Windows)  (0) 2011.04.18
GIMP 문자/필터 효과  (0) 2011.01.14
gimp 관련내용  (4) 2011.01.06
GIMP로 금속재질 느낌나게 하기  (0) 2010.12.01
Posted by 구차니