| // Copyright (c) 2017, the HRSS authors. |
| // |
| // Permission to use, copy, modify, and/or distribute this software for any |
| // purpose with or without fee is hereby granted, provided that the above |
| // copyright notice and this permission notice appear in all copies. |
| // |
| // THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES |
| // WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF |
| // MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY |
| // SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES |
| // WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION |
| // OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN |
| // CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE. |
| |
| #if !defined(OPENSSL_NO_ASM) && !defined(OPENSSL_SMALL) && defined(__linux__) |
| |
| #if defined(BORINGSSL_PREFIX) |
| #include <boringssl_prefix_symbols_asm.h> |
| #endif |
| |
| // This is the polynomial multiplication function from [HRSS], provided by kind |
| // permission of the authors. |
| // |
| // HRSS: https://eprint.iacr.org/2017/1005 |
| |
| # This file was generated by poly_rq_mul.py |
| .text |
| .align 32 |
| mask_low9words: |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0xffff |
| .word 0x0 |
| .word 0x0 |
| .word 0x0 |
| .word 0x0 |
| .word 0x0 |
| .word 0x0 |
| .word 0x0 |
| const3: |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| .word 3 |
| const9: |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| .word 9 |
| const0: |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| const729: |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| .word 729 |
| const3_inv: |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| .word 43691 |
| const5_inv: |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| .word 52429 |
| shuf48_16: |
| .byte 10 |
| .byte 11 |
| .byte 12 |
| .byte 13 |
| .byte 14 |
| .byte 15 |
| .byte 0 |
| .byte 1 |
| .byte 2 |
| .byte 3 |
| .byte 4 |
| .byte 5 |
| .byte 6 |
| .byte 7 |
| .byte 8 |
| .byte 9 |
| .byte 10 |
| .byte 11 |
| .byte 12 |
| .byte 13 |
| .byte 14 |
| .byte 15 |
| .byte 0 |
| .byte 1 |
| .byte 2 |
| .byte 3 |
| .byte 4 |
| .byte 5 |
| .byte 6 |
| .byte 7 |
| .byte 8 |
| .byte 9 |
| shufmin1_mask3: |
| .byte 2 |
| .byte 3 |
| .byte 4 |
| .byte 5 |
| .byte 6 |
| .byte 7 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| .byte 255 |
| mask32_to_16: |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| .word 0xffff |
| .word 0x0 |
| mask5_3_5_3: |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| mask3_5_3_5: |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| mask3_5_4_3_1: |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 0 |
| mask_keephigh: |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 0 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| .word 65535 |
| mask_mod8192: |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .word 8191 |
| .text |
| .global poly_Rq_mul |
| .hidden poly_Rq_mul |
| .type poly_Rq_mul, @function |
| .att_syntax prefix |
| poly_Rq_mul: |
| .cfi_startproc |
| push %rbp |
| .cfi_adjust_cfa_offset 8 |
| .cfi_offset rbp, -16 |
| movq %rsp, %rbp |
| .cfi_def_cfa_register rbp |
| push %r12 |
| .cfi_offset r12, -24 |
| mov %rsp, %r8 |
| andq $-32, %rsp |
| subq $6144, %rsp |
| mov %rsp, %rax |
| subq $6144, %rsp |
| mov %rsp, %r11 |
| subq $12288, %rsp |
| mov %rsp, %r12 |
| subq $512, %rsp |
| vmovdqa const3(%rip), %ymm3 |
| vmovdqu 0(%rsi), %ymm0 |
| vmovdqu 88(%rsi), %ymm1 |
| vmovdqu 176(%rsi), %ymm2 |
| vmovdqu 264(%rsi), %ymm12 |
| vmovdqu 1056(%rsi), %ymm4 |
| vmovdqu 1144(%rsi), %ymm5 |
| vmovdqu 1232(%rsi), %ymm6 |
| vmovdqu 1320(%rsi), %ymm7 |
| vmovdqu 352(%rsi), %ymm8 |
| vmovdqu 440(%rsi), %ymm9 |
| vmovdqu 528(%rsi), %ymm10 |
| vmovdqu 616(%rsi), %ymm11 |
| vmovdqa %ymm0, 0(%rax) |
| vmovdqa %ymm1, 96(%rax) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 192(%rax) |
| vmovdqa %ymm2, 288(%rax) |
| vmovdqa %ymm12, 384(%rax) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 480(%rax) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 576(%rax) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 672(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 768(%rax) |
| vmovdqa %ymm4, 5184(%rax) |
| vmovdqa %ymm5, 5280(%rax) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5376(%rax) |
| vmovdqa %ymm6, 5472(%rax) |
| vmovdqa %ymm7, 5568(%rax) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5664(%rax) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5760(%rax) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5856(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 5952(%rax) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 704(%rsi), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 792(%rsi), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 880(%rsi), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 968(%rsi), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 864(%rax) |
| vmovdqa %ymm9, 960(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1056(%rax) |
| vmovdqa %ymm10, 1152(%rax) |
| vmovdqa %ymm11, 1248(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1344(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1440(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1536(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1632(%rax) |
| vmovdqa %ymm12, 1728(%rax) |
| vmovdqa %ymm13, 1824(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1920(%rax) |
| vmovdqa %ymm14, 2016(%rax) |
| vmovdqa %ymm15, 2112(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2208(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2304(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2400(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2496(%rax) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2592(%rax) |
| vmovdqa %ymm9, 2688(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2784(%rax) |
| vmovdqa %ymm10, 2880(%rax) |
| vmovdqa %ymm11, 2976(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3072(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3168(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3264(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3360(%rax) |
| vmovdqa %ymm12, 3456(%rax) |
| vmovdqa %ymm13, 3552(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3648(%rax) |
| vmovdqa %ymm14, 3744(%rax) |
| vmovdqa %ymm15, 3840(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 3936(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4032(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4128(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4224(%rax) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4320(%rax) |
| vmovdqa %ymm13, 4416(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4512(%rax) |
| vmovdqa %ymm14, 4608(%rax) |
| vmovdqa %ymm15, 4704(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4800(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4896(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4992(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5088(%rax) |
| vmovdqu 32(%rsi), %ymm0 |
| vmovdqu 120(%rsi), %ymm1 |
| vmovdqu 208(%rsi), %ymm2 |
| vmovdqu 296(%rsi), %ymm12 |
| vmovdqu 1088(%rsi), %ymm4 |
| vmovdqu 1176(%rsi), %ymm5 |
| vmovdqu 1264(%rsi), %ymm6 |
| vmovdqu 1352(%rsi), %ymm7 |
| vmovdqu 384(%rsi), %ymm8 |
| vmovdqu 472(%rsi), %ymm9 |
| vmovdqu 560(%rsi), %ymm10 |
| vmovdqu 648(%rsi), %ymm11 |
| vmovdqa %ymm0, 32(%rax) |
| vmovdqa %ymm1, 128(%rax) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 224(%rax) |
| vmovdqa %ymm2, 320(%rax) |
| vmovdqa %ymm12, 416(%rax) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 512(%rax) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 608(%rax) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 704(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 800(%rax) |
| vmovdqa %ymm4, 5216(%rax) |
| vmovdqa %ymm5, 5312(%rax) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5408(%rax) |
| vmovdqa %ymm6, 5504(%rax) |
| vmovdqa %ymm7, 5600(%rax) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5696(%rax) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5792(%rax) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5888(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 5984(%rax) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 736(%rsi), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 824(%rsi), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 912(%rsi), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 1000(%rsi), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 896(%rax) |
| vmovdqa %ymm9, 992(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1088(%rax) |
| vmovdqa %ymm10, 1184(%rax) |
| vmovdqa %ymm11, 1280(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1376(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1472(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1568(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1664(%rax) |
| vmovdqa %ymm12, 1760(%rax) |
| vmovdqa %ymm13, 1856(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1952(%rax) |
| vmovdqa %ymm14, 2048(%rax) |
| vmovdqa %ymm15, 2144(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2240(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2336(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2432(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2528(%rax) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2624(%rax) |
| vmovdqa %ymm9, 2720(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2816(%rax) |
| vmovdqa %ymm10, 2912(%rax) |
| vmovdqa %ymm11, 3008(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3104(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3200(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3296(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3392(%rax) |
| vmovdqa %ymm12, 3488(%rax) |
| vmovdqa %ymm13, 3584(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3680(%rax) |
| vmovdqa %ymm14, 3776(%rax) |
| vmovdqa %ymm15, 3872(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 3968(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4064(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4160(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4256(%rax) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4352(%rax) |
| vmovdqa %ymm13, 4448(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4544(%rax) |
| vmovdqa %ymm14, 4640(%rax) |
| vmovdqa %ymm15, 4736(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4832(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4928(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 5024(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5120(%rax) |
| vmovdqu 64(%rsi), %ymm0 |
| vmovdqu 152(%rsi), %ymm1 |
| vmovdqu 240(%rsi), %ymm2 |
| vmovdqu 328(%rsi), %ymm12 |
| vmovdqu 1120(%rsi), %ymm4 |
| vmovdqu 1208(%rsi), %ymm5 |
| vmovdqu 1296(%rsi), %ymm6 |
| vmovdqu 1384(%rsi), %ymm7 |
| vpand mask_low9words(%rip), %ymm7, %ymm7 |
| vmovdqu 416(%rsi), %ymm8 |
| vmovdqu 504(%rsi), %ymm9 |
| vmovdqu 592(%rsi), %ymm10 |
| vmovdqu 680(%rsi), %ymm11 |
| vmovdqa %ymm0, 64(%rax) |
| vmovdqa %ymm1, 160(%rax) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 256(%rax) |
| vmovdqa %ymm2, 352(%rax) |
| vmovdqa %ymm12, 448(%rax) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 544(%rax) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 640(%rax) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 736(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 832(%rax) |
| vmovdqa %ymm4, 5248(%rax) |
| vmovdqa %ymm5, 5344(%rax) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5440(%rax) |
| vmovdqa %ymm6, 5536(%rax) |
| vmovdqa %ymm7, 5632(%rax) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5728(%rax) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5824(%rax) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5920(%rax) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 6016(%rax) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 768(%rsi), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 856(%rsi), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 944(%rsi), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 1032(%rsi), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 928(%rax) |
| vmovdqa %ymm9, 1024(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1120(%rax) |
| vmovdqa %ymm10, 1216(%rax) |
| vmovdqa %ymm11, 1312(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1408(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1504(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1600(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1696(%rax) |
| vmovdqa %ymm12, 1792(%rax) |
| vmovdqa %ymm13, 1888(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1984(%rax) |
| vmovdqa %ymm14, 2080(%rax) |
| vmovdqa %ymm15, 2176(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2272(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2368(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2464(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2560(%rax) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2656(%rax) |
| vmovdqa %ymm9, 2752(%rax) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2848(%rax) |
| vmovdqa %ymm10, 2944(%rax) |
| vmovdqa %ymm11, 3040(%rax) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3136(%rax) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3232(%rax) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3328(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3424(%rax) |
| vmovdqa %ymm12, 3520(%rax) |
| vmovdqa %ymm13, 3616(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3712(%rax) |
| vmovdqa %ymm14, 3808(%rax) |
| vmovdqa %ymm15, 3904(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4000(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4096(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4192(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4288(%rax) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4384(%rax) |
| vmovdqa %ymm13, 4480(%rax) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4576(%rax) |
| vmovdqa %ymm14, 4672(%rax) |
| vmovdqa %ymm15, 4768(%rax) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4864(%rax) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4960(%rax) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 5056(%rax) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5152(%rax) |
| vmovdqu 0(%rdx), %ymm0 |
| vmovdqu 88(%rdx), %ymm1 |
| vmovdqu 176(%rdx), %ymm2 |
| vmovdqu 264(%rdx), %ymm12 |
| vmovdqu 1056(%rdx), %ymm4 |
| vmovdqu 1144(%rdx), %ymm5 |
| vmovdqu 1232(%rdx), %ymm6 |
| vmovdqu 1320(%rdx), %ymm7 |
| vmovdqu 352(%rdx), %ymm8 |
| vmovdqu 440(%rdx), %ymm9 |
| vmovdqu 528(%rdx), %ymm10 |
| vmovdqu 616(%rdx), %ymm11 |
| vmovdqa %ymm0, 0(%r11) |
| vmovdqa %ymm1, 96(%r11) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 192(%r11) |
| vmovdqa %ymm2, 288(%r11) |
| vmovdqa %ymm12, 384(%r11) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 480(%r11) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 576(%r11) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 672(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 768(%r11) |
| vmovdqa %ymm4, 5184(%r11) |
| vmovdqa %ymm5, 5280(%r11) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5376(%r11) |
| vmovdqa %ymm6, 5472(%r11) |
| vmovdqa %ymm7, 5568(%r11) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5664(%r11) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5760(%r11) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5856(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 5952(%r11) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 704(%rdx), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 792(%rdx), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 880(%rdx), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 968(%rdx), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 864(%r11) |
| vmovdqa %ymm9, 960(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1056(%r11) |
| vmovdqa %ymm10, 1152(%r11) |
| vmovdqa %ymm11, 1248(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1344(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1440(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1536(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1632(%r11) |
| vmovdqa %ymm12, 1728(%r11) |
| vmovdqa %ymm13, 1824(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1920(%r11) |
| vmovdqa %ymm14, 2016(%r11) |
| vmovdqa %ymm15, 2112(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2208(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2304(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2400(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2496(%r11) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2592(%r11) |
| vmovdqa %ymm9, 2688(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2784(%r11) |
| vmovdqa %ymm10, 2880(%r11) |
| vmovdqa %ymm11, 2976(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3072(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3168(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3264(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3360(%r11) |
| vmovdqa %ymm12, 3456(%r11) |
| vmovdqa %ymm13, 3552(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3648(%r11) |
| vmovdqa %ymm14, 3744(%r11) |
| vmovdqa %ymm15, 3840(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 3936(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4032(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4128(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4224(%r11) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4320(%r11) |
| vmovdqa %ymm13, 4416(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4512(%r11) |
| vmovdqa %ymm14, 4608(%r11) |
| vmovdqa %ymm15, 4704(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4800(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4896(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4992(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5088(%r11) |
| vmovdqu 32(%rdx), %ymm0 |
| vmovdqu 120(%rdx), %ymm1 |
| vmovdqu 208(%rdx), %ymm2 |
| vmovdqu 296(%rdx), %ymm12 |
| vmovdqu 1088(%rdx), %ymm4 |
| vmovdqu 1176(%rdx), %ymm5 |
| vmovdqu 1264(%rdx), %ymm6 |
| vmovdqu 1352(%rdx), %ymm7 |
| vmovdqu 384(%rdx), %ymm8 |
| vmovdqu 472(%rdx), %ymm9 |
| vmovdqu 560(%rdx), %ymm10 |
| vmovdqu 648(%rdx), %ymm11 |
| vmovdqa %ymm0, 32(%r11) |
| vmovdqa %ymm1, 128(%r11) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 224(%r11) |
| vmovdqa %ymm2, 320(%r11) |
| vmovdqa %ymm12, 416(%r11) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 512(%r11) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 608(%r11) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 704(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 800(%r11) |
| vmovdqa %ymm4, 5216(%r11) |
| vmovdqa %ymm5, 5312(%r11) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5408(%r11) |
| vmovdqa %ymm6, 5504(%r11) |
| vmovdqa %ymm7, 5600(%r11) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5696(%r11) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5792(%r11) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5888(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 5984(%r11) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 736(%rdx), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 824(%rdx), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 912(%rdx), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 1000(%rdx), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 896(%r11) |
| vmovdqa %ymm9, 992(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1088(%r11) |
| vmovdqa %ymm10, 1184(%r11) |
| vmovdqa %ymm11, 1280(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1376(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1472(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1568(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1664(%r11) |
| vmovdqa %ymm12, 1760(%r11) |
| vmovdqa %ymm13, 1856(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1952(%r11) |
| vmovdqa %ymm14, 2048(%r11) |
| vmovdqa %ymm15, 2144(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2240(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2336(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2432(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2528(%r11) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2624(%r11) |
| vmovdqa %ymm9, 2720(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2816(%r11) |
| vmovdqa %ymm10, 2912(%r11) |
| vmovdqa %ymm11, 3008(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3104(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3200(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3296(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3392(%r11) |
| vmovdqa %ymm12, 3488(%r11) |
| vmovdqa %ymm13, 3584(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3680(%r11) |
| vmovdqa %ymm14, 3776(%r11) |
| vmovdqa %ymm15, 3872(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 3968(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4064(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4160(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4256(%r11) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4352(%r11) |
| vmovdqa %ymm13, 4448(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4544(%r11) |
| vmovdqa %ymm14, 4640(%r11) |
| vmovdqa %ymm15, 4736(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4832(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4928(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 5024(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5120(%r11) |
| vmovdqu 64(%rdx), %ymm0 |
| vmovdqu 152(%rdx), %ymm1 |
| vmovdqu 240(%rdx), %ymm2 |
| vmovdqu 328(%rdx), %ymm12 |
| vmovdqu 1120(%rdx), %ymm4 |
| vmovdqu 1208(%rdx), %ymm5 |
| vmovdqu 1296(%rdx), %ymm6 |
| vmovdqu 1384(%rdx), %ymm7 |
| vpand mask_low9words(%rip), %ymm7, %ymm7 |
| vmovdqu 416(%rdx), %ymm8 |
| vmovdqu 504(%rdx), %ymm9 |
| vmovdqu 592(%rdx), %ymm10 |
| vmovdqu 680(%rdx), %ymm11 |
| vmovdqa %ymm0, 64(%r11) |
| vmovdqa %ymm1, 160(%r11) |
| vpaddw %ymm0, %ymm1, %ymm14 |
| vmovdqa %ymm14, 256(%r11) |
| vmovdqa %ymm2, 352(%r11) |
| vmovdqa %ymm12, 448(%r11) |
| vpaddw %ymm2, %ymm12, %ymm14 |
| vmovdqa %ymm14, 544(%r11) |
| vpaddw %ymm0, %ymm2, %ymm14 |
| vmovdqa %ymm14, 640(%r11) |
| vpaddw %ymm1, %ymm12, %ymm15 |
| vmovdqa %ymm15, 736(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 832(%r11) |
| vmovdqa %ymm4, 5248(%r11) |
| vmovdqa %ymm5, 5344(%r11) |
| vpaddw %ymm4, %ymm5, %ymm14 |
| vmovdqa %ymm14, 5440(%r11) |
| vmovdqa %ymm6, 5536(%r11) |
| vmovdqa %ymm7, 5632(%r11) |
| vpaddw %ymm6, %ymm7, %ymm14 |
| vmovdqa %ymm14, 5728(%r11) |
| vpaddw %ymm4, %ymm6, %ymm14 |
| vmovdqa %ymm14, 5824(%r11) |
| vpaddw %ymm5, %ymm7, %ymm15 |
| vmovdqa %ymm15, 5920(%r11) |
| vpaddw %ymm14, %ymm15, %ymm14 |
| vmovdqa %ymm14, 6016(%r11) |
| vmovdqa %ymm0, 0(%rsp) |
| vmovdqa %ymm1, 32(%rsp) |
| vmovdqa %ymm2, 64(%rsp) |
| vmovdqa %ymm12, 96(%rsp) |
| vmovdqa %ymm8, 128(%rsp) |
| vmovdqa %ymm9, 160(%rsp) |
| vmovdqa %ymm10, 192(%rsp) |
| vmovdqa %ymm11, 224(%rsp) |
| vmovdqu 768(%rdx), %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm1 |
| vpaddw 128(%rsp), %ymm4, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm8 |
| vpsubw %ymm2, %ymm1, %ymm12 |
| vmovdqa %ymm0, 256(%rsp) |
| vmovdqu 856(%rdx), %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm1 |
| vpaddw 160(%rsp), %ymm5, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm9 |
| vpsubw %ymm2, %ymm1, %ymm13 |
| vmovdqa %ymm0, 288(%rsp) |
| vmovdqu 944(%rdx), %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm1 |
| vpaddw 192(%rsp), %ymm6, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm10 |
| vpsubw %ymm2, %ymm1, %ymm14 |
| vmovdqa %ymm0, 320(%rsp) |
| vmovdqu 1032(%rdx), %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm1 |
| vpaddw 224(%rsp), %ymm7, %ymm2 |
| vpaddw %ymm2, %ymm1, %ymm11 |
| vpsubw %ymm2, %ymm1, %ymm15 |
| vmovdqa %ymm0, 352(%rsp) |
| vmovdqa %ymm8, 928(%r11) |
| vmovdqa %ymm9, 1024(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 1120(%r11) |
| vmovdqa %ymm10, 1216(%r11) |
| vmovdqa %ymm11, 1312(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 1408(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 1504(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 1600(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 1696(%r11) |
| vmovdqa %ymm12, 1792(%r11) |
| vmovdqa %ymm13, 1888(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 1984(%r11) |
| vmovdqa %ymm14, 2080(%r11) |
| vmovdqa %ymm15, 2176(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 2272(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 2368(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 2464(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 2560(%r11) |
| vmovdqa 256(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm4, %ymm1 |
| vpaddw 128(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm8 |
| vpsubw %ymm1, %ymm0, %ymm12 |
| vmovdqa 288(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm5, %ymm1 |
| vpaddw 160(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm9 |
| vpsubw %ymm1, %ymm0, %ymm13 |
| vmovdqa 320(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm6, %ymm1 |
| vpaddw 192(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm10 |
| vpsubw %ymm1, %ymm0, %ymm14 |
| vmovdqa 352(%rsp), %ymm0 |
| vpsllw $2, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm0 |
| vpsllw $2, %ymm7, %ymm1 |
| vpaddw 224(%rsp), %ymm1, %ymm1 |
| vpsllw $1, %ymm1, %ymm1 |
| vpaddw %ymm1, %ymm0, %ymm11 |
| vpsubw %ymm1, %ymm0, %ymm15 |
| vmovdqa %ymm8, 2656(%r11) |
| vmovdqa %ymm9, 2752(%r11) |
| vpaddw %ymm8, %ymm9, %ymm0 |
| vmovdqa %ymm0, 2848(%r11) |
| vmovdqa %ymm10, 2944(%r11) |
| vmovdqa %ymm11, 3040(%r11) |
| vpaddw %ymm10, %ymm11, %ymm0 |
| vmovdqa %ymm0, 3136(%r11) |
| vpaddw %ymm8, %ymm10, %ymm0 |
| vmovdqa %ymm0, 3232(%r11) |
| vpaddw %ymm9, %ymm11, %ymm1 |
| vmovdqa %ymm1, 3328(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 3424(%r11) |
| vmovdqa %ymm12, 3520(%r11) |
| vmovdqa %ymm13, 3616(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 3712(%r11) |
| vmovdqa %ymm14, 3808(%r11) |
| vmovdqa %ymm15, 3904(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4000(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4096(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 4192(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 4288(%r11) |
| vpmullw %ymm3, %ymm4, %ymm0 |
| vpaddw 256(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 128(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 0(%rsp), %ymm0, %ymm12 |
| vpmullw %ymm3, %ymm5, %ymm0 |
| vpaddw 288(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 160(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 32(%rsp), %ymm0, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm0 |
| vpaddw 320(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 192(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 64(%rsp), %ymm0, %ymm14 |
| vpmullw %ymm3, %ymm7, %ymm0 |
| vpaddw 352(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 224(%rsp), %ymm0, %ymm0 |
| vpmullw %ymm3, %ymm0, %ymm0 |
| vpaddw 96(%rsp), %ymm0, %ymm15 |
| vmovdqa %ymm12, 4384(%r11) |
| vmovdqa %ymm13, 4480(%r11) |
| vpaddw %ymm12, %ymm13, %ymm0 |
| vmovdqa %ymm0, 4576(%r11) |
| vmovdqa %ymm14, 4672(%r11) |
| vmovdqa %ymm15, 4768(%r11) |
| vpaddw %ymm14, %ymm15, %ymm0 |
| vmovdqa %ymm0, 4864(%r11) |
| vpaddw %ymm12, %ymm14, %ymm0 |
| vmovdqa %ymm0, 4960(%r11) |
| vpaddw %ymm13, %ymm15, %ymm1 |
| vmovdqa %ymm1, 5056(%r11) |
| vpaddw %ymm0, %ymm1, %ymm0 |
| vmovdqa %ymm0, 5152(%r11) |
| subq $9408, %rsp |
| mov $4, %ecx |
| karatsuba_loop_4eced63f144beffcb0247f9c6f67d165: |
| mov %rsp, %r9 |
| mov %rsp, %r10 |
| subq $32, %rsp |
| vmovdqa 0(%rax), %ymm0 |
| vmovdqa 192(%rax), %ymm1 |
| vmovdqa 384(%rax), %ymm2 |
| vmovdqa 576(%rax), %ymm3 |
| vpunpcklwd 96(%rax), %ymm0, %ymm4 |
| vpunpckhwd 96(%rax), %ymm0, %ymm5 |
| vpunpcklwd 288(%rax), %ymm1, %ymm6 |
| vpunpckhwd 288(%rax), %ymm1, %ymm7 |
| vpunpcklwd 480(%rax), %ymm2, %ymm8 |
| vpunpckhwd 480(%rax), %ymm2, %ymm9 |
| vpunpcklwd 672(%rax), %ymm3, %ymm10 |
| vpunpckhwd 672(%rax), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 768(%rax), %ymm0 |
| vmovdqa 960(%rax), %ymm1 |
| vmovdqa 1152(%rax), %ymm2 |
| vmovdqa 1344(%rax), %ymm3 |
| vpunpcklwd 864(%rax), %ymm0, %ymm12 |
| vpunpckhwd 864(%rax), %ymm0, %ymm13 |
| vpunpcklwd 1056(%rax), %ymm1, %ymm14 |
| vpunpckhwd 1056(%rax), %ymm1, %ymm15 |
| vpunpcklwd 1248(%rax), %ymm2, %ymm0 |
| vpunpckhwd 1248(%rax), %ymm2, %ymm1 |
| vpunpcklwd 1440(%rax), %ymm3, %ymm2 |
| vpunpckhwd 1440(%rax), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 0(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 32(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 64(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 96(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 128(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 160(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 192(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 256(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 288(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 320(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 352(%r9) |
| vinserti128 $0, %xmm8, %ymm12, %ymm15 |
| vmovdqa %ymm15, 384(%r9) |
| vinserti128 $0, %xmm9, %ymm2, %ymm15 |
| vmovdqa %ymm15, 416(%r9) |
| vinserti128 $0, %xmm10, %ymm14, %ymm15 |
| vmovdqa %ymm15, 448(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 224(%r9) |
| vpermq $78, %ymm11, %ymm11 |
| vinserti128 $0, %xmm11, %ymm1, %ymm1 |
| vmovdqa %ymm1, 480(%r9) |
| vmovdqa 32(%rax), %ymm0 |
| vmovdqa 224(%rax), %ymm1 |
| vmovdqa 416(%rax), %ymm2 |
| vmovdqa 608(%rax), %ymm3 |
| vpunpcklwd 128(%rax), %ymm0, %ymm4 |
| vpunpckhwd 128(%rax), %ymm0, %ymm5 |
| vpunpcklwd 320(%rax), %ymm1, %ymm6 |
| vpunpckhwd 320(%rax), %ymm1, %ymm7 |
| vpunpcklwd 512(%rax), %ymm2, %ymm8 |
| vpunpckhwd 512(%rax), %ymm2, %ymm9 |
| vpunpcklwd 704(%rax), %ymm3, %ymm10 |
| vpunpckhwd 704(%rax), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 800(%rax), %ymm0 |
| vmovdqa 992(%rax), %ymm1 |
| vmovdqa 1184(%rax), %ymm2 |
| vmovdqa 1376(%rax), %ymm3 |
| vpunpcklwd 896(%rax), %ymm0, %ymm12 |
| vpunpckhwd 896(%rax), %ymm0, %ymm13 |
| vpunpcklwd 1088(%rax), %ymm1, %ymm14 |
| vpunpckhwd 1088(%rax), %ymm1, %ymm15 |
| vpunpcklwd 1280(%rax), %ymm2, %ymm0 |
| vpunpckhwd 1280(%rax), %ymm2, %ymm1 |
| vpunpcklwd 1472(%rax), %ymm3, %ymm2 |
| vpunpckhwd 1472(%rax), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 512(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 544(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 576(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 608(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 640(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 672(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 704(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 768(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 800(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 832(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 864(%r9) |
| vinserti128 $0, %xmm8, %ymm12, %ymm15 |
| vmovdqa %ymm15, 896(%r9) |
| vinserti128 $0, %xmm9, %ymm2, %ymm15 |
| vmovdqa %ymm15, 928(%r9) |
| vinserti128 $0, %xmm10, %ymm14, %ymm15 |
| vmovdqa %ymm15, 960(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 736(%r9) |
| vpermq $78, %ymm11, %ymm11 |
| vinserti128 $0, %xmm11, %ymm1, %ymm1 |
| vmovdqa %ymm1, 992(%r9) |
| vmovdqa 64(%rax), %ymm0 |
| vmovdqa 256(%rax), %ymm1 |
| vmovdqa 448(%rax), %ymm2 |
| vmovdqa 640(%rax), %ymm3 |
| vpunpcklwd 160(%rax), %ymm0, %ymm4 |
| vpunpckhwd 160(%rax), %ymm0, %ymm5 |
| vpunpcklwd 352(%rax), %ymm1, %ymm6 |
| vpunpckhwd 352(%rax), %ymm1, %ymm7 |
| vpunpcklwd 544(%rax), %ymm2, %ymm8 |
| vpunpckhwd 544(%rax), %ymm2, %ymm9 |
| vpunpcklwd 736(%rax), %ymm3, %ymm10 |
| vpunpckhwd 736(%rax), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 832(%rax), %ymm0 |
| vmovdqa 1024(%rax), %ymm1 |
| vmovdqa 1216(%rax), %ymm2 |
| vmovdqa 1408(%rax), %ymm3 |
| vpunpcklwd 928(%rax), %ymm0, %ymm12 |
| vpunpckhwd 928(%rax), %ymm0, %ymm13 |
| vpunpcklwd 1120(%rax), %ymm1, %ymm14 |
| vpunpckhwd 1120(%rax), %ymm1, %ymm15 |
| vpunpcklwd 1312(%rax), %ymm2, %ymm0 |
| vpunpckhwd 1312(%rax), %ymm2, %ymm1 |
| vpunpcklwd 1504(%rax), %ymm3, %ymm2 |
| vpunpckhwd 1504(%rax), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 1024(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 1056(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 1088(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 1120(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 1152(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 1184(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 1216(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 1280(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 1312(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 1344(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 1376(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 1248(%r9) |
| addq $32, %rsp |
| subq $32, %rsp |
| vmovdqa 0(%r11), %ymm0 |
| vmovdqa 192(%r11), %ymm1 |
| vmovdqa 384(%r11), %ymm2 |
| vmovdqa 576(%r11), %ymm3 |
| vpunpcklwd 96(%r11), %ymm0, %ymm4 |
| vpunpckhwd 96(%r11), %ymm0, %ymm5 |
| vpunpcklwd 288(%r11), %ymm1, %ymm6 |
| vpunpckhwd 288(%r11), %ymm1, %ymm7 |
| vpunpcklwd 480(%r11), %ymm2, %ymm8 |
| vpunpckhwd 480(%r11), %ymm2, %ymm9 |
| vpunpcklwd 672(%r11), %ymm3, %ymm10 |
| vpunpckhwd 672(%r11), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 768(%r11), %ymm0 |
| vmovdqa 960(%r11), %ymm1 |
| vmovdqa 1152(%r11), %ymm2 |
| vmovdqa 1344(%r11), %ymm3 |
| vpunpcklwd 864(%r11), %ymm0, %ymm12 |
| vpunpckhwd 864(%r11), %ymm0, %ymm13 |
| vpunpcklwd 1056(%r11), %ymm1, %ymm14 |
| vpunpckhwd 1056(%r11), %ymm1, %ymm15 |
| vpunpcklwd 1248(%r11), %ymm2, %ymm0 |
| vpunpckhwd 1248(%r11), %ymm2, %ymm1 |
| vpunpcklwd 1440(%r11), %ymm3, %ymm2 |
| vpunpckhwd 1440(%r11), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 1408(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 1440(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 1472(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 1504(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 1536(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 1568(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 1600(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 1664(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 1696(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 1728(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 1760(%r9) |
| vinserti128 $0, %xmm8, %ymm12, %ymm15 |
| vmovdqa %ymm15, 1792(%r9) |
| vinserti128 $0, %xmm9, %ymm2, %ymm15 |
| vmovdqa %ymm15, 1824(%r9) |
| vinserti128 $0, %xmm10, %ymm14, %ymm15 |
| vmovdqa %ymm15, 1856(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 1632(%r9) |
| vpermq $78, %ymm11, %ymm11 |
| vinserti128 $0, %xmm11, %ymm1, %ymm1 |
| vmovdqa %ymm1, 1888(%r9) |
| vmovdqa 32(%r11), %ymm0 |
| vmovdqa 224(%r11), %ymm1 |
| vmovdqa 416(%r11), %ymm2 |
| vmovdqa 608(%r11), %ymm3 |
| vpunpcklwd 128(%r11), %ymm0, %ymm4 |
| vpunpckhwd 128(%r11), %ymm0, %ymm5 |
| vpunpcklwd 320(%r11), %ymm1, %ymm6 |
| vpunpckhwd 320(%r11), %ymm1, %ymm7 |
| vpunpcklwd 512(%r11), %ymm2, %ymm8 |
| vpunpckhwd 512(%r11), %ymm2, %ymm9 |
| vpunpcklwd 704(%r11), %ymm3, %ymm10 |
| vpunpckhwd 704(%r11), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 800(%r11), %ymm0 |
| vmovdqa 992(%r11), %ymm1 |
| vmovdqa 1184(%r11), %ymm2 |
| vmovdqa 1376(%r11), %ymm3 |
| vpunpcklwd 896(%r11), %ymm0, %ymm12 |
| vpunpckhwd 896(%r11), %ymm0, %ymm13 |
| vpunpcklwd 1088(%r11), %ymm1, %ymm14 |
| vpunpckhwd 1088(%r11), %ymm1, %ymm15 |
| vpunpcklwd 1280(%r11), %ymm2, %ymm0 |
| vpunpckhwd 1280(%r11), %ymm2, %ymm1 |
| vpunpcklwd 1472(%r11), %ymm3, %ymm2 |
| vpunpckhwd 1472(%r11), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 1920(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 1952(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 1984(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 2016(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 2048(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 2080(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 2112(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 2176(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 2208(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 2240(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 2272(%r9) |
| vinserti128 $0, %xmm8, %ymm12, %ymm15 |
| vmovdqa %ymm15, 2304(%r9) |
| vinserti128 $0, %xmm9, %ymm2, %ymm15 |
| vmovdqa %ymm15, 2336(%r9) |
| vinserti128 $0, %xmm10, %ymm14, %ymm15 |
| vmovdqa %ymm15, 2368(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 2144(%r9) |
| vpermq $78, %ymm11, %ymm11 |
| vinserti128 $0, %xmm11, %ymm1, %ymm1 |
| vmovdqa %ymm1, 2400(%r9) |
| vmovdqa 64(%r11), %ymm0 |
| vmovdqa 256(%r11), %ymm1 |
| vmovdqa 448(%r11), %ymm2 |
| vmovdqa 640(%r11), %ymm3 |
| vpunpcklwd 160(%r11), %ymm0, %ymm4 |
| vpunpckhwd 160(%r11), %ymm0, %ymm5 |
| vpunpcklwd 352(%r11), %ymm1, %ymm6 |
| vpunpckhwd 352(%r11), %ymm1, %ymm7 |
| vpunpcklwd 544(%r11), %ymm2, %ymm8 |
| vpunpckhwd 544(%r11), %ymm2, %ymm9 |
| vpunpcklwd 736(%r11), %ymm3, %ymm10 |
| vpunpckhwd 736(%r11), %ymm3, %ymm11 |
| vpunpckldq %ymm6, %ymm4, %ymm0 |
| vpunpckhdq %ymm6, %ymm4, %ymm1 |
| vpunpckldq %ymm7, %ymm5, %ymm2 |
| vpunpckhdq %ymm7, %ymm5, %ymm3 |
| vpunpckldq %ymm10, %ymm8, %ymm12 |
| vpunpckhdq %ymm10, %ymm8, %ymm13 |
| vpunpckldq %ymm11, %ymm9, %ymm14 |
| vpunpckhdq %ymm11, %ymm9, %ymm15 |
| vpunpcklqdq %ymm12, %ymm0, %ymm4 |
| vpunpckhqdq %ymm12, %ymm0, %ymm5 |
| vpunpcklqdq %ymm13, %ymm1, %ymm6 |
| vpunpckhqdq %ymm13, %ymm1, %ymm7 |
| vpunpcklqdq %ymm14, %ymm2, %ymm8 |
| vpunpckhqdq %ymm14, %ymm2, %ymm9 |
| vpunpcklqdq %ymm15, %ymm3, %ymm10 |
| vpunpckhqdq %ymm15, %ymm3, %ymm11 |
| vmovdqa 832(%r11), %ymm0 |
| vmovdqa 1024(%r11), %ymm1 |
| vmovdqa 1216(%r11), %ymm2 |
| vmovdqa 1408(%r11), %ymm3 |
| vpunpcklwd 928(%r11), %ymm0, %ymm12 |
| vpunpckhwd 928(%r11), %ymm0, %ymm13 |
| vpunpcklwd 1120(%r11), %ymm1, %ymm14 |
| vpunpckhwd 1120(%r11), %ymm1, %ymm15 |
| vpunpcklwd 1312(%r11), %ymm2, %ymm0 |
| vpunpckhwd 1312(%r11), %ymm2, %ymm1 |
| vpunpcklwd 1504(%r11), %ymm3, %ymm2 |
| vpunpckhwd 1504(%r11), %ymm3, %ymm3 |
| vmovdqa %ymm11, 0(%rsp) |
| vpunpckldq %ymm14, %ymm12, %ymm11 |
| vpunpckhdq %ymm14, %ymm12, %ymm12 |
| vpunpckldq %ymm15, %ymm13, %ymm14 |
| vpunpckhdq %ymm15, %ymm13, %ymm15 |
| vpunpckldq %ymm2, %ymm0, %ymm13 |
| vpunpckhdq %ymm2, %ymm0, %ymm0 |
| vpunpckldq %ymm3, %ymm1, %ymm2 |
| vpunpckhdq %ymm3, %ymm1, %ymm1 |
| vpunpcklqdq %ymm13, %ymm11, %ymm3 |
| vpunpckhqdq %ymm13, %ymm11, %ymm13 |
| vpunpcklqdq %ymm0, %ymm12, %ymm11 |
| vpunpckhqdq %ymm0, %ymm12, %ymm0 |
| vpunpcklqdq %ymm2, %ymm14, %ymm12 |
| vpunpckhqdq %ymm2, %ymm14, %ymm2 |
| vpunpcklqdq %ymm1, %ymm15, %ymm14 |
| vpunpckhqdq %ymm1, %ymm15, %ymm1 |
| vinserti128 $1, %xmm3, %ymm4, %ymm15 |
| vmovdqa %ymm15, 2432(%r9) |
| vinserti128 $1, %xmm13, %ymm5, %ymm15 |
| vmovdqa %ymm15, 2464(%r9) |
| vinserti128 $1, %xmm11, %ymm6, %ymm15 |
| vmovdqa %ymm15, 2496(%r9) |
| vinserti128 $1, %xmm0, %ymm7, %ymm15 |
| vmovdqa %ymm15, 2528(%r9) |
| vinserti128 $1, %xmm12, %ymm8, %ymm15 |
| vmovdqa %ymm15, 2560(%r9) |
| vinserti128 $1, %xmm2, %ymm9, %ymm15 |
| vmovdqa %ymm15, 2592(%r9) |
| vinserti128 $1, %xmm14, %ymm10, %ymm15 |
| vmovdqa %ymm15, 2624(%r9) |
| vpermq $78, %ymm4, %ymm4 |
| vpermq $78, %ymm5, %ymm5 |
| vpermq $78, %ymm6, %ymm6 |
| vpermq $78, %ymm7, %ymm7 |
| vpermq $78, %ymm8, %ymm8 |
| vpermq $78, %ymm9, %ymm9 |
| vpermq $78, %ymm10, %ymm10 |
| vinserti128 $0, %xmm4, %ymm3, %ymm15 |
| vmovdqa %ymm15, 2688(%r9) |
| vinserti128 $0, %xmm5, %ymm13, %ymm15 |
| vmovdqa %ymm15, 2720(%r9) |
| vinserti128 $0, %xmm6, %ymm11, %ymm15 |
| vmovdqa %ymm15, 2752(%r9) |
| vinserti128 $0, %xmm7, %ymm0, %ymm15 |
| vmovdqa %ymm15, 2784(%r9) |
| vmovdqa 0(%rsp), %ymm11 |
| vinserti128 $1, %xmm1, %ymm11, %ymm14 |
| vmovdqa %ymm14, 2656(%r9) |
| addq $32, %rsp |
| innerloop_4eced63f144beffcb0247f9c6f67d165: |
| vmovdqa 0(%r9), %ymm0 |
| vmovdqa 1408(%r9), %ymm6 |
| vmovdqa 32(%r9), %ymm1 |
| vmovdqa 1440(%r9), %ymm7 |
| vmovdqa 64(%r9), %ymm2 |
| vmovdqa 1472(%r9), %ymm8 |
| vmovdqa 96(%r9), %ymm3 |
| vmovdqa 1504(%r9), %ymm9 |
| vmovdqa 128(%r9), %ymm4 |
| vmovdqa 1536(%r9), %ymm10 |
| vmovdqa 160(%r9), %ymm5 |
| vmovdqa 1568(%r9), %ymm11 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 2816(%r10) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 2848(%r10) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 2880(%r10) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 2912(%r10) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 2944(%r10) |
| vpmullw %ymm0, %ymm11, %ymm13 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 2976(%r10) |
| vpmullw %ymm1, %ymm11, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3008(%r10) |
| vpmullw %ymm2, %ymm11, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3040(%r10) |
| vpmullw %ymm3, %ymm11, %ymm12 |
| vpmullw %ymm4, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3072(%r10) |
| vpmullw %ymm4, %ymm11, %ymm13 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3104(%r10) |
| vpmullw %ymm5, %ymm11, %ymm12 |
| vmovdqa %ymm12, 3136(%r10) |
| vmovdqa 192(%r9), %ymm0 |
| vmovdqa 1600(%r9), %ymm6 |
| vmovdqa 224(%r9), %ymm1 |
| vmovdqa 1632(%r9), %ymm7 |
| vmovdqa 256(%r9), %ymm2 |
| vmovdqa 1664(%r9), %ymm8 |
| vmovdqa 288(%r9), %ymm3 |
| vmovdqa 1696(%r9), %ymm9 |
| vmovdqa 320(%r9), %ymm4 |
| vmovdqa 1728(%r9), %ymm10 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 3200(%r10) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3232(%r10) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3264(%r10) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3296(%r10) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3328(%r10) |
| vpmullw %ymm1, %ymm10, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3360(%r10) |
| vpmullw %ymm2, %ymm10, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3392(%r10) |
| vpmullw %ymm3, %ymm10, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3424(%r10) |
| vpmullw %ymm4, %ymm10, %ymm12 |
| vmovdqa %ymm12, 3456(%r10) |
| vpaddw 0(%r9), %ymm0, %ymm0 |
| vpaddw 1408(%r9), %ymm6, %ymm6 |
| vpaddw 32(%r9), %ymm1, %ymm1 |
| vpaddw 1440(%r9), %ymm7, %ymm7 |
| vpaddw 64(%r9), %ymm2, %ymm2 |
| vpaddw 1472(%r9), %ymm8, %ymm8 |
| vpaddw 96(%r9), %ymm3, %ymm3 |
| vpaddw 1504(%r9), %ymm9, %ymm9 |
| vpaddw 128(%r9), %ymm4, %ymm4 |
| vpaddw 1536(%r9), %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm11, %ymm12 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpsubw 2976(%r10), %ymm12, %ymm12 |
| vpsubw 3360(%r10), %ymm12, %ymm12 |
| vmovdqa %ymm12, 3168(%r10) |
| vpmullw %ymm5, %ymm7, %ymm12 |
| vpmullw %ymm5, %ymm8, %ymm13 |
| vpmullw %ymm5, %ymm9, %ymm14 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpmullw %ymm1, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm15, %ymm15 |
| vpmullw %ymm0, %ymm10, %ymm11 |
| vpmullw %ymm1, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm2, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm3, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm4, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm0, %ymm9, %ymm10 |
| vpmullw %ymm1, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm2, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm3, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm8, %ymm9 |
| vpmullw %ymm1, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm2, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm0, %ymm7, %ymm8 |
| vpmullw %ymm1, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm8, %ymm8 |
| vpmullw %ymm0, %ymm6, %ymm7 |
| vmovdqa 3008(%r10), %ymm0 |
| vpsubw 3200(%r10), %ymm0, %ymm0 |
| vpsubw %ymm0, %ymm12, %ymm6 |
| vpsubw 3392(%r10), %ymm6, %ymm6 |
| vmovdqa %ymm6, 3200(%r10) |
| vpaddw %ymm7, %ymm0, %ymm0 |
| vpsubw 2816(%r10), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3008(%r10) |
| vmovdqa 3040(%r10), %ymm1 |
| vpsubw 3232(%r10), %ymm1, %ymm1 |
| vpsubw %ymm1, %ymm13, %ymm7 |
| vpsubw 3424(%r10), %ymm7, %ymm7 |
| vmovdqa %ymm7, 3232(%r10) |
| vpaddw %ymm8, %ymm1, %ymm1 |
| vpsubw 2848(%r10), %ymm1, %ymm1 |
| vmovdqa %ymm1, 3040(%r10) |
| vmovdqa 3072(%r10), %ymm2 |
| vpsubw 3264(%r10), %ymm2, %ymm2 |
| vpsubw %ymm2, %ymm14, %ymm8 |
| vpsubw 3456(%r10), %ymm8, %ymm8 |
| vmovdqa %ymm8, 3264(%r10) |
| vpaddw %ymm9, %ymm2, %ymm2 |
| vpsubw 2880(%r10), %ymm2, %ymm2 |
| vmovdqa %ymm2, 3072(%r10) |
| vmovdqa 3104(%r10), %ymm3 |
| vpsubw 3296(%r10), %ymm3, %ymm3 |
| vpsubw %ymm3, %ymm15, %ymm9 |
| vmovdqa %ymm9, 3296(%r10) |
| vpaddw %ymm10, %ymm3, %ymm3 |
| vpsubw 2912(%r10), %ymm3, %ymm3 |
| vmovdqa %ymm3, 3104(%r10) |
| vmovdqa 3136(%r10), %ymm4 |
| vpsubw 3328(%r10), %ymm4, %ymm4 |
| vpaddw %ymm11, %ymm4, %ymm4 |
| vpsubw 2944(%r10), %ymm4, %ymm4 |
| vmovdqa %ymm4, 3136(%r10) |
| vmovdqa 352(%r9), %ymm0 |
| vmovdqa 1760(%r9), %ymm6 |
| vmovdqa 384(%r9), %ymm1 |
| vmovdqa 1792(%r9), %ymm7 |
| vmovdqa 416(%r9), %ymm2 |
| vmovdqa 1824(%r9), %ymm8 |
| vmovdqa 448(%r9), %ymm3 |
| vmovdqa 1856(%r9), %ymm9 |
| vmovdqa 480(%r9), %ymm4 |
| vmovdqa 1888(%r9), %ymm10 |
| vmovdqa 512(%r9), %ymm5 |
| vmovdqa 1920(%r9), %ymm11 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 3520(%r10) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3552(%r10) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3584(%r10) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3616(%r10) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3648(%r10) |
| vpmullw %ymm0, %ymm11, %ymm13 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3680(%r10) |
| vpmullw %ymm1, %ymm11, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3712(%r10) |
| vpmullw %ymm2, %ymm11, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3744(%r10) |
| vpmullw %ymm3, %ymm11, %ymm12 |
| vpmullw %ymm4, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3776(%r10) |
| vpmullw %ymm4, %ymm11, %ymm13 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3808(%r10) |
| vpmullw %ymm5, %ymm11, %ymm12 |
| vmovdqa %ymm12, 3840(%r10) |
| vmovdqa 544(%r9), %ymm0 |
| vmovdqa 1952(%r9), %ymm6 |
| vmovdqa 576(%r9), %ymm1 |
| vmovdqa 1984(%r9), %ymm7 |
| vmovdqa 608(%r9), %ymm2 |
| vmovdqa 2016(%r9), %ymm8 |
| vmovdqa 640(%r9), %ymm3 |
| vmovdqa 2048(%r9), %ymm9 |
| vmovdqa 672(%r9), %ymm4 |
| vmovdqa 2080(%r9), %ymm10 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 3904(%r10) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 3936(%r10) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 3968(%r10) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 4000(%r10) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 4032(%r10) |
| vpmullw %ymm1, %ymm10, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 4064(%r10) |
| vpmullw %ymm2, %ymm10, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 4096(%r10) |
| vpmullw %ymm3, %ymm10, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 4128(%r10) |
| vpmullw %ymm4, %ymm10, %ymm12 |
| vmovdqa %ymm12, 4160(%r10) |
| vpaddw 352(%r9), %ymm0, %ymm0 |
| vpaddw 1760(%r9), %ymm6, %ymm6 |
| vpaddw 384(%r9), %ymm1, %ymm1 |
| vpaddw 1792(%r9), %ymm7, %ymm7 |
| vpaddw 416(%r9), %ymm2, %ymm2 |
| vpaddw 1824(%r9), %ymm8, %ymm8 |
| vpaddw 448(%r9), %ymm3, %ymm3 |
| vpaddw 1856(%r9), %ymm9, %ymm9 |
| vpaddw 480(%r9), %ymm4, %ymm4 |
| vpaddw 1888(%r9), %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm11, %ymm12 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpsubw 3680(%r10), %ymm12, %ymm12 |
| vpsubw 4064(%r10), %ymm12, %ymm12 |
| vmovdqa %ymm12, 3872(%r10) |
| vpmullw %ymm5, %ymm7, %ymm12 |
| vpmullw %ymm5, %ymm8, %ymm13 |
| vpmullw %ymm5, %ymm9, %ymm14 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpmullw %ymm1, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm15, %ymm15 |
| vpmullw %ymm0, %ymm10, %ymm11 |
| vpmullw %ymm1, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm2, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm3, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm4, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm0, %ymm9, %ymm10 |
| vpmullw %ymm1, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm2, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm3, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm8, %ymm9 |
| vpmullw %ymm1, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm2, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm0, %ymm7, %ymm8 |
| vpmullw %ymm1, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm8, %ymm8 |
| vpmullw %ymm0, %ymm6, %ymm7 |
| vmovdqa 3712(%r10), %ymm0 |
| vpsubw 3904(%r10), %ymm0, %ymm0 |
| vpsubw %ymm0, %ymm12, %ymm6 |
| vpsubw 4096(%r10), %ymm6, %ymm6 |
| vmovdqa %ymm6, 3904(%r10) |
| vpaddw %ymm7, %ymm0, %ymm0 |
| vpsubw 3520(%r10), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3712(%r10) |
| vmovdqa 3744(%r10), %ymm1 |
| vpsubw 3936(%r10), %ymm1, %ymm1 |
| vpsubw %ymm1, %ymm13, %ymm7 |
| vpsubw 4128(%r10), %ymm7, %ymm7 |
| vmovdqa %ymm7, 3936(%r10) |
| vpaddw %ymm8, %ymm1, %ymm1 |
| vpsubw 3552(%r10), %ymm1, %ymm1 |
| vmovdqa %ymm1, 3744(%r10) |
| vmovdqa 3776(%r10), %ymm2 |
| vpsubw 3968(%r10), %ymm2, %ymm2 |
| vpsubw %ymm2, %ymm14, %ymm8 |
| vpsubw 4160(%r10), %ymm8, %ymm8 |
| vmovdqa %ymm8, 3968(%r10) |
| vpaddw %ymm9, %ymm2, %ymm2 |
| vpsubw 3584(%r10), %ymm2, %ymm2 |
| vmovdqa %ymm2, 3776(%r10) |
| vmovdqa 3808(%r10), %ymm3 |
| vpsubw 4000(%r10), %ymm3, %ymm3 |
| vpsubw %ymm3, %ymm15, %ymm9 |
| vmovdqa %ymm9, 4000(%r10) |
| vpaddw %ymm10, %ymm3, %ymm3 |
| vpsubw 3616(%r10), %ymm3, %ymm3 |
| vmovdqa %ymm3, 3808(%r10) |
| vmovdqa 3840(%r10), %ymm4 |
| vpsubw 4032(%r10), %ymm4, %ymm4 |
| vpaddw %ymm11, %ymm4, %ymm4 |
| vpsubw 3648(%r10), %ymm4, %ymm4 |
| vmovdqa %ymm4, 3840(%r10) |
| vmovdqa 0(%r9), %ymm0 |
| vmovdqa 1408(%r9), %ymm6 |
| vpaddw 352(%r9), %ymm0, %ymm0 |
| vpaddw 1760(%r9), %ymm6, %ymm6 |
| vmovdqa 32(%r9), %ymm1 |
| vmovdqa 1440(%r9), %ymm7 |
| vpaddw 384(%r9), %ymm1, %ymm1 |
| vpaddw 1792(%r9), %ymm7, %ymm7 |
| vmovdqa 64(%r9), %ymm2 |
| vmovdqa 1472(%r9), %ymm8 |
| vpaddw 416(%r9), %ymm2, %ymm2 |
| vpaddw 1824(%r9), %ymm8, %ymm8 |
| vmovdqa 96(%r9), %ymm3 |
| vmovdqa 1504(%r9), %ymm9 |
| vpaddw 448(%r9), %ymm3, %ymm3 |
| vpaddw 1856(%r9), %ymm9, %ymm9 |
| vmovdqa 128(%r9), %ymm4 |
| vmovdqa 1536(%r9), %ymm10 |
| vpaddw 480(%r9), %ymm4, %ymm4 |
| vpaddw 1888(%r9), %ymm10, %ymm10 |
| vmovdqa 160(%r9), %ymm5 |
| vmovdqa 1568(%r9), %ymm11 |
| vpaddw 512(%r9), %ymm5, %ymm5 |
| vpaddw 1920(%r9), %ymm11, %ymm11 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 5888(%rsp) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 5920(%rsp) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 5952(%rsp) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 5984(%rsp) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6016(%rsp) |
| vpmullw %ymm0, %ymm11, %ymm13 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6048(%rsp) |
| vpmullw %ymm1, %ymm11, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6080(%rsp) |
| vpmullw %ymm2, %ymm11, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm5, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6112(%rsp) |
| vpmullw %ymm3, %ymm11, %ymm12 |
| vpmullw %ymm4, %ymm10, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm5, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6144(%rsp) |
| vpmullw %ymm4, %ymm11, %ymm13 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6176(%rsp) |
| vpmullw %ymm5, %ymm11, %ymm12 |
| vmovdqa %ymm12, 6208(%rsp) |
| vmovdqa 192(%r9), %ymm0 |
| vmovdqa 1600(%r9), %ymm6 |
| vpaddw 544(%r9), %ymm0, %ymm0 |
| vpaddw 1952(%r9), %ymm6, %ymm6 |
| vmovdqa 224(%r9), %ymm1 |
| vmovdqa 1632(%r9), %ymm7 |
| vpaddw 576(%r9), %ymm1, %ymm1 |
| vpaddw 1984(%r9), %ymm7, %ymm7 |
| vmovdqa 256(%r9), %ymm2 |
| vmovdqa 1664(%r9), %ymm8 |
| vpaddw 608(%r9), %ymm2, %ymm2 |
| vpaddw 2016(%r9), %ymm8, %ymm8 |
| vmovdqa 288(%r9), %ymm3 |
| vmovdqa 1696(%r9), %ymm9 |
| vpaddw 640(%r9), %ymm3, %ymm3 |
| vpaddw 2048(%r9), %ymm9, %ymm9 |
| vmovdqa 320(%r9), %ymm4 |
| vmovdqa 1728(%r9), %ymm10 |
| vpaddw 672(%r9), %ymm4, %ymm4 |
| vpaddw 2080(%r9), %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 6272(%rsp) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6304(%rsp) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6336(%rsp) |
| vpmullw %ymm0, %ymm9, %ymm13 |
| vpmullw %ymm1, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm2, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6368(%rsp) |
| vpmullw %ymm0, %ymm10, %ymm12 |
| vpmullw %ymm1, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm3, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm6, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6400(%rsp) |
| vpmullw %ymm1, %ymm10, %ymm13 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6432(%rsp) |
| vpmullw %ymm2, %ymm10, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vmovdqa %ymm12, 6464(%rsp) |
| vpmullw %ymm3, %ymm10, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 6496(%rsp) |
| vpmullw %ymm4, %ymm10, %ymm12 |
| vmovdqa %ymm12, 6528(%rsp) |
| vpaddw 0(%r9), %ymm0, %ymm0 |
| vpaddw 1408(%r9), %ymm6, %ymm6 |
| vpaddw 352(%r9), %ymm0, %ymm0 |
| vpaddw 1760(%r9), %ymm6, %ymm6 |
| vpaddw 32(%r9), %ymm1, %ymm1 |
| vpaddw 1440(%r9), %ymm7, %ymm7 |
| vpaddw 384(%r9), %ymm1, %ymm1 |
| vpaddw 1792(%r9), %ymm7, %ymm7 |
| vpaddw 64(%r9), %ymm2, %ymm2 |
| vpaddw 1472(%r9), %ymm8, %ymm8 |
| vpaddw 416(%r9), %ymm2, %ymm2 |
| vpaddw 1824(%r9), %ymm8, %ymm8 |
| vpaddw 96(%r9), %ymm3, %ymm3 |
| vpaddw 1504(%r9), %ymm9, %ymm9 |
| vpaddw 448(%r9), %ymm3, %ymm3 |
| vpaddw 1856(%r9), %ymm9, %ymm9 |
| vpaddw 128(%r9), %ymm4, %ymm4 |
| vpaddw 1536(%r9), %ymm10, %ymm10 |
| vpaddw 480(%r9), %ymm4, %ymm4 |
| vpaddw 1888(%r9), %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm11, %ymm12 |
| vpmullw %ymm1, %ymm10, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm9, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm8, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm7, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpmullw %ymm5, %ymm6, %ymm15 |
| vpaddw %ymm15, %ymm12, %ymm12 |
| vpsubw 6048(%rsp), %ymm12, %ymm12 |
| vpsubw 6432(%rsp), %ymm12, %ymm12 |
| vmovdqa %ymm12, 6240(%rsp) |
| vpmullw %ymm5, %ymm7, %ymm12 |
| vpmullw %ymm5, %ymm8, %ymm13 |
| vpmullw %ymm5, %ymm9, %ymm14 |
| vpmullw %ymm5, %ymm10, %ymm15 |
| vpmullw %ymm1, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm3, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm4, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm12, %ymm12 |
| vpmullw %ymm2, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm4, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm13, %ymm13 |
| vpmullw %ymm3, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm10, %ymm5 |
| vpaddw %ymm5, %ymm14, %ymm14 |
| vpmullw %ymm4, %ymm11, %ymm5 |
| vpaddw %ymm5, %ymm15, %ymm15 |
| vpmullw %ymm0, %ymm10, %ymm11 |
| vpmullw %ymm1, %ymm9, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm2, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm3, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm4, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm11, %ymm11 |
| vpmullw %ymm0, %ymm9, %ymm10 |
| vpmullw %ymm1, %ymm8, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm2, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm3, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm10, %ymm10 |
| vpmullw %ymm0, %ymm8, %ymm9 |
| vpmullw %ymm1, %ymm7, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm2, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm9, %ymm9 |
| vpmullw %ymm0, %ymm7, %ymm8 |
| vpmullw %ymm1, %ymm6, %ymm5 |
| vpaddw %ymm5, %ymm8, %ymm8 |
| vpmullw %ymm0, %ymm6, %ymm7 |
| vmovdqa 6080(%rsp), %ymm0 |
| vpsubw 6272(%rsp), %ymm0, %ymm0 |
| vpsubw %ymm0, %ymm12, %ymm6 |
| vpsubw 6464(%rsp), %ymm6, %ymm6 |
| vmovdqa %ymm6, 6272(%rsp) |
| vpaddw %ymm7, %ymm0, %ymm0 |
| vpsubw 5888(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6080(%rsp) |
| vmovdqa 6112(%rsp), %ymm1 |
| vpsubw 6304(%rsp), %ymm1, %ymm1 |
| vpsubw %ymm1, %ymm13, %ymm7 |
| vpsubw 6496(%rsp), %ymm7, %ymm7 |
| vmovdqa %ymm7, 6304(%rsp) |
| vpaddw %ymm8, %ymm1, %ymm1 |
| vpsubw 5920(%rsp), %ymm1, %ymm1 |
| vmovdqa %ymm1, 6112(%rsp) |
| vmovdqa 6144(%rsp), %ymm2 |
| vpsubw 6336(%rsp), %ymm2, %ymm2 |
| vpsubw %ymm2, %ymm14, %ymm8 |
| vpsubw 6528(%rsp), %ymm8, %ymm8 |
| vmovdqa %ymm8, 6336(%rsp) |
| vpaddw %ymm9, %ymm2, %ymm2 |
| vpsubw 5952(%rsp), %ymm2, %ymm2 |
| vmovdqa %ymm2, 6144(%rsp) |
| vmovdqa 6176(%rsp), %ymm3 |
| vpsubw 6368(%rsp), %ymm3, %ymm3 |
| vpsubw %ymm3, %ymm15, %ymm9 |
| vmovdqa %ymm9, 6368(%rsp) |
| vpaddw %ymm10, %ymm3, %ymm3 |
| vpsubw 5984(%rsp), %ymm3, %ymm3 |
| vmovdqa %ymm3, 6176(%rsp) |
| vmovdqa 6208(%rsp), %ymm4 |
| vpsubw 6400(%rsp), %ymm4, %ymm4 |
| vpaddw %ymm11, %ymm4, %ymm4 |
| vpsubw 6016(%rsp), %ymm4, %ymm4 |
| vmovdqa %ymm4, 6208(%rsp) |
| vmovdqa 6208(%rsp), %ymm0 |
| vpsubw 3136(%r10), %ymm0, %ymm0 |
| vpsubw 3840(%r10), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3488(%r10) |
| vmovdqa 3168(%r10), %ymm0 |
| vpsubw 3520(%r10), %ymm0, %ymm0 |
| vmovdqa 6240(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 3872(%r10), %ymm1, %ymm1 |
| vpsubw 2816(%r10), %ymm0, %ymm0 |
| vpaddw 5888(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3168(%r10) |
| vmovdqa %ymm1, 3520(%r10) |
| vmovdqa 3200(%r10), %ymm0 |
| vpsubw 3552(%r10), %ymm0, %ymm0 |
| vmovdqa 6272(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 3904(%r10), %ymm1, %ymm1 |
| vpsubw 2848(%r10), %ymm0, %ymm0 |
| vpaddw 5920(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3200(%r10) |
| vmovdqa %ymm1, 3552(%r10) |
| vmovdqa 3232(%r10), %ymm0 |
| vpsubw 3584(%r10), %ymm0, %ymm0 |
| vmovdqa 6304(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 3936(%r10), %ymm1, %ymm1 |
| vpsubw 2880(%r10), %ymm0, %ymm0 |
| vpaddw 5952(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3232(%r10) |
| vmovdqa %ymm1, 3584(%r10) |
| vmovdqa 3264(%r10), %ymm0 |
| vpsubw 3616(%r10), %ymm0, %ymm0 |
| vmovdqa 6336(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 3968(%r10), %ymm1, %ymm1 |
| vpsubw 2912(%r10), %ymm0, %ymm0 |
| vpaddw 5984(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3264(%r10) |
| vmovdqa %ymm1, 3616(%r10) |
| vmovdqa 3296(%r10), %ymm0 |
| vpsubw 3648(%r10), %ymm0, %ymm0 |
| vmovdqa 6368(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4000(%r10), %ymm1, %ymm1 |
| vpsubw 2944(%r10), %ymm0, %ymm0 |
| vpaddw 6016(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3296(%r10) |
| vmovdqa %ymm1, 3648(%r10) |
| vmovdqa 3328(%r10), %ymm0 |
| vpsubw 3680(%r10), %ymm0, %ymm0 |
| vmovdqa 6400(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4032(%r10), %ymm1, %ymm1 |
| vpsubw 2976(%r10), %ymm0, %ymm0 |
| vpaddw 6048(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3328(%r10) |
| vmovdqa %ymm1, 3680(%r10) |
| vmovdqa 3360(%r10), %ymm0 |
| vpsubw 3712(%r10), %ymm0, %ymm0 |
| vmovdqa 6432(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4064(%r10), %ymm1, %ymm1 |
| vpsubw 3008(%r10), %ymm0, %ymm0 |
| vpaddw 6080(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3360(%r10) |
| vmovdqa %ymm1, 3712(%r10) |
| vmovdqa 3392(%r10), %ymm0 |
| vpsubw 3744(%r10), %ymm0, %ymm0 |
| vmovdqa 6464(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4096(%r10), %ymm1, %ymm1 |
| vpsubw 3040(%r10), %ymm0, %ymm0 |
| vpaddw 6112(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3392(%r10) |
| vmovdqa %ymm1, 3744(%r10) |
| vmovdqa 3424(%r10), %ymm0 |
| vpsubw 3776(%r10), %ymm0, %ymm0 |
| vmovdqa 6496(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4128(%r10), %ymm1, %ymm1 |
| vpsubw 3072(%r10), %ymm0, %ymm0 |
| vpaddw 6144(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3424(%r10) |
| vmovdqa %ymm1, 3776(%r10) |
| vmovdqa 3456(%r10), %ymm0 |
| vpsubw 3808(%r10), %ymm0, %ymm0 |
| vmovdqa 6528(%rsp), %ymm1 |
| vpsubw %ymm0, %ymm1, %ymm1 |
| vpsubw 4160(%r10), %ymm1, %ymm1 |
| vpsubw 3104(%r10), %ymm0, %ymm0 |
| vpaddw 6176(%rsp), %ymm0, %ymm0 |
| vmovdqa %ymm0, 3456(%r10) |
| vmovdqa %ymm1, 3808(%r10) |
| neg %ecx |
| jns done_4eced63f144beffcb0247f9c6f67d165 |
| add $704, %r9 |
| add $1408, %r10 |
| jmp innerloop_4eced63f144beffcb0247f9c6f67d165 |
| done_4eced63f144beffcb0247f9c6f67d165: |
| sub $704, %r9 |
| sub $1408, %r10 |
| vmovdqa 0(%r9), %ymm0 |
| vpaddw 704(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6592(%rsp) |
| vmovdqa 1408(%r9), %ymm0 |
| vpaddw 2112(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7296(%rsp) |
| vmovdqa 32(%r9), %ymm0 |
| vpaddw 736(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6624(%rsp) |
| vmovdqa 1440(%r9), %ymm0 |
| vpaddw 2144(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7328(%rsp) |
| vmovdqa 64(%r9), %ymm0 |
| vpaddw 768(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6656(%rsp) |
| vmovdqa 1472(%r9), %ymm0 |
| vpaddw 2176(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7360(%rsp) |
| vmovdqa 96(%r9), %ymm0 |
| vpaddw 800(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6688(%rsp) |
| vmovdqa 1504(%r9), %ymm0 |
| vpaddw 2208(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7392(%rsp) |
| vmovdqa 128(%r9), %ymm0 |
| vpaddw 832(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6720(%rsp) |
| vmovdqa 1536(%r9), %ymm0 |
| vpaddw 2240(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7424(%rsp) |
| vmovdqa 160(%r9), %ymm0 |
| vpaddw 864(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6752(%rsp) |
| vmovdqa 1568(%r9), %ymm0 |
| vpaddw 2272(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7456(%rsp) |
| vmovdqa 192(%r9), %ymm0 |
| vpaddw 896(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6784(%rsp) |
| vmovdqa 1600(%r9), %ymm0 |
| vpaddw 2304(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7488(%rsp) |
| vmovdqa 224(%r9), %ymm0 |
| vpaddw 928(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6816(%rsp) |
| vmovdqa 1632(%r9), %ymm0 |
| vpaddw 2336(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7520(%rsp) |
| vmovdqa 256(%r9), %ymm0 |
| vpaddw 960(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6848(%rsp) |
| vmovdqa 1664(%r9), %ymm0 |
| vpaddw 2368(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7552(%rsp) |
| vmovdqa 288(%r9), %ymm0 |
| vpaddw 992(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6880(%rsp) |
| vmovdqa 1696(%r9), %ymm0 |
| vpaddw 2400(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7584(%rsp) |
| vmovdqa 320(%r9), %ymm0 |
| vpaddw 1024(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6912(%rsp) |
| vmovdqa 1728(%r9), %ymm0 |
| vpaddw 2432(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7616(%rsp) |
| vmovdqa 352(%r9), %ymm0 |
| vpaddw 1056(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6944(%rsp) |
| vmovdqa 1760(%r9), %ymm0 |
| vpaddw 2464(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7648(%rsp) |
| vmovdqa 384(%r9), %ymm0 |
| vpaddw 1088(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 6976(%rsp) |
| vmovdqa 1792(%r9), %ymm0 |
| vpaddw 2496(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7680(%rsp) |
| vmovdqa 416(%r9), %ymm0 |
| vpaddw 1120(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7008(%rsp) |
| vmovdqa 1824(%r9), %ymm0 |
| vpaddw 2528(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7712(%rsp) |
| vmovdqa 448(%r9), %ymm0 |
| vpaddw 1152(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7040(%rsp) |
| vmovdqa 1856(%r9), %ymm0 |
| vpaddw 2560(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7744(%rsp) |
| vmovdqa 480(%r9), %ymm0 |
| vpaddw 1184(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7072(%rsp) |
| vmovdqa 1888(%r9), %ymm0 |
| vpaddw 2592(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7776(%rsp) |
| vmovdqa 512(%r9), %ymm0 |
| vpaddw 1216(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7104(%rsp) |
| vmovdqa 1920(%r9), %ymm0 |
| vpaddw 2624(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7808(%rsp) |
| vmovdqa 544(%r9), %ymm0 |
| vpaddw 1248(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7136(%rsp) |
| vmovdqa 1952(%r9), %ymm0 |
| vpaddw 2656(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7840(%rsp) |
| vmovdqa 576(%r9), %ymm0 |
| vpaddw 1280(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7168(%rsp) |
| vmovdqa 1984(%r9), %ymm0 |
| vpaddw 2688(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7872(%rsp) |
| vmovdqa 608(%r9), %ymm0 |
| vpaddw 1312(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7200(%rsp) |
| vmovdqa 2016(%r9), %ymm0 |
| vpaddw 2720(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7904(%rsp) |
| vmovdqa 640(%r9), %ymm0 |
| vpaddw 1344(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7232(%rsp) |
| vmovdqa 2048(%r9), %ymm0 |
| vpaddw 2752(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7936(%rsp) |
| vmovdqa 672(%r9), %ymm0 |
| vpaddw 1376(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7264(%rsp) |
| vmovdqa 2080(%r9), %ymm0 |
| vpaddw 2784(%r9), %ymm0, %ymm0 |
| vmovdqa %ymm0, 7968(%rsp) |
| vmovdqa 6592(%rsp), %ymm0 |
| vmovdqa 7296(%rsp), %ymm6 |
| vmovdqa 6624(%rsp), %ymm1 |
| vmovdqa 7328(%rsp), %ymm7 |
| vmovdqa 6656(%rsp), %ymm2 |
| vmovdqa 7360(%rsp), %ymm8 |
| vmovdqa 6688(%rsp), %ymm3 |
| vmovdqa 7392(%rsp), %ymm9 |
| vmovdqa 6720(%rsp), %ymm4 |
| vmovdqa 7424(%rsp), %ymm10 |
| vmovdqa 6752(%rsp), %ymm5 |
| vmovdqa 7456(%rsp), %ymm11 |
| vpmullw %ymm0, %ymm6, %ymm12 |
| vmovdqa %ymm12, 8000(%rsp) |
| vpmullw %ymm0, %ymm7, %ymm13 |
| vpmullw %ymm1, %ymm6, %ymm15 |
| vpaddw %ymm13, %ymm15, %ymm13 |
| vmovdqa %ymm13, 8032(%rsp) |
| vpmullw %ymm0, %ymm8, %ymm12 |
| vpmullw %ymm1, %ymm7, %ymm15 |
| vpaddw %ymm12, %ymm15, %ymm12 |
| vpmullw %ymm2, %ymm6, |