mbed-dsp - CMSIS DSP library

Users » mbed_official » Code » mbed-dsp

mbed official / mbed-dsp

CMSIS DSP library

Dependents: performance_timer Surfboard_ gps2rtty Capstone ... more

Legacy Warning

This is an mbed 2 library. To learn more about mbed OS 5, visit the docs.

cmsis_dsp/TransformFunctions/arm_cfft_radix4_q15.c@3:7a284390b0ce, 2013-11-08 (annotated)

Committer:: mbed_official
Date:: Fri Nov 08 13:45:10 2013 +0000
Revision:: 3:7a284390b0ce
Parent:: 2:da51fb522205
Child:: 5:3762170b6d4d

Synchronized with git revision e69956aba2f68a2a26ac26b051f8d349deaa1ce8

Who changed what in which revision?

User	Revision	Line number	New contents of line
emilmont	1:fdd22bb7aa52	1	/* ----------------------------------------------------------------------
mbed_official	3:7a284390b0ce	2	* Copyright (C) 2010-2013 ARM Limited. All rights reserved.
emilmont	1:fdd22bb7aa52	3	*
mbed_official	3:7a284390b0ce	4	* $Date: 17. January 2013
mbed_official	3:7a284390b0ce	5	* $Revision: V1.4.1
emilmont	1:fdd22bb7aa52	6	*
emilmont	2:da51fb522205	7	* Project: CMSIS DSP Library
emilmont	2:da51fb522205	8	* Title: arm_cfft_radix4_q15.c
emilmont	1:fdd22bb7aa52	9	*
emilmont	2:da51fb522205	10	* Description: This file has function definition of Radix-4 FFT & IFFT function and
emilmont	2:da51fb522205	11	* In-place bit reversal using bit reversal table
emilmont	1:fdd22bb7aa52	12	*
emilmont	1:fdd22bb7aa52	13	* Target Processor: Cortex-M4/Cortex-M3/Cortex-M0
emilmont	1:fdd22bb7aa52	14	*
mbed_official	3:7a284390b0ce	15	* Redistribution and use in source and binary forms, with or without
mbed_official	3:7a284390b0ce	16	* modification, are permitted provided that the following conditions
mbed_official	3:7a284390b0ce	17	* are met:
mbed_official	3:7a284390b0ce	18	* - Redistributions of source code must retain the above copyright
mbed_official	3:7a284390b0ce	19	* notice, this list of conditions and the following disclaimer.
mbed_official	3:7a284390b0ce	20	* - Redistributions in binary form must reproduce the above copyright
mbed_official	3:7a284390b0ce	21	* notice, this list of conditions and the following disclaimer in
mbed_official	3:7a284390b0ce	22	* the documentation and/or other materials provided with the
mbed_official	3:7a284390b0ce	23	* distribution.
mbed_official	3:7a284390b0ce	24	* - Neither the name of ARM LIMITED nor the names of its contributors
mbed_official	3:7a284390b0ce	25	* may be used to endorse or promote products derived from this
mbed_official	3:7a284390b0ce	26	* software without specific prior written permission.
mbed_official	3:7a284390b0ce	27	*
mbed_official	3:7a284390b0ce	28	* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
mbed_official	3:7a284390b0ce	29	* "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
mbed_official	3:7a284390b0ce	30	* LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
mbed_official	3:7a284390b0ce	31	* FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
mbed_official	3:7a284390b0ce	32	* COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
mbed_official	3:7a284390b0ce	33	* INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
mbed_official	3:7a284390b0ce	34	* BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
mbed_official	3:7a284390b0ce	35	* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
mbed_official	3:7a284390b0ce	36	* CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
mbed_official	3:7a284390b0ce	37	* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
mbed_official	3:7a284390b0ce	38	* ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
mbed_official	3:7a284390b0ce	39	* POSSIBILITY OF SUCH DAMAGE.
emilmont	1:fdd22bb7aa52	40	* -------------------------------------------------------------------- */
emilmont	1:fdd22bb7aa52	41
emilmont	1:fdd22bb7aa52	42	#include "arm_math.h"
emilmont	1:fdd22bb7aa52	43
mbed_official	3:7a284390b0ce	44
mbed_official	3:7a284390b0ce	45	void arm_radix4_butterfly_q15(
mbed_official	3:7a284390b0ce	46	q15_t * pSrc16,
mbed_official	3:7a284390b0ce	47	uint32_t fftLen,
mbed_official	3:7a284390b0ce	48	q15_t * pCoef16,
mbed_official	3:7a284390b0ce	49	uint32_t twidCoefModifier);
mbed_official	3:7a284390b0ce	50
mbed_official	3:7a284390b0ce	51	void arm_radix4_butterfly_inverse_q15(
mbed_official	3:7a284390b0ce	52	q15_t * pSrc16,
mbed_official	3:7a284390b0ce	53	uint32_t fftLen,
mbed_official	3:7a284390b0ce	54	q15_t * pCoef16,
mbed_official	3:7a284390b0ce	55	uint32_t twidCoefModifier);
mbed_official	3:7a284390b0ce	56
mbed_official	3:7a284390b0ce	57	void arm_bitreversal_q15(
mbed_official	3:7a284390b0ce	58	q15_t * pSrc,
mbed_official	3:7a284390b0ce	59	uint32_t fftLen,
mbed_official	3:7a284390b0ce	60	uint16_t bitRevFactor,
mbed_official	3:7a284390b0ce	61	uint16_t * pBitRevTab);
mbed_official	3:7a284390b0ce	62
emilmont	1:fdd22bb7aa52	63	/**
emilmont	1:fdd22bb7aa52	64	* @ingroup groupTransforms
emilmont	1:fdd22bb7aa52	65	*/
emilmont	1:fdd22bb7aa52	66
emilmont	1:fdd22bb7aa52	67	/**
mbed_official	3:7a284390b0ce	68	* @addtogroup ComplexFFT
emilmont	1:fdd22bb7aa52	69	* @{
emilmont	1:fdd22bb7aa52	70	*/
emilmont	1:fdd22bb7aa52	71
emilmont	1:fdd22bb7aa52	72
emilmont	1:fdd22bb7aa52	73	/**
emilmont	1:fdd22bb7aa52	74	* @details
emilmont	1:fdd22bb7aa52	75	* @brief Processing function for the Q15 CFFT/CIFFT.
emilmont	1:fdd22bb7aa52	76	* @param[in] *S points to an instance of the Q15 CFFT/CIFFT structure.
emilmont	1:fdd22bb7aa52	77	* @param[in, out] *pSrc points to the complex data buffer. Processing occurs in-place.
emilmont	1:fdd22bb7aa52	78	* @return none.
emilmont	1:fdd22bb7aa52	79	*
emilmont	1:fdd22bb7aa52	80	* \par Input and output formats:
emilmont	1:fdd22bb7aa52	81	* \par
emilmont	1:fdd22bb7aa52	82	* Internally input is downscaled by 2 for every stage to avoid saturations inside CFFT/CIFFT process.
emilmont	1:fdd22bb7aa52	83	* Hence the output format is different for different FFT sizes.
emilmont	1:fdd22bb7aa52	84	* The input and output formats for different FFT sizes and number of bits to upscale are mentioned in the tables below for CFFT and CIFFT:
emilmont	1:fdd22bb7aa52	85	* \par
emilmont	1:fdd22bb7aa52	86	* \image html CFFTQ15.gif "Input and Output Formats for Q15 CFFT"
emilmont	1:fdd22bb7aa52	87	* \image html CIFFTQ15.gif "Input and Output Formats for Q15 CIFFT"
emilmont	1:fdd22bb7aa52	88	*/
emilmont	1:fdd22bb7aa52	89
emilmont	1:fdd22bb7aa52	90	void arm_cfft_radix4_q15(
emilmont	1:fdd22bb7aa52	91	const arm_cfft_radix4_instance_q15 * S,
emilmont	1:fdd22bb7aa52	92	q15_t * pSrc)
emilmont	1:fdd22bb7aa52	93	{
emilmont	1:fdd22bb7aa52	94	if(S->ifftFlag == 1u)
emilmont	1:fdd22bb7aa52	95	{
emilmont	1:fdd22bb7aa52	96	/* Complex IFFT radix-4 */
emilmont	1:fdd22bb7aa52	97	arm_radix4_butterfly_inverse_q15(pSrc, S->fftLen, S->pTwiddle,
emilmont	1:fdd22bb7aa52	98	S->twidCoefModifier);
emilmont	1:fdd22bb7aa52	99	}
emilmont	1:fdd22bb7aa52	100	else
emilmont	1:fdd22bb7aa52	101	{
emilmont	1:fdd22bb7aa52	102	/* Complex FFT radix-4 */
emilmont	1:fdd22bb7aa52	103	arm_radix4_butterfly_q15(pSrc, S->fftLen, S->pTwiddle,
emilmont	1:fdd22bb7aa52	104	S->twidCoefModifier);
emilmont	1:fdd22bb7aa52	105	}
emilmont	1:fdd22bb7aa52	106
emilmont	1:fdd22bb7aa52	107	if(S->bitReverseFlag == 1u)
emilmont	1:fdd22bb7aa52	108	{
emilmont	1:fdd22bb7aa52	109	/* Bit Reversal */
emilmont	1:fdd22bb7aa52	110	arm_bitreversal_q15(pSrc, S->fftLen, S->bitRevFactor, S->pBitRevTable);
emilmont	1:fdd22bb7aa52	111	}
emilmont	1:fdd22bb7aa52	112
emilmont	1:fdd22bb7aa52	113	}
emilmont	1:fdd22bb7aa52	114
emilmont	1:fdd22bb7aa52	115	/**
mbed_official	3:7a284390b0ce	116	* @} end of ComplexFFT group
emilmont	1:fdd22bb7aa52	117	*/
emilmont	1:fdd22bb7aa52	118
emilmont	1:fdd22bb7aa52	119	/*
emilmont	1:fdd22bb7aa52	120	* Radix-4 FFT algorithm used is :
emilmont	1:fdd22bb7aa52	121	*
emilmont	1:fdd22bb7aa52	122	* Input real and imaginary data:
emilmont	1:fdd22bb7aa52	123	* x(n) = xa + j * ya
emilmont	1:fdd22bb7aa52	124	* x(n+N/4 ) = xb + j * yb
emilmont	1:fdd22bb7aa52	125	* x(n+N/2 ) = xc + j * yc
emilmont	1:fdd22bb7aa52	126	* x(n+3N 4) = xd + j * yd
emilmont	1:fdd22bb7aa52	127	*
emilmont	1:fdd22bb7aa52	128	*
emilmont	1:fdd22bb7aa52	129	* Output real and imaginary data:
emilmont	1:fdd22bb7aa52	130	* x(4r) = xa'+ j * ya'
emilmont	1:fdd22bb7aa52	131	* x(4r+1) = xb'+ j * yb'
emilmont	1:fdd22bb7aa52	132	* x(4r+2) = xc'+ j * yc'
emilmont	1:fdd22bb7aa52	133	* x(4r+3) = xd'+ j * yd'
emilmont	1:fdd22bb7aa52	134	*
emilmont	1:fdd22bb7aa52	135	*
emilmont	1:fdd22bb7aa52	136	* Twiddle factors for radix-4 FFT:
emilmont	1:fdd22bb7aa52	137	* Wn = co1 + j * (- si1)
emilmont	1:fdd22bb7aa52	138	* W2n = co2 + j * (- si2)
emilmont	1:fdd22bb7aa52	139	* W3n = co3 + j * (- si3)
emilmont	1:fdd22bb7aa52	140
emilmont	1:fdd22bb7aa52	141	* The real and imaginary output values for the radix-4 butterfly are
emilmont	1:fdd22bb7aa52	142	* xa' = xa + xb + xc + xd
emilmont	1:fdd22bb7aa52	143	* ya' = ya + yb + yc + yd
emilmont	1:fdd22bb7aa52	144	* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1)
emilmont	1:fdd22bb7aa52	145	* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1)
emilmont	1:fdd22bb7aa52	146	* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2)
emilmont	1:fdd22bb7aa52	147	* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2)
emilmont	1:fdd22bb7aa52	148	* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3)
emilmont	1:fdd22bb7aa52	149	* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3)
emilmont	1:fdd22bb7aa52	150	*
emilmont	1:fdd22bb7aa52	151	*/
emilmont	1:fdd22bb7aa52	152
emilmont	1:fdd22bb7aa52	153	/**
emilmont	1:fdd22bb7aa52	154	* @brief Core function for the Q15 CFFT butterfly process.
emilmont	1:fdd22bb7aa52	155	* @param[in, out] *pSrc16 points to the in-place buffer of Q15 data type.
emilmont	1:fdd22bb7aa52	156	* @param[in] fftLen length of the FFT.
emilmont	1:fdd22bb7aa52	157	* @param[in] *pCoef16 points to twiddle coefficient buffer.
emilmont	1:fdd22bb7aa52	158	* @param[in] twidCoefModifier twiddle coefficient modifier that supports different size FFTs with the same twiddle factor table.
emilmont	1:fdd22bb7aa52	159	* @return none.
emilmont	1:fdd22bb7aa52	160	*/
emilmont	1:fdd22bb7aa52	161
emilmont	1:fdd22bb7aa52	162	void arm_radix4_butterfly_q15(
emilmont	1:fdd22bb7aa52	163	q15_t * pSrc16,
emilmont	1:fdd22bb7aa52	164	uint32_t fftLen,
emilmont	1:fdd22bb7aa52	165	q15_t * pCoef16,
emilmont	1:fdd22bb7aa52	166	uint32_t twidCoefModifier)
emilmont	1:fdd22bb7aa52	167	{
emilmont	1:fdd22bb7aa52	168
mbed_official	3:7a284390b0ce	169	#ifndef ARM_MATH_CM0_FAMILY
emilmont	1:fdd22bb7aa52	170
emilmont	1:fdd22bb7aa52	171	/* Run the below code for Cortex-M4 and Cortex-M3 */
emilmont	1:fdd22bb7aa52	172
emilmont	1:fdd22bb7aa52	173	q31_t R, S, T, U;
emilmont	1:fdd22bb7aa52	174	q31_t C1, C2, C3, out1, out2;
emilmont	1:fdd22bb7aa52	175	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	176	q15_t in;
emilmont	1:fdd22bb7aa52	177
emilmont	1:fdd22bb7aa52	178	q15_t *ptr1;
emilmont	1:fdd22bb7aa52	179
emilmont	1:fdd22bb7aa52	180
emilmont	1:fdd22bb7aa52	181
emilmont	1:fdd22bb7aa52	182	q31_t xaya, xbyb, xcyc, xdyd;
emilmont	1:fdd22bb7aa52	183
emilmont	1:fdd22bb7aa52	184	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	185
emilmont	1:fdd22bb7aa52	186	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	187
emilmont	1:fdd22bb7aa52	188	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	189	n2 = fftLen;
emilmont	1:fdd22bb7aa52	190	n1 = n2;
emilmont	1:fdd22bb7aa52	191
emilmont	1:fdd22bb7aa52	192	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	193	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	194
emilmont	1:fdd22bb7aa52	195	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	196	ic = 0u;
emilmont	1:fdd22bb7aa52	197
emilmont	1:fdd22bb7aa52	198	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	199	i0 = 0u;
emilmont	1:fdd22bb7aa52	200	j = n2;
emilmont	1:fdd22bb7aa52	201
emilmont	1:fdd22bb7aa52	202	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	203
emilmont	1:fdd22bb7aa52	204	/* start of first stage process */
emilmont	1:fdd22bb7aa52	205	do
emilmont	1:fdd22bb7aa52	206	{
emilmont	1:fdd22bb7aa52	207	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	208
emilmont	1:fdd22bb7aa52	209	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	210	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	211	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	212	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	213	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	214
emilmont	1:fdd22bb7aa52	215	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	216	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	217	T = _SIMD32_OFFSET(pSrc16 + (2u * i0));
emilmont	1:fdd22bb7aa52	218	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	219	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	220
emilmont	1:fdd22bb7aa52	221	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	222	S = _SIMD32_OFFSET(pSrc16 + (2u * i2));
emilmont	1:fdd22bb7aa52	223	in = ((int16_t) (S & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	224	S = ((S >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	225
emilmont	1:fdd22bb7aa52	226	/* R = packed((ya + yc), (xa + xc) ) */
emilmont	1:fdd22bb7aa52	227	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	228
emilmont	1:fdd22bb7aa52	229	/* S = packed((ya - yc), (xa - xc) ) */
emilmont	1:fdd22bb7aa52	230	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	231
emilmont	1:fdd22bb7aa52	232	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	233	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	234	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	235	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	236	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	237
emilmont	1:fdd22bb7aa52	238	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	239	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	240	in = ((int16_t) (U & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	241	U = ((U >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	242
emilmont	1:fdd22bb7aa52	243	/* T = packed((yb + yd), (xb + xd) ) */
emilmont	1:fdd22bb7aa52	244	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	245
emilmont	1:fdd22bb7aa52	246	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	247	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	248	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	249	_SIMD32_OFFSET(pSrc16 + (2u * i0)) = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	250
emilmont	1:fdd22bb7aa52	251	/* R = packed((ya + yc) - (yb + yd), (xa + xc)- (xb + xd)) */
emilmont	1:fdd22bb7aa52	252	R = __QSUB16(R, T);
emilmont	1:fdd22bb7aa52	253
emilmont	1:fdd22bb7aa52	254	/* co2 & si2 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	255	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	256
emilmont	1:fdd22bb7aa52	257	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	258
emilmont	1:fdd22bb7aa52	259	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	260	out1 = __SMUAD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	261	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	262	out2 = __SMUSDX(C2, R);
emilmont	1:fdd22bb7aa52	263
emilmont	1:fdd22bb7aa52	264	#else
emilmont	1:fdd22bb7aa52	265
emilmont	1:fdd22bb7aa52	266	/* xc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	267	out1 = __SMUSDX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	268	/* yc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	269	out2 = __SMUAD(C2, R);
emilmont	1:fdd22bb7aa52	270
emilmont	1:fdd22bb7aa52	271	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	272
emilmont	1:fdd22bb7aa52	273	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	274	/* T = packed(yb, xb) */
emilmont	1:fdd22bb7aa52	275	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	276	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	277	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	278
emilmont	1:fdd22bb7aa52	279	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	280	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	281	_SIMD32_OFFSET(pSrc16 + (2u * i1)) =
emilmont	1:fdd22bb7aa52	282	(q31_t) ((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	283
emilmont	1:fdd22bb7aa52	284	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	285	/* U = packed(yd, xd) */
emilmont	1:fdd22bb7aa52	286	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	287	in = ((int16_t) (U & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	288	U = ((U >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	289
emilmont	1:fdd22bb7aa52	290	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	291	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	292
emilmont	1:fdd22bb7aa52	293	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	294
emilmont	1:fdd22bb7aa52	295	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	296	R = __QASX(S, T);
emilmont	1:fdd22bb7aa52	297	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	298	S = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	299
emilmont	1:fdd22bb7aa52	300	#else
emilmont	1:fdd22bb7aa52	301
emilmont	1:fdd22bb7aa52	302	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	303	R = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	304	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	305	S = __QASX(S, T);
emilmont	1:fdd22bb7aa52	306
emilmont	1:fdd22bb7aa52	307	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	308
emilmont	1:fdd22bb7aa52	309	/* co1 & si1 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	310	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	311	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	312
emilmont	1:fdd22bb7aa52	313	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	314
emilmont	1:fdd22bb7aa52	315	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	316	out1 = __SMUAD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	317	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	318	out2 = __SMUSDX(C1, S);
emilmont	1:fdd22bb7aa52	319
emilmont	1:fdd22bb7aa52	320	#else
emilmont	1:fdd22bb7aa52	321
emilmont	1:fdd22bb7aa52	322	/* xb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	323	out1 = __SMUSDX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	324	/* yb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	325	out2 = __SMUAD(C1, S);
emilmont	1:fdd22bb7aa52	326
emilmont	1:fdd22bb7aa52	327	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	328
emilmont	1:fdd22bb7aa52	329	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	330	_SIMD32_OFFSET(pSrc16 + (2u * i2)) =
emilmont	1:fdd22bb7aa52	331	((out2) & 0xFFFF0000) \| ((out1) & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	332
emilmont	1:fdd22bb7aa52	333
emilmont	1:fdd22bb7aa52	334	/* co3 & si3 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	335	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	336	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	337
emilmont	1:fdd22bb7aa52	338	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	339
emilmont	1:fdd22bb7aa52	340	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	341	out1 = __SMUAD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	342	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	343	out2 = __SMUSDX(C3, R);
emilmont	1:fdd22bb7aa52	344
emilmont	1:fdd22bb7aa52	345	#else
emilmont	1:fdd22bb7aa52	346
emilmont	1:fdd22bb7aa52	347	/* xd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	348	out1 = __SMUSDX(R, C3) >> 16u;
emilmont	1:fdd22bb7aa52	349	/* yd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	350	out2 = __SMUAD(C3, R);
emilmont	1:fdd22bb7aa52	351
emilmont	1:fdd22bb7aa52	352	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	353
emilmont	1:fdd22bb7aa52	354	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	355	_SIMD32_OFFSET(pSrc16 + (2u * i3)) =
emilmont	1:fdd22bb7aa52	356	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	357
emilmont	1:fdd22bb7aa52	358	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	359	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	360
emilmont	1:fdd22bb7aa52	361	/* Updating input index */
emilmont	1:fdd22bb7aa52	362	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	363
emilmont	1:fdd22bb7aa52	364	} while(--j);
emilmont	1:fdd22bb7aa52	365	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	366
emilmont	1:fdd22bb7aa52	367	/* end of first stage process */
emilmont	1:fdd22bb7aa52	368
emilmont	1:fdd22bb7aa52	369
emilmont	1:fdd22bb7aa52	370	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	371
emilmont	1:fdd22bb7aa52	372	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	373	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	374
emilmont	1:fdd22bb7aa52	375	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	376	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	377	{
emilmont	1:fdd22bb7aa52	378	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	379	n1 = n2;
emilmont	1:fdd22bb7aa52	380	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	381	ic = 0u;
emilmont	1:fdd22bb7aa52	382
emilmont	1:fdd22bb7aa52	383	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	384	{
emilmont	1:fdd22bb7aa52	385	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	386	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	387	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	388	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	389
emilmont	1:fdd22bb7aa52	390	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	391	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	392
emilmont	1:fdd22bb7aa52	393	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	394	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	395	{
emilmont	1:fdd22bb7aa52	396	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	397	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	398	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	399	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	400	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	401
emilmont	1:fdd22bb7aa52	402	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	403	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	404	T = _SIMD32_OFFSET(pSrc16 + (2u * i0));
emilmont	1:fdd22bb7aa52	405
emilmont	1:fdd22bb7aa52	406	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	407	S = _SIMD32_OFFSET(pSrc16 + (2u * i2));
emilmont	1:fdd22bb7aa52	408
emilmont	1:fdd22bb7aa52	409	/* R = packed( (ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	410	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	411
emilmont	1:fdd22bb7aa52	412	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	413	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	414
emilmont	1:fdd22bb7aa52	415	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	416	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	417	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	418
emilmont	1:fdd22bb7aa52	419	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	420	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	421
emilmont	1:fdd22bb7aa52	422	/* T = packed( (yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	423	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	424
emilmont	1:fdd22bb7aa52	425	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	426
emilmont	1:fdd22bb7aa52	427	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	428	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	429	out1 = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	430	in = ((int16_t) (out1 & 0xFFFF)) >> 1;
emilmont	1:fdd22bb7aa52	431	out1 = ((out1 >> 1) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	432	_SIMD32_OFFSET(pSrc16 + (2u * i0)) = out1;
emilmont	1:fdd22bb7aa52	433
emilmont	1:fdd22bb7aa52	434	/* R = packed( (ya + yc) - (yb + yd), (xa + xc) - (xb + xd)) */
emilmont	1:fdd22bb7aa52	435	R = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	436
emilmont	1:fdd22bb7aa52	437	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	438
emilmont	1:fdd22bb7aa52	439	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	440	out1 = __SMUAD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	441
emilmont	1:fdd22bb7aa52	442	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	443	out2 = __SMUSDX(C2, R);
emilmont	1:fdd22bb7aa52	444
emilmont	1:fdd22bb7aa52	445	#else
emilmont	1:fdd22bb7aa52	446
emilmont	1:fdd22bb7aa52	447	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	448	out1 = __SMUSDX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	449
emilmont	1:fdd22bb7aa52	450	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	451	out2 = __SMUAD(C2, R);
emilmont	1:fdd22bb7aa52	452
emilmont	1:fdd22bb7aa52	453	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	454
emilmont	1:fdd22bb7aa52	455	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	456	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	457	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	458
emilmont	1:fdd22bb7aa52	459	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	460	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	461	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	462	_SIMD32_OFFSET(pSrc16 + (2u * i1)) =
emilmont	1:fdd22bb7aa52	463	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	464
emilmont	1:fdd22bb7aa52	465	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	466
emilmont	1:fdd22bb7aa52	467	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	468	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	469
emilmont	1:fdd22bb7aa52	470	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	471	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	472
emilmont	1:fdd22bb7aa52	473	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	474
emilmont	1:fdd22bb7aa52	475	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	476	R = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	477
emilmont	1:fdd22bb7aa52	478	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	479	S = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	480
emilmont	1:fdd22bb7aa52	481
emilmont	1:fdd22bb7aa52	482	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	483	out1 = __SMUAD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	484	out2 = __SMUSDX(C1, S);
emilmont	1:fdd22bb7aa52	485
emilmont	1:fdd22bb7aa52	486	#else
emilmont	1:fdd22bb7aa52	487
emilmont	1:fdd22bb7aa52	488	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	489	R = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	490
emilmont	1:fdd22bb7aa52	491	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	492	S = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	493
emilmont	1:fdd22bb7aa52	494
emilmont	1:fdd22bb7aa52	495	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	496	out1 = __SMUSDX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	497	out2 = __SMUAD(C1, S);
emilmont	1:fdd22bb7aa52	498
emilmont	1:fdd22bb7aa52	499	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	500
emilmont	1:fdd22bb7aa52	501	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	502	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	503	_SIMD32_OFFSET(pSrc16 + (2u * i2)) =
emilmont	1:fdd22bb7aa52	504	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	505
emilmont	1:fdd22bb7aa52	506	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	507
emilmont	1:fdd22bb7aa52	508	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	509
emilmont	1:fdd22bb7aa52	510	out1 = __SMUAD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	511	out2 = __SMUSDX(C3, R);
emilmont	1:fdd22bb7aa52	512
emilmont	1:fdd22bb7aa52	513	#else
emilmont	1:fdd22bb7aa52	514
emilmont	1:fdd22bb7aa52	515	out1 = __SMUSDX(R, C3) >> 16u;
emilmont	1:fdd22bb7aa52	516	out2 = __SMUAD(C3, R);
emilmont	1:fdd22bb7aa52	517
emilmont	1:fdd22bb7aa52	518	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	519
emilmont	1:fdd22bb7aa52	520	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	521	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	522	_SIMD32_OFFSET(pSrc16 + (2u * i3)) =
emilmont	1:fdd22bb7aa52	523	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	524	}
emilmont	1:fdd22bb7aa52	525	}
emilmont	1:fdd22bb7aa52	526	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	527	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	528	}
emilmont	1:fdd22bb7aa52	529	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	530
emilmont	1:fdd22bb7aa52	531
emilmont	1:fdd22bb7aa52	532	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	533	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	534	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	535	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	536
emilmont	1:fdd22bb7aa52	537	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	538	j = fftLen >> 2;
emilmont	1:fdd22bb7aa52	539
emilmont	1:fdd22bb7aa52	540	ptr1 = &pSrc16[0];
emilmont	1:fdd22bb7aa52	541
emilmont	1:fdd22bb7aa52	542	/* start of last stage process */
emilmont	1:fdd22bb7aa52	543
emilmont	1:fdd22bb7aa52	544	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	545	do
emilmont	1:fdd22bb7aa52	546	{
emilmont	1:fdd22bb7aa52	547	/* Read xa (real), ya(imag) input */
emilmont	1:fdd22bb7aa52	548	xaya = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	549
emilmont	1:fdd22bb7aa52	550	/* Read xb (real), yb(imag) input */
emilmont	1:fdd22bb7aa52	551	xbyb = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	552
emilmont	1:fdd22bb7aa52	553	/* Read xc (real), yc(imag) input */
emilmont	1:fdd22bb7aa52	554	xcyc = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	555
emilmont	1:fdd22bb7aa52	556	/* Read xd (real), yd(imag) input */
emilmont	1:fdd22bb7aa52	557	xdyd = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	558
emilmont	1:fdd22bb7aa52	559	/* R = packed((ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	560	R = __QADD16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	561
emilmont	1:fdd22bb7aa52	562	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	563	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	564
emilmont	1:fdd22bb7aa52	565	/* pointer updation for writing */
emilmont	1:fdd22bb7aa52	566	ptr1 = ptr1 - 8u;
emilmont	1:fdd22bb7aa52	567
emilmont	1:fdd22bb7aa52	568
emilmont	1:fdd22bb7aa52	569	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	570	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	571	*__SIMD32(ptr1)++ = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	572
emilmont	1:fdd22bb7aa52	573	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	574	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	575
emilmont	1:fdd22bb7aa52	576	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	577	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	578	*__SIMD32(ptr1)++ = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	579
emilmont	1:fdd22bb7aa52	580	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	581	S = __QSUB16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	582
emilmont	1:fdd22bb7aa52	583	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	584	/* T = packed( (yb - yd), (xb - xd)) */
emilmont	1:fdd22bb7aa52	585	U = __QSUB16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	586
emilmont	1:fdd22bb7aa52	587	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	588
emilmont	1:fdd22bb7aa52	589	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	590	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	591	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	592
emilmont	1:fdd22bb7aa52	593
emilmont	1:fdd22bb7aa52	594	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	595	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	596	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	597
emilmont	1:fdd22bb7aa52	598	#else
emilmont	1:fdd22bb7aa52	599
emilmont	1:fdd22bb7aa52	600	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	601	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	602	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	603
emilmont	1:fdd22bb7aa52	604
emilmont	1:fdd22bb7aa52	605	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	606	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	607	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	608
emilmont	1:fdd22bb7aa52	609	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	610
emilmont	1:fdd22bb7aa52	611	} while(--j);
emilmont	1:fdd22bb7aa52	612
emilmont	1:fdd22bb7aa52	613	/* end of last stage process */
emilmont	1:fdd22bb7aa52	614
emilmont	1:fdd22bb7aa52	615	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	616	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	617	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	618	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	619
emilmont	1:fdd22bb7aa52	620
emilmont	1:fdd22bb7aa52	621	#else
emilmont	1:fdd22bb7aa52	622
emilmont	1:fdd22bb7aa52	623	/* Run the below code for Cortex-M0 */
emilmont	1:fdd22bb7aa52	624
emilmont	1:fdd22bb7aa52	625	q15_t R0, R1, S0, S1, T0, T1, U0, U1;
emilmont	1:fdd22bb7aa52	626	q15_t Co1, Si1, Co2, Si2, Co3, Si3, out1, out2;
emilmont	1:fdd22bb7aa52	627	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	628
emilmont	1:fdd22bb7aa52	629	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	630
emilmont	1:fdd22bb7aa52	631	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	632
emilmont	1:fdd22bb7aa52	633	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	634	n2 = fftLen;
emilmont	1:fdd22bb7aa52	635	n1 = n2;
emilmont	1:fdd22bb7aa52	636
emilmont	1:fdd22bb7aa52	637	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	638	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	639
emilmont	1:fdd22bb7aa52	640	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	641	ic = 0u;
emilmont	1:fdd22bb7aa52	642
emilmont	1:fdd22bb7aa52	643	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	644	i0 = 0u;
emilmont	1:fdd22bb7aa52	645	j = n2;
emilmont	1:fdd22bb7aa52	646
emilmont	1:fdd22bb7aa52	647	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	648
emilmont	1:fdd22bb7aa52	649	/* start of first stage process */
emilmont	1:fdd22bb7aa52	650	do
emilmont	1:fdd22bb7aa52	651	{
emilmont	1:fdd22bb7aa52	652	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	653
emilmont	1:fdd22bb7aa52	654	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	655	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	656	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	657	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	658	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	659
emilmont	1:fdd22bb7aa52	660	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	661
emilmont	1:fdd22bb7aa52	662	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	663	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	664	T0 = pSrc16[i0 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	665	T1 = pSrc16[(i0 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	666
emilmont	1:fdd22bb7aa52	667	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	668	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	669	S0 = pSrc16[i2 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	670	S1 = pSrc16[(i2 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	671
emilmont	1:fdd22bb7aa52	672	/* R0 = (ya + yc) */
emilmont	1:fdd22bb7aa52	673	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	674	/* R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	675	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	676
emilmont	1:fdd22bb7aa52	677	/* S0 = (ya - yc) */
emilmont	1:fdd22bb7aa52	678	S0 = __SSAT(T0 - S0, 16);
emilmont	1:fdd22bb7aa52	679	/* S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	680	S1 = __SSAT(T1 - S1, 16);
emilmont	1:fdd22bb7aa52	681
emilmont	1:fdd22bb7aa52	682	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	683	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	684	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	685	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	686	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	687
emilmont	1:fdd22bb7aa52	688	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	689	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	690	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	691	U1 = pSrc16[(i3 * 2u) + 1] >> 2u;
emilmont	1:fdd22bb7aa52	692
emilmont	1:fdd22bb7aa52	693	/* T0 = (yb + yd) */
emilmont	1:fdd22bb7aa52	694	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	695	/* T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	696	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	697
emilmont	1:fdd22bb7aa52	698	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	699	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	700	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	701	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	702	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	703
emilmont	1:fdd22bb7aa52	704	/* R0 = (ya + yc) - (yb + yd) */
emilmont	1:fdd22bb7aa52	705	/* R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	706	R0 = __SSAT(R0 - T0, 16u);
emilmont	1:fdd22bb7aa52	707	R1 = __SSAT(R1 - T1, 16u);
emilmont	1:fdd22bb7aa52	708
emilmont	1:fdd22bb7aa52	709	/* co2 & si2 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	710	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	711	Si2 = pCoef16[(2u * ic * 2u) + 1];
emilmont	1:fdd22bb7aa52	712
emilmont	1:fdd22bb7aa52	713	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	714	out1 = (short) ((Co2 * R0 + Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	715	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	716	out2 = (short) ((-Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	717
emilmont	1:fdd22bb7aa52	718	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	719	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	720	/* T0 = yb, T1 = xb */
emilmont	1:fdd22bb7aa52	721	T0 = pSrc16[i1 * 2u] >> 2;
emilmont	1:fdd22bb7aa52	722	T1 = pSrc16[(i1 * 2u) + 1] >> 2;
emilmont	1:fdd22bb7aa52	723
emilmont	1:fdd22bb7aa52	724	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	725	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	726	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	727	pSrc16[(i1 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	728
emilmont	1:fdd22bb7aa52	729	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	730	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	731	/* U0 = yd, U1 = xd */
emilmont	1:fdd22bb7aa52	732	U0 = pSrc16[i3 * 2u] >> 2;
emilmont	1:fdd22bb7aa52	733	U1 = pSrc16[(i3 * 2u) + 1] >> 2;
emilmont	1:fdd22bb7aa52	734	/* T0 = yb-yd */
emilmont	1:fdd22bb7aa52	735	T0 = __SSAT(T0 - U0, 16);
emilmont	1:fdd22bb7aa52	736	/* T1 = xb-xd */
emilmont	1:fdd22bb7aa52	737	T1 = __SSAT(T1 - U1, 16);
emilmont	1:fdd22bb7aa52	738
emilmont	1:fdd22bb7aa52	739	/* R1 = (ya-yc) + (xb- xd), R0 = (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	740	R0 = (short) __SSAT((q31_t) (S0 - T1), 16);
emilmont	1:fdd22bb7aa52	741	R1 = (short) __SSAT((q31_t) (S1 + T0), 16);
emilmont	1:fdd22bb7aa52	742
emilmont	1:fdd22bb7aa52	743	/* S1 = (ya-yc) - (xb- xd), S0 = (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	744	S0 = (short) __SSAT(((q31_t) S0 + T1), 16u);
emilmont	1:fdd22bb7aa52	745	S1 = (short) __SSAT(((q31_t) S1 - T0), 16u);
emilmont	1:fdd22bb7aa52	746
emilmont	1:fdd22bb7aa52	747	/* co1 & si1 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	748	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	749	Si1 = pCoef16[(ic * 2u) + 1];
emilmont	1:fdd22bb7aa52	750	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	751	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	752	out1 = (short) ((Si1 * S1 + Co1 * S0) >> 16);
emilmont	1:fdd22bb7aa52	753	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	754	out2 = (short) ((-Si1 * S0 + Co1 * S1) >> 16);
emilmont	1:fdd22bb7aa52	755
emilmont	1:fdd22bb7aa52	756	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	757	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	758	pSrc16[(i2 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	759
emilmont	1:fdd22bb7aa52	760	/* Co3 & si3 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	761	Co3 = pCoef16[3u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	762	Si3 = pCoef16[(3u * (ic * 2u)) + 1];
emilmont	1:fdd22bb7aa52	763	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	764	/* xd' = (xa-yb-xc+yd)* Co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	765	out1 = (short) ((Si3 * R1 + Co3 * R0) >> 16u);
emilmont	1:fdd22bb7aa52	766	/* yd' = (ya+xb-yc-xd)* Co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	767	out2 = (short) ((-Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	768	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	769	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	770	pSrc16[(i3 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	771
emilmont	1:fdd22bb7aa52	772	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	773	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	774
emilmont	1:fdd22bb7aa52	775	/* Updating input index */
emilmont	1:fdd22bb7aa52	776	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	777
emilmont	1:fdd22bb7aa52	778	} while(--j);
emilmont	1:fdd22bb7aa52	779	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	780
emilmont	1:fdd22bb7aa52	781	/* end of first stage process */
emilmont	1:fdd22bb7aa52	782
emilmont	1:fdd22bb7aa52	783
emilmont	1:fdd22bb7aa52	784	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	785
emilmont	1:fdd22bb7aa52	786	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	787	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	788
emilmont	1:fdd22bb7aa52	789	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	790	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	791	{
emilmont	1:fdd22bb7aa52	792	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	793	n1 = n2;
emilmont	1:fdd22bb7aa52	794	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	795	ic = 0u;
emilmont	1:fdd22bb7aa52	796
emilmont	1:fdd22bb7aa52	797	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	798	{
emilmont	1:fdd22bb7aa52	799	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	800	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	801	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	802	Co2 = pCoef16[2u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	803	Si2 = pCoef16[(2u * (ic * 2u)) + 1u];
emilmont	1:fdd22bb7aa52	804	Co3 = pCoef16[3u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	805	Si3 = pCoef16[(3u * (ic * 2u)) + 1u];
emilmont	1:fdd22bb7aa52	806
emilmont	1:fdd22bb7aa52	807	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	808	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	809
emilmont	1:fdd22bb7aa52	810	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	811	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	812	{
emilmont	1:fdd22bb7aa52	813	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	814	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	815	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	816	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	817	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	818
emilmont	1:fdd22bb7aa52	819	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	820	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	821	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	822	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	823
emilmont	1:fdd22bb7aa52	824	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	825	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	826	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	827
emilmont	1:fdd22bb7aa52	828	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	829	R0 = __SSAT(T0 + S0, 16);
emilmont	1:fdd22bb7aa52	830	R1 = __SSAT(T1 + S1, 16);
emilmont	1:fdd22bb7aa52	831
emilmont	1:fdd22bb7aa52	832	/* S0 = (ya - yc), S1 =(xa - xc) */
emilmont	1:fdd22bb7aa52	833	S0 = __SSAT(T0 - S0, 16);
emilmont	1:fdd22bb7aa52	834	S1 = __SSAT(T1 - S1, 16);
emilmont	1:fdd22bb7aa52	835
emilmont	1:fdd22bb7aa52	836	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	837	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	838	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	839	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	840
emilmont	1:fdd22bb7aa52	841	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	842	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	843	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	844
emilmont	1:fdd22bb7aa52	845
emilmont	1:fdd22bb7aa52	846	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	847	T0 = __SSAT(T0 + U0, 16);
emilmont	1:fdd22bb7aa52	848	T1 = __SSAT(T1 + U1, 16);
emilmont	1:fdd22bb7aa52	849
emilmont	1:fdd22bb7aa52	850	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	851
emilmont	1:fdd22bb7aa52	852	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	853	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	854	out1 = ((R0 >> 1u) + (T0 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	855	out2 = ((R1 >> 1u) + (T1 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	856
emilmont	1:fdd22bb7aa52	857	pSrc16[i0 * 2u] = out1;
emilmont	1:fdd22bb7aa52	858	pSrc16[(2u * i0) + 1u] = out2;
emilmont	1:fdd22bb7aa52	859
emilmont	1:fdd22bb7aa52	860	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	861	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	862	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	863
emilmont	1:fdd22bb7aa52	864	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	865	out1 = (short) ((Co2 * R0 + Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	866
emilmont	1:fdd22bb7aa52	867	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	868	out2 = (short) ((-Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	869
emilmont	1:fdd22bb7aa52	870	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	871	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	872	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	873	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	874
emilmont	1:fdd22bb7aa52	875	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	876	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	877	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	878	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	879	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	880
emilmont	1:fdd22bb7aa52	881	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	882
emilmont	1:fdd22bb7aa52	883	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	884	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	885	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	886
emilmont	1:fdd22bb7aa52	887	/* T0 = yb-yd, T1 = xb-xd */
emilmont	1:fdd22bb7aa52	888	T0 = __SSAT(T0 - U0, 16);
emilmont	1:fdd22bb7aa52	889	T1 = __SSAT(T1 - U1, 16);
emilmont	1:fdd22bb7aa52	890
emilmont	1:fdd22bb7aa52	891	/* R0 = (ya-yc) + (xb- xd), R1 = (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	892	R0 = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	893	R1 = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	894
emilmont	1:fdd22bb7aa52	895	/* S0 = (ya-yc) - (xb- xd), S1 = (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	896	S0 = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	897	S1 = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	898
emilmont	1:fdd22bb7aa52	899	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	900	out1 = (short) ((Co1 * S0 + Si1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	901
emilmont	1:fdd22bb7aa52	902	out2 = (short) ((-Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	903
emilmont	1:fdd22bb7aa52	904	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	905	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	906	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	907	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	908
emilmont	1:fdd22bb7aa52	909	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	910	out1 = (short) ((Si3 * R1 + Co3 * R0) >> 16u);
emilmont	1:fdd22bb7aa52	911
emilmont	1:fdd22bb7aa52	912	out2 = (short) ((-Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	913	/* xd' = (xa-yb-xc+yd)* Co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	914	/* yd' = (ya+xb-yc-xd)* Co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	915	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	916	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	917	}
emilmont	1:fdd22bb7aa52	918	}
emilmont	1:fdd22bb7aa52	919	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	920	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	921	}
emilmont	1:fdd22bb7aa52	922	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	923
emilmont	1:fdd22bb7aa52	924
emilmont	1:fdd22bb7aa52	925	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	926	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	927	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	928	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	929
emilmont	1:fdd22bb7aa52	930	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	931	n1 = n2;
emilmont	1:fdd22bb7aa52	932	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	933
emilmont	1:fdd22bb7aa52	934	/* start of last stage process */
emilmont	1:fdd22bb7aa52	935
emilmont	1:fdd22bb7aa52	936	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	937	for (i0 = 0u; i0 <= (fftLen - n1); i0 += n1)
emilmont	1:fdd22bb7aa52	938	{
emilmont	1:fdd22bb7aa52	939	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	940	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	941	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	942	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	943	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	944
emilmont	1:fdd22bb7aa52	945	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	946	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	947	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	948	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	949
emilmont	1:fdd22bb7aa52	950	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	951	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	952	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	953
emilmont	1:fdd22bb7aa52	954	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	955	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	956	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	957
emilmont	1:fdd22bb7aa52	958	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	959	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	960	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	961
emilmont	1:fdd22bb7aa52	962	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	963	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	964	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	965	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	966	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	967	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	968	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	969
emilmont	1:fdd22bb7aa52	970	/* T0 = (yb + yd), T1 = (xb + xd)) */
emilmont	1:fdd22bb7aa52	971	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	972	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	973
emilmont	1:fdd22bb7aa52	974	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	975	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	976	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	977	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	978	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	979
emilmont	1:fdd22bb7aa52	980	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	981	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	982	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	983	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	984	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	985	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	986
emilmont	1:fdd22bb7aa52	987	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	988	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	989	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	990	pSrc16[i1 * 2u] = R0;
emilmont	1:fdd22bb7aa52	991	pSrc16[(i1 * 2u) + 1u] = R1;
emilmont	1:fdd22bb7aa52	992
emilmont	1:fdd22bb7aa52	993	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	994	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	995	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	996	/* T0 = (yb - yd), T1 = (xb - xd) */
emilmont	1:fdd22bb7aa52	997	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	998	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	999
emilmont	1:fdd22bb7aa52	1000	/* writing the butterfly processed i0 + fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1001	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1002	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1003	pSrc16[i2 * 2u] = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1004	pSrc16[(i2 * 2u) + 1u] = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1005
emilmont	1:fdd22bb7aa52	1006	/* writing the butterfly processed i0 + 3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1007	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1008	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1009	pSrc16[i3 * 2u] = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1010	pSrc16[(i3 * 2u) + 1u] = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1011
emilmont	1:fdd22bb7aa52	1012	}
emilmont	1:fdd22bb7aa52	1013
emilmont	1:fdd22bb7aa52	1014	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1015
emilmont	1:fdd22bb7aa52	1016	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1017	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1018	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1019	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1020
mbed_official	3:7a284390b0ce	1021	#endif /* #ifndef ARM_MATH_CM0_FAMILY */
emilmont	1:fdd22bb7aa52	1022
emilmont	1:fdd22bb7aa52	1023	}
emilmont	1:fdd22bb7aa52	1024
emilmont	1:fdd22bb7aa52	1025
emilmont	1:fdd22bb7aa52	1026	/**
emilmont	1:fdd22bb7aa52	1027	* @brief Core function for the Q15 CIFFT butterfly process.
emilmont	1:fdd22bb7aa52	1028	* @param[in, out] *pSrc16 points to the in-place buffer of Q15 data type.
emilmont	1:fdd22bb7aa52	1029	* @param[in] fftLen length of the FFT.
emilmont	1:fdd22bb7aa52	1030	* @param[in] *pCoef16 points to twiddle coefficient buffer.
emilmont	1:fdd22bb7aa52	1031	* @param[in] twidCoefModifier twiddle coefficient modifier that supports different size FFTs with the same twiddle factor table.
emilmont	1:fdd22bb7aa52	1032	* @return none.
emilmont	1:fdd22bb7aa52	1033	*/
emilmont	1:fdd22bb7aa52	1034
emilmont	1:fdd22bb7aa52	1035	/*
emilmont	1:fdd22bb7aa52	1036	* Radix-4 IFFT algorithm used is :
emilmont	1:fdd22bb7aa52	1037	*
emilmont	1:fdd22bb7aa52	1038	* CIFFT uses same twiddle coefficients as CFFT function
emilmont	1:fdd22bb7aa52	1039	* x[k] = x[n] + (j)k * x[n + fftLen/4] + (-1)k * x[n+fftLen/2] + (-j)k * x[n+3*fftLen/4]
emilmont	1:fdd22bb7aa52	1040	*
emilmont	1:fdd22bb7aa52	1041	*
emilmont	1:fdd22bb7aa52	1042	* IFFT is implemented with following changes in equations from FFT
emilmont	1:fdd22bb7aa52	1043	*
emilmont	1:fdd22bb7aa52	1044	* Input real and imaginary data:
emilmont	1:fdd22bb7aa52	1045	* x(n) = xa + j * ya
emilmont	1:fdd22bb7aa52	1046	* x(n+N/4 ) = xb + j * yb
emilmont	1:fdd22bb7aa52	1047	* x(n+N/2 ) = xc + j * yc
emilmont	1:fdd22bb7aa52	1048	* x(n+3N 4) = xd + j * yd
emilmont	1:fdd22bb7aa52	1049	*
emilmont	1:fdd22bb7aa52	1050	*
emilmont	1:fdd22bb7aa52	1051	* Output real and imaginary data:
emilmont	1:fdd22bb7aa52	1052	* x(4r) = xa'+ j * ya'
emilmont	1:fdd22bb7aa52	1053	* x(4r+1) = xb'+ j * yb'
emilmont	1:fdd22bb7aa52	1054	* x(4r+2) = xc'+ j * yc'
emilmont	1:fdd22bb7aa52	1055	* x(4r+3) = xd'+ j * yd'
emilmont	1:fdd22bb7aa52	1056	*
emilmont	1:fdd22bb7aa52	1057	*
emilmont	1:fdd22bb7aa52	1058	* Twiddle factors for radix-4 IFFT:
emilmont	1:fdd22bb7aa52	1059	* Wn = co1 + j * (si1)
emilmont	1:fdd22bb7aa52	1060	* W2n = co2 + j * (si2)
emilmont	1:fdd22bb7aa52	1061	* W3n = co3 + j * (si3)
emilmont	1:fdd22bb7aa52	1062
emilmont	1:fdd22bb7aa52	1063	* The real and imaginary output values for the radix-4 butterfly are
emilmont	1:fdd22bb7aa52	1064	* xa' = xa + xb + xc + xd
emilmont	1:fdd22bb7aa52	1065	* ya' = ya + yb + yc + yd
emilmont	1:fdd22bb7aa52	1066	* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1)
emilmont	1:fdd22bb7aa52	1067	* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1)
emilmont	1:fdd22bb7aa52	1068	* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2)
emilmont	1:fdd22bb7aa52	1069	* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2)
emilmont	1:fdd22bb7aa52	1070	* xd' = (xa+yb-xc-yd)* co3 - (ya-xb-yc+xd)* (si3)
emilmont	1:fdd22bb7aa52	1071	* yd' = (ya-xb-yc+xd)* co3 + (xa+yb-xc-yd)* (si3)
emilmont	1:fdd22bb7aa52	1072	*
emilmont	1:fdd22bb7aa52	1073	*/
emilmont	1:fdd22bb7aa52	1074
emilmont	1:fdd22bb7aa52	1075	void arm_radix4_butterfly_inverse_q15(
emilmont	1:fdd22bb7aa52	1076	q15_t * pSrc16,
emilmont	1:fdd22bb7aa52	1077	uint32_t fftLen,
emilmont	1:fdd22bb7aa52	1078	q15_t * pCoef16,
emilmont	1:fdd22bb7aa52	1079	uint32_t twidCoefModifier)
emilmont	1:fdd22bb7aa52	1080	{
emilmont	1:fdd22bb7aa52	1081
mbed_official	3:7a284390b0ce	1082	#ifndef ARM_MATH_CM0_FAMILY
emilmont	1:fdd22bb7aa52	1083
emilmont	1:fdd22bb7aa52	1084	/* Run the below code for Cortex-M4 and Cortex-M3 */
emilmont	1:fdd22bb7aa52	1085
emilmont	1:fdd22bb7aa52	1086	q31_t R, S, T, U;
emilmont	1:fdd22bb7aa52	1087	q31_t C1, C2, C3, out1, out2;
emilmont	1:fdd22bb7aa52	1088	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	1089	q15_t in;
emilmont	1:fdd22bb7aa52	1090
emilmont	1:fdd22bb7aa52	1091	q15_t *ptr1;
emilmont	1:fdd22bb7aa52	1092
emilmont	1:fdd22bb7aa52	1093
emilmont	1:fdd22bb7aa52	1094
emilmont	1:fdd22bb7aa52	1095	q31_t xaya, xbyb, xcyc, xdyd;
emilmont	1:fdd22bb7aa52	1096
emilmont	1:fdd22bb7aa52	1097	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	1098
emilmont	1:fdd22bb7aa52	1099	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	1100
emilmont	1:fdd22bb7aa52	1101	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	1102	n2 = fftLen;
emilmont	1:fdd22bb7aa52	1103	n1 = n2;
emilmont	1:fdd22bb7aa52	1104
emilmont	1:fdd22bb7aa52	1105	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	1106	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1107
emilmont	1:fdd22bb7aa52	1108	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	1109	ic = 0u;
emilmont	1:fdd22bb7aa52	1110
emilmont	1:fdd22bb7aa52	1111	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	1112	i0 = 0u;
emilmont	1:fdd22bb7aa52	1113	j = n2;
emilmont	1:fdd22bb7aa52	1114
emilmont	1:fdd22bb7aa52	1115	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	1116
emilmont	1:fdd22bb7aa52	1117	/* start of first stage process */
emilmont	1:fdd22bb7aa52	1118	do
emilmont	1:fdd22bb7aa52	1119	{
emilmont	1:fdd22bb7aa52	1120	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1121
emilmont	1:fdd22bb7aa52	1122	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1123	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1124	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1125	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1126	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1127
emilmont	1:fdd22bb7aa52	1128	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1129	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1130	T = _SIMD32_OFFSET(pSrc16 + (2u * i0));
emilmont	1:fdd22bb7aa52	1131	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1132	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1133
emilmont	1:fdd22bb7aa52	1134	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1135	S = _SIMD32_OFFSET(pSrc16 + (2u * i2));
emilmont	1:fdd22bb7aa52	1136	in = ((int16_t) (S & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1137	S = ((S >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1138
emilmont	1:fdd22bb7aa52	1139	/* R = packed((ya + yc), (xa + xc) ) */
emilmont	1:fdd22bb7aa52	1140	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	1141
emilmont	1:fdd22bb7aa52	1142	/* S = packed((ya - yc), (xa - xc) ) */
emilmont	1:fdd22bb7aa52	1143	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	1144
emilmont	1:fdd22bb7aa52	1145	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1146	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1147	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	1148	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1149	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1150
emilmont	1:fdd22bb7aa52	1151	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1152	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	1153	in = ((int16_t) (U & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1154	U = ((U >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1155
emilmont	1:fdd22bb7aa52	1156	/* T = packed((yb + yd), (xb + xd) ) */
emilmont	1:fdd22bb7aa52	1157	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	1158
emilmont	1:fdd22bb7aa52	1159	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1160	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1161	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1162	_SIMD32_OFFSET(pSrc16 + (2u * i0)) = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	1163
emilmont	1:fdd22bb7aa52	1164	/* R = packed((ya + yc) - (yb + yd), (xa + xc)- (xb + xd)) */
emilmont	1:fdd22bb7aa52	1165	R = __QSUB16(R, T);
emilmont	1:fdd22bb7aa52	1166
emilmont	1:fdd22bb7aa52	1167	/* co2 & si2 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1168	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	1169
emilmont	1:fdd22bb7aa52	1170	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1171
emilmont	1:fdd22bb7aa52	1172	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1173	out1 = __SMUSD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1174	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1175	out2 = __SMUADX(C2, R);
emilmont	1:fdd22bb7aa52	1176
emilmont	1:fdd22bb7aa52	1177	#else
emilmont	1:fdd22bb7aa52	1178
emilmont	1:fdd22bb7aa52	1179	/* xc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1180	out1 = __SMUADX(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1181	/* yc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1182	out2 = __SMUSD(__QSUB16(0, C2), R);
emilmont	1:fdd22bb7aa52	1183
emilmont	1:fdd22bb7aa52	1184	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1185
emilmont	1:fdd22bb7aa52	1186	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	1187	/* T = packed(yb, xb) */
emilmont	1:fdd22bb7aa52	1188	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	1189	in = ((int16_t) (T & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1190	T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1191
emilmont	1:fdd22bb7aa52	1192	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1193	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	1194	_SIMD32_OFFSET(pSrc16 + (2u * i1)) =
emilmont	1:fdd22bb7aa52	1195	(q31_t) ((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1196
emilmont	1:fdd22bb7aa52	1197	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1198	/* U = packed(yd, xd) */
emilmont	1:fdd22bb7aa52	1199	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	1200	in = ((int16_t) (U & 0xFFFF)) >> 2;
emilmont	1:fdd22bb7aa52	1201	U = ((U >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1202
emilmont	1:fdd22bb7aa52	1203	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	1204	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	1205
emilmont	1:fdd22bb7aa52	1206	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1207
emilmont	1:fdd22bb7aa52	1208	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1209	R = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	1210	/* S = packed((ya-yc) + (xb- xd), (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1211	S = __QASX(S, T);
emilmont	1:fdd22bb7aa52	1212
emilmont	1:fdd22bb7aa52	1213	#else
emilmont	1:fdd22bb7aa52	1214
emilmont	1:fdd22bb7aa52	1215	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1216	R = __QASX(S, T);
emilmont	1:fdd22bb7aa52	1217	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1218	S = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	1219
emilmont	1:fdd22bb7aa52	1220	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1221
emilmont	1:fdd22bb7aa52	1222	/* co1 & si1 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1223	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	1224	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1225
emilmont	1:fdd22bb7aa52	1226	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1227
emilmont	1:fdd22bb7aa52	1228	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1229	out1 = __SMUSD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1230	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	1231	out2 = __SMUADX(C1, S);
emilmont	1:fdd22bb7aa52	1232
emilmont	1:fdd22bb7aa52	1233	#else
emilmont	1:fdd22bb7aa52	1234
emilmont	1:fdd22bb7aa52	1235	/* xb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	1236	out1 = __SMUADX(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1237	/* yb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1238	out2 = __SMUSD(__QSUB16(0, C1), S);
emilmont	1:fdd22bb7aa52	1239
emilmont	1:fdd22bb7aa52	1240	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1241
emilmont	1:fdd22bb7aa52	1242	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	1243	_SIMD32_OFFSET(pSrc16 + (2u * i2)) =
emilmont	1:fdd22bb7aa52	1244	((out2) & 0xFFFF0000) \| ((out1) & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1245
emilmont	1:fdd22bb7aa52	1246
emilmont	1:fdd22bb7aa52	1247	/* co3 & si3 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1248	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	1249	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1250
emilmont	1:fdd22bb7aa52	1251	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1252
emilmont	1:fdd22bb7aa52	1253	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1254	out1 = __SMUSD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1255	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	1256	out2 = __SMUADX(C3, R);
emilmont	1:fdd22bb7aa52	1257
emilmont	1:fdd22bb7aa52	1258	#else
emilmont	1:fdd22bb7aa52	1259
emilmont	1:fdd22bb7aa52	1260	/* xd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	1261	out1 = __SMUADX(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1262	/* yd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1263	out2 = __SMUSD(__QSUB16(0, C3), R);
emilmont	1:fdd22bb7aa52	1264
emilmont	1:fdd22bb7aa52	1265	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1266
emilmont	1:fdd22bb7aa52	1267	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	1268	_SIMD32_OFFSET(pSrc16 + (2u * i3)) =
emilmont	1:fdd22bb7aa52	1269	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1270
emilmont	1:fdd22bb7aa52	1271	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1272	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1273
emilmont	1:fdd22bb7aa52	1274	/* Updating input index */
emilmont	1:fdd22bb7aa52	1275	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	1276
emilmont	1:fdd22bb7aa52	1277	} while(--j);
emilmont	1:fdd22bb7aa52	1278	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	1279
emilmont	1:fdd22bb7aa52	1280	/* end of first stage process */
emilmont	1:fdd22bb7aa52	1281
emilmont	1:fdd22bb7aa52	1282
emilmont	1:fdd22bb7aa52	1283	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	1284
emilmont	1:fdd22bb7aa52	1285	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1286	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1287
emilmont	1:fdd22bb7aa52	1288	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	1289	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	1290	{
emilmont	1:fdd22bb7aa52	1291	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	1292	n1 = n2;
emilmont	1:fdd22bb7aa52	1293	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1294	ic = 0u;
emilmont	1:fdd22bb7aa52	1295
emilmont	1:fdd22bb7aa52	1296	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	1297	{
emilmont	1:fdd22bb7aa52	1298	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	1299	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	1300	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	1301	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	1302
emilmont	1:fdd22bb7aa52	1303	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1304	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1305
emilmont	1:fdd22bb7aa52	1306	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1307	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	1308	{
emilmont	1:fdd22bb7aa52	1309	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1310	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1311	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1312	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1313	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1314
emilmont	1:fdd22bb7aa52	1315	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1316	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1317	T = _SIMD32_OFFSET(pSrc16 + (2u * i0));
emilmont	1:fdd22bb7aa52	1318
emilmont	1:fdd22bb7aa52	1319	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1320	S = _SIMD32_OFFSET(pSrc16 + (2u * i2));
emilmont	1:fdd22bb7aa52	1321
emilmont	1:fdd22bb7aa52	1322	/* R = packed( (ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	1323	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	1324
emilmont	1:fdd22bb7aa52	1325	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	1326	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	1327
emilmont	1:fdd22bb7aa52	1328	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1329	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1330	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	1331
emilmont	1:fdd22bb7aa52	1332	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1333	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	1334
emilmont	1:fdd22bb7aa52	1335	/* T = packed( (yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1336	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	1337
emilmont	1:fdd22bb7aa52	1338	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1339
emilmont	1:fdd22bb7aa52	1340	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1341	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1342	out1 = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	1343	in = ((int16_t) (out1 & 0xFFFF)) >> 1;
emilmont	1:fdd22bb7aa52	1344	out1 = ((out1 >> 1) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	1345	_SIMD32_OFFSET(pSrc16 + (2u * i0)) = out1;
emilmont	1:fdd22bb7aa52	1346
emilmont	1:fdd22bb7aa52	1347	/* R = packed( (ya + yc) - (yb + yd), (xa + xc) - (xb + xd)) */
emilmont	1:fdd22bb7aa52	1348	R = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	1349
emilmont	1:fdd22bb7aa52	1350	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1351
emilmont	1:fdd22bb7aa52	1352	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	1353	out1 = __SMUSD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1354
emilmont	1:fdd22bb7aa52	1355	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1356	out2 = __SMUADX(C2, R);
emilmont	1:fdd22bb7aa52	1357
emilmont	1:fdd22bb7aa52	1358	#else
emilmont	1:fdd22bb7aa52	1359
emilmont	1:fdd22bb7aa52	1360	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1361	out1 = __SMUADX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	1362
emilmont	1:fdd22bb7aa52	1363	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	1364	out2 = __SMUSD(__QSUB16(0, C2), R);
emilmont	1:fdd22bb7aa52	1365
emilmont	1:fdd22bb7aa52	1366	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1367
emilmont	1:fdd22bb7aa52	1368	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	1369	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1370	T = _SIMD32_OFFSET(pSrc16 + (2u * i1));
emilmont	1:fdd22bb7aa52	1371
emilmont	1:fdd22bb7aa52	1372	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1373	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1374	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1375	_SIMD32_OFFSET(pSrc16 + (2u * i1)) =
emilmont	1:fdd22bb7aa52	1376	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1377
emilmont	1:fdd22bb7aa52	1378	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1379
emilmont	1:fdd22bb7aa52	1380	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1381	U = _SIMD32_OFFSET(pSrc16 + (2u * i3));
emilmont	1:fdd22bb7aa52	1382
emilmont	1:fdd22bb7aa52	1383	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	1384	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	1385
emilmont	1:fdd22bb7aa52	1386	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1387
emilmont	1:fdd22bb7aa52	1388	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1389	R = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	1390
emilmont	1:fdd22bb7aa52	1391	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1392	S = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	1393
emilmont	1:fdd22bb7aa52	1394
emilmont	1:fdd22bb7aa52	1395	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1396	out1 = __SMUSD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1397	out2 = __SMUADX(C1, S);
emilmont	1:fdd22bb7aa52	1398
emilmont	1:fdd22bb7aa52	1399	#else
emilmont	1:fdd22bb7aa52	1400
emilmont	1:fdd22bb7aa52	1401	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1402	R = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	1403
emilmont	1:fdd22bb7aa52	1404	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1405	S = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	1406
emilmont	1:fdd22bb7aa52	1407
emilmont	1:fdd22bb7aa52	1408	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1409	out1 = __SMUADX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	1410	out2 = __SMUSD(__QSUB16(0, C1), S);
emilmont	1:fdd22bb7aa52	1411
emilmont	1:fdd22bb7aa52	1412	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1413
emilmont	1:fdd22bb7aa52	1414	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1415	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	1416	_SIMD32_OFFSET(pSrc16 + (2u * i2)) =
emilmont	1:fdd22bb7aa52	1417	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1418
emilmont	1:fdd22bb7aa52	1419	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1420
emilmont	1:fdd22bb7aa52	1421	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1422
emilmont	1:fdd22bb7aa52	1423	out1 = __SMUSD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1424	out2 = __SMUADX(C3, R);
emilmont	1:fdd22bb7aa52	1425
emilmont	1:fdd22bb7aa52	1426	#else
emilmont	1:fdd22bb7aa52	1427
emilmont	1:fdd22bb7aa52	1428	out1 = __SMUADX(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1429	out2 = __SMUSD(__QSUB16(0, C3), R);
emilmont	1:fdd22bb7aa52	1430
emilmont	1:fdd22bb7aa52	1431	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1432
emilmont	1:fdd22bb7aa52	1433	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1434	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	1435	_SIMD32_OFFSET(pSrc16 + (2u * i3)) =
emilmont	1:fdd22bb7aa52	1436	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
emilmont	1:fdd22bb7aa52	1437	}
emilmont	1:fdd22bb7aa52	1438	}
emilmont	1:fdd22bb7aa52	1439	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1440	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1441	}
emilmont	1:fdd22bb7aa52	1442	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	1443
emilmont	1:fdd22bb7aa52	1444	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1445	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	1446	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	1447	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	1448
emilmont	1:fdd22bb7aa52	1449	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	1450	j = fftLen >> 2;
emilmont	1:fdd22bb7aa52	1451
emilmont	1:fdd22bb7aa52	1452	ptr1 = &pSrc16[0];
emilmont	1:fdd22bb7aa52	1453
emilmont	1:fdd22bb7aa52	1454	/* start of last stage process */
emilmont	1:fdd22bb7aa52	1455
emilmont	1:fdd22bb7aa52	1456	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1457	do
emilmont	1:fdd22bb7aa52	1458	{
emilmont	1:fdd22bb7aa52	1459	/* Read xa (real), ya(imag) input */
emilmont	1:fdd22bb7aa52	1460	xaya = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1461
emilmont	1:fdd22bb7aa52	1462	/* Read xb (real), yb(imag) input */
emilmont	1:fdd22bb7aa52	1463	xbyb = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1464
emilmont	1:fdd22bb7aa52	1465	/* Read xc (real), yc(imag) input */
emilmont	1:fdd22bb7aa52	1466	xcyc = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1467
emilmont	1:fdd22bb7aa52	1468	/* Read xd (real), yd(imag) input */
emilmont	1:fdd22bb7aa52	1469	xdyd = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1470
emilmont	1:fdd22bb7aa52	1471	/* R = packed((ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	1472	R = __QADD16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	1473
emilmont	1:fdd22bb7aa52	1474	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1475	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1476
emilmont	1:fdd22bb7aa52	1477	/* pointer updation for writing */
emilmont	1:fdd22bb7aa52	1478	ptr1 = ptr1 - 8u;
emilmont	1:fdd22bb7aa52	1479
emilmont	1:fdd22bb7aa52	1480
emilmont	1:fdd22bb7aa52	1481	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1482	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1483	*__SIMD32(ptr1)++ = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	1484
emilmont	1:fdd22bb7aa52	1485	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1486	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1487
emilmont	1:fdd22bb7aa52	1488	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	1489	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	1490	*__SIMD32(ptr1)++ = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	1491
emilmont	1:fdd22bb7aa52	1492	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	1493	S = __QSUB16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	1494
emilmont	1:fdd22bb7aa52	1495	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1496	/* T = packed( (yb - yd), (xb - xd)) */
emilmont	1:fdd22bb7aa52	1497	U = __QSUB16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1498
emilmont	1:fdd22bb7aa52	1499	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1500
emilmont	1:fdd22bb7aa52	1501	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1502	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1503	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	1504
emilmont	1:fdd22bb7aa52	1505
emilmont	1:fdd22bb7aa52	1506	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1507	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1508	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	1509
emilmont	1:fdd22bb7aa52	1510	#else
emilmont	1:fdd22bb7aa52	1511
emilmont	1:fdd22bb7aa52	1512	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1513	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1514	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	1515
emilmont	1:fdd22bb7aa52	1516
emilmont	1:fdd22bb7aa52	1517	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1518	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1519	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	1520
emilmont	1:fdd22bb7aa52	1521
emilmont	1:fdd22bb7aa52	1522	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1523
emilmont	1:fdd22bb7aa52	1524	} while(--j);
emilmont	1:fdd22bb7aa52	1525
emilmont	1:fdd22bb7aa52	1526	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1527
emilmont	1:fdd22bb7aa52	1528	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1529	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1530	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1531	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1532
emilmont	1:fdd22bb7aa52	1533
emilmont	1:fdd22bb7aa52	1534	#else
emilmont	1:fdd22bb7aa52	1535
emilmont	1:fdd22bb7aa52	1536	/* Run the below code for Cortex-M0 */
emilmont	1:fdd22bb7aa52	1537
emilmont	1:fdd22bb7aa52	1538	q15_t R0, R1, S0, S1, T0, T1, U0, U1;
emilmont	1:fdd22bb7aa52	1539	q15_t Co1, Si1, Co2, Si2, Co3, Si3, out1, out2;
emilmont	1:fdd22bb7aa52	1540	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	1541
emilmont	1:fdd22bb7aa52	1542	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	1543
emilmont	1:fdd22bb7aa52	1544	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	1545
emilmont	1:fdd22bb7aa52	1546	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	1547	n2 = fftLen;
emilmont	1:fdd22bb7aa52	1548	n1 = n2;
emilmont	1:fdd22bb7aa52	1549
emilmont	1:fdd22bb7aa52	1550	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	1551	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1552
emilmont	1:fdd22bb7aa52	1553	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	1554	ic = 0u;
emilmont	1:fdd22bb7aa52	1555
emilmont	1:fdd22bb7aa52	1556	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	1557	i0 = 0u;
emilmont	1:fdd22bb7aa52	1558
emilmont	1:fdd22bb7aa52	1559	j = n2;
emilmont	1:fdd22bb7aa52	1560
emilmont	1:fdd22bb7aa52	1561	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	1562
emilmont	1:fdd22bb7aa52	1563	/* Start of first stage process */
emilmont	1:fdd22bb7aa52	1564	do
emilmont	1:fdd22bb7aa52	1565	{
emilmont	1:fdd22bb7aa52	1566	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1567
emilmont	1:fdd22bb7aa52	1568	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1569	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1570	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1571	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1572	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1573
emilmont	1:fdd22bb7aa52	1574	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1575	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1576	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1577	T0 = pSrc16[i0 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1578	T1 = pSrc16[(i0 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1579	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1580	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1581	S0 = pSrc16[i2 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1582	S1 = pSrc16[(i2 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1583
emilmont	1:fdd22bb7aa52	1584	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1585	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1586	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1587	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1588	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1589	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1590
emilmont	1:fdd22bb7aa52	1591	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1592	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1593	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1594	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1595	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1596	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1597	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1598	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1599	U1 = pSrc16[(i3 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1600
emilmont	1:fdd22bb7aa52	1601	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1602	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1603	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1604
emilmont	1:fdd22bb7aa52	1605	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1606	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1607	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1608	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1609	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1610
emilmont	1:fdd22bb7aa52	1611	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc)- (xb + xd) */
emilmont	1:fdd22bb7aa52	1612	R0 = __SSAT(R0 - T0, 16u);
emilmont	1:fdd22bb7aa52	1613	R1 = __SSAT(R1 - T1, 16u);
emilmont	1:fdd22bb7aa52	1614	/* co2 & si2 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1615	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	1616	Si2 = pCoef16[(2u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1617	/* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1618	out1 = (short) ((Co2 * R0 - Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1619	/* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1620	out2 = (short) ((Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1621
emilmont	1:fdd22bb7aa52	1622	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	1623	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1624	/* T0 = yb, T1 = xb */
emilmont	1:fdd22bb7aa52	1625	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1626	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1627
emilmont	1:fdd22bb7aa52	1628	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1629	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	1630	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1631	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1632
emilmont	1:fdd22bb7aa52	1633	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1634	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1635	/* U0 = yd, U1 = xd) */
emilmont	1:fdd22bb7aa52	1636	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1637	U1 = pSrc16[(i3 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1638
emilmont	1:fdd22bb7aa52	1639	/* T0 = yb-yd, T1 = xb-xd) */
emilmont	1:fdd22bb7aa52	1640	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1641	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1642	/* R0 = (ya-yc) - (xb- xd) , R1 = (xa-xc) + (yb-yd) */
emilmont	1:fdd22bb7aa52	1643	R0 = (short) __SSAT((q31_t) (S0 + T1), 16);
emilmont	1:fdd22bb7aa52	1644	R1 = (short) __SSAT((q31_t) (S1 - T0), 16);
emilmont	1:fdd22bb7aa52	1645	/* S = (ya-yc) + (xb- xd), S1 = (xa-xc) - (yb-yd) */
emilmont	1:fdd22bb7aa52	1646	S0 = (short) __SSAT((q31_t) (S0 - T1), 16);
emilmont	1:fdd22bb7aa52	1647	S1 = (short) __SSAT((q31_t) (S1 + T0), 16);
emilmont	1:fdd22bb7aa52	1648
emilmont	1:fdd22bb7aa52	1649	/* co1 & si1 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1650	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	1651	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1652	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1653	/* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1) */
emilmont	1:fdd22bb7aa52	1654	out1 = (short) ((Co1 * S0 - Si1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1655	/* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1) */
emilmont	1:fdd22bb7aa52	1656	out2 = (short) ((Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1657	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	1658	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1659	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1660
emilmont	1:fdd22bb7aa52	1661	/* Co3 & si3 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1662	Co3 = pCoef16[3u * ic * 2u];
emilmont	1:fdd22bb7aa52	1663	Si3 = pCoef16[(3u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1664	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1665	/* xd' = (xa+yb-xc-yd)* Co3 - (ya-xb-yc+xd)* (si3) */
emilmont	1:fdd22bb7aa52	1666	out1 = (short) ((Co3 * R0 - Si3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1667	/* yd' = (ya-xb-yc+xd)* Co3 + (xa+yb-xc-yd)* (si3) */
emilmont	1:fdd22bb7aa52	1668	out2 = (short) ((Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1669	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	1670	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1671	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1672
emilmont	1:fdd22bb7aa52	1673	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1674	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1675
emilmont	1:fdd22bb7aa52	1676	/* Updating input index */
emilmont	1:fdd22bb7aa52	1677	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	1678
emilmont	1:fdd22bb7aa52	1679	} while(--j);
emilmont	1:fdd22bb7aa52	1680
emilmont	1:fdd22bb7aa52	1681	/* End of first stage process */
emilmont	1:fdd22bb7aa52	1682
emilmont	1:fdd22bb7aa52	1683	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	1684
emilmont	1:fdd22bb7aa52	1685
emilmont	1:fdd22bb7aa52	1686	/* Start of Middle stage process */
emilmont	1:fdd22bb7aa52	1687
emilmont	1:fdd22bb7aa52	1688	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1689	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1690
emilmont	1:fdd22bb7aa52	1691	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	1692	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	1693	{
emilmont	1:fdd22bb7aa52	1694	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	1695	n1 = n2;
emilmont	1:fdd22bb7aa52	1696	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1697	ic = 0u;
emilmont	1:fdd22bb7aa52	1698
emilmont	1:fdd22bb7aa52	1699	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	1700	{
emilmont	1:fdd22bb7aa52	1701	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	1702	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	1703	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1704	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	1705	Si2 = pCoef16[2u * ic * 2u + 1u];
emilmont	1:fdd22bb7aa52	1706	Co3 = pCoef16[3u * ic * 2u];
emilmont	1:fdd22bb7aa52	1707	Si3 = pCoef16[(3u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1708
emilmont	1:fdd22bb7aa52	1709	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1710	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1711
emilmont	1:fdd22bb7aa52	1712	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1713	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	1714	{
emilmont	1:fdd22bb7aa52	1715	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1716	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1717	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1718	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1719	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1720
emilmont	1:fdd22bb7aa52	1721	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1722	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1723	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	1724	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1725
emilmont	1:fdd22bb7aa52	1726	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1727	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	1728	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1729
emilmont	1:fdd22bb7aa52	1730
emilmont	1:fdd22bb7aa52	1731	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1732	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1733	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1734	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1735	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1736	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1737
emilmont	1:fdd22bb7aa52	1738	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1739	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1740	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1741	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1742
emilmont	1:fdd22bb7aa52	1743	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1744	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1745	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1746
emilmont	1:fdd22bb7aa52	1747	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1748	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1749	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1750
emilmont	1:fdd22bb7aa52	1751	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1752	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1753	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1754	pSrc16[i0 * 2u] = ((R0 >> 1u) + (T0 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	1755	pSrc16[(i0 * 2u) + 1u] = ((R1 >> 1u) + (T1 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	1756
emilmont	1:fdd22bb7aa52	1757	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	1758	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1759	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1760
emilmont	1:fdd22bb7aa52	1761	/* (ya-yb+yc-yd)* (si2) - (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	1762	out1 = (short) ((Co2 * R0 - Si2 * R1) >> 16);
emilmont	1:fdd22bb7aa52	1763	/* (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1764	out2 = (short) ((Si2 * R0 + Co2 * R1) >> 16);
emilmont	1:fdd22bb7aa52	1765
emilmont	1:fdd22bb7aa52	1766	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	1767	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1768	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1769	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1770
emilmont	1:fdd22bb7aa52	1771	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1772	/* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1773	/* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1774	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1775	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1776
emilmont	1:fdd22bb7aa52	1777	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1778	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1779	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1780	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1781
emilmont	1:fdd22bb7aa52	1782	/* T0 = yb-yd, T1 = xb-xd) */
emilmont	1:fdd22bb7aa52	1783	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1784	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1785
emilmont	1:fdd22bb7aa52	1786	/* R0 = (ya-yc) - (xb- xd) , R1 = (xa-xc) + (yb-yd) */
emilmont	1:fdd22bb7aa52	1787	R0 = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1788	R1 = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1789
emilmont	1:fdd22bb7aa52	1790	/* S1 = (ya-yc) + (xb- xd), S1 = (xa-xc) - (yb-yd) */
emilmont	1:fdd22bb7aa52	1791	S0 = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1792	S1 = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1793
emilmont	1:fdd22bb7aa52	1794	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1795	out1 = (short) ((Co1 * S0 - Si1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1796	out2 = (short) ((Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1797	/* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1) */
emilmont	1:fdd22bb7aa52	1798	/* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1) */
emilmont	1:fdd22bb7aa52	1799	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1800	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1801
emilmont	1:fdd22bb7aa52	1802	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1803	out1 = (short) ((Co3 * R0 - Si3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1804
emilmont	1:fdd22bb7aa52	1805	out2 = (short) ((Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1806	/* xd' = (xa+yb-xc-yd)* Co3 - (ya-xb-yc+xd)* (si3) */
emilmont	1:fdd22bb7aa52	1807	/* yd' = (ya-xb-yc+xd)* Co3 + (xa+yb-xc-yd)* (si3) */
emilmont	1:fdd22bb7aa52	1808	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1809	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1810
emilmont	1:fdd22bb7aa52	1811
emilmont	1:fdd22bb7aa52	1812	}
emilmont	1:fdd22bb7aa52	1813	}
emilmont	1:fdd22bb7aa52	1814	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1815	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1816	}
emilmont	1:fdd22bb7aa52	1817	/* End of Middle stages process */
emilmont	1:fdd22bb7aa52	1818
emilmont	1:fdd22bb7aa52	1819
emilmont	1:fdd22bb7aa52	1820	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1821	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	1822	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	1823	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	1824
emilmont	1:fdd22bb7aa52	1825	/* start of last stage process */
emilmont	1:fdd22bb7aa52	1826
emilmont	1:fdd22bb7aa52	1827
emilmont	1:fdd22bb7aa52	1828	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	1829	n1 = n2;
emilmont	1:fdd22bb7aa52	1830	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1831
emilmont	1:fdd22bb7aa52	1832	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1833	for (i0 = 0u; i0 <= (fftLen - n1); i0 += n1)
emilmont	1:fdd22bb7aa52	1834	{
emilmont	1:fdd22bb7aa52	1835	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1836	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1837	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1838	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1839	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1840
emilmont	1:fdd22bb7aa52	1841	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1842	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1843	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	1844	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1845	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1846	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	1847	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1848
emilmont	1:fdd22bb7aa52	1849	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1850	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1851	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1852	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1853	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1854	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1855
emilmont	1:fdd22bb7aa52	1856	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1857	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1858	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1859	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1860	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1861	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1862	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1863
emilmont	1:fdd22bb7aa52	1864	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1865	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1866	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1867
emilmont	1:fdd22bb7aa52	1868	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1869	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1870	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1871	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1872	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1873
emilmont	1:fdd22bb7aa52	1874	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	1875	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1876	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1877
emilmont	1:fdd22bb7aa52	1878	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1879	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1880	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1881
emilmont	1:fdd22bb7aa52	1882	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1883	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	1884	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	1885	pSrc16[i1 * 2u] = R0;
emilmont	1:fdd22bb7aa52	1886	pSrc16[(i1 * 2u) + 1u] = R1;
emilmont	1:fdd22bb7aa52	1887
emilmont	1:fdd22bb7aa52	1888	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1889	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1890	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1891	/* T0 = (yb - yd), T1 = (xb - xd) */
emilmont	1:fdd22bb7aa52	1892	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1893	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1894
emilmont	1:fdd22bb7aa52	1895	/* writing the butterfly processed i0 + fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1896	/* xb' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1897	/* yb' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1898	pSrc16[i2 * 2u] = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1899	pSrc16[(i2 * 2u) + 1u] = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1900
emilmont	1:fdd22bb7aa52	1901
emilmont	1:fdd22bb7aa52	1902	/* writing the butterfly processed i0 + 3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1903	/* xd' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1904	/* yd' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1905	pSrc16[i3 * 2u] = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1906	pSrc16[(i3 * 2u) + 1u] = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1907	}
emilmont	1:fdd22bb7aa52	1908	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1909
emilmont	1:fdd22bb7aa52	1910	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1911	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1912	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1913	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1914
mbed_official	3:7a284390b0ce	1915	#endif /* #ifndef ARM_MATH_CM0_FAMILY */
emilmont	1:fdd22bb7aa52	1916
emilmont	1:fdd22bb7aa52	1917	}

Repository toolbox

Export to desktop IDE

Repository details

Type:	Library
Created:	28 Nov 2012
Imports:	1419
Forks:	3
Commits:	6
Dependents:	75
Dependencies:	0
Followers:	34
Issues:	3

This repository is Public (Unlisted).

The code in this repository is MIT licensed.

Legacy Warning

cmsis_dsp/TransformFunctions/arm_cfft_radix4_q15.c@3:7a284390b0ce, 2013-11-08 (annotated)

Who changed what in which revision?

Repository toolbox

Repository details

Important Information for this Arm website

Access Warning