<div dir="ltr"><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Op di 5 jul. 2022 om 09:41 schreef olivier tristan <<a href="mailto:o.tristan@uvi.net">o.tristan@uvi.net</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
  
    
  
  <div>
    <p>You do not talk about the SSE 4.1 version in your bench.</p>
    <p>Have you tried this use case ?<br></p></div></blockquote><div> </div><div>I compared 4 compiles: one without any changes (so with all variants of the lpc functions, including the SSE4.1 ones) and three with variants of plain C code. As both CPUs that were tested had SSE4.1 capability, these functions were compared with. So yes, current GCC outperforms those SSE4.1 intrinsics functions on 16-bit inputs and comes close on 24-bit inputs.<br></div><div> </div></div></div>