<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">16bit, 16kHz input wav files (ar1, ar2, ar3), content from ~50Hz to near 8kHz.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">All .pcm files are 16kHz, 16bit, signed ints, little (intel) endian.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">./opus_demo -e voip 16000 1 28000  -framesize 20 ~/ar1.wav ar1_20_voip.bit </div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">./opus_demo -d 16000 ar1_20_voip.bit ar1_20_voip.pcm</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">opus_demo reports version:    libopus 1.1-alpha</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class="">Using recent pesq code compiled from src, +16000 option.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">( same phenomenon seen with +16000 +wb option)  </div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">                   5ms      10ms     20ms      40ms</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar1_NN_voip       4.314    4.493    4.488     4.488</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar2_NN_voip       4.346    4.442    4.436     4.474</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar3_NN_voip       3.993    4.375    4.414     4.390</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar1_NN_audio      4.292    4.485 -> 4.313     4.313</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar2_NN_audio      4.364    4.460 -> 4.350     4.350</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar3_NN_audio      3.924    4.327 -> 4.218     4.218</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">Note that this size/type of pesq test is insufficient to draw ANY conclusions.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">However, it is useful for drawing attention to relative differences, that</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">might be interesting for HUMAN LISTENING.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">So the question here was, is this pesq drop from 10ms to 20ms framesize, seen in the </div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">case of mode=AUDIO (but not VOIP)  something REAL?  It warranted listening.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">( same results, interleaved mode=VOIP,AUDIO numbers ) </div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">                   5ms      10ms     20ms      40ms</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar1_NN_voip       4.314    4.493    4.488*     4.488</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar1_NN_audio      4.292    4.485    4.313*     4.313</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar2_NN_voip       4.346    4.442    4.436*     4.474</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar2_NN_audio      4.364    4.460    4.350*     4.350</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar3_NN_voip       3.993    4.375    4.414*     4.390</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">ar3_NN_audio      3.924    4.327    4.218*     4.218</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">same data,  interleaved to highlight fact that drop is seen for same sentences, </div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">from mode=VOIP to mode=AUDIO,  for 20ms framesize.  (40ms is same processing as 20ms, I believe).</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">So the  that is implied:</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">- is there a phenomenon for mode=AUDIO that results in lower scores for 20ms in particular, but not 10ms?</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">Listening to the processed files (sighted), I have the following subjective opinion:</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">- Given: sampling rate = 16000,  bitrate = 28000.  (also replicated at 32 kbps)</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">- the 10ms versions (voip,audio) and the 20ms (audio) version sound "focused" and have high fidelity to the ref.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">- the 20ms mode=AUDIO versions sound "hollow", "smeared", "unfocused", especially during unvoiced segments.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">- example "china hit" file ar3.pcm, t=0.6s.  Very clear diff between 10ms and 20ms framesize in mode=audio.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">This isn't about pesq scores -- pesq was just the "difference noticed" flag that got me to listen to some files.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">I notice this same kind of de-focused sound in the same samples processed using recent opus lib in linux.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">I'm not surprised at a delta between mode=voip and mode=audio for a constant framesize.  That's entirely expected.</div><div style="margin: 0px; font-size: 11px; font-family: Menlo;" class="">What I'm curious about is the delta between 10ms and 20ms , for mode=audio.  </div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div><div style="margin: 0px; font-size: 11px; font-family: Menlo; min-height: 13px;" class=""><br class=""></div></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><br class=""><div><blockquote type="cite" class=""><div class="">On Jun 3, 2016, at 10:12 AM, Jean-Marc Valin <<a href="mailto:jmvalin@jmvalin.ca" class="">jmvalin@jmvalin.ca</a>> wrote:</div><br class="Apple-interchange-newline"><div class="">Hi Kevin,<br class=""><br class="">Are you saying that the quality is good at 20 ms and bad at 10 ms, or<br class="">the reverse? Also, is this speech or music? What tool, what options? In<br class="">general, it helps a lot if you post the sample (input and output).<br class=""><br class="">Cheers,<br class=""><br class=""><span class="Apple-tab-span" style="white-space:pre"> </span>Jean-Marc<br class=""><br class="">On 06/03/2016 12:48 PM, Kevin Connor wrote:<br class=""><blockquote type="cite" class="">Hi Opus list,<br class=""><br class="">I'm noticing a discontinuity in the quality between use of 10ms and<br class="">20ms framesize for mode=AUDIO  at a bitrate of about 28000.<br class="">Quality drops audibly for voice signals when encoded at 20ms<br class="">framesize, versus quality at 10ms.   This effect is mode=AUDIO only.<br class="">Using mode==VOIP shows no sig. difference between 10 and 20ms framing<br class="">at this bitrate.      Pesq totally overreacts, as it is wont to do :)<br class="">However, I do hear a slight drop. Admittedly, 28kbps is a low bitrate<br class="">to be running in mode=AUDIO.     Is this effect known?  Is there a<br class="">difference in processing with audio mode between 10ms and (other<br class="">framesizes)?   I reckon it will go away if I throw some more bitrate<br class="">at it,  but wanted to understand it a bit better.<br class=""><br class="">Thanks very much, KevinC <br class="">_______________________________________________ opus mailing list <br class=""><a href="mailto:opus@xiph.org" class="">opus@xiph.org</a> <a href="http://lists.xiph.org/mailman/listinfo/opus" class="">http://lists.xiph.org/mailman/listinfo/opus</a><br class=""><br class=""></blockquote></div></blockquote></div><br class=""></body></html>