8:40 |
-
Perceived Roughness of Single Sinusoid Compared to Recorded Vibration
Ugur Alican Alma, M. Ercan Altinsoy
[Abstract]
In this paper, perceived roughness of two types of tactile vibration was evaluated on a tactile display. The two tactile stimuli are 1) recorded vibration and 2) single sinusoid. The aim was to investigate and present simplification possibilities on recorded vibration without losing its perceptual capacity since it might provide over-sophisticated information except for coarse textures. In order to test and compare several simplifications, similarity estimation experiment was conducted using continuous equal interval scaling method. During the experiment, the participants actively explored the real textures so that they could rate the roughness similarity of two tactile stimuli with respect to the real textures. The utilized textures were selected so as to contain the varying size of spatial densities to analyze the simplification approaches over fine, not too fine and coarse textures. Based on the similarity ratings, recorded vibration was found as the most similar stimuli with fine textures while single sinusoid was found as the most similar stimuli with coarse textures. Also based on the one-way analysis of variance tests, significant differences between the two tactile stimuli was found for the finest textures while a significant difference wasn’t found between them for mid-course and coarse textures.
|
9:00 |
-
Modellierung der psychoakustischen Rauigkeit
Roland Sottek, Julian Becker
[Abstract]
Die Rauigkeitsempfindung eines akustischen Signals steht seit Jahren im Mittelpunkt des Sounddesigns. In der Praxis entstehen Rauigkeiten häufig bei rotierenden Bauteilen (Motoren, Getriebe, Lüfter). Ein raues Geräusch kann sowohl zu einem sportlichen Charakter eines Motors beitragen als auch zu einem sehr lästigen Störfaktor werden. Die Herausforderungen im Bereich der Klanggestaltung nehmen ständig zu. Es wird ein Klang angestrebt, der zum Produkt passt. Dieses Ziel soll möglichst im frühen Entwicklungsprozess erreichbar sein. Dazu müssen perzeptive Bewertungen in Kombination mit Modellrechnungen und Simulationswerkzeugen herangezogen werden. Existierende Berechnungsmodelle der Rauigkeit eignen sich gut für synthetische Signale wie modulierte Töne oder Rauschsignale. Die Vorhersage der Rauigkeit technischer Schalle ist jedoch wegen der komplexeren spektralen und zeitlichen Muster deutlich anspruchsvoller. Obwohl Rauigkeiten in der Praxis sehr häufig auftreten existiert bisher kein standardisiertes Verfahren zur Berechnung der Rauigkeit. In diesem Beitrag wird ein solches Verfahren beschrieben, das auf einem Modell des menschlichen Gehörs nach Sottek basiert. Es wurde hinsichtlich der nichtlinearen Verarbeitung und der Gewichtung der Modulationsspektren optimiert. Darüber hinaus wird ein Vorschlag zur Berechnung eines binauralen Einzahlwertes der Rauigkeit gegeben. Dadurch lässt sich die tatsächlich wahrgenommene Rauigkeit sehr gut nachbilden. Eine Standardisierung dieses Verfahrens ist sowohl als DIN-Norm als auch im Rahmen von ECMA-74 geplant.
|
9:20 |
-
Formation of auditory glimpses based on local similarities and image segmentation methods
Sarinah Sutojo
[Abstract]
The blind segregation of sound sources from a mixture of different sounds remains one of the main challenges in the computer-based analysis of audio signals. One approach to achieve this segregation is to divide the audio input into segments of consistent acoustic features which are assumed to originate from the same source. These segments are also referred to as ”glimpses” of the locally dominant source and can be used to reconstruct or analyze the regarded source.
The presented algorithm extracts such glimpses by comparing acoustic features in directly neighboring time-frequency units. The probability of both units belonging to the same glimpse is calculated based on a previously trained classifier. Resulting from this estimation is a map of contrasts which indicate the similarity (e.g. dissimilarity) between the neighboring pixels. This map is then processed with image segmentation algorithms such as super pixels and region grow. The methods transform the contrast map into a map of enclosed regions, indicating the boundaries of the glimpses. The benefit of this segmentation stage is evaluated by comparing estimated ideal binary masks for a target source with and without applying the glimpse estimation.
|
9:40 |
-
Combining glimpsed auditory features and machine learning for modeling attentive voice tracking
Joanna Luberadzka, Hendrik Kayser, Volker Hohmann
[Abstract]
Computational models are a way of approaching research questions related to auditory perception. One relevant question is how
are we able to follow and understand speech in complex acoustic scenes.
Previous studies suggest that to follow a speaker in such conditions, humans use (i) sparse, speaker-related bits of robust
information - ’auditory glimpses’ and (ii) a mechanism of predictive coding with a movable locus of attention. This study presents a
computational framework simulating the attentive tracking of voices, which takes these aspects into account.
In particular, we model auditory glimpses using Glimpsed Periodicity Features, and predictive coding using Particle Filters.
Particle Filters sequentially estimate the high-level parameters(state) of voices, e. g. pitch, formants, and location, from
observations containing Glimpsed Periodicity Features. First results show the potential of this method to track two competing
voices.
The remaining challenge lies in modeling the mapping from observation to state space, required for the tracking. This is non-trivial
because it requires linking the ’glimpsed’ observation with a continuous, multidimensional state space. We propose using a Mixture
Density Network this mapping. Finally, we report a novel way of combining Glimpsed Periodicity Features, Particle Filtering and
Mixture Density Networks for modeling attentive speaker tracking.
|
10:20 |
-
Spatial-temporal integration of speech reflections
Jan Rennies-Hochmuth, Anna Warzybok, Thomas Brand, Birger Kollmeier
[Abstract]
In reverberant rooms speech is reflected at boundaries and objects and superimposes with the direct sound, thus creating a complex pattern of temporally delayed, spectrally modified and spatially distributed copies of the direct sound. The fundamental assumption of standard measures and models employed to predict speech intelligibility is that reflections arriving briefly after the direct sound can be integrated and are, hence, useful for speech intelligibility, while reflections arriving later than about 50 to 100 ms after the direct sound are detrimental. This assumption was challenged in a series of experiments within this study by systematically varying the energetic, temporal and binaural properties of direct sound, the reflections, and a stationary noise masker. Speech reception thresholds were measured in normal-hearing listeners. In conditions where either energy or binaural information favor the early components of the room impulse response (RIR), the data confirm that adding reflections with delays beyond a critical time window cannot be perfectly integrated. However, in conditions where the later RIR components are favorable in terms of energy or binaural information, the auditory system appears to ignore the early components and exploit the late components instead. This cannot be modeled by any current speech intelligibility prediction models.
|
10:40 |
-
Spektrale Prominenz beeinflusst die Ausgeprägtheit psychoakustischer Empfindungsgrößen
Arne Oetjen, Amrit Lamichhane, Monir A. Khan, Steven van de Par
[Abstract]
Die wahrgenommene Ausgeprägtheit vieler psychoakustischer Empfindungsgrößen wie z.B. Rauigkeit, Impulshaftigkeit oder Schwankungsstärke hängt neben bestimmten Signalparametern auch vom Schalldruckpegel ab. Dies wurde in bisherigen Studien mit synthetischen Schallen untersucht und es wurden Modellvorstellungen zur Quantifizierung dieser Abhängigkeit entwickelt. Bei realen Geräuschen treten diese psychoakustischen Signalparameter jedoch oft nicht spektral isoliert auf, sondern sind oft in einem bestimmten Frequenzband ausgeprägt. Eine kleine Pegeländerung eines solchen Frequenzbands relativ zum benachbarten Band kann sehr großen Einfluss auf die Ausgeprägtheit einer Empfindungsgröße im Gesamtgeräusch haben. In diesem Fall wird die Ausgeprägtheit der Empfindungsgröße deutlich stärker vom Schalldruckpegel beeinflusst als es die Versuche mit synthetischen Geräuschen nahelegen. In einer Reihe von Hörversuchen wurden beispielsweise Modulationen nur auf ein bestimmtes Frequenzband in einem rosa Rauschen aufgeprägt. In einem nächsten Schritt wurde dann der Pegel des Frequenzbands leicht verändert. Diese Änderung der spektralen Prominenz des modulierten Bereichs bewirkte eine große Änderung der Empfindungsstärke der untersuchten Größen. Dieser Effekt lässt sich in vergleichbarer Form auch bei Fahrzeug- und anderen Umweltgeräuschen beobachten. Verschiedene Ansätze zur Interpretation der Hörversuchsdaten werden gezeigt und diskutiert.
|
11:00 |
-
Binaural masking level difference as a function of noise bandwidth and noise delay
Kristin Bracklo, Stephan D. Ewert, Mathias Dietz
[Abstract]
A classic psychoacoustic task is the detection of a tone in noise. The human binaural system can exploit differences of the interaural phase of a noise
and target tone to improve detection thresholds. Maximum benefit is obtained for detecting an antiphasic tone (Sπ) in diotic noise (N0), which improves
detection thresholds in the order of 12 to 15 dB. It has been shown in several studies that this benefit slowly declines as an interaural time difference
(ITD) is applied to the N0Sπ complex. This decline has been attributed to the decorrelation of the noise.
Here, we measure detection thresholds of (N0Sπ)ITD stimuli, with ITDs up to 8 ms, for a noise bandwidth from 25 to 1000 Hz. The target is always a
500 Hz tone. Its level is varied adaptively in a 2-down 1-up fashion within a three alternative forced-choice task.
Results up to this point show that for bandwidths of 150, 200, and 1000 Hz detection thresholds are similar for all ITDs, whereas for 25 and 50 Hz the
negative impact of ITD is smaller, i. e. decorrelation progresses slower with increasing ITD. The data can be simulated best with a subject dependent
effective filter bandwidth near 100 Hz.
|
11:20 |
-
Teillautheit von dichotischen (Multi-)Tonsignalen in Rauschen
Jesko Verhey, Gloria-Tabea Badel, Jan Hots
[Abstract]
Technische Geräusche enthalten neben rauschhaften Anteilen häufig auch klar wahrnehmbare Töne. Letztere können zu einer erhöhten Lästigkeit des Schalls führen. Wie stark der tonale Anteil im Geräusch wahrgenommen wird, bestimmt die (Teil-) Lautheit des tonalen Anteils im Gesamtgeräusch. Als untere Grenze der Wahrnehmung gilt die Mithörschwelle des tonalen Anteils. Diese Mithörschwelle lässt sich z.B. durch Phasenunterschiede zwischen den beiden Ohren reduzieren, ein Effekt, der als binauraler Gewinn (”Binaural masking level difference”, BMLD) bezeichnet wird. Die Mithörschwelle hängt auch von der Anzahl der tonalen Komponenten ab. Der Einfluss dieser beiden Stimulusparameter auf die Teillautheit des überschwelligen tonalen Anteils wird im vorliegenden Beitrag untersucht. Hierzu werden zunächst für alle Signalkomponenten die Mithörschwellen bestimmt. Dann werden die Schwellen auch für Kombinationen der Töne individuell bestimmt. Zur Bestimmung der überschwelligen Wahrnehmung wird für feste Pegel eines diotischen Sinustones im Rauschen der Pegel des gleichlauten tonalen Zielsignals über der Mithörschwelle in einem Lautheitsangleichsverfahren bestimmt. Sowohl der binaurale Gewinn als auch die Kombination mehrerer Sinustöne führt zu einer deutlichen Erhöhung der Lautheit des tonalen Anteils. Es bleibt zu klären, ob diese erhöhte Lautheit des tonalen Anteils auch zur einer erhöhten Lästigkeit dieser Schalle führt.
|
14:00 |
-
Binaurale Entmaskierung zirkulär bewegter Schallquellen
Norbert Kolotzek, Bernhard Seeber
[Abstract]
Interaurale Phasendifferenzen beeinflussen die Maskierungsschwellen von Tönen in Rauschen. Bei bewegten Schallquellen ändert sich diese Phasendifferenz über der Zeit. Diese Studie untersucht den Einfluss der Bewegung einer Quelle auf die Maskierungsschwellen.
In zwei Pilotexperimenten wurden die Mithörschwellen eines sich zirkulär bewegenden 500 Hz Sinustons sowohl in diffusem Bandpassrauschen als auch in Rauschen von vorne mit einem adaptiven Zwangswahlverfahren gemessen. Der bewegte Stimulus wurde mit Ambisonics D-Format 3. Ordnung generiert und über 36 Lautsprecher in der Horizontalebene wiedergegeben. Startpunkt der Bewegung war jeweils 0∘. Es wurden fünf Bewegungsgeschwindigkeiten getestet: 10∘/s, 30∘/s, 50∘/s, 100∘/s und 150∘/s.
Die ermittelten Mithörschwellen wurden mit denen einer statischen Freifelddarbietung eines Sinustons an den lateralen Endpositionen der Bewegung verglichen. Die vorläufigen Ergebnisse zeigen, dass sich im diffusen Rauschen die Mithörschwellen auch bei seitlicher Darbietung sowohl im statischen als auch im dynamischen Fall nicht ändern (±1 dB).
Im Rauschen von vorne kann aus den vorläufigen Ergebnissen für eine laterale, statische Darbietung eine Entmaskierung von bis zu 11 dB beobachtet werden. Im bewegten Fall ist auch hier eine Abnahme der Mithörschwellen zu erkennen, jedoch ist diese Abnahme im Vergleich zu der maximalen Entmaskierung an den statischen, lateralen Endpositionen selbst bei langsamen Bewegungsgeschwindigkeiten geringer.
|
14:20 |
-
On the Effect of an Expected Auditory Task on the Performance of an ongoing Task
Ewald Strasser, Christiane Thiel, Steven van de Par
[Abstract]
Die Effekte geteilter Aufmerksamkeit (divided attention) sind wichtig für das Verständnis des Cocktailparty Phänomens. Eine noch unbeantwortete Frage
stellt der zeitliche Verlauf dar, in dem sich geteilte Aufmerksamkeit auf die akustische Wahrnehmung auswirkt. Es wäre denkbar, dass bereits die
Antizipation eines wichtigen Reizes die Bearbeitung der aktuellen Aufgabe beeinflusst.
Um diese Frage anzugehen, verwenden wir ein sequentielles Versuchsparadima mit zwei unterschiedlichen Aufgaben (dual task). Die erste Aufgabe ist
es, für eine Reihe an auditiv präsentierten Zahlen zu beurteilen ob die eben gehörte Zahl mit der gerade zuvor präsentierten Zahl übereinstimmt (1-
Back). Die zweite Aufgabe ist es, am Ende der Präsentation der Zahlen ein einzelnes Wort zu hören und zu beurteilen ob das Wort ein belebtes oder
unbelebtes Objekt beschreibt. Als Referenz für die Leistung bei dieser Aufgabenstellung werden Durchgänge verwendet bei denen nur Zahlen bearbeitet
werden.
Wir können zeigen, dass sowohl geteilte Aufmerksamkeit, als auch die zeitliche Distanz zur antizipierten zweiten Aufgabe einen Einfluss auf die
Reaktionszeit haben mit der die Zahlenaufgaben bearbeitet werden. Wir argumentieren, dass der Effekt einer antizipierten Verlagerung der
Aufmerksamkeit besonders negative Konsequenzen für Personen mit eingeschränkter Hörfähigkeit hat. Zusätzlich wurde Eye-Tracking durchgeführt und
die pupillometrischen Ergebnisse werden ergänzend diskutiert.
|
14:40 |
-
How Level, Delay and Spatial Separation influence the Echo Threshold
Korbinian Wegler, Florian Wendt, Robert Höldrich
[Abstract]
The echo threshold is a common measure to quantify the strength of the precedence effect. Depending on the experimental design, it is defined as the
delay or level of the reflected sound compared to the direct sound at which the reflection is perceived as a separate auditory event. Respective studies are typically carried out as lead-lag experiments and listeners are asked to adjust the delay of the lagging reflection with a fixed level
or vice versa.
The spatial separation is known to be another factor influencing the echo threshold. Nevertheless, most studies disregard this attribute and keep the
playback directions of lead and lag constant. This contribution studies the interaction of delay, level and spatial separation in a multi-stage listening experiment using binaural rendering. In each stage
the listeners are instructed to adjust one of the three attributes to determine the echo threshold. Based on the gained results the interrelations of delay,
level, and spatial separation with the echo threshold are examined and an attempt is made to develop a simple model.
|
15:00 |
-
Lautheit: Sone oder CU?
Florian Schmidt, Stefan Uppenkamp
[Abstract]
Bis heute herrscht keine Einigkeit darüber, wie Lautheit adäquat beurteilt werden soll. Es gibt zwei Lager, die entweder die Verhältnisskalierung oder die Kategorienskalierung befürworten. Es ist nicht klar, an welchem Maßstab die Güte dieser Skalierungsmethoden gemessen werden könnte. Einen Ausweg bietet möglicherweise die Untersuchung der Lautheit komplexer Stimuli wie Sprache oder Musik. Es wurde gezeigt, dass Sone-basierte Lautheitsmodelle die Lautheit von komplexen Stimuli nur fehlerhaft vorhersagen und sogar schlechter abschnitten als einfache Pegelmaße. Zwei Schwierigkeiten bleiben jedoch: 1) Anders als für die Sone-Skala gibt es bisher kein eigenständiges kategorial-basiertes Lautheitsmodell. 2) Welche Skalierungsmethode sollte verwendet werden, um nicht allein durch das Experiment eine der beiden Skalen zu bevorteilen?
In dieser Studie wird eine Kategorienskala aus der Sone-Skala des Lautheitsmodells von Chalupper und Fastl (2002) abgeleitet. Mit dem Modell wird für beiden Skalen die veränderliche Lautheit eines Musikausschnittes von 20 s Dauer vorhergesagt. Diese Lautheitsvorhersagen werden mit neuronalen Lautheitskorrelaten aus dem EEG verglichen. Für beide Skalen ist eine neuronale Repräsentation nachweisbar. Dabei wird die Sone-Skala an einer früheren Stufe der Hörbahn abgebildet als die CU-Skala. Dies deutet auf eine Hierarchie in der neuronalen Lautheitsverarbeitung im Kortex hin, bei dem letztlich der sensorisch verarbeitete Reiz kategorisiert wird.
|
15:20 |
-
Continuous loudness judgments and auditory fMRI activation for sounds with time-varying intensity
Oliver Behler, Stefan Uppenkamp
[Abstract]
The loudness of a sound is largely determined by its intensity, but it is also affected by a variety of other acoustic and non-acoustic variables, including
personal factors pertaining to the listener. Physiologically, the individual loudness percept appears to be most closely represented at auditory cortex, as
indicated by several neuroimaging studies performed previously. Yet, the majority of loudness research has focused on stationary sounds of rather short
duration. Much less is known about subjective loudness perception and its neural representation under dynamic conditions. For instance, the influence of
continuous increases or decreases of sound intensity on judgments of absolute loudness and loudness change is still a matter of debate. We report an
auditory functional MRI study aimed at adding understanding to this topic. Normal hearing listeners continuously rated their perceived loudness of
complex-tone sequences varying in intensity over time whilst fMRI was performed. Information derived from physical levels and individual loudness
judgments was used to predict brain activation. The behavioral data reveal an interaction of intensity region (high vs. low levels) and direction of change
on loudness ratings. Activation in auditory cortex might be more closely related to the perceived temporary change as opposed to the absolute loudness
percept.
|
15:40 |
-
Frequency channel-specific reset of the primacy effect in temporal loudness weights
Alexander Fischenich, Jan Hots, Jesko Verhey, Daniel Oberfeld-Twistel
[Abstract]
Previous work has shown that the beginning of the sound is more important for the perception of loudness than later parts and that this ”primacy effect” reoccurs when a short pause of at least 350 ms is inserted into the sound. The present study examines if this reset of the primacy effect occurs independently for different frequency channels. A time-varying sound consisting of two frequency components was presented in four different conditions: (1) a simultaneous silent gap (500 ms) in both frequency bands, (2) a silent gap in only the lower frequency band, (3) a silent gap in only the higher frequency band, (4) no silent gap in either band. In all conditions, the temporal loudness weights showed a clear primacy effect at the first temporal segments. For frequency bands presented without a silent gap, the temporal weights decreased gradually across the sound duration, regardless of whether the other frequency band contained a gap or not. When a frequency band contained a silent gap, the primacy effect at the beginning of the sound was reduced, and after the gap a second primacy effect occurred. The results are compatible with a frequency channel-specific reset of the primacy effect.
|
16:40 |
-
Phase-dependent Effects of Harmonics in Two-Tone Suppression
Martin Gottschalk, Jesko Verhey
[Abstract]
Auditory processing of the healthy cochlea is nonlinear. In psychoacoustics, this cochlea nonlinearity is, among others, associated with the compressive relation between intensity of a sinusoid and its loudness. Another consequence of this nonlinear processing is that simultaneously presented tones interact in a nonlinear fashion, e.g., one tone (the suppressor) may suppress another tone (the suppressee), an effect known as two-tone suppression.
The focus of this study is on the dual-resonance nonlinear (DRNL) filter, a model of nonlinear cochlear processing, for which it was shown that it is able to predict suppression.
The DRNL filter generates nonlinear harmonics due to the instantaneous compression on the basilar membrane, whose existence is also known from animal recordings. These harmonics affect the predicted suppression regions: when the suppressor frequency is close to 1/n-th of the suppressee frequency, these harmonics add energy to the filter at the suppressee frequency which may counteract the suppression effect. For exact frequency ratios this effect is either constructive or deconstructive, depending on the phase relation between suppressor and suppressee.
These predictions are compared to own experimental data, where, in a forward masking paradigm, the phase-dependent effect of second-order harmonics is examined.
|
17:00 |
-
Temporal Pitch in Electric Hearing with Amplitude-Modulated Pulse Trains and Inserted Short Inter-Pulse Intervals
Martin Lindenbeck, Piotr Majdak, Sridhar Srinivasan, Bernhard Laback
[Abstract]
Temporal pitch sensitivity in cochlear-implant (CI) listeners can be enhanced by inserting pulses with short inter-pulse intervals (SIPIs) in amplitude-modulated (AM) high-rate pulse trains. AM high-rate pulse trains are employed in current CI stimulation paradigms. While pitch sensitivity to AM improves with increasing modulation depth (MD), adding SIPI pulses results in uniform pitch sensitivity across MDs. When AM and SIPI pulses encode different frequencies, it is unclear which frequency dominates the pitch percept. To this end, pitch-discrimination sensitivity was measured in CI listeners with two MDs (0.1 and 0.5) and certain fundamental frequencies in the range of male and female speech. In a pitch-discrimination task, intervals were set up such that (a) both AM and SIPI frequencies changed congruently, (b) either AM or SIPI frequency remained constant, or (c) both SIPI and AM frequency changed incongruently. Discrimination performance was hypothesized to depend on AM and SIPI frequency differences (ΔAM and ΔSIPI). Statistical analysis showed that the performance was significantly accounted for by ΔSIPI and that it did not differ between MDs. This indicates that care should be taken to preserve original pitch cues provided in CI stimulation paradigms that incorporate SIPI pulses.
|
17:20 |
-
Irrelevant Background Speech Disrupts Serial Short-Term Memory for Verbal but not for Spatial Information: A Pre-Registered Replication Study
Tatiana Kvetnaya, Kristina Schopf, Florian Wickelmaier
[Abstract]
The irrelevant speech effect (ISE)-the phenomenon that background speech impairs serial recall of visually presented material-has been widely used for examining the structure of short-term memory. Jones, Farrand, Stuart, and Morris (1995) employed the ISE paradigm to challenge modularity as a fundamental principle of working memory. In Experiment 4, they observed an ISE in both verbal and spatial serial memory tasks, thereby demonstrating that changing-state characteristics of the material, rather than its modality of origin, may determine the impairment of memory performance. The present study constitutes a cumulative, pre-registered replication of Experiment 4 with 80 German participants (n = 40 per memory task condition). In line with Jones et al. (1995), a main effect of sound type was observed for the verbal domain, with disruption being more marked for a changing sequence of spoken syllables than for a steady sequence. However, no such cross-modal effect was replicated for the spatial domain. Contrary to the original findings, this resulted in an interaction of sound condition and task type. These results do not support a model of functional equivalence of verbal and spatial information in serial short-term memory.
|