View Full Version : Trao đổi nghiên cứu: Speech processing
Chào cả nhà, em đang làm về cái này, không biết các bác có ai cùng làm về lĩnh vực này không? Hy vọng là có và em muốn cùng nhau trao đổi để phát triển hướng này lên ah :)
phovn
08-08-2008, 03:39 PM
Chào cả nhà, em đang làm về cái này, không biết các bác có ai cùng làm về lĩnh vực này không? Hy vọng là có và em muốn cùng nhau trao đổi để phát triển hướng này lên ah :)
Tôi lại làm về image and video processing. Cũng mới tập tành thôi. Có ai làm về lĩnh vực này ko nhỉ.
npbinh
08-08-2008, 09:34 PM
hi all,
O day cung co mot so anh em lam ve speech signal processing. Toi lam ve spectral modeling and speech modification. Ban co the post cac van de len de cung trao doi.
npbinh
Xin nối tiếp anh Bình thread này, tôi làm về source localization, speech enhancement, microphone arrays. Mong được trao đổi thêm.
Có một vấn đề mà Jah đang thắc mắc như sau:
Nguồn năng lượng (thể hiện qua áp suất không khí) của hệ thống phát âm của con người là từ nguồn hơi từ phổi (một số sách theo quan điểm này) hay thực chất là từ va chạm của bộ vocal cords?
Hỏi một các khác: Giả sử 2 cơ thanh quản tự động va đập vào nhau, thì có phát ra được tiếng nói như bình thường không?
Có bác nào đã tìm hiểu về cơ chế này hay có tài liệu nghiên cứu thì chia sẻ nha :)
Jah xin cảm ơn trước :)
Theo như thông tin trong cái link này http://www.voicemedicine.com/normal_voice_functioning.htm thì nếu vocal folds tự rung được, thì vẫn phát âm bình thường được :)
Như vậy, speech mà chúng ta nghe được là sự kết hợp của 2 nguồn:
1. áp suất từ độ rung của vocal fold
2. áp suất từ luồn hơi từ phổi bị thay đổi
Như vậy các cái model cho speech hiện tại dùng có đúng như vậy không nhỉ?
Có bác nào biết rồi không? Jah tìm hiểu tiếp đây! :)
Âm thanh được tạo ra bởi 2 giai đoạn:
Excitation: ví dụ như sự rung động của vocal cords.
Vocal tract: hình dạng, sự đóng mở, giãn nở của vocal tract quyết định âm thanh gì được tạo thành.
Vocal tract model thì có rất nhiều, cơ bản nhất có lẽ là hệ thống piecewise cylindrical tubes. Bạn có thể simulate các vowels đơn giản bằng cách excite = pulse train, set different values for the diameters of the tubes.
Tôi không làm về speech synthesis nên không trả lời thấu đáo được, nhưng basic idea thì là như vậy. Bạn làm về physiological perspective của speech hay là signal processing/ speech synthesis?
npbinh
11-08-2008, 11:11 PM
Theo như thông tin trong cái link này http://www.voicemedicine.com/normal_voice_functioning.htm thì nếu vocal folds tự rung được, thì vẫn phát âm bình thường được :)
Như vậy, speech mà chúng ta nghe được là sự kết hợp của 2 nguồn:
1. áp suất từ độ rung của vocal fold
2. áp suất từ luồn hơi từ phổi bị thay đổi
Như vậy các cái model cho speech hiện tại dùng có đúng như vậy không nhỉ?
Có bác nào biết rồi không? Jah tìm hiểu tiếp đây! :)
Tôi chỉ có một comment: vocal fold rung là do đâu?
Các mô hình hiện nay đều chỉ gần đúng, cố gắng mô phỏng bộ máy cấu âm của con người.
npbinh
Glottal Excitation Model có lẻ là hợp lý nhất đối với Jah cho tới thời điểm này (http://ccrma.stanford.edu/~jos/mus423h/Glottal_Excitation_Modeling_Singing.html (http://ccrma.stanford.edu/%7Ejos/mus423h/Glottal_Excitation_Modeling_Singing.html))
Nhưng mà nói chung cũng chưa được thoải mái lắm vì phần toán học mô tả chưa được rõ ràng. Jah tìm hiểu tiếp đây!
Có ai có kinh nghiệm về phương trình sóng không (y'' + y = f(t)), những kiến thức liên quan và các bài giảng?
@SSL: Jah làm về speech processing, SSL đang làm cụ thể về hướng nào vậy?
@npbinh: ý của bác chắc là muốn nói sự rung của vocal fold là từ áp suất bị nén bởi 2 vocal folds đóng lại, phải vậy ko?
Cái Jah thắc mắc là nếu có thể cấy ghép 1 máy phát ra 1 tần số rung như giây đàn ở ngay vocal fold, thì tiếng nói phát ra có bình thường hay không? TH1: Nếu không bình thường, nghĩa là thiếu cái gì đó
TH2: nếu bình thường, nghĩa là sự thay đổi áp suất luồng hơi do việc đống mở của vocalfolds là ko có tác động vào speech.
(Jah theo giả thuyết TH1)
@SSL: bác viết phía trên là có làm về source localization, vậy thì trong đó có giải quyết bài toán có nhiều hơn 1 nguồn âm tới microphone arrays ko?
Tartan
12-08-2008, 09:30 PM
Jah, thử nhòm qua Fujisaki model xem có giúp ích gì được ko.
References
http://public.tfh-berlin.de/~mixdorff/thesis/fujisaki.html
http://www.essex.ac.uk/web-sls/papers/02-01/web-sls-07.htm
Glottal Excitation Model có lẻ là hợp lý nhất đối với Jah cho tới thời điểm này (http://ccrma.stanford.edu/~jos/mus423h/Glottal_Excitation_Modeling_Singing.html (http://ccrma.stanford.edu/%7Ejos/mus423h/Glottal_Excitation_Modeling_Singing.html))
Nhưng mà nói chung cũng chưa được thoải mái lắm vì phần toán học mô tả chưa được rõ ràng. Jah tìm hiểu tiếp đây!
Có ai có kinh nghiệm về phương trình sóng không (y'' + y = f(t)), những kiến thức liên quan và các bài giảng?
@SSL: bác viết phía trên là có làm về source localization, vậy thì trong đó có giải quyết bài toán có nhiều hơn 1 nguồn âm tới microphone arrays ko?
In general, source localization hiện tại giải quyết 3 vấn đề:
- Real-time implementation of locating a single source in a noisy environment.
- Robust methods for locating multiple sources (cái này là cái jah hỏi).
- Moving source tracking.
Nếu jah có làm về cái này thì trao đổi thêm.
npbinh
12-08-2008, 10:18 PM
Glottal Excitation Model có lẻ là hợp lý nhất đối với Jah cho tới thời điểm này (http://ccrma.stanford.edu/~jos/mus423h/Glottal_Excitation_Modeling_Singing.html (http://ccrma.stanford.edu/%7Ejos/mus423h/Glottal_Excitation_Modeling_Singing.html))
Nhưng mà nói chung cũng chưa được thoải mái lắm vì phần toán học mô tả chưa được rõ ràng. Jah tìm hiểu tiếp đây!
Có ai có kinh nghiệm về phương trình sóng không (y'' + y = f(t)), những kiến thức liên quan và các bài giảng?
Cái mô hình này là một trong các mô hình phổ biến của speech signal processing. Như SSL đã nói, có rất nhiều mô hình. Mỗi mô hình có một mục đích, ưu nhược điểm khác nhau. Làm về speech processing thì vẫn rất rộng, Jah có thể cụ thể hóa hơn được không? Anh em biết để còn có thể trao đổi thêm.
In general, source localization hiện tại giải quyết 3 vấn đề:
- Real-time implementation of locating a single source in a noisy environment.
- Robust methods for locating multiple sources (cái này là cái jah hỏi).
- Moving source tracking.
Xin chào các bạn, tôi cũng làm về SSL. Tôi nghiên cứu về vấn đề này chưa lâu nên không biết nhiều, tuy nhiên xin mạn phép bổ xung một số subject được quan tâm khác của SSL:
- Implementation of SSL in a reverberant or noisy+reverberant environment. Theo tôi được biết thì vấn đề này còn chưa được giải quyết tốt, trong khi đã có khá nhiều thuật toán giải quyết (tương đối) thành công vấn đề SSL in noisy condition (batch or on-line algorithm). Cũng cần chú ý là có khá nhiều điểm khác biệt giữa noisy và reverberant environment.
- Combination of sound source localization and blind sound source seperation.
Ngoài ra còn một số hướng nghiên cứu khác về SSL (chẳng hạn SSL sử dụng đặc tính tần số của speech), nhưng tôi chưa tìm hiểu về các vấn đề này nên không dám tự tiện phát biểu.
Rất mong được học hỏi.
Jah, thử nhòm qua Fujisaki model xem có giúp ích gì được ko.
References
http://public.tfh-berlin.de/~mixdorff/thesis/fujisaki.html (http://public.tfh-berlin.de/%7Emixdorff/thesis/fujisaki.html)
http://www.essex.ac.uk/web-sls/papers/02-01/web-sls-07.htm
Mô hình của Fujisaki cũng khá thú vị. Theo Jah hiểu thì dùng một hàm tuyến tính để dự đoán xấp xỉ đường f0 --> rút ra thông tin về itonation --> train cho TTS system. (Nhưng ma Jah chưa hiểu hết ý nghĩa của cái hàm ln(f0(t)) :) )
Thanks tartan, sắp tới mà làm vè tts thì sẽ nghiên cứu kỹ hơn mô hình này. Tartan đang làm về TTS ah?
In general, source localization hiện tại giải quyết 3 vấn đề:
- Real-time implementation of locating a single source in a noisy environment.
- Robust methods for locating multiple sources (cái này là cái jah hỏi).
- Moving source tracking.
Nếu jah có làm về cái này thì trao đổi thêm.
Xuất phát điểm của Jah là Speech Recognition, hiện tại thì lại là Speech Enhancement. Jah đang để vài tháng tìm hiểu tự do về Speech Processing để quyết định hướng đi tiếp. Một trong hai hướng Jah đang quan tâm là:
1. Speech Synthesis
2. Microphone Arrays
Và đích nhắm tới vẫn là ASR system
Xin chào các bạn, tôi cũng làm về SSL. Tôi nghiên cứu về vấn đề này chưa lâu nên không biết nhiều, tuy nhiên xin mạn phép bổ xung một số subject được quan tâm khác của SSL:
- Implementation of SSL in a reverberant or noisy+reverberant environment. Theo tôi được biết thì vấn đề này còn chưa được giải quyết tốt, trong khi đã có khá nhiều thuật toán giải quyết (tương đối) thành công vấn đề SSL in noisy condition (batch or on-line algorithm). Cũng cần chú ý là có khá nhiều điểm khác biệt giữa noisy và reverberant environment.
- Combination of sound source localization and blind sound source seperation.
Ngoài ra còn một số hướng nghiên cứu khác về SSL (chẳng hạn SSL sử dụng đặc tính tần số của speech), nhưng tôi chưa tìm hiểu về các vấn đề này nên không dám tự tiện phát biểu.
Rất mong được học hỏi.
"blind sound source seperation" Jah cũng rất quan tâm đến bài toán này. Mong ptc1 chia sẻ thêm kinh nghiệm :)
Xin nhắc lại là tôi đang nghiên cứu về SSL; qua tìm hiểu thì tôi thấy giữa BSS và SSL có liên quan mật thiết với nhau - đặc biệt trong môi trường nhiều tiếng vọng (Ý nghĩa của nó là ở chỗ: sử dụng beamforming để tập trung vào nguồn âm mà ta quan tâm rồi "khuếch đại" và tách âm). Với "công lực" hiện tại của mình thì tôi chưa dám tấn công vấn đề lý thuyết về BSS for speech, vì nó liên quan cùng lúc tới vài subjects rất khó trong CS và EE:
- Adaptive Signal Processing.
- Neural Networks.
- Signal and System Decomposition (ICA, SCA, NMF, etc.).
- Signal analysis in Frequency Domain.
- Optimization for large scale data sét (Convex optimization, dynamics programming, etc.)
Chưa kể một đống các thứ linh tinh như linear regression, convex analysis, etc.
Hiện có rất nhiều cao thủ trong các lĩnh vực machine learning và Adaptive DSP có nghiên cứu về BSS for Speech (Ví dụ: Sam Roweis, Geoffrey Hinton, Daniel Lee, Cichocki, Amari, etc.- Nếu bạn nào làm về Machine learning hoặc Pattern Recognition chắc cũng đều biết tên). Tuy nhiên, theo tôi biết thì họ cũng chưa thành công lắm.
Về vấn đề speech enhancement và blind source seperation thì tôi có đọc các cuốn sách sau và thấy chúng đều rất hay:
- Microphone Array Signal Processing (J.Benesty, et al. - Springer 2008)
- Speech Enhancement (J. Benesty, et al.- Springer 2005)
- Handbook of Speech Processing (Many top authors in Speech Proc. - Springer 2008).
- Adaptive Blind Signal and Image Processing (Cichocki, Amari - Wiley 2002).
Ngoài ra một số sách về RF localization trong Telecommunication cũng khá có ích với SSL.
Rất mong mọi người bổ sung thêm các tựa sách khác.
Nhân tiện cũng xin mọi người giúp đỡ giải quyết hộ bài toán optimization sau (bài toán này theo tôi được biết là khá phổ biến trong lĩnh vực machine learning):
\[
\begin{array}{l}
\arg \mathop {\min }\limits_{\bf{v}} \left\{ {\frac{1}{2}{\bf{v}}^T {\bf{Av}} + {\rm{b}}^T {\bf{v}}} \right\} \\
s.t.{\bf{v}} \ge {\bf{0}},{\bf{v}}[0] = 1,\sum\limits_{i = 0}^N {{\bf{v}}[i] = 1} \\
\end{array}
\]
Trong đó A là ma trận Toeplitz đối xứng, b, v là vector, N = số phần tử của vector v, thường có giá trị từ 200 đến 2000.
Với các tiêu chuẩn sau:
- Global convergence.
- Convergence rate càng nhanh càng tốt.
- Stable.
- Sparse (cái này có thể không cần thiết lắm, nhưng nó liên quan tới tiêu chuẩn 1).
Tôi đã thử một số thuật toán nhưng không an tâm lắm vì Convergence rate khá chậm và thỉnh thoảng không stable.
Xin cảm ơn mọi sự giúp đỡ và hợp tác.
Nếu các bạn thấy không tiện trao đổi qua diễn đàn thì có thể liên lạc với tôi theo email: "ptc1nmf@yahoo.com" (Tuy nhiên tôi thấy việc trao đổi thẳng thắn trên diễn đàn rất hữu ích cho tất cả mọi người).
Noisy environment gồm cả reverberant noise (correlated) and background noise (uncorrelated). Đối với single source thì đã có tương đối nhiều solution tốt (SRP-PHAT, inverse-mapping of time-delays, adaptive eigenvalue decomposition, etc.). Multiple-source localization thì vẫn chưa có nhiều robust solutions, thường chỉ giới hạn ở 3, 4 sources và in a relatively good noise condition (reverberations + background noise).
BSS thì tôi thấy nhóm của Kellerman ở Germany giải quyết tương đối tốt convolutive BSS (which is more realistic than linear BSS). Và họ cũng kết hợp cả BSS vào multiple-source localization (de-reverberate room's impulse response to estimate the direct paths, which is a very hard problem). Ngoài ra một vài nhóm ở Japan, France cũng tương đối active về BSS. Ngoài ra BSS cũng có thể kết hợp với beamforming (e.g., null-steering BF to alternatively block one source at a time) để ứng dụng cho speech enhancement nhưng thường thì tôi chỉ thấy mới test trong linear mixtures only, not convolutive.
Tartan
13-08-2008, 09:33 PM
+++ Ý nghĩa của F0
Các đặc trưng quan trọng nhất của ngôn điệu (prosody) là độ cao, độ dài, và độ to, tương ứng là các đại lượng tần số cơ bản F0, thời gian của âm tiết, âm vị D, và cường độ I. Ngôn điệu của lời nói liên kết chặt chẽ với khái niệm “ngữ điệu” (intonation). Có thể nói ngữ điệu là sự nâng cao hạ thấp của giọng nói trong câu. Tần số cơ bản F0 là đặc trưng chính của ngữ điệu. Ngữ điệu là một thành phần của ngôn điệu.
Fujisaki là một mô hình định lượng dùng để mô hình hóa ngữ điệu. Mô hình Fujisaki hướng vào việc mô hình hóa quá trình sinh ra tần số cơ bản F0, giải thích về mặt vật lý học, sinh lý học quá trình sinh ra F0 và các tính chất của quá trình đó. Mô hình được áp dụng chủ yếu trong ứng dụng tổng hợp nhằm xây dựng phần ngữ điệu trong tiếng nói tổng hợp.
Mô hình Fujisaki có nền tảng vật lý học và sinh lý học của quá trình sinh ra F0. Thêm vào đó là mô hình cho phép sinh ra được đường nét F0 bất kỳ, cho phép xác định số lượng của các sự kiện ngữ điệu. Các sự kiện ngữ điệu được gắn với các mốc thời gian rõ ràng. Hơn nữa việc tổng hợp F0 là dễ dàng. Đường nét F0 liên tục được phân tích thành các phần đơn vị ngữ điệu rời rạc (các lệnh) với biên độ liên tục. Ngoài ra, đường nét F0 có thể mô hình hóa với độ chính xác cao với một số lượng nhỏ các tham số. Cuối cùng trong quá trình mô hình hóa, đường nét F0 sinh ra được làm trơn và bỏ đi những biến đổi rất nhỏ về ngôn điệu. Mô hình Fujisaki sinh ra đường nét F0 đã được làm trơn nên tiếng nói tổng hợp sử dụng mô hình Fujisaki nghe mềm mại và thật hơn so với các phương pháp mô hình hóa đường nét F0 khác. Tuy nhiên việc xác định các tham số của mô hình bằng phương pháp phân tích bằng tổng hợp (Analysis-by-Synthesis) đòi hỏi người phân tích phải có kinh nghiệm và kiên trì.
+++ Ngoài lề
Btw, cụ Fujisaki giờ gần 80 roài, hình như đang ở Uni of Tokyo làm giáo sư danh dự. Cụ Ki cũng thuộc loại trưởng lão cái bang 9 túi trong speech synthesis. Hiện giờ mình không làm speech synthesis nhưng hay hóng hớt nghe lỏm hội speech tán phét.
Mô hình của Fujisaki cũng khá thú vị. Theo Jah hiểu thì dùng một hàm tuyến tính để dự đoán xấp xỉ đường f0 --> rút ra thông tin về itonation --> train cho TTS system. (Nhưng ma Jah chưa hiểu hết ý nghĩa của cái hàm ln(f0(t)) :) )
Thanks tartan, sắp tới mà làm vè tts thì sẽ nghiên cứu kỹ hơn mô hình này. Tartan đang làm về TTS ah?
...
Nhân tiện cũng xin mọi người giúp đỡ giải quyết hộ bài toán optimization sau (bài toán này theo tôi được biết là khá phổ biến trong lĩnh vực machine learning):
\[
\begin{array}{l}
\arg \mathop {\min }\limits_{\bf{v}} \left\{ {\frac{1}{2}{\bf{v}}^T {\bf{Av}} + {\rm{b}}^T {\bf{v}}} \right\} \\
s.t.{\bf{v}} \ge {\bf{0}},{\bf{v}}[0] = 1,\sum\limits_{i = 0}^N {{\bf{v}}[i] = 1} \\
\end{array}
\]
Trong đó A là ma trận Toeplitz đối xứng, b, v là vector, N = số phần tử của vector v, thường có giá trị từ 200 đến 2000.
Với các tiêu chuẩn sau:
- Global convergence.
- Convergence rate càng nhanh càng tốt.
- Stable.
- Sparse (cái này có thể không cần thiết lắm, nhưng nó liên quan tới tiêu chuẩn 1).
Tôi đã thử một số thuật toán nhưng không an tâm lắm vì Convergence rate khá chậm và thỉnh thoảng không stable.
Xin cảm ơn mọi sự giúp đỡ và hợp tác.
Nếu các bạn thấy không tiện trao đổi qua diễn đàn thì có thể liên lạc với tôi theo email: "ptc1nmf@yahoo.com" (Tuy nhiên tôi thấy việc trao đổi thẳng thắn trên diễn đàn rất hữu ích cho tất cả mọi người).
Không biết bác đã thử dùng Newton's method chưa?
Optimization problem tôi không rành lắm, nhưng from the first look, an intuitive move would be taking the gradient wrt v and solving it at zero. Nếu constraint không satisfied thì có lẽ phải dùng thêm singular value decomposition. Không biết bạn áp dụng cái này cho source localization problem hay gì?
Jah mới tìm thấy một link mô phỏng va chạm ở vocal folds, không biết là chính xác đến mức độ nào.
http://project.seas.gwu.edu/~fsagmae/larynx.html (http://project.seas.gwu.edu/%7Efsagmae/larynx.html)
Chào các bác, gần đây Jah thấy flash có thể hỗ trợ việc thu âm trực tiếp từ web, nhưng không biết là các actionscript có cho phép xử lý trực tiếp lên dữ liệu thô của âm thanh luôn không? Có bác nào đã thử nghiệm cái này chưa? Jah tính làm một số demo về speech processing trên flash, không biết là có khả thi không?
Cảm ơn các bác :)
Cảm ơn các bạn đã giúp đỡ về phương pháp và tôi sẽ thử các phương án xem sao, rất hi vọng sẽ tìm được cách giải quyết tốt.
Mấy hôm về Việt Nam, mà nhà nghèo quá nên không lên mạng được, nên có phần trả lời chậm trễ.
Xin trả lời bạn SSL rằng bài toán tôi đưa ra thuộc về một kĩ thuật SSL mới rất hứa hẹn dựa trên sparse nonnegative matrix factorization (S-NMF) - đặc biệt trong reverberant environment. Nhược điểm lớn nhất của phương pháp này là đòi hỏi công suất tính toán lớn. Vì vậy rất mong được sự hảo tâm giúp đỡ của mọi người.
Có một điều tôi hơi lạ là tại sao thread đang "rôm rả" lại tự nhiên "tắt ngóm" vì tôi nghĩ speech processing có nhiều vấn đề rất đáng bàn, vả lại thời buổi này đâu dễ kiếm bạn đồng chí hướng.
Tôi nghĩ chúng ta đâu cần bàn vấn đề gì to tát, cốt nêu ra vướng mắc trong nghiên cứu của mình để mọi người cùng giải quyết, trước hết phát huy tinh thần đoàn kết Việt Nam, sau đó tránh lặp lại sai lầm người khác đã đi.
Rất mong mọi người tiếp tục phát triển chủ đề để thread thêm sôi động.
Ủng hộ ý kiến bác pct1! :)
Speech processing topic này tính ra hơi rộng quá! Nên không biết có cách phân nhỏ ra để tiện theo dõi các chủ đề nhỏ hơn không nhỉ?
S-NMF approach của bác có phải nhằm giải quyết theo hướng eigenvalue decomposition, i.e., deconvolve source signal and channel's response? Tôi thấy work của nhóm Kellermann (blind adaptive MIMO filtering) và Benesty (AED) cũng cùng direction đó thì phải. Nhưng robustness theo Benesty thì vẫn kém SRP-PHAT in reverberant environments. Bác đã test thử S-NMF trên simulation or real data chưa? Nếu rồi thì T60 bác thử là bao nhiêu? Mong được trao đổi thêm.
DungDuc
10-09-2008, 09:45 AM
Nhân tiện cũng xin mọi người giúp đỡ giải quyết hộ bài toán optimization sau (bài toán này theo tôi được biết là khá phổ biến trong lĩnh vực machine learning):
\[
\begin{array}{l}
\arg \mathop {\min }\limits_{\bf{v}} \left\{ {\frac{1}{2}{\bf{v}}^T {\bf{Av}} + {\rm{b}}^T {\bf{v}}} \right\} \\
s.t.{\bf{v}} \ge {\bf{0}},{\bf{v}}[0] = 1,\sum\limits_{i = 0}^N {{\bf{v}}[i] = 1} \\
\end{array}
\]
Trong đó A là ma trận Toeplitz đối xứng, b, v là vector, N = số phần tử của vector v, thường có giá trị từ 200 đến 2000.
Với các tiêu chuẩn sau:
- Global convergence.
- Convergence rate càng nhanh càng tốt.
- Stable.
- Sparse (cái này có thể không cần thiết lắm, nhưng nó liên quan tới tiêu chuẩn 1).
Tôi đã thử một số thuật toán nhưng không an tâm lắm vì Convergence rate khá chậm và thỉnh thoảng không stable.
Xin cảm ơn mọi sự giúp đỡ và hợp tác.
Nếu các bạn thấy không tiện trao đổi qua diễn đàn thì có thể liên lạc với tôi theo email: "ptc1nmf@yahoo.com" (Tuy nhiên tôi thấy việc trao đổi thẳng thắn trên diễn đàn rất hữu ích cho tất cả mọi người).
Bác tham khảo bài toán Optimization trong Support Vector Machine (training) xem có gì hay không: Quadratic Programming, linear and box constraints
http://www.csie.ntu.edu.tw/~cjlin/papers/bottou_lin.pdf (http://www.csie.ntu.edu.tw/%7Ecjlin/papers/bottou_lin.pdf)
S-NMF approach của bác có phải nhằm giải quyết theo hướng eigenvalue decomposition, i.e., deconvolve source signal and channel's response? Tôi thấy work của nhóm Kellermann (blind adaptive MIMO filtering) và Benesty (AED) cũng cùng direction đó thì phải. Nhưng robustness theo Benesty thì vẫn kém SRP-PHAT in reverberant environments. Bác đã test thử S-NMF trên simulation or real data chưa? Nếu rồi thì T60 bác thử là bao nhiêu? Mong được trao đổi thêm.
Riêng nhận xét này của bác SSL cũng cho thấy bác không hổ danh với nick mà bác đã chọn. Đệ chắc tới 99.99% rằng huynh có rất nhiều kinh nghiệm trong SSL (xin xưng đệ vì quả thực mới nhập đạo trong thời gian gần đây) - rất mong huynh chỉ bảo thêm. Đệ xin gạch đầu dòng mấy ý cho dễ đọc:
- Đệ rất thích mấy cái ý tưởng kiểu AED hoặc Blind equalization vì nó đẹp về mặt toán học và ít hàm chứa yếu tố heuristic như PHAT. Nghĩa là nghiên cứu một mô hình có thể phát triển lên các mô hình mới, ví dụ dùng cho SSL cũng có thể dùng cho BSS. Dùng cho telecommunication lại có thể tái sử dụng cho speech processing (AED phát triển từ một mô hình của RF localization, trong RF không có kiểu weighting như PHAT).
- Đệ chưa được đọc bài của Kellerman nên không có comment.
- Theo đệ hiểu thì ý của Benesty là kém SRP-PHAT in reverberant and high noise level environments. Nó có hai lý do (theo thiển ý của đệ): AED có độ ổn định không cao (nghĩa là RIR phụ thuộc nhiều vào nhiễu - kém robustness đối với noise chứ không phải reverberation), hai là AED vốn được phát triển cho mô hình SIMO 2 channels (2 mics), vậy làm sao có thể cạnh tranh với một array > 6 mics trong mô hình PHAT. Sparse matrix methods có một ưu điểm là có thể dẫn tới Tikhonov Regularization (lý thuyết về cái này thì đệ cũng chưa thạo lắm).
- Do đệ mới vào nghề nên chỉ mới đủ thời gian viết mô phỏng đơn giản sau: nguồn âm: synthesis speech, phòng hình khối chữ nhật, một nguồn âm, một nguồn nhiễu correlated, 2 míc, không xét tới nguồn nhiễu uncorrelated (Mô hình này là có thể chấp nhận, ví dụ trong phòng họp kín với nguồn nhiễu là máy điều hòa nhiệt độ; trong thực tế uncorrelated noise thường ở level thấp - trừ môi trường như ở ngoài chợ Trời). Kết quả thí nghiệm như sau:
+ T60 = 600 ms. SNR = 5dB, với góc lệch dự đoán 2 % thì độ chính xác là >80%.
+ Dùng mô hình này để mô phỏng cho PHAT thì không thấy tốt như quảng cáo. Do đó đệ nghi ngờ mình lập trình chưa đúng (có bias) - Đệ dùng file của idiap, nếu huynh SSL có thể giúp đệ file PHAT tốt hơn thì đệ rất vui mừng.
+ Nếu đệ giảm SNR thì thay vì định vị nguồn âm, NMF method lại định vị (rất chính xác) nguồn nhiễu - cái này thì PHAT không làm được. Do đó đệ nảy sinh ý đồ dùng BSS kết hợp trong định vị nguồn âm và có trao đổi với bạn jah về cái này trong post ở trên.
Bác tham khảo bài toán Optimization trong Support Vector Machine (training) xem có gì hay không: Quadratic Programming, linear and box constraints
http://www.csie.ntu.edu.tw/~cjlin/papers/bottou_lin.pdf (http://www.csie.ntu.edu.tw/%7Ecjlin/papers/bottou_lin.pdf)
- Thực ra ngay Matlab cũng có tool để giải quyết quadratic programming nhưng cái khó của bài toán là các constraint và nó yêu cầu càng nhanh càng tốt. Trong simulation của tôi thì dùng tool có sẵn nhưng giải quyết constraint bằng brute-forte nên không smooth lắm. Rất cảm ơn bạn DungDuc cho link, tôi nghĩ nó rất có ích, quan trọng là ở điểm "box constraint".
- Đệ rất thích mấy cái ý tưởng kiểu AED hoặc Blind equalization vì nó đẹp về mặt toán học và ít hàm chứa yếu tố heuristic như PHAT. Nghĩa là nghiên cứu một mô hình có thể phát triển lên các mô hình mới, ví dụ dùng cho SSL cũng có thể dùng cho BSS. Dùng cho telecommunication lại có thể tái sử dụng cho speech processing (AED phát triển từ một mô hình của RF localization, trong RF không có kiểu weighting như PHAT).
Đúng như pct nói, AED/BSS thật sự là một solution đẹp và có nhiều ứng dụng, nhưng là 1 hard and open problem, chưa có một lời giải nào hoàn chỉnh cả. Cho nên còn rất nhiều đất để phát triển.
Theo đệ hiểu thì ý của Benesty là kém SRP-PHAT in reverberant and high noise level environments. Nó có hai lý do (theo thiển ý của đệ): AED có độ ổn định không cao (nghĩa là RIR phụ thuộc nhiều vào nhiễu - kém robustness đối với noise chứ không phải reverberation), hai là AED vốn được phát triển cho mô hình SIMO 2 channels (2 mics), vậy làm sao có thể cạnh tranh với một array > 6 mics trong mô hình PHAT. Sparse matrix methods có một ưu điểm là có thể dẫn tới Tikhonov Regularization (lý thuyết về cái này thì đệ cũng chưa thạo lắm).
Tôi không cho rằng SRP-PHAT robust in high-noise environments, thậm chí là ngược lại, PHAT is robust under reverberant conditions but performs very poorly under high noise conditions. Maximum-likelihood (ML) is the optimum in high noise (low T60) cases. Bạn có thể đọc thêm "A pitch-based approach to TDE of reverberant speech" by Michael Brandstein.
Ngoài ra, AED/BSS state-of-the-art vẫn chưa được ứng dụng practical in real-time as cross-correlation based approach. Nó đòi hỏi phải extract direct path out of the channel's impulse response, và trong môi trường thực tế (e.g., multiple sources, hence there are interferences among sources, and thus complicating the reverberations more) thì việc extract đó một cách hiệu quả không đơn giản và dễ dàng, trong khi SRP-PHAT thì implement tương đối đơn giản. Bạn có thể xem thêm review này: http://www.amiproject.org/pdf/SOTA-Localization-and-Tracking-Jan2006.pdf
Dùng mô hình này để mô phỏng cho PHAT thì không thấy tốt như quảng cáo. Do đó đệ nghi ngờ mình lập trình chưa đúng (có bias) - Đệ dùng file của idiap, nếu huynh SSL có thể giúp đệ file PHAT tốt hơn thì đệ rất vui mừng.
Nếu đệ giảm SNR thì thay vì định vị nguồn âm, NMF method lại định vị (rất chính xác) nguồn nhiễu - cái này thì PHAT không làm được
SRP-PHAT nếu chỉ dùng 2 mikes (tức là chỉ có 1 cross-correlation) thì không thể robust được. SRP-PHAT chỉ beneficial nếu sử dụng nhiều mikes. Bạn cần file recording hay là PHAT code? Nếu noise source is louder than signal source thì SRP-PHAT cũng sẽ detect noise source thôi.
Bản thân tôi rất thích AED/BSS approach vì nó là lời giải quá đẹp (nếu work), nên rất hy vọng được thấy S-NMF của bạn gặt hái được kết quả trong real conditions. Chúc bạn thành công.
Rất cảm ơn bài giảng của huynh SSL. Đệ thấy được mở mang rất nhiều. Đệ rất thích những kiểu tranh luận thẳng thắn như vậy.
Nếu huynh SSL có mã nguồn của PHAT, hay MLE cho đệ xin thì đệ rất cảm ơn.
Rất mong các luận giải và cao kiến của các huynh khác- về SSL và các vấn đề liên quan.
Xin chào các bác, có ai có quyển ebook này không? Có thể chia sẻ với Jah được không? Jah xin cảm ơn nhiều lắm :)
Microphone Array Signal Processing
Series: Springer Topics in Signal Processing (http://www.springer.com/series/8109) , Vol. 1
Benesty, Jacob, Chen, Jingdong, Huang, Yiteng
2008, X, 240 p. 39 illus., Hardcover
ISBN: 978-3-540-78611-5
http://www.springer.com/engineering/signals/book/978-3-540-78611-5
Chúc năm mới vui khoẻ và thành công!
titanic
23-01-2009, 06:42 PM
Xin chào các bác, có ai có quyển ebook này không? Có thể chia sẻ với Jah được không? Jah xin cảm ơn nhiều lắm :)
Microphone Array Signal Processing
Series: Springer Topics in Signal Processing (http://www.springer.com/series/8109) , Vol. 1
Benesty, Jacob, Chen, Jingdong, Huang, Yiteng
2008, X, 240 p. 39 illus., Hardcover
ISBN: 978-3-540-78611-5
http://www.springer.com/engineering/signals/book/978-3-540-78611-5
Chúc năm mới vui khoẻ và thành công!
Bác thử cái này xem
http://rapidshare.com/files/106307941/3540786112_Springer_-_Microphone.Array.Signal.Processing.Apr.2008.rar
Cảm ơn bác Titanic nhiều lắm! Chúc bác năm mới vui khoẻ và thành công! :)
thinhdtt
12-01-2010, 10:48 AM
Rất cám ơn các bác. Mấy bài nay rất hữu ích. Em đọc thông tin các trường mà mỏi mắt quá. Nhiều thật. Các bác cho em xin ý kiến là nếu em đang làm về speech recognition theo hướng emotion thì nên apply vào trường nào thì hợp lý nhất. Nếu được các anh cho em xin tên Prof. Em đang có ý định apply làm PhD. Em xin cám ơn các bác
dinhcongbang
12-01-2010, 11:04 AM
Rất cám ơn các bác. Mấy bài nay rất hữu ích. Em đọc thông tin các trường mà mỏi mắt quá. Nhiều thật. Các bác cho em xin ý kiến là nếu em đang làm về speech recognition theo hướng emotion thì nên apply vào trường nào thì hợp lý nhất. Nếu được các anh cho em xin tên Prof. Em đang có ý định apply làm PhD. Em xin cám ơn các bác
Bạn có thể bắt đầu từ đây Speech Research Group - Microsoft Research
(http://research.microsoft.com/en-us/groups/srg/#people)
Tìm xem những người đó học trường nào ra, thày của họ là ai, thày của thày là ai, trong những năm qua họ publish cùng với ai, họ publish ở những conferences nào và journals nào, những ai cite bài của họ, những người cite bài đang học ở đâu, ... Bạn có thể dùng scholar.google.com để tìm hiểu đại khái về citation và authors. Dùng google để tìm, chỉ nên hạn chế vào các website .edu (học về google search commands).
Sau một tuần quay lại đây làm report xem bạn tìm được cái gì.
ĐCB.
dinhcongbang
12-01-2010, 11:28 AM
Handbook of Speech Processing (http://www.4shared.com/file/194796452/8990bbcb/Handbook_of_Speech_Processing.html)
Những tài liệu kiểu như "handbook of..." hay "encyclopedia of..." cũng là một nguồn tốt để mình có cái nhìn tổng quan trong ngành, biết được ai là những cây đa cây đề, biết được những research topics nào thuộc phạm vi trong ngành. Trong tài liệu trên có "list of authors" với đầy đủ địa chỉ và nơi làm việc của họ.
ĐCB.
thinhdtt
12-01-2010, 12:49 PM
Handbook of Speech Processing (http://www.4shared.com/file/194796452/8990bbcb/Handbook_of_Speech_Processing.html)
Những tài liệu kiểu như "handbook of..." hay "encyclopedia of..." cũng là một nguồn tốt để mình có cái nhìn tổng quan trong ngành, biết được ai là những cây đa cây đề, biết được những research topics nào thuộc phạm vi trong ngành. Trong tài liệu trên có "list of authors" với đầy đủ địa chỉ và nơi làm việc của họ.
ĐCB.
Em cám ơn anh đã cho lời khuyên. Em sẽ xem theo hướng đó rồi có gì không hiểu lên hỏi tiếp các anh vậy
vBulletin® v3.8.3, Copyright ©2000-2010, Jelsoft Enterprises Ltd.