Trao đổi nghiên cứu: Speech processing

Discussion in 'Computer science & Electrical Engineering' started by jah, Aug 8, 2008.

  1. jah

    jah Thèm thuồng

    Chào cả nhà, em đang làm về cái này, không biết các bác có ai cùng làm về lĩnh vực này không? Hy vọng là có và em muốn cùng nhau trao đổi để phát triển hướng này lên ah :)
     
  2. phovn

    phovn Viên mãn

    Tôi lại làm về image and video processing. Cũng mới tập tành thôi. Có ai làm về lĩnh vực này ko nhỉ.
     
  3. npbinh

    npbinh Thèm thuồng

    hi all,

    O day cung co mot so anh em lam ve speech signal processing. Toi lam ve spectral modeling and speech modification. Ban co the post cac van de len de cung trao doi.

    npbinh
     
  4. SSL

    SSL Thèm thuồng

    Xin nối tiếp anh Bình thread này, tôi làm về source localization, speech enhancement, microphone arrays. Mong được trao đổi thêm.
     
    hitman17528 likes this.
  5. jah

    jah Thèm thuồng

    Có một vấn đề mà Jah đang thắc mắc như sau:
    Nguồn năng lượng (thể hiện qua áp suất không khí) của hệ thống phát âm của con người là từ nguồn hơi từ phổi (một số sách theo quan điểm này) hay thực chất là từ va chạm của bộ vocal cords?
    Hỏi một các khác: Giả sử 2 cơ thanh quản tự động va đập vào nhau, thì có phát ra được tiếng nói như bình thường không?

    Có bác nào đã tìm hiểu về cơ chế này hay có tài liệu nghiên cứu thì chia sẻ nha :)
    Jah xin cảm ơn trước :)
     
  6. jah

    jah Thèm thuồng

    Theo như thông tin trong cái link này http://www.voicemedicine.com/normal_voice_functioning.htm thì nếu vocal folds tự rung được, thì vẫn phát âm bình thường được :)

    Như vậy, speech mà chúng ta nghe được là sự kết hợp của 2 nguồn:
    1. áp suất từ độ rung của vocal fold
    2. áp suất từ luồn hơi từ phổi bị thay đổi

    Như vậy các cái model cho speech hiện tại dùng có đúng như vậy không nhỉ?
    Có bác nào biết rồi không? Jah tìm hiểu tiếp đây! :)
     
  7. SSL

    SSL Thèm thuồng

    Âm thanh được tạo ra bởi 2 giai đoạn:
    Excitation: ví dụ như sự rung động của vocal cords.
    Vocal tract: hình dạng, sự đóng mở, giãn nở của vocal tract quyết định âm thanh gì được tạo thành.
    Vocal tract model thì có rất nhiều, cơ bản nhất có lẽ là hệ thống piecewise cylindrical tubes. Bạn có thể simulate các vowels đơn giản bằng cách excite = pulse train, set different values for the diameters of the tubes.
    Tôi không làm về speech synthesis nên không trả lời thấu đáo được, nhưng basic idea thì là như vậy. Bạn làm về physiological perspective của speech hay là signal processing/ speech synthesis?
     
  8. npbinh

    npbinh Thèm thuồng

    Tôi chỉ có một comment: vocal fold rung là do đâu?
    Các mô hình hiện nay đều chỉ gần đúng, cố gắng mô phỏng bộ máy cấu âm của con người.

    npbinh
     
  9. jah

    jah Thèm thuồng

    Glottal Excitation Model có lẻ là hợp lý nhất đối với Jah cho tới thời điểm này (http://ccrma.stanford.edu/~jos/mus423h/Glottal_Excitation_Modeling_Singing.html)

    Nhưng mà nói chung cũng chưa được thoải mái lắm vì phần toán học mô tả chưa được rõ ràng. Jah tìm hiểu tiếp đây!

    Có ai có kinh nghiệm về phương trình sóng không (y'' + y = f(t)), những kiến thức liên quan và các bài giảng?
     
  10. jah

    jah Thèm thuồng

    @SSL: Jah làm về speech processing, SSL đang làm cụ thể về hướng nào vậy?

    @npbinh: ý của bác chắc là muốn nói sự rung của vocal fold là từ áp suất bị nén bởi 2 vocal folds đóng lại, phải vậy ko?
    Cái Jah thắc mắc là nếu có thể cấy ghép 1 máy phát ra 1 tần số rung như giây đàn ở ngay vocal fold, thì tiếng nói phát ra có bình thường hay không? TH1: Nếu không bình thường, nghĩa là thiếu cái gì đó
    TH2: nếu bình thường, nghĩa là sự thay đổi áp suất luồng hơi do việc đống mở của vocalfolds là ko có tác động vào speech.
    (Jah theo giả thuyết TH1)
     
  11. jah

    jah Thèm thuồng

    @SSL: bác viết phía trên là có làm về source localization, vậy thì trong đó có giải quyết bài toán có nhiều hơn 1 nguồn âm tới microphone arrays ko?
     
  12. Tartan

    Tartan n-1 years in Tibet

    Jah, thử nhòm qua Fujisaki model xem có giúp ích gì được ko.


    References

    http://public.tfh-berlin.de/~mixdorff/thesis/fujisaki.html
    http://www.essex.ac.uk/web-sls/papers/02-01/web-sls-07.htm

     
  13. SSL

    SSL Thèm thuồng

    In general, source localization hiện tại giải quyết 3 vấn đề:
    - Real-time implementation of locating a single source in a noisy environment.
    - Robust methods for locating multiple sources (cái này là cái jah hỏi).
    - Moving source tracking.

    Nếu jah có làm về cái này thì trao đổi thêm.
     
  14. npbinh

    npbinh Thèm thuồng

    Cái mô hình này là một trong các mô hình phổ biến của speech signal processing. Như SSL đã nói, có rất nhiều mô hình. Mỗi mô hình có một mục đích, ưu nhược điểm khác nhau. Làm về speech processing thì vẫn rất rộng, Jah có thể cụ thể hóa hơn được không? Anh em biết để còn có thể trao đổi thêm.
     
  15. ptc1

    ptc1 Thèm thuồng

    Xin chào các bạn, tôi cũng làm về SSL. Tôi nghiên cứu về vấn đề này chưa lâu nên không biết nhiều, tuy nhiên xin mạn phép bổ xung một số subject được quan tâm khác của SSL:
    - Implementation of SSL in a reverberant or noisy+reverberant environment. Theo tôi được biết thì vấn đề này còn chưa được giải quyết tốt, trong khi đã có khá nhiều thuật toán giải quyết (tương đối) thành công vấn đề SSL in noisy condition (batch or on-line algorithm). Cũng cần chú ý là có khá nhiều điểm khác biệt giữa noisy và reverberant environment.
    - Combination of sound source localization and blind sound source seperation.
    Ngoài ra còn một số hướng nghiên cứu khác về SSL (chẳng hạn SSL sử dụng đặc tính tần số của speech), nhưng tôi chưa tìm hiểu về các vấn đề này nên không dám tự tiện phát biểu.
    Rất mong được học hỏi.
     
  16. jah

    jah Thèm thuồng

    Mô hình của Fujisaki cũng khá thú vị. Theo Jah hiểu thì dùng một hàm tuyến tính để dự đoán xấp xỉ đường f0 --> rút ra thông tin về itonation --> train cho TTS system. (Nhưng ma Jah chưa hiểu hết ý nghĩa của cái hàm ln(f0(t)) :) )

    Thanks tartan, sắp tới mà làm vè tts thì sẽ nghiên cứu kỹ hơn mô hình này. Tartan đang làm về TTS ah?
     
  17. jah

    jah Thèm thuồng

    Xuất phát điểm của Jah là Speech Recognition, hiện tại thì lại là Speech Enhancement. Jah đang để vài tháng tìm hiểu tự do về Speech Processing để quyết định hướng đi tiếp. Một trong hai hướng Jah đang quan tâm là:
    1. Speech Synthesis
    2. Microphone Arrays

    Và đích nhắm tới vẫn là ASR system
     
  18. jah

    jah Thèm thuồng

    "blind sound source seperation" Jah cũng rất quan tâm đến bài toán này. Mong ptc1 chia sẻ thêm kinh nghiệm :)
     
  19. ptc1

    ptc1 Thèm thuồng

    Xin nhắc lại là tôi đang nghiên cứu về SSL; qua tìm hiểu thì tôi thấy giữa BSS và SSL có liên quan mật thiết với nhau - đặc biệt trong môi trường nhiều tiếng vọng (Ý nghĩa của nó là ở chỗ: sử dụng beamforming để tập trung vào nguồn âm mà ta quan tâm rồi "khuếch đại" và tách âm). Với "công lực" hiện tại của mình thì tôi chưa dám tấn công vấn đề lý thuyết về BSS for speech, vì nó liên quan cùng lúc tới vài subjects rất khó trong CS và EE:
    - Adaptive Signal Processing.
    - Neural Networks.
    - Signal and System Decomposition (ICA, SCA, NMF, etc.).
    - Signal analysis in Frequency Domain.
    - Optimization for large scale data sét (Convex optimization, dynamics programming, etc.)
    Chưa kể một đống các thứ linh tinh như linear regression, convex analysis, etc.
    Hiện có rất nhiều cao thủ trong các lĩnh vực machine learning và Adaptive DSP có nghiên cứu về BSS for Speech (Ví dụ: Sam Roweis, Geoffrey Hinton, Daniel Lee, Cichocki, Amari, etc.- Nếu bạn nào làm về Machine learning hoặc Pattern Recognition chắc cũng đều biết tên). Tuy nhiên, theo tôi biết thì họ cũng chưa thành công lắm.
    Về vấn đề speech enhancement và blind source seperation thì tôi có đọc các cuốn sách sau và thấy chúng đều rất hay:
    - Microphone Array Signal Processing (J.Benesty, et al. - Springer 2008)
    - Speech Enhancement (J. Benesty, et al.- Springer 2005)
    - Handbook of Speech Processing (Many top authors in Speech Proc. - Springer 2008).
    - Adaptive Blind Signal and Image Processing (Cichocki, Amari - Wiley 2002).
    Ngoài ra một số sách về RF localization trong Telecommunication cũng khá có ích với SSL.
    Rất mong mọi người bổ sung thêm các tựa sách khác.

    Nhân tiện cũng xin mọi người giúp đỡ giải quyết hộ bài toán optimization sau (bài toán này theo tôi được biết là khá phổ biến trong lĩnh vực machine learning):
    [LATEX]
    \[
    \begin{array}{l}
    \arg \mathop {\min }\limits_{\bf{v}} \left\{ {\frac{1}{2}{\bf{v}}^T {\bf{Av}} + {\rm{b}}^T {\bf{v}}} \right\} \\
    s.t.{\bf{v}} \ge {\bf{0}},{\bf{v}}[0] = 1,\sum\limits_{i = 0}^N {{\bf{v}} = 1} \\
    \end{array}
    \]
    [/LATEX]
    Trong đó A là ma trận Toeplitz đối xứng, b, v là vector, N = số phần tử của vector v, thường có giá trị từ 200 đến 2000.
    Với các tiêu chuẩn sau:
    - Global convergence.
    - Convergence rate càng nhanh càng tốt.
    - Stable.
    - Sparse (cái này có thể không cần thiết lắm, nhưng nó liên quan tới tiêu chuẩn 1).
    Tôi đã thử một số thuật toán nhưng không an tâm lắm vì Convergence rate khá chậm và thỉnh thoảng không stable.
    Xin cảm ơn mọi sự giúp đỡ và hợp tác.
    Nếu các bạn thấy không tiện trao đổi qua diễn đàn thì có thể liên lạc với tôi theo email: "ptc1nmf@yahoo.com" (Tuy nhiên tôi thấy việc trao đổi thẳng thắn trên diễn đàn rất hữu ích cho tất cả mọi người).
     
  20. SSL

    SSL Thèm thuồng

    Noisy environment gồm cả reverberant noise (correlated) and background noise (uncorrelated). Đối với single source thì đã có tương đối nhiều solution tốt (SRP-PHAT, inverse-mapping of time-delays, adaptive eigenvalue decomposition, etc.). Multiple-source localization thì vẫn chưa có nhiều robust solutions, thường chỉ giới hạn ở 3, 4 sources và in a relatively good noise condition (reverberations + background noise).
    BSS thì tôi thấy nhóm của Kellerman ở Germany giải quyết tương đối tốt convolutive BSS (which is more realistic than linear BSS). Và họ cũng kết hợp cả BSS vào multiple-source localization (de-reverberate room's impulse response to estimate the direct paths, which is a very hard problem). Ngoài ra một vài nhóm ở Japan, France cũng tương đối active về BSS. Ngoài ra BSS cũng có thể kết hợp với beamforming (e.g., null-steering BF to alternatively block one source at a time) để ứng dụng cho speech enhancement nhưng thường thì tôi chỉ thấy mới test trong linear mixtures only, not convolutive.
     

Share This Page