Trao đổi nghiên cứu: Speech processing

Discussion in 'Computer science & Electrical Engineering' started by jah, Aug 8, 2008.

  1. Tartan

    Tartan n-1 years in Tibet

    +++ Ý nghĩa của F0

    Các đặc trưng quan trọng nhất của ngôn điệu (prosody) là độ cao, độ dài, và độ to, tương ứng là các đại lượng tần số cơ bản F0, thời gian của âm tiết, âm vị D, và cường độ I. Ngôn điệu của lời nói liên kết chặt chẽ với khái niệm “ngữ điệu” (intonation). Có thể nói ngữ điệu là sự nâng cao hạ thấp của giọng nói trong câu. Tần số cơ bản F0 là đặc trưng chính của ngữ điệu. Ngữ điệu là một thành phần của ngôn điệu.

    Fujisaki là một mô hình định lượng dùng để mô hình hóa ngữ điệu. Mô hình Fujisaki hướng vào việc mô hình hóa quá trình sinh ra tần số cơ bản F0, giải thích về mặt vật lý học, sinh lý học quá trình sinh ra F0 và các tính chất của quá trình đó. Mô hình được áp dụng chủ yếu trong ứng dụng tổng hợp nhằm xây dựng phần ngữ điệu trong tiếng nói tổng hợp.

    Mô hình Fujisaki có nền tảng vật lý học và sinh lý học của quá trình sinh ra F0. Thêm vào đó là mô hình cho phép sinh ra được đường nét F0 bất kỳ, cho phép xác định số lượng của các sự kiện ngữ điệu. Các sự kiện ngữ điệu được gắn với các mốc thời gian rõ ràng. Hơn nữa việc tổng hợp F0 là dễ dàng. Đường nét F0 liên tục được phân tích thành các phần đơn vị ngữ điệu rời rạc (các lệnh) với biên độ liên tục. Ngoài ra, đường nét F0 có thể mô hình hóa với độ chính xác cao với một số lượng nhỏ các tham số. Cuối cùng trong quá trình mô hình hóa, đường nét F0 sinh ra được làm trơn và bỏ đi những biến đổi rất nhỏ về ngôn điệu. Mô hình Fujisaki sinh ra đường nét F0 đã được làm trơn nên tiếng nói tổng hợp sử dụng mô hình Fujisaki nghe mềm mại và thật hơn so với các phương pháp mô hình hóa đường nét F0 khác. Tuy nhiên việc xác định các tham số của mô hình bằng phương pháp phân tích bằng tổng hợp (Analysis-by-Synthesis) đòi hỏi người phân tích phải có kinh nghiệm và kiên trì.

    +++ Ngoài lề

    Btw, cụ Fujisaki giờ gần 80 roài, hình như đang ở Uni of Tokyo làm giáo sư danh dự. Cụ Ki cũng thuộc loại trưởng lão cái bang 9 túi trong speech synthesis. Hiện giờ mình không làm speech synthesis nhưng hay hóng hớt nghe lỏm hội speech tán phét.



     
  2. jah

    jah Thèm thuồng



    Không biết bác đã thử dùng Newton's method chưa?
     
  3. SSL

    SSL Thèm thuồng

    Optimization problem tôi không rành lắm, nhưng from the first look, an intuitive move would be taking the gradient wrt v and solving it at zero. Nếu constraint không satisfied thì có lẽ phải dùng thêm singular value decomposition. Không biết bạn áp dụng cái này cho source localization problem hay gì?
     
  4. jah

    jah Thèm thuồng

  5. jah

    jah Thèm thuồng

    flash

    Chào các bác, gần đây Jah thấy flash có thể hỗ trợ việc thu âm trực tiếp từ web, nhưng không biết là các actionscript có cho phép xử lý trực tiếp lên dữ liệu thô của âm thanh luôn không? Có bác nào đã thử nghiệm cái này chưa? Jah tính làm một số demo về speech processing trên flash, không biết là có khả thi không?
    Cảm ơn các bác :)
     
  6. ptc1

    ptc1 Thèm thuồng

    Cảm ơn các bạn đã giúp đỡ về phương pháp và tôi sẽ thử các phương án xem sao, rất hi vọng sẽ tìm được cách giải quyết tốt.
    Mấy hôm về Việt Nam, mà nhà nghèo quá nên không lên mạng được, nên có phần trả lời chậm trễ.
    Xin trả lời bạn SSL rằng bài toán tôi đưa ra thuộc về một kĩ thuật SSL mới rất hứa hẹn dựa trên sparse nonnegative matrix factorization (S-NMF) - đặc biệt trong reverberant environment. Nhược điểm lớn nhất của phương pháp này là đòi hỏi công suất tính toán lớn. Vì vậy rất mong được sự hảo tâm giúp đỡ của mọi người.
    Có một điều tôi hơi lạ là tại sao thread đang "rôm rả" lại tự nhiên "tắt ngóm" vì tôi nghĩ speech processing có nhiều vấn đề rất đáng bàn, vả lại thời buổi này đâu dễ kiếm bạn đồng chí hướng.
    Tôi nghĩ chúng ta đâu cần bàn vấn đề gì to tát, cốt nêu ra vướng mắc trong nghiên cứu của mình để mọi người cùng giải quyết, trước hết phát huy tinh thần đoàn kết Việt Nam, sau đó tránh lặp lại sai lầm người khác đã đi.
    Rất mong mọi người tiếp tục phát triển chủ đề để thread thêm sôi động.
     
  7. jah

    jah Thèm thuồng

    Ủng hộ ý kiến bác pct1! :)
    Speech processing topic này tính ra hơi rộng quá! Nên không biết có cách phân nhỏ ra để tiện theo dõi các chủ đề nhỏ hơn không nhỉ?
     
  8. SSL

    SSL Thèm thuồng

    S-NMF approach của bác có phải nhằm giải quyết theo hướng eigenvalue decomposition, i.e., deconvolve source signal and channel's response? Tôi thấy work của nhóm Kellermann (blind adaptive MIMO filtering) và Benesty (AED) cũng cùng direction đó thì phải. Nhưng robustness theo Benesty thì vẫn kém SRP-PHAT in reverberant environments. Bác đã test thử S-NMF trên simulation or real data chưa? Nếu rồi thì T60 bác thử là bao nhiêu? Mong được trao đổi thêm.
     
  9. DungDuc

    DungDuc Thèm thuồng



    Bác tham khảo bài toán Optimization trong Support Vector Machine (training) xem có gì hay không: Quadratic Programming, linear and box constraints

    http://www.csie.ntu.edu.tw/~cjlin/papers/bottou_lin.pdf
     
  10. ptc1

    ptc1 Thèm thuồng

    Riêng nhận xét này của bác SSL cũng cho thấy bác không hổ danh với nick mà bác đã chọn. Đệ chắc tới 99.99% rằng huynh có rất nhiều kinh nghiệm trong SSL (xin xưng đệ vì quả thực mới nhập đạo trong thời gian gần đây) - rất mong huynh chỉ bảo thêm. Đệ xin gạch đầu dòng mấy ý cho dễ đọc:
    - Đệ rất thích mấy cái ý tưởng kiểu AED hoặc Blind equalization vì nó đẹp về mặt toán học và ít hàm chứa yếu tố heuristic như PHAT. Nghĩa là nghiên cứu một mô hình có thể phát triển lên các mô hình mới, ví dụ dùng cho SSL cũng có thể dùng cho BSS. Dùng cho telecommunication lại có thể tái sử dụng cho speech processing (AED phát triển từ một mô hình của RF localization, trong RF không có kiểu weighting như PHAT).
    - Đệ chưa được đọc bài của Kellerman nên không có comment.
    - Theo đệ hiểu thì ý của Benesty là kém SRP-PHAT in reverberant and high noise level environments. Nó có hai lý do (theo thiển ý của đệ): AED có độ ổn định không cao (nghĩa là RIR phụ thuộc nhiều vào nhiễu - kém robustness đối với noise chứ không phải reverberation), hai là AED vốn được phát triển cho mô hình SIMO 2 channels (2 mics), vậy làm sao có thể cạnh tranh với một array > 6 mics trong mô hình PHAT. Sparse matrix methods có một ưu điểm là có thể dẫn tới Tikhonov Regularization (lý thuyết về cái này thì đệ cũng chưa thạo lắm).
    - Do đệ mới vào nghề nên chỉ mới đủ thời gian viết mô phỏng đơn giản sau: nguồn âm: synthesis speech, phòng hình khối chữ nhật, một nguồn âm, một nguồn nhiễu correlated, 2 míc, không xét tới nguồn nhiễu uncorrelated (Mô hình này là có thể chấp nhận, ví dụ trong phòng họp kín với nguồn nhiễu là máy điều hòa nhiệt độ; trong thực tế uncorrelated noise thường ở level thấp - trừ môi trường như ở ngoài chợ Trời). Kết quả thí nghiệm như sau:
    + T60 = 600 ms. SNR = 5dB, với góc lệch dự đoán 2 % thì độ chính xác là >80%.
    + Dùng mô hình này để mô phỏng cho PHAT thì không thấy tốt như quảng cáo. Do đó đệ nghi ngờ mình lập trình chưa đúng (có bias) - Đệ dùng file của idiap, nếu huynh SSL có thể giúp đệ file PHAT tốt hơn thì đệ rất vui mừng.
    + Nếu đệ giảm SNR thì thay vì định vị nguồn âm, NMF method lại định vị (rất chính xác) nguồn nhiễu - cái này thì PHAT không làm được. Do đó đệ nảy sinh ý đồ dùng BSS kết hợp trong định vị nguồn âm và có trao đổi với bạn jah về cái này trong post ở trên.
     
  11. ptc1

    ptc1 Thèm thuồng

    - Thực ra ngay Matlab cũng có tool để giải quyết quadratic programming nhưng cái khó của bài toán là các constraint và nó yêu cầu càng nhanh càng tốt. Trong simulation của tôi thì dùng tool có sẵn nhưng giải quyết constraint bằng brute-forte nên không smooth lắm. Rất cảm ơn bạn DungDuc cho link, tôi nghĩ nó rất có ích, quan trọng là ở điểm "box constraint".
     
  12. SSL

    SSL Thèm thuồng

    Đúng như pct nói, AED/BSS thật sự là một solution đẹp và có nhiều ứng dụng, nhưng là 1 hard and open problem, chưa có một lời giải nào hoàn chỉnh cả. Cho nên còn rất nhiều đất để phát triển.
    Tôi không cho rằng SRP-PHAT robust in high-noise environments, thậm chí là ngược lại, PHAT is robust under reverberant conditions but performs very poorly under high noise conditions. Maximum-likelihood (ML) is the optimum in high noise (low T60) cases. Bạn có thể đọc thêm "A pitch-based approach to TDE of reverberant speech" by Michael Brandstein.
    Ngoài ra, AED/BSS state-of-the-art vẫn chưa được ứng dụng practical in real-time as cross-correlation based approach. Nó đòi hỏi phải extract direct path out of the channel's impulse response, và trong môi trường thực tế (e.g., multiple sources, hence there are interferences among sources, and thus complicating the reverberations more) thì việc extract đó một cách hiệu quả không đơn giản và dễ dàng, trong khi SRP-PHAT thì implement tương đối đơn giản. Bạn có thể xem thêm review này: http://www.amiproject.org/pdf/SOTA-Localization-and-Tracking-Jan2006.pdf
    SRP-PHAT nếu chỉ dùng 2 mikes (tức là chỉ có 1 cross-correlation) thì không thể robust được. SRP-PHAT chỉ beneficial nếu sử dụng nhiều mikes. Bạn cần file recording hay là PHAT code? Nếu noise source is louder than signal source thì SRP-PHAT cũng sẽ detect noise source thôi.
    Bản thân tôi rất thích AED/BSS approach vì nó là lời giải quá đẹp (nếu work), nên rất hy vọng được thấy S-NMF của bạn gặt hái được kết quả trong real conditions. Chúc bạn thành công.
     
    jah likes this.
  13. ptc1

    ptc1 Thèm thuồng

    Rất cảm ơn bài giảng của huynh SSL. Đệ thấy được mở mang rất nhiều. Đệ rất thích những kiểu tranh luận thẳng thắn như vậy.
    Nếu huynh SSL có mã nguồn của PHAT, hay MLE cho đệ xin thì đệ rất cảm ơn.
    Rất mong các luận giải và cao kiến của các huynh khác- về SSL và các vấn đề liên quan.
     
    jah likes this.
  14. jah

    jah Thèm thuồng

  15. titanic

    titanic Thèm thuồng


    Bác thử cái này xem
    http://rapidshare.com/files/1063079...crophone.Array.Signal.Processing.Apr.2008.rar
     
    softwind and jah like this.
  16. jah

    jah Thèm thuồng

    Cảm ơn bác Titanic nhiều lắm! Chúc bác năm mới vui khoẻ và thành công! :)
     
  17. thinhdt

    thinhdt Viên mãn

    Rất cám ơn các bác. Mấy bài nay rất hữu ích. Em đọc thông tin các trường mà mỏi mắt quá. Nhiều thật. Các bác cho em xin ý kiến là nếu em đang làm về speech recognition theo hướng emotion thì nên apply vào trường nào thì hợp lý nhất. Nếu được các anh cho em xin tên Prof. Em đang có ý định apply làm PhD. Em xin cám ơn các bác
     
  18. dinhcongbang

    dinhcongbang Bạn của mọi người

    Bạn có thể bắt đầu từ đây Speech Research Group - Microsoft Research


    Tìm xem những người đó học trường nào ra, thày của họ là ai, thày của thày là ai, trong những năm qua họ publish cùng với ai, họ publish ở những conferences nào và journals nào, những ai cite bài của họ, những người cite bài đang học ở đâu, ... Bạn có thể dùng scholar.google.com để tìm hiểu đại khái về citation và authors. Dùng google để tìm, chỉ nên hạn chế vào các website .edu (học về google search commands).

    Sau một tuần quay lại đây làm report xem bạn tìm được cái gì.

    ĐCB.
     
    thinhdt likes this.
  19. dinhcongbang

    dinhcongbang Bạn của mọi người

    Handbook of Speech Processing

    Handbook of Speech Processing

    Những tài liệu kiểu như "handbook of..." hay "encyclopedia of..." cũng là một nguồn tốt để mình có cái nhìn tổng quan trong ngành, biết được ai là những cây đa cây đề, biết được những research topics nào thuộc phạm vi trong ngành. Trong tài liệu trên có "list of authors" với đầy đủ địa chỉ và nơi làm việc của họ.

    ĐCB.
     
    thinhdt likes this.
  20. thinhdt

    thinhdt Viên mãn

    Em cám ơn anh đã cho lời khuyên. Em sẽ xem theo hướng đó rồi có gì không hiểu lên hỏi tiếp các anh vậy
     

Share This Page