Thảo luận: Computer Vision & Machine Learning

Discussion in 'Computer science & Electrical Engineering' started by cuchuoi, Jul 12, 2008.

  1. goahead

    goahead Thèm thuồng

    Có lẽ tớ sẽ tổ chức một buổi nói chuyện về 3D, ko biết hai bác titanic, arises và các bác khác có hưởng ứng ko thì chúng ta làm một buổi tán phét cho vui nhỉ. Ngoài vấn đề về tài chính thì một cái ứng dụng như thế này tớ nghĩ ko có gì là khó khi kết hợp lại các phders ớ đây cả. Sau khi làm demo thực hiện ý tưởng như cậu này, tớ nghĩ vấn đề tài chính sẽ dễ dàng hơn, sao chúng ta ko thử nhỉ?

    Còn đây là câu trả lời tớ tìm được trên site của tác giả.

    The SixthSense prototype is comprised of a pocket projector, a mirror and a camera. The hardware components are coupled in a pendant like mobile wearable device. Both the projector and the camera are connected to the mobile computing device in the user’s pocket. The projector projects visual information enabling surfaces, walls and physical objects around us to be used as interfaces; while the camera recognizes and tracks user's hand gestures and physical objects using computer-vision based techniques. The software program processes the video stream data captured by the camera and tracks the locations of the colored markers (visual tracking fiducials) at the tip of the user’s fingers using simple computer-vision techniques. The movements and arrangements of these fiducials are interpreted into gestures that act as interaction instructions for the projected application interfaces. The maximum number of tracked fingers is only constrained by the number of unique fiducials, thus SixthSense also supports multi-touch and multi-user interaction.

    s i x t h s e n s e - a wearable gestural interface (MIT Media Lab)
     
    Last edited: Apr 5, 2009
    KentRay, titanic and aries like this.
  2. aalborg

    aalborg Thức Trong Giấc Ngủ

    Quả demo này đúng là khá ấn tượng.
    Tuy nhiên về mặt
    - kỹ thuật của computer vision thì theo mình đoán cũng không có gì qua đặc biệt, nó có vẻ chỉ là pattern recognition, giống như trò Robot Soccer của Firacup thôi (và có thể còn dễ hơn):
    YouTube - 2002 Middle League MiroSot (Highlight)

    - và giải thuật theo mình đoán thì cũng không kho hơn cái multi-touch trackpad của Apple Macbook. So với độ phức tạp thì có khi không bằng cái Firacup kia vì không cần xử lý nhiêu thông tin ở mức real-time như vậy.

    YouTube - Apple MacBook's Multi-Touch Trackpad


    Có lẽ điểm hay nhất của hệ thống sixthsense này là chỉ ra khả năng tích hợp và nâng cấp một công nghệ mà gần với cuộc sống chúng ta nhất, Mobile Phone :) và hơn nữa, nó đánh trúng tâm lý đại chúng về một công nghệ tích hợp đa tính năng cho các thiết bị portable.

    Có bác nào chuyên gia về Computer Vision cho thêm ý kiến đi
     
    Last edited: Apr 5, 2009
    aries and goahead like this.
  3. goahead

    goahead Thèm thuồng

    Cái robot cup của bác aalborg trông vui mắt nhỉ, nhưng nếu tớ ko nhầm thì mấy con robot này control qua wifi thì fai vì trong video tớ ko nhìn thấy cái camera nào trên mấy con robot này, ngược lại tớ thấy một cái antenna nho nhỏ cắm trên thân của mấy con robot. Chờ comments của các bác.

    Về cái application của MIT thì nó tích hợp rất nhiều thứ multi touch gì đó chỉ là một trên ứng dụng quay số điẹn thoại thôi, nếu các bác chú ý thì có một doạn nó chỉ ra một cu là MIT student, chứng tỏ là nó có dùng face recognition, một đoạn nó vào hàng sách, nó truy đọc title của book và đưa ra ranking cộng thêm comments về cuốn sách chứng tỏ nó có dùng text detection and recognition, hoặc là cái đoạn nó đọc cái fly ticket cũng thế. Nói chung về mặt research thì đoạn demo đó ko nói lên nhiều điều nhưng về mặt ứng dụng thì tuyệt vời, bằng chứng là demo đó được truyền hình và báo chí đưa tin rất nhiều.

    Vietphders nghĩ thê nào nhỉ? ;;)
     
  4. aalborg

    aalborg Thức Trong Giấc Ngủ

    Bác nhân xét đúng 50%, tuy nhiên nó dùng overhead camera (treo trên đỉnh đầu nên chắc bác không thấy đấy) để nhân dạng và phân loại robots cũng như track hướng chuyển động của robots (motion). Bác có thể thấy tại sao mỗi con robot nó được dán một pattern riêng. Còn việc cac chú robots này di chuyển thế nào thì nó dùng RF để gửi tín hiệu điều khiển con robot đó theo một đường đi (trajectory) nào đó, đúng như bác nói. Với trò này, cái khó không nằm ở pattern recognition vì điều đó khá đơn giản khi dùng overhead camera và dùng vài cái hough transformation gì gì đấy là xong. Cái khó (và hay) của nó là cách bố trí đội hình (game stratergy), ước lược và tính toán (realtime estimation & computation) để có thể chống lại đối phương. Có rất nhiều vấn đề cần phải đưa vào tính toán để có thể xuất ra được những đường đi và hoạt động cho các chú robot này.


    Như tớ viết ở trên là tớ đoán về Kỹ Thuật và Giải Thuật (tớ không phải dân CV chính hiệu :)), có tính học thuật một chút, thì thấy cái trò này đúng là không có nhiều ý nghĩa khoa học lắm. Tớ đưa ra một vài ví dụ trực quan để thấy rằng có nhiều trò khác còn khó hơn và hấp dẫn hơn nhiều.
    Có bác nào có kinh nghiệm nhiều về lĩnh vực CV thì chia sẻ thêm xem có cái gì đang thật sự hot trong ngành này không. Ở châu Âu, các lĩnh vực liên quan đến ứng dụng của Image processing and Computer Vision khá dễ khi kiếm funding, so với các ngành khác (kinh nghiệm cá nhân, không có bằng chứng :)) )
     
    Last edited: Apr 5, 2009
    KentRay and goahead like this.
  5. goahead

    goahead Thèm thuồng

    Tớ nghĩ nên them mục Robotics trong mục này vì thấy có nhiều bác làm về robot.

    Tớ muốn đọc thử cái game stratergy mà bác albo nói, cái này nó có liên quan gì đến Multiagent Cooperation ko nhỉ? nếu bác có cái paper nào hay thì gửi giùm tớ nhé.

    Trong đoạn video tớ thấy có một đoạn có chú tiền đạo đối phương dẫn bóng xuống, hai chú robots bên kia liên dàn thành hàng ngang đứng chắn bóng rất chuyên nghiệp. Nhưng sau đó đoạn video này ko quay cảnh tiếp theo của hai chú robot này nên tớ ko biết ngoài chức năng này hai chú robot đó còn biết làm gì nữa ko, thì sẽ dễ đoán chiến thuật của họ hơn.
     
  6. aalborg

    aalborg Thức Trong Giấc Ngủ

    Theo kiến thức mọn tớ biết được thì không nên gộp Robotics và Computer Vision làm một vì bản thân mỗi cái có những khu vực nghiên cứu riêng rẽ.
    Nói chính xác hơn, Robotics thì mượn (hoặc kế thừa) nhiều kiến thức của Computer Vision để giải quyết bài toán sensing hay detection thôi, còn những cái thành phần khác của robot thì chẳng dính dáng gì nên coi như khác nhau.

    Cái vụ game stratergy thì tới ít thấy chúng nó viết thành paper, có lẽ là giấu bài :), nhưng về phần control archiecture thì có nhiều paper đấy. Đúng là chúng nó nghiên cứu dưới dạng multi-agents nhưng thường là dưới dạng centralized schemes. Bác chịu khó google vậy nhé vì tớ thôi không quan tâm đến centralization từ lâu nên rồi nên chẳng biết paper nào hay nữa. Bác thử vào fira.net để biết lịch chúng nó thi đấu, mò xem thằng nào thắng, từ đó tìm cách search xem nó đang quan tâm và public cái gì không. Cách khác, là vào website của bác Fira.net founder thì chắc có nhiều papers về mảng này. International_Journal - Robot Intelligence Technology Lab.

    Muốn xem thêm các video khác thì bác search thêm hoặc vào fira.net ấy nhé. Theo mình, cái vụ stratergy thì chắc khá giống chiến thuật bóng đá thật, nhưng kỹ thuật sút bóng hay dê dắt thì mỗi đội nó có cách thức riêng.
     
    Last edited: Apr 5, 2009
    goahead likes this.
  7. goahead

    goahead Thèm thuồng

    Đúng là tớ cũng hơi tò mò khi nghe bác nói về game theory :)). Nếu bác alborg ko giải thích kỹ thì tớ cứ nghĩ mấy cái bọn football club sao nó ngu thế, trả bao nhiêu tiên để thuê mấy cái thằng huấn luyện viên làm gì? Sao ko thuê mấy thằng chơi robot cup cho rẻ.

    Tóm lại nếu các bác ko ủng thêm vao topic mục robotic thì cũng ko nên spam về robotics trong này nữa nhỉ.
     
    Last edited: Apr 5, 2009
  8. Tartan

    Tartan n-1 years in Tibet

    Về Robocup strategy các bác có thể tham khảo 1 đoạn giới thiệu ở đây

    YouTube - Manuela Veloso on RoboCup


     
    goahead likes this.
  9. goahead

    goahead Thèm thuồng

    Xin lỗi post cái này hơi muộn, bác nào làm về motion analysis thì thử làm một chapter trong này xem.

    Machine Learning for Vision-based Motion Analysis

    A Book Edited by

    Dr. Liang Wang, The University of Melbourne, Australia

    Dr. Guoying Zhao, University of Oulu, Finland

    Dr. Li Cheng, TTI-Chicago, USA

    Prof. Matti Pietikäine, University of Oulu, Finland

    http://www.ee.oulu.fi/~gyzhao/MLVMA09/springerbook.htm
     
    dinhcongbang likes this.
  10. KentRay

    KentRay Thèm thuồng

    Hi ! Em cũng rất khoái mảng Computer Vision . Hi vọng sau này có cơ hội nghiên cứu sâu thêm về CV ...
    Không biết vietphd nhà mình có bác nào đã làm về mảng Augmented Reality (AR là một hướng trong CV) ? :7: Em cũng có làm 1 demo về AR, nhưng bây giờ cũng chưa có tiến triển gì nhiều. Hi vọng có bác nào đã làm về AR, chia sẻ ít kinh nghiệm :-B

    YouTube - BKar
     
    goahead likes this.
  11. thuyhuynh

    thuyhuynh Thèm thuồng

    Combining ADaboost and LBP for Facial Ẽpression Recognition

    Facial Expression Recognition system.
    1. Facial expression images are processed with LBP operator.
    2.Facial expression features are presented with LBP histogram.
    3. The feature with powerful discriminability are selected by Adaboost.
    4. The SVM is used for expression classification.

    ACE nào đã làm step 3 cho mình hỏi cái feature trong ADaboost (For each feature i, train a classifier hi). trong trường hợp minh dùng LBP để extract data.
     
  12. saoanh

    saoanh Thèm thuồng

    Boosting of LBP feature? nhớ là có paper nói về cái này rồi, lên google là có, hình như năm 2004 hay 2006. tại ICB (conf).
    U làm Adaboost chưa? đọc kĩ Adaboost rồi xách Boosting trong opencv chạy.
     
  13. saoanh

    saoanh Thèm thuồng

    Uhm mà nói thêm, cái LBP thực sự dở, chẳng thấy ai làm cái này cả, chỉ riêng author của nó làm, hình như là A. Hadid, Ojala bên Oulu Findland thì phải. Bài toán face expression này cũng cũ rồi. Nhớ ko lầm là có một bài cũng đã dùng LBP kết hợp với AAM để solve rồi. Nếu làm undergraduate chơi thì ok, còn định hướng research về face thì thiển ý của mình ko còn hot nữa (nếu ko muốn nói rất cũ).
     
  14. thuyhuynh

    thuyhuynh Thèm thuồng

    Mình dùng uniform LBP(8,2) để extract features vector form Facial Image. Sau đó sử dung Adaboost để chọn những discriminative features từ những feature mà được extract từ LBP.
    Ví dụ sau khi shifting and scaling over face image. Có 725 regions, và nếu sử dụng uniform LBP(8,2) thì mình sẽ có the lenght of features vector là 42775 (725x59). Vậy nếu mình dùng Adaboost cho feature selection, Thì với mô hình như sau, thì cách đề mình select features cho từng class như thế nào?

    Ví dụ:
    Sau khi training sử dụng Adaboost, Mình đã có 1 model ví dụ như sau:
    T=5, Lặp 5 lần

    class: 1 vs class: 2

    anpha dimension sign threshold
    0.443652 40485 1 8.5
    0.520313 15115 -1 3.5
    0.474471 40384 1 0.5
    0.446479 14808 -1 96.5
    0.418187 18631 -1 3.5


    Cho mình hỏi nếu áp dụng Adaboost cho feature selection , thì làm sao mình chọn được các feature tương ứng với class 1 hay class 2. Cách mà Adaboost chọn các feature như thế nào ?:)
     
    minhthanh likes this.
  15. thuyhuynh

    thuyhuynh Thèm thuồng

    To SaoAnh: Ở đây mình muốn hiểu cái Adaboost Algorithm using for feature selection, và mục đích của feature selection là để giảm chiều features và tăng hiệu xuất của quá trình training,không chỉ áp dung cho feature được extract from LBP operation, ma nhiều loại feature khác như Gabor filter... Thanks bạn nhiều nhé
     
  16. AlexTheRed

    AlexTheRed Thèm thuồng

    có bác nào làm về light field camera không cho em hỏi một chút?
     
  17. laoshudo

    laoshudo Thèm thuồng

    3D Model recontruction from Point Cloud

    Chào cả nhà,

    Mình đang có chủ để nghiên cứu thuật toán reconstruct 3D Model

    Input:
    Point Cloud file format được chụp từ camera 3D chẳng hạn
    đối tượng là công trường, hoặc máy móc, mô hình kiến trúc

    Output
    3D Model, được save dưới dạng DXF của AutoCad

    Bạn nào đã hoặc đang nghiên cứu vấn đề này thì cùng trao đổi nhé

    Best regards
    Laoshu
     
  18. micheal9000

    micheal9000 Thèm thuồng

    Tôi đang có dự định nghiên cứu PhD về "Algorithm for motion detection and tracking" nhưng thật sự thì kiến thức hiện giờ đang là newbie. Có bác nào đã/đang làm về lĩnh vực này, thì xin cho thọ giáo một vài hướng nghiên cứu. Thanks so much !!!
     
  19. kiennt

    kiennt Độc bộ hành

    Chào các bác, em làm iris rec xin gửi lời chào ạ :D
     
  20. AkizawaTakira

    AkizawaTakira Thèm thuồng

    Thớt này hay quá, nhân tiện em cũng vào đóng góp luôn. Em hiện là sinh viên năm 3 ở BKHN, hiện em cũng đang muốn theo hướng này :->. Nhưng mà em vẫn đang phân vân, do dự, tại vì giờ đã năm 3, đã đến lúc phải hành động rồi không ngồi yên được nữa [-(. Em đang tính vào lab học hỏi các thầy cô,nhưng ngặt nỗi trình em học bình thường thôi ạ (điểm trung bình hiện 3,05/4 :-&), với lại hướng này có vẻ cần nhiều toán, em sợ vào lab các thầy vứt cho bài báo đọc xong chịu luôn không hiểu gì. Giờ em phân vân giữa vào lab hay là tìm chỗ nào đó thực tập (em thấy có chỗ về big data), rồi luyện tiếng anh chờ thời (tiếng anh của em nghe được mấy bài giảng về CS rồi, nhưng mà vẫn chưa đủ để lấy bằng ạ). Các anh chị cho em vài lời khuyên được không ạ? Nếu có anh chị nào đã vào lab hồi đại học thì có thể chia sẻ kinh nghiệm cho em được không ạ?Hiên giờ em nghĩ nếu vào lab thì cũng chỉ cưỡi ngựa xem hoa thôi, dành thời gian cho việc khác nữa . Em lính mới vẫn còn lơ mơ lắm, chưa định hướng được gì đâu mọi người đừng gạch.
    Với lại em cũng muốn hỏi, hồi xưa các anh chị học tập theo con đường thế nào ạ? Hồi xưa em thấy trên vietphd có bạn hỏi tư vấn sách nhập môn machine learning, thấy có anh/chị trả lời là đọc cuốn Pattern recognition and machine learning, em cũng thử đọc trong hè và kết cục không khả quan cho lắm :-& (đọc được 5 chương đến chương 6 là nản ạ, càng ngày càng nhiều toán :-&). Bây giờ em cũng biết điều hơn, đang thử xem mấy bài giảng liên quan tới toán (có cái về Convex Optimization của stanford em đang xem ạ :D). Hiện em vẫn còn lạc lõng lắm, mọi người giúp em với ạ [-(
    Cảm ơn các anh chị ạ :D
     

Share This Page