Câu hỏi liên quan

Làm thế nào để lọc từ hoán vị để chỉ tìm kiếm ngữ nghĩa chính xác ngrams? (Python 3, NLTK)


0 Phiếu
Đã hỏi 25/5/2016 bởi Zbeto (220 điểm)
Tôi muốn tạo ra một số hoán vị từ một danh sách các 200 từ--điều này rõ ràng là tạo ra một vấn đề, bởi vì điều này dẫn đến một số số ridiculously khổng lồ có thể hoán vị (lên đến 5 từ trong một cụm từ). Để có hiệu quả hạn chế con số này, tôi có một cuộc tấn công hai mũi nhọn:
  1. Pass từ thông qua một POS bộ lọc để chỉ âm thanh ngôn ngữ cụm từ được tạo ra và
  2. lọc theo những hoán vị rằng thực tế ngrams--tức là có một PMI cao / khả năng điểm.
phần thứ hai của khái niệm này đã cho tôi tự hỏi... tôi biết rằng NLTK cung cấp khả năng tìm ngrams nhưng mỗi ví dụ tôi đã nhìn thấy phân tích một corpus, mà làm cho cảm giác vì freqdist một là cần thiết. Tuy nhiên, có thể tìm thấy PMI một hoán vị từ? nó sẽ có thể tìm thấy điểm PMI của tôi từ hoán vị BASED trên collocations phổ biến được tìm thấy trong Corpus tuỳ chỉnh? có thể nó được thực hiện theo cách thủ công? ví dụ, trong khi các hoán vị (tiết trà) là ngôn ngữ âm thanh, nó không phải là một hoán vị theo ngữ cảnh tốt. Tôi biết code để tìm collocations phổ biến trong vòng một khối văn bản/corpus nhưng đây là một vấn đề rất độc đáo mà tôi hy vọng một ai đó có thể đưa ra một số lời khuyên. Ít nhất, giúp tôi quấn đầu của tôi xung quanh thành phố đây! Ví dụ
**KW**
 Ball
 Bat
 Pinch
 Home
 Run
 Base
 Hitter
 Pitcher
 Call
 etc...
MORE BACKGROUND: bây giờ, có một số hoán vị có thể được thực hiện từ danh sách này, nhưng chỉ một số ít mà thực sự sẽ làm cho tinh thần. Đi qua danh sách này thông qua một bộ lọc POS cho phép tôi để tạo các từ khóa mà làm cho ý thức về ngôn ngữ - nhưng không phải là những người đó là semantically xác tức là "Gọi bóng Hitter". Đây là cuộc đấu tranh của tôi, bằng cách nào đó tạo ra chính xác ngữ nghĩa hoán vị dựa trên một số loại các tiêu chí ghi giống như một PMI. Bây giờ ý tưởng của tôi là để cạo một trang web, ví dụ http://en.wikipedia.org/wiki/Baseball , tìm thấy phổ biến ngrams bên trong nó, và sau đó bằng cách nào đó đánh giá sức mạnh tương đối ngữ nghĩa của một từ khóa hoán vị dựa trên đó corpus. Nhưng tôi đang đấu tranh với khái niệm này và không chắc chắn nếu nó thậm chí có thể. Nhưng thực sự, tôi rất muốn nghe bất kỳ ý tưởng khác về làm thế nào để hiệu quả tìm hoán vị ngram! Tập thể dục ở đây nắm một cách hiệu quả loại bỏ vô nghĩa hoán vị mà không cần phải tự phân loại/điểm tất cả mọi thứ!

2 Câu trả lời

0 Phiếu
Đã trả lời 04/6/2016 bởi jrypeary (1,150 điểm)
Chỉ cần suy nghĩ thành tiếng ở đây - sách của Google NGram xem có cạo corpus của mình và thực hiện public danh sách tất cả [1,2,3,4,5]-gam đó xuất hiện nhiều hơn 40 lần, và tần số của họ đếm. Vì vậy, bạn có thể mất mỗi ngram mà bạn tạo ra và tìm kiếm các tần số của nó trong cơ sở dữ liệu ngram của Google. Ngrams với một số cao có nhiều khả năng là ngữ nghĩa âm thanh. ... Nhược điểm là tải về công cụ của Google toàn bộ ngram bộ dữ liệu như 1 TB và tôi không biết nếu họ có một api cho nó. EDIt: tôi sẽ sốc nếu không có một api cho việc này. Còn Google có vẻ không phải là trò chơi duy nhất trong thị trấn, một tìm kiếm nhanh chóng bật lên:
Đã bình luận 05/6/2016 bởi yvx_2256 (240 điểm)
Bạn có thể làm cho một số ví dụ cho câu hỏi này?
Đã bình luận 06/6/2016 bởi Gununit (1,000 điểm)
Bạn có thể xác định PMI?
0 Phiếu
Đã trả lời 04/6/2016 bởi Rib3730of (180 điểm)
Chỉ cần suy nghĩ thành tiếng ở đây - sách của Google NGram xem có cạo corpus của mình và thực hiện public danh sách tất cả [1,2,3,4,5]-gam đó xuất hiện nhiều hơn 40 lần, và tần số của họ đếm. Vì vậy, bạn có thể mất mỗi ngram mà bạn tạo ra và tìm kiếm các tần số của nó trong cơ sở dữ liệu ngram của Google. Ngrams với một số cao có nhiều khả năng là ngữ nghĩa âm thanh. ... Nhược điểm là tải về công cụ của Google toàn bộ ngram bộ dữ liệu như 1 TB và tôi không biết nếu họ có một api cho nó. EDIt: tôi sẽ sốc nếu không có một api cho việc này. Còn Google có vẻ không phải là trò chơi duy nhất trong thị trấn, một tìm kiếm nhanh chóng bật lên:

ToughDev Q&A là gì?

Trang web hỏi đáp cho các bạn đam mê lập trình, phát triển phần mềm và các vấn đề kỹ thuật khác. Với sự giúp đỡ của bạn, chúng tôi hy vọng sẽ xây dựng thành công một thư viện đầy đủ các câu hỏi và trả lời về tất cả các vấn đề có liên quan đến lập trình!







...