掲示板利用宣言

 次のフォームをすべてチェックしてからご利用ください。

 私は

 題名と投稿者名は具体的に書きます。
 課題の丸投げはしません。
 ソースの添付は「HTML変換ツール」で字下げします。
 返信の引用は最小限にします。
 環境(OSとコンパイラ)や症状は具体的に詳しく書きます。
 返信の付いた投稿は削除しません。
 マルチポスト(多重投稿)はしません。

掲示板2

管理者用メニュー    ツリーに戻る    携帯用URL    ホームページ    ログ    タグ一覧

No.29225

ファイル内の単語抜き出し
投稿者---sou(2006/12/13 12:08:08)


ファイル内の文章の中から、単語辞書をあらかじめ作っておき、それと照らし合わせて、助詞、助動詞を取り除いて単語だけを取り出して表示したいのですがどのようにしてつくればいいか教えてください。お願いします。


この投稿にコメントする

削除パスワード

発言に関する情報 題名 投稿番号 投稿者名 投稿日時
<子記事> Re:ファイル内の単語抜き出し 29226 asd 2006/12/13 13:12:14
<子記事> Re:ファイル内の単語抜き出し 29227 たかぎ 2006/12/13 14:34:28


No.29226

Re:ファイル内の単語抜き出し
投稿者---asd(2006/12/13 13:12:14)


>ファイル内の文章の中から、単語辞書をあらかじめ作っておき、それと照らし合わせて、助詞、助動詞を取り除いて単語だけを取り出して表示したいのですがどのようにしてつくればいいか教えてください。お願いします。

どこまでできているのでしょうか。プログラム関係無しにそれを実現するための手順は考えられないのでしょうか。
全く分からないというのは論外です。

掲示板利用宣言で守られていないと思われる項目を挙げておきます。
>課題の丸投げはしません。
>環境(OSとコンパイラ)や症状は具体的に詳しく書きます。


この投稿にコメントする

削除パスワード

No.29227

Re:ファイル内の単語抜き出し
投稿者---たかぎ(2006/12/13 14:34:28)
http://takagi.in/


>ファイル内の文章の中から、単語辞書をあらかじめ作っておき、それと照らし合わせて、助詞、助動詞を取り除いて単語だけを取り出して表示したいのですがどのようにしてつくればいいか教えてください。お願いします。

文字コードのことはさておき、いろいろ疑問点や解決すべき課題があります。ざっと思いつくだけでも、

> 助詞、助動詞を取り除いて単語だけを取り出して

とのことですが、助詞や助動詞も単語ですよね。付属語を取り除いて、自立語だけを取り出したいということでしょうか?

我々が日ごろ目にする文章には、いまだに古語の文法がかなり混在していますが、現代語の文法のみ対応ということでよいのでしょうか?

送りがなには、ある程度「ゆらぎ」がありますが、どう扱うのでしょうか?

抜き出した用言は、原形で表示するのでしょうか?すなわち、活用形の情報は失われてもよいのでしょうか?

付属語を含む複合語の場合はどうなるのでしょうか?
例えば、「天の川」は、「天」と「川」になるのでしょうか?それとも「天の川」でしょうか?

辞書を検索するだけでは、単語の区切りが一義的に決定できない場合があると思いますが、その場合は前後の文脈から類推するのでしょうか?
類推を働かせても、やはり一義的に決定できない場合、すなわち、悪文であったり、暗黙知に依存しているような場合、どう処理するのでしょうか?



この投稿にコメントする

削除パスワード

管理者用メニュー    ツリーに戻る    携帯用URL    ホームページ    ログ    タグ一覧