このエントリーをはてなブックマークに追加

6月

7

Pythonによるスクレイピングと自然言語処理入門

Registration info

前払い

2500 (Pre-pay)

FCFS
4/4

当日現金払い

3000(Pay at the door)

FCFS
5/5

About Prepayment

About Prepayment Contact Info:

(Only shown to attendees.)

Cancel/Refund Policy:

前払いの方で、やむを得ずキャンセルされる場合は、開催日の3日前までのご連絡に限り、払い戻し手数料を差し引いた金額を払い戻し致します。以降は払い戻しをできませんのでご注意ください。

領収データの発行:

発行しない (詳しくはこちら)

Description

Pythonによるスクレイピングと自然言語処理入門

概要

スクレイピングの入門から最も簡単な文章の類似度判定のロジックを理解し、実装できるようになります。

スクレイピングとはWEB上のコンテンツから任意のデータを取り出す手法の一種です。 必要な情報を素早く的確に取り出すことのできるスクレイピングは非常に便利です。しかし、HTMLやCSSの基本的な知識を持ち合わせていないと独学での習得は少し壁が高いかもしれません。 当講座では、HTML,CSS,javascriptの役割についても触れながらスクレイピングの入門を行います。 また、スクレイピングをして取り出した文章の形態素解析を行い、分散表現に変換し、文章の類似度判定を行います。 このテキストの類似度計算にまつわるロジックは迷惑メールフィルターやスパム投稿判定など様々な分野で利用されています。

当日は実戦形式で進めていきますので、Python3をインストールしたPCの持参をお願いいたします。

この講座で得られること

・htmlの構造を理解し、必要なデータを自在に抽出するスキル
・文章をベクトル化してコンピュータに解析させる方法の習得
・日本語自然言語処理における前処理(データ加工)手法の習得
・簡単な機械学習(TF-IDF cos類似度推定法)の実装を体験

カリキュラム

・html,css,javascriptの役割の解説
・cssセレクタを使ったスクレイピング
・スクレイピングしたデータの整形
・形態素解析の実装
・文章をベクトル化
・TF-IDF cos類似度判定法の紹介
・TF-IDF cos類似度判定法の実装

※ 当日予告なく時間配分・内容が変更になる可能性がございます。

事前準備

Python3のインストールをお願いいたします。
また、以下のパッケージを当講座では利用します。当日までに動作確認をお願いいたします。
・mecab-python3* (または janome)
・sklearn
・numpy
・beautifulsoup4
Mecabのインストールがうまくいかなかった際は、"janome"というパッケージをインストールしてきていただければ、問題ありません。
Pythonのインストール、パッケージの導入方法についてご不明点あれば、可能な範囲で対応いたしますので、info@to-kei.netまでご連絡ください。

また、google chromeを使用してhtmlやcssについての説明を行います。インストールされていなくても受講にあたって支障はありませんが、あるとより深い理解ができるかと思います。

こんな人にオススメ

・Pythonのfor文,if文など基本的な文法を理解している方(文法に自信のない方はこちらの講座の受講後に当講座の受講をおすすめいたします。)
・自然言語処理の基礎を学びたい人
・WEBに関する知識は少ないが、スクレイピングに興味がある人
・文章の自動分類をしたいと考えている人

講師

I Sai
全人類がわかる統計学の管理人。大学にて統計学を専攻。サイトではRPython、仮説検定、統計の基礎の記事を中心に担当。現在は、PythonRを使い、都内の私立大学医学部で統計解析の助手やDSコンペへの参加などの活動をしている。また東京工業大学大学院にて自然言語処理の研究にも従事。

Y Okawa
全人類がわかる統計学の管理人。大学にて統計学を専攻。サイトでは確率分布の記事やサイトデザインを中心に担当。現在は、Web制作やPythonを用いたSEO対策用Webアプリケーションを構築するなどの活動をしている。また筑波大学大学院にて、自然言語処理の研究にも従事。

持ち物

・Python3の実行環境をインストール済みのPC(windows Mac)
※インストールでお困りの方はinfo@to-kei.netまでご連絡いただければ、可能な範囲で対応致します。

※講座では「jupyter notebook」を使います。同じ実行環境で受講したい方は、インストールをお勧めします。

会場

住所:東京都港区浜松町1-1-9 三恵ビル4階

JR山手線 浜松町駅 徒歩4分
都営三田線 御成門駅 徒歩4分
都営浅草線 大門駅 徒歩4分
都営大江戸線 大門駅 徒歩4分
ゆりかもめ 汐留駅 徒歩7分
JR山手線 新橋駅 徒歩8分

参加費

前払い
2500円

※前払いの方で、やむを得ずキャンセルされる場合は、開催日の3日前までのご連絡に限り、払い戻し手数料を差し引いた金額を払い戻し致します。以降は払い戻しをできませんのでご注意ください。

当日現金払い
3000円(受付時にお支払いください)

領収書について

前払いの方
PayPal発行の受領書が領収書となります。 受領書ページは、PayPalの支払い完了ページで「印刷用受領書を見る」をクリックすると表示されます。 (当社よりの重複しての領収書発行は行えません)

当日払いの方
受付時に領収書が必要な旨と、メールアドレスをスタッフまでお申し付けください。 翌日以降に、領収書をメールにて送付いたします。

受付・入場時間

開始の15分前から

お問い合わせ

イベントに関するお問い合わせはinfo@to-kei.netまでご連絡ください。

注意事項

・講義コンテンツは全て「全人類がわかる統計学」に帰属していますので、複製はご遠慮ください。 ・個人ブログへの講義コンテンツの掲載はご遠慮ください。 ・リクルーティング、勧誘、採用活動など、目的に沿わない行為につきまして、主催者が相応しくないと判断した場合は即刻退出処分とします。全員が気持ちよく過ごすことが出来るよう、ご協力をお願い致します。

全人類がわかる統計学とは

統計学の学習サイト、全人類がわかる統計学を運営、管理している団体です。統計学とその関連分野について、出来るだけわかりやすく多くの人々に届けるということを目指して活動しています。

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

yohei_ohkawa

yohei_ohkawa published Pythonによるスクレイピングと自然言語処理入門.

05/27/2018 12:11

Pythonによるスクレイピングと自然言語処理入門 を公開しました!

Ended

2018/06/07(Thu)

19:30
21:45

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

Registration Period
2018/05/27(Sun) 13:00 〜
2018/06/07(Thu) 19:15

Location

浜松町駅徒歩4分

東京都港区浜松町1-1-9 三恵ビル4階

Organizer

Attendees(9)

HTR-Su

HTR-Su

Pythonによるスクレイピングと自然言語処理入門に参加を申し込みました!

suzukirei

suzukirei

Pythonによるスクレイピングと自然言語処理入門 に参加を申し込みました!

tomos

tomos

Pythonによるスクレイピングと自然言語処理入門 に参加を申し込みました!

hhirano

hhirano

Pythonによるスクレイピングと自然言語処理入門 に参加を申し込みました!

rakuda1007

rakuda1007

Pythonによるスクレイピングと自然言語処理入門に参加を申し込みました!

takma0906

takma0906

Pythonによるスクレイピングと自然言語処理入門 に参加を申し込みました!

yatsu03

yatsu03

Pythonによるスクレイピングと自然言語処理入門に参加を申し込みました!

TetsuyaItikawa

TetsuyaItikawa

Pythonによるスクレイピングと自然言語処理入門 に参加を申し込みました!

kykn

kykn

Pythonによるスクレイピングと自然言語処理入門に参加を申し込みました!

Attendees (9)

Canceled (4)