文字起こし、テープ起こしのデータグリーン、「品詞の種類と文字起こし」を公開

株式会社アラジン

2023.09.29 15:38

音声・動画データの文字起こし、テープ起こしサービスを提供しているデータグリーンを運営する株式会社アラジン(本社:福岡県福岡市中央区 代表取締役:長濱 慶直)は、「品詞の種類と文字起こし」を公開いたしました。

■品詞の種類と文字起こし
https://www.data-green.jp/part_of_speech/

文字起こしをする際には品詞はどのように扱われているでしょうか。

文字起こしのご依頼は、インタビューや対談、講演会やシンポジウム、会議や面接など、さまざまなジャンルがあります。
さらに、文字の起こし方にも種類があり、「ケバ取り」、「素起こし」、「整文」に分けられます。

■ケバ取り
言い直しや言い間違い、「えーと」「あのー」などといった、意味を持たない単語を取り除いて書き起こしを行います。文字起こしではもっとも一般的な起こし方で、読みやすく仕上がります。副詞や感動詞などの単独で主語になれない活用のない自立語は省略されるケースが多いのが特徴です。

■素起こし
発言の内容を一字一句そのまま文字にする起こし方です。言い直しや言い間違い、フィラーワードもすべて書き起こすので読みづらくなることが多いですが、裁判やカウンセリングなど、内容の正確性、会話の雰囲気、発言者の特徴などを確かめたい場合に利用されます。発言内容をそのまま文字にするため、あまり意味のない感動詞なども全て記載される形になります。

言い淀み/フィラーとは

■整文
語尾を整えたり、発言中の倒置表現を入れ替えたり、口癖を修正したりと、ケバ取りよりさらに読みやすさを重視した起こし方となります。議事録や学会発表などで利用される場合が多く、発言の内容を理解するのに適しているといえます。ケバ取りでは省略される副詞、接続詞などを適切に挿入し文章全体を整えるので、実際には発言されていない単語が文字に起こされていることも珍しくありません。

文字起こし用語集 > 倒置表現】

文末表現(敬体と常体)について


これらの起こし方の特徴を踏まえて、以下の例文を見てみましょう。

■ケバ取り
「こないだ、家族と海水浴に行ったんだけど、行きも帰りも渋滞しちゃっててすごく大変だったよ。帰りは子どもたちは遊び疲れて後ろで寝ちゃってるし、かみさんも退屈だったみたいでいつの間にか寝ちゃってて。結局3時間くらい一人で黙って運転し続ける羽目になっちゃったんだ。参ったよ。」

■素起こし
「こないださ、家族みんなで海水浴行ったんだけどさ、行きも帰りももう渋滞しちゃってて、も、もうめっちゃ大変だったんよ。帰りとか子どもらは遊び疲れて、こう、後ろで寝ちゃってっしさ、かみさんもあれ退屈だったんだろな、いっつのまにか寝ちゃっててさ。結局さ、あー3時間くらいかな、もうちょっとかな、もう一人でずーっと黙って運転し続ける羽目になっちゃったんだわ。ありゃマジで参った。」

■整文
「先日、家族と海水浴に行きましたが、行きも帰りも渋滞してしまって、とても大変でした。子どもたちは遊び疲れて後部座席で眠ってしまい、妻も退屈だったのか、いつの間にか寝てしまっていました。結局、3時間ほど一人で黙って運転し続ける羽目になってしまったのです。あれにはとても参りました。」

発言の内容は同じものですが、随分と印象が異なります。
比較してみると、品詞をきちんと使い分けて、ルールにのっとって書き起こされるのが整文といえるでしょう。実際には発言していない付属語も文字に起こされているのがわかります。

逆に素起こしは日常的な会話をそのまま文字にするので、品詞どころか一般的な文法すら無視されるような傾向もあります。あまり重要性の高くない感動詞も全て文字に起こされるので、文章は非常に読みづらくなりますが、「発言内容を正確に記録する」という点では素起こしが最も精度の高いものになります。

ケバ取りはある程度は文法に沿った文章になるので、いいところ取りといえるかもしれません。適度に単語を削るため文章として読みやすく、発言のニュアンスも損なわない仕上がりになっています。

ケバ取りや素起こしは、会話の雰囲気や話者の特徴なども感じさせる起こし方なので、品詞をきちんと使い分けなくてもある程度意味が通じるといった側面があります。逆に整文の場合は、品詞の使い方を誤ると本来の意味とは全く別の意味の文章になってしまう可能性があるので、注意が必要です。

素起こしは一言一句を書き起こすという点でケバ取りよりも作業難度が上がりますが、整文の場合は文章の内容を正しく理解したうえで、誤った内容にならないような文章の組み立て方をする必要があるため、文字起こしの難度はさらに高いといえるでしょう。

文字起こしの種類


データグリーンでは、ご依頼内容にあった適切な起こし方をご提案し、精度の高い文字起こしサービスをご提供しています。
文字起こしを依頼するのが初めてで、何をどう頼んだらいいのか分からないといった場合もお気軽にご相談ください。

■データグリーンについて
データグリーンでは、音声データの解析技術と熟練ライターの豊富な経験・ノウハウを組み合わせた「精度の高い文字起こし」を提供しております。
AI音声認識だけでは対応できない音質の悪いデータ、専門性の高い音声等、長時間の文字起こしにも低価格で対応可能です。
プライバシーマークおよび情報セキュリティマネジメントシステムの国際規格「ISO27001(ISMS)」の認証も取得しておりますので、秘匿性、機密性の高い 音声データの文字起こし、テープ起こしもおまかせください。

文字起こし、テープ起こしのデータグリーン
データグリーンの特徴
文字起こしの用途(インタビュー、講演、会議、面談、裁判訴訟等)
文字起こし・テープ起こしの料金、費用
文字起こしデータ校正サービス
文字起こし 納品実績一例
データグリーンをご利用いただいているお客様の声
文字起こし、テープ起こしの特集一覧
文字起こしとは(文字起こしの歴史)
音声データの品質と文字起こしの精度|文字起こし、テープ起こしの料金を抑える方法
音声データの品質を上げるためのチェックリスト
特殊フォーマットへの対応
おすすめのボイスレコーダー、スマホ用マイク
文字起こし、テープ起こしに役立つアプリ
Web会議・オンライン会議の録音・録画
メディアの種類からみる文字の特性
表記ゆれについて
OCR、Googleドライブを使った文字起こし
YouTube字幕と文字起こし
AIによる文字起こしについて
トランスクリプトで文字起こし
ChatGPTと文字起こし

 

■会社概要
会社名:株式会社アラジン
文字起こし事業:データグリーン/DATA GREEN
データ復旧事業:データレスキューセンター/DataRescueCenter (※)
登録商標:データグリーン、データレスキューセンター、データレスキュー等
保有特許:特許第4090494号、特許第4236689号、特許第5512470号
電話:092-720-6633(代表)
本社:福岡県福岡市中央区薬院1-5-6 ハイヒルズビル3階
資本金:9,000万円
設立:2002年5月31日
代表者:代表取締役 長濱慶直
認定:プライバシーマーク、ISO27001(ISMS) 
加盟団体:
一般社団法人日本データ復旧協会(常任理事)
一般社団法人文字起こし活用推進協議会(正会員)
福岡県弁護士協同組合(特約店)

(※)データ復旧事業
データレスキューセンター【公式】データ復旧
データレスキューセンター【公式】X(旧:Twitter)
データレスキューセンター【公式】コラム

企業担当者の連絡先を閲覧するには
会員登録を行い、ログインしてください。

種類
商品サービス

カテゴリ
デジタル

サブカテゴリ
広告・宣伝
エンタメ