2024年5月11日土曜日

240510 オープンAI・ChatGPTと日本語

240510-改1

  オープンAI・ChatGPTで日本語を変える必要か(1)  

  平均の日本人がつくる文書よりオープンAIでの日本語が良い文書が書けるという説明を聞くと、腹立たしく感じる方も文学部系の方には多いと感じます。             
だが「演繹的なアプローチと帰納法的なアプローチの融合」などという部分に、判断基準つくりで軽くは扱えない融合を感じます。野党が改正を許さないと主張する憲法に人類普遍の価値観や自由が含まれ、法制度として民主主義がある以上、妥協は認めざるをえない。ここ迄は理論の世界の話でしょう。 
元々が静岡県東部の市郊外で育った自然人には、「70年も変化もせず動かぬモノは死んでいる」と見えるもの。(そんなものを年俸2千万以上とって、本職にしている人は、国会以外には少ないでしょう。憲法の存在価値は失われ、歴史化・化石化しつつある。)

 90年代に半導体産業で9割を占めたシェアも、「東京の土地で米国が買える」と言った傲慢さと誤解され、半導体産業を創業した米国の怒りを招き、ソフトを学ぶ多数の学生やプロ社員を米国に派遣していた隣国と台湾に発注切り替えされ莫大な損害であった。半導体産業のGDPでの比率が頭に無かったか、モノと機械設備にこだわり過ぎたのだ。  
 似て非なるものは、米国の大統領の選挙期間中に、与党の対抗馬にわざわざマスコミに知れる形で会いに行く無神経な日本の与党幹部の行動には驚いた。選挙の投票前に神経に触れないと思う鈍感さで良いのかな。投票終了後に走ってゆくなら理解されますが。

子供と子育て(主婦)の教育に科学の常識を
AIの普及とスーパコンピュータの出現で、機械学習のデジタル時代には、データから知識を吸収により、日本語での翻訳・伝達・発信で大いに助けられるが、他国人の方が速く日本語力を身に付けて、情報の壁も失う心配もないとは言えない。 
その証拠はオレオレ詐欺での被害者数です(検挙数は極端に低い)。原因はどこにあるかと言えば、独断をお許し願うが、科学とは根拠のないものは信じない事。
「知らない人の言葉は信じるな」ということ。相手が警察官、行政府・役所の人だと言っても、「名刺を欲しい」と云いなさい。「ATMに行け」などを聞き金を下ろして詐欺師に渡せば、貴方はリッパな詐欺師の支援者になると。子供に渡さない額をなぜ信じるのですか。
最近の1~2年メタ社やグーグルでの詐欺的なネット広告でも、停止させるパワーを国内で持たないのはナゼだろう。法治国家と主張するには、今の与野党では難しいかも知れない。与党を内部から変えようという人物に応援したいという仲間を増やしたい。(末注;) 
自分達だけで政治業界だけが、裏金もどきの経理システムから外れた金儲けで、議会を3カ月も空費する。選挙制度をかえて年功序列も終身雇用もやめ、若い世代に交代して欲しい。

しかし価値観や考え方はデータとして積みあがると、個々の引用にディープラーニング的な中間部のカッコ表示や引用元が付記されなければ、いずれは著作権の侵害や、フェイク情報とされる部分が蓄積される。本人証明も難しくなる。 
違法性を疑われる与党幹部が頼りにできず、弱気な指導者と心配された首相が、最近の米議会演説では英語で聞かれ、日本の国会での行政府での読み上げ答弁より力強い。明白で、米人を使ったと噂の原稿で問題なく、輪が広がり称賛されたのは嬉しいことだ。 米人の英語力や知恵も借りてでよい。(当然ながら費用は払うとしても)



オープンAIチャットGPTの考え方; 
オープンAI社の方法は「言葉の意味を考えず、言葉の使われる頻度と順だけで考える確率論、文学が数学に置き換わっていく。言葉モデルの意味を洗い流し、使われる頻度・確率で数字列(トークン)とよぶ、順位つけで整理する。大規模な言語群(何十億とかの例)を巨大な記憶データ化する(トランスフォーマ)とよぶ、モデルサイズで計量化(パラメータ)、で順位付けする。 
(リスク;オープンAI、Chat GPTでのPRは過去の文書やデータだが、すべての情報や文書をクラウド化すると、情報・掲載費やサーバ費用を取られるだろうし、日本語文書が乗っ取られる、つまり偽造変造されるリスクを考えておくべきであろう。
この辺は、国内に15も22も違ったローカル語・法律をもつインドに、その長短を教わった方が良いかも知れない)ChatGPTは過去の情報であり、現在から、未来を考えるときは、別な言葉を使用して、価値観のちがう国との交流は過去語、将来の開発などは未来語で考えたいと思う。国防には江戸・明治の武士系の言葉を使うのも良いかも知れない。

AI GPTに話しを戻すが、本文末の➀②の著書の知恵を受け売りだが、主語・述語の文学ではなく数学に変わる試みになると言う。10億を超えると急に正確度が増す。日本語の用語を数学の確率で考える思考が使われ画期的であろう。 数学の確率を この2,3年のChatGPTの進歩は、ディープラーニングで打破し た米人クロード・シャノンで、1940年頃から情報を計算機でとらえ、制御できる方法を確立、情報から意味をなくし、その事象が起こる確率で情報量を定義したという。(北海道での積雪より沖縄での方が、まれな情報量とし大評価等。つまり希な事象へのウエートは増やすことになる。)

別な一例として「私」と「走る」の繋ぎの副詞に 『私「は」走る』のか、『「が」か「と」か』が、使われる頻度の違いで確率の差で文体をつくる自動化だ。 主語「私」の現れる確率も加わり絞られると尤もらしくなる。 (日本人が使用頻度に副詞も数えるのは忘れるだろう。GPTもここ3~4年で急速に進化した様だ。                      
下記右端MMUテスト結果では、トークン・パラメータ・スコアの順で各種を表すと、
 GPT―1 (2018年)4.5GB(30億トークン)が1.2億パラメータ、 ― 
GPT―2(2019年)40GB(280億トークン)、 15億パラメータ、32.4%~微調節
 GPT―3(2020年)570GB(4000憶トークン)、1750億パラメータ、43.9~53.9% PaLM (2022年) 7800億トークン、5400億パラメ―タ、69.3~75.2%微調節 
GPT―4(2023年)未発表、1兆トークン、数千億~数兆パラメータ、スコア86.4%。

 上記トークンは文字処理の塊で、日本語なら1~2文字、英語4~6文字、MUL 評価は数学、歴史、計算科学、法科等57タスク評価基準;クラウド人材は34.5%、各分野専門家89.8%と推定。英語など複数語が加る言語モデルの性能が上がると報告がある。
(末尾引用;詳しくは「大規模言語モデルは、新たな知識か」p72) 

私見ながら、教育の数学で代数の1次関数(直線)、2次(放物線)関数、3次(立体)までは数学で、4次、5次プロの理学でlog、べき乗数なども含まれるなら、%をドル月収と置き替えるとインセンチブを含む給与差と言える。 (「生成AIで世界はこう変わるp104」 
確率を使えば100%正解はないともいえるが、80%以上の確率なら良いという市民の合格点だ。いずれも最終検査は人が行い90点以上にするコストは掛かるが、かなりの完成度で日本語AI版を創り、英訳もAIで行い、更に用途に従ってイノベーション、開発・設計などの上でプロジェクトの創案を設計までできれば、日米の設計者やプロジェクト・プランナーの開発コストは、それ程の高額にならず、驚異的な短期間に完成できる事になる。              
参考資料; 
  •  自国の著名人の写真・偽動画を使った投資広告がある。MEGAの詐欺広告の停止まで、グーグル他に営業停止の特別法を創り・停止できないのもおかしい。        他国が前例を作るのを待つ後出しジャンケンに慣れ過ぎで、与党との国会をマヒさせたモリ加計、統一教会、裏金腐敗した部分を切開して欲しい。 
  •  23年出版され評価されている数冊、編者の一存で2冊えらぶなら➀②は下記。         ➀「大規模言語モデルは、新たな知識か」岡野原大輔、              ②「生成AIで世界はこう変わる」今井翔太、                                                       「ChatGPT120%活用術」ChatGPTビジネス研究会               「アフターChatGPT」山本康正。      

0 件のコメント:

コメントを投稿